Los histogramas son representaciones visuales de una colección de distribución de datos continuos. Un histograma divide los datos en intervalos o contenedores (típicamente en el eje X), con el número de puntos de datos que caen en cada contenedor igual a la altura de la barra más allá de ese contenedor. Estos contenedores no son todos del mismo tamaño, pero están cerca el uno del otro (sin huecos). Además, los anchos de estos contenedores no son necesariamente iguales, pero están cerca (sin huecos).
Repasaremos la explicación de la parcela de histograma marino en este artículo, lo que lo ayudará a visualizar la distribución de datos en la ciencia de datos y las aplicaciones de aprendizaje automático. Este artículo le mostrará cómo usar el mar.Método Histplot () para crear una variedad de diversos tipos de pantallas de histograma. También explicaremos lo que significa cada uno de los argumentos de la función de histograma marino.
Otra herramienta para examinar las distribuciones de datos es una gráfica de densidad y el gráfico de densidad del núcleo es otro nombre para esto. Es un histograma suavizado. Los picos de una parcela de densidad muestran dónde se acumulan los valores a lo largo del tiempo. Los métodos de suavizado están disponibles en una variedad de tamaños y formas. Uno de los métodos para suavizar un histograma es la estimación de densidad del núcleo (KDE).
Sintaxis de la histórica marina
El método Histplot de Seaborn tiene una sintaxis muy sencilla. El mar.El método HistPlot () es una función especializada para producir histogramas en Seaborn.
SNS.HISPLOT (data = dataFrame_Name, x = x-eje)Normalmente usamos el argumento de datos dentro del paréntesis para identificar el marco de datos en el que queremos trabajar, y el argumento X para especificar la variable específica que queremos trazar. Hay algunos argumentos más que podríamos usar para alterar el comportamiento de la función HistPlot ().
KDE: Puede insertar una línea de "estimación de densidad del núcleo" en la parte superior de su histograma utilizando la opción KDE. Una línea KDE es una línea continua que representa la densidad de datos. Las líneas KDE son una representación visual de cómo se distribuyen los datos que se pueden usar en lugar de histogramas. Sin embargo, las líneas KDE a veces se usan junto con histogramas. Como argumento, esta opción toma una expresión booleana (yo.mi., Verdadero o falso).
matiz: Este parámetro ayuda en el mapeo de color de las variables para las parcelas.
Pesos: Los pesos ayudan a determinar la influencia de cada conjunto de datos en el recuento de cada contenedor.
estadística: Las cuatro categorías de métodos estadísticos empleados para calcular los valores de Bin son "contar", "frecuencia", "densidad" y "probabilidad".
contenedores: El parámetro bin que especifica el número de contenedores a usar.
Binwidth: El ancho del contenedor se puede ajustar aquí.
Binrange: Los valores más bajos y mayores para los bordes se pueden establecer utilizando esta opción.
paleta: Para el mapeo semántico de Hue, podemos elegir nuestros tonos.
color: Si no hay mapeo de tono disponible, este argumento nos permite elegir un solo color de Matplotlib.
Ejemplo 1:
Aquí, creamos un histograma simple utilizando los parámetros predeterminados. Importamos las bibliotecas que nos ayudan a generar la trama. Después de eso, establecemos el estilo para Seaborn utilizando el parámetro de estilo como DarkGrid en la función establecida. Para el HistPlot, cargamos un conjunto de datos "MPG". Luego se invoca la función de Histplot marea donde se pasan los datos y los parámetros X y se le asigna un valor. El parámetro X toma la aceleración del nombre de campo del conjunto de datos "MPG".
La representación simple de la parcela de histograma es la siguiente:
Ejemplo 2:
Estamos utilizando la función RANDN para la visualización del gráfico de histograma. Para esto, incluimos las bibliotecas necesarias que se requieren para la implementación del código. Luego, creamos un conjunto de datos para el número aleatorio y la función RANDN genera números aleatorios dentro del rango especificado. La función de Histplot Seaborn toma el parámetro de datos como "número", que es el conjunto de datos creado con la función RANDN y el valor del parámetro KDE a True.
La siguiente es la visualización del histograma con la línea de curva KDE:
Ejemplo 3:
El conjunto de datos de muestra "Iris" del paquete Seaborn se utiliza en este ejemplo. Agregamos las bibliotecas Matplotlib, Seaborn, Panda y Numpy esenciales para crear el gráfico de histograma. Luego, creamos una variable DF_IRIS donde se carga el conjunto de datos de muestra IRIS. El Seaborn Histplot toma el Iris del conjunto de datos dentro y establece el parámetro X como la longitud sepal_lengal del conjunto de datos de Iris, el valor KDE a verdadero, y las especies variables semánticas se mapean utilizando el parámetro del tono.
Se observan distribuciones de longitud sepal de múltiples especies en la siguiente parcela de histograma único:
Ejemplo 4:
En este ejemplo, el histograma se normaliza para que la altura de cada barra represente una probabilidad en lugar de un recuento de puntos de datos. Aquí, cargamos un conjunto de datos de muestra "puntos" que tiene algunas características diferentes. Entre estas características, establecemos el parámetro X como Firing_Rate en la función Histplot de los puntos del conjunto de datos. También especificamos el parámetro STAT como una probabilidad y el valor discreto a verdadero que combina los descansos de bin con barras centradas en su valor respectivo para representar los valores distintos en un conjunto de datos. Por fin, el parámetro de color se establece en color verde.
La representación del gráfico de histograma con la probabilidad es en la siguiente instantánea:
Ejemplo 5:
Podemos construir la segunda forma de un histograma. El histograma bivariado representa dos variables usando los ejes x e y. Este ejemplo ilustra un histograma bivariado con valor de contenedor con una barra de color para indicar los valores. El color de color se usa para mostrar la barra de color. Insertamos el marco de datos de los pingüinos como conjunto de datos. Las variables x e y, así como los contenedores, los parámetros discretos y de la escala logarítmica, se especifican en la función HISTLOT. Para vincular la barra de color a la trama, también dimos la opción CBAR. El parámetro discreto se usa para manejar los huecos de histograma, y la escala de registro se usa para establecer una escala de registro en el eje de datos.
La visualización de la gráfica de histograma bivariado se muestra en la siguiente figura:
Conclusión
Explicamos el Histplot en Seaborn. Utilizamos la función HistPlot () en esta publicación para superar la guía de trama de histograma marino. Examinamos una variedad de casos de creación de histogramas para circunstancias estadísticas multivariadas, así como las estrategias de binning.