Cómo usar la placa de caja en Python

Cómo usar la placa de caja en Python
Se utiliza un diagrama de caja para resumir conjuntos de datos utilizando el método de trazado de caja y bigote. Esta función ayuda a los usuarios a comprender el resumen de datos correctamente. Las gráficas de caja pueden ser muy útiles cuando queremos saber cómo se distribuyen y se extienden los datos. Se utilizan tres tipos de cuartiles en el diagrama de cuadros para trazar los datos. Estos valores incluyen los valores estadísticos mediano, máximo, mínimo, mínimo, de quartil superior y inferior. Un diagrama de cuadro resume estos datos en los 25th, 50th, y 75th percentiles. Este tutorial le mostrará cómo crear gráficos de caja basados ​​en un conjunto de datos determinado utilizando el pandas y marino Bibliotecas de Python.

Requisito previo

Si es un nuevo usuario de Python, primero tendrá que configurar el entorno para mostrar la salida de la trama de la caja. Puede usar cualquier intérprete de Python para ejecutar el código. En este tutorial, usaré spyder3 para ejecutar el código. Si no ha instalado el pandas y marino Bibliotecas antes, luego debe ejecutar el siguiente comando desde el terminal para instalar estas bibliotecas:

$ PIP3 Instalar Pandas Seaborn

Parcelas de caja con pandas

El Boxplot () método de pandas se utiliza para generar cifras de trazado de cuadros basados ​​en el marco de datos. Este método contiene muchos argumentos; Algunos de estos argumentos se utilizan en los ejemplos a continuación. Esta parte del tutorial incluirá dos ejemplos que le mostrarán cómo crear gráficos de caja en pandas. Puede usar datos generados aleatoriamente en la biblioteca Numpy, o los datos de un archivo CSV, para generar un diagrama de cuadro en pandas.

Ejemplo 1: gráficos de caja basados ​​en valores aleatorios

Las gráficas de la caja en el siguiente ejemplo se generaron usando Numpy y pandas. La biblioteca Numpy se usa en el script para crear un objeto de cuadro de datos mediante la generación de una matriz bidimensional de valores aleatorios que contienen 5 filas y 5 columnas. El contenido del marco de datos se imprimirá utilizando la cabeza() método. A continuación, el Boxplot () El método se utiliza para generar gráficos de caja con color azul, tamaño de fuente 10 y un ángulo de rotación de 30 grados para mostrar los valores de la columna.

#!/usr/bin/env python3
# Biblioteca de Pandas de importación
importar pandas como PD
# Importar biblioteca Numpy para crear los números aleatorios para la matriz
importar numpy como np
"
Generar un conjunto de datos basado en una matriz Numpy creada al azar
y valores de cinco columnas
"
DataFrame = PD.DataFrame (NP.aleatorio.Randn (5,5), columnas = ['2016', '2017', '2018',
'2019', '2020'])
# Imprima los valores de DataFrame
Imprimir (DataFrame.cabeza())
# Muestra el diagrama de cuadro basado en los valores de DataFrame
marco de datos.BoxPlot (Grid = 'False', color = 'Blue', FontSize = 10, Rot = 30)

Producción

La siguiente salida aparecerá después de ejecutar el código.

Ejemplo 2: gráficos de cuadros basados ​​en datos de CSV

Las gráficas de la caja en el siguiente ejemplo se generaron a partir de datos de CSV. Crear un archivo CSV llamado banco.CSV Usando los siguientes datos.

banco.CSV

SL, Client_Name, Account_Type, Género, Saldo
1, Maria Hernández, salvador, mujer, 120000
2, Mary Smith, actual, mujer, 40000
3, David Smith, actual, hombre, 379000
4, Maria Rodríguez, salvador, mujer, 56000
5, Mark Lee, salvador, hombre, 93500
6, Jonathan Bing, actual, hombre, 5900
7, Daniel Williams, salvador, hombre, 2300
8, Mike Brown, actual, hombre, 124888
9, Paul Smith, actual, hombre, 59450
10, Maria López, salvador, mujer, 487600

En el siguiente script, el mate La biblioteca se utilizó para configurar el tamaño de la figura del gráfico de cuadros y para mostrar la salida en línea. Todos los registros de el Banco.CSV el archivo se cargaron utilizando el read_csv () método de pandas. Los primeros 8 registros del marco de datos se imprimieron luego utilizando el cabeza() método. El Boxplot () El método se usó en la siguiente declaración para dibujar la figura de la gráfica de cuadros usando color rojo basado en 'Tipo de cuenta' con la columna llamada 'Balance.'

#!/usr/bin/env python3
# Importar pandas para generar trazado de caja
importar pandas como PD
# Importar matplotlib para configurar el tamaño de la figura del gráfico de caja
Importar matplotlib.Pyplot como PLT
# Import get_ipython para formatear la salida en línea
Desde iPython import get_ipython
get_ipython ().run_line_magic ('matplotlib', 'en línea')
# Configurar el tamaño de la figura
PLT.rcParams ['Figura.figsize '] = (8,4)
# Cargue el conjunto de datos desde un archivo CSV
DF = PD.read_csv ("Bank.CSV ")
# Imprima las primeras 8 filas de los datos cargados
Imprimir (DF.cabeza (8))
# Muestra los gráficos de la caja basados ​​en el parámetro utilizado
df.BoxPlot (BY = 'Account_Type', Grid = 'True', Column = ['Balance'], Color = 'Red')

Producción

La siguiente salida aparecerá después de ejecutar el código.

Parcelas de caja con marítimo

Otra biblioteca de Python comúnmente utilizada para dibujar gráficas de caja es la biblioteca marino. Una de las características importantes de esta biblioteca es que tiene muchos conjuntos de datos de muestra incorporados para probar diferentes tareas. Los siguientes dos ejemplos cubrirán el uso de dos conjuntos de datos de muestra diferentes para dibujar gráficos de cuadros utilizando el marino biblioteca.

Ejemplo 3: gráficos de caja basados ​​en el parámetro X

El siguiente ejemplo usa un conjunto de datos de muestra, llamado 'diamantes ' de el mar biblioteca para generar la trama de la caja. Aquí, el estilo de la cuadrícula se define usando el set_style () método. El load_dataSet () El método se utiliza para cargar los datos del 'diamantes conjunto de datos. Los primeros cinco registros se imprimen desde el conjunto de datos y el Boxplot () Luego se usa el método para dibujar el gráfico de cuadro en función de la columna, nombrada 'profundidad,'Con color azul.

# Importar Biblioteca Seaborn para generar la trama de caja
Importar Sevorn como SNS
# Importar matplotlib para configurar el tamaño de la figura del gráfico de caja
Importar matplotlib.Pyplot como PLT
# Import get_ipython para formatear la salida en línea
Desde iPython import get_ipython
get_ipython ().run_line_magic ('matplotlib', 'en línea')
# Configurar el estilo de la cuadrícula
SNS.set_style ("WhiteGrid")
# Configurar el tamaño de la figura
PLT.rcParams ['Figura.figsize '] = (8,4)
# Cargue el conjunto de datos de muestra
diamond_dataset = SNS.load_dataset ('Diamantes')
# Muestra los primeros 5 registros del conjunto de datos
Imprimir (Diamond_Dataset.cabeza())
# Dibuja la figura de las gráficas de la caja
SNS.Boxplot (x = diamond_dataset ['profundidad'], color = 'azul')

Producción

La siguiente salida aparecerá después de ejecutar el código.

Ejemplo 4: gráficos de caja basados ​​en parámetros X e Y

El siguiente ejemplo usa el conjunto de datos de muestra llamado 'vuelos'Para dibujar la trama de la caja. Aquí, tanto los parámetros X como de Y de el boxplot () El método se utilizan para dibujar la figura. Las otras declaraciones son similares al ejemplo anterior.

# Importar Biblioteca Seaborn para generar la trama de caja
Importar Sevorn como SNS
# Importar matplotlib para configurar el tamaño de la figura del gráfico de caja
Importar matplotlib.Pyplot como PLT
# Import get_ipython para formatear la salida en línea
Desde iPython import get_ipython
get_ipython ().run_line_magic ('matplotlib', 'en línea')
# Configurar el estilo de la cuadrícula
SNS.set_style ("Darkgrid")
# Configurar el tamaño de la figura
PLT.rcParams ['Figura.figsize '] = (12,4)
# Cargue el conjunto de datos de muestra
Flight_dataset = SNS.load_dataset ('vuelos')
# Muestra los primeros 5 registros del conjunto de datos
Imprimir (Flight_Dataset.cabeza())
# Dibuja la figura de las gráficas de la caja
SNS.Boxplot (x = 'mes', y = 'pasajeros', data = flight_dataset, color = 'azul')

Producción

La siguiente salida aparecerá después de ejecutar el código.

Conclusión

Al trabajar con una gran cantidad de datos, es posible que desee resumir los datos utilizando un diagrama, como un diagrama de caja. Este tutorial utilizó varios ejemplos para mostrarle cómo generar tramas de caja con dos bibliotecas de Python.