Función de corte de pandas

Función de corte de pandas
En el análisis de datos, los datos numéricos son ubicuos. Con frecuencia, puede encontrar datos numéricos que son continuos en tamaños extremadamente vastos o muy distorsionados. Generalmente podría ser preferible organizar los datos en períodos distintos. Una vez que los datos se dividen en divisiones útiles, las estadísticas descriptivas pueden realizarse de manera más efectiva.

Transformar los datos estadísticos en conjuntos de datos es una brisa con la función Cut () incorporada de Pandas. Solo los elementos similares a la matriz unidimensionales son compatibles con el método Cut (). Cuando tenemos un montón de datos numéricos y necesitamos ejecutar alguna evaluación estadística, el método CUT () es útil.

Imaginemos, para ilustración, que obtenemos un rango de valores de 5 a 15. Luego, dividimos estos números en 2 categorías y los clasificamos. Nos referimos a estas colecciones como contenedores. Como resultado, separamos estos datos en los contenedores 1 y 2, que son de 5 a 10 y 10 a 15, respectivamente. Teniendo ambos contenedores, podemos evaluar qué números son más grandes y cuáles son pequeños. Por lo tanto, 10 a 15 son más grandes de 5 a 10, y viceversa. Esto lleva a los términos "mínimos" y "máximos" que se refieren a los valores más bajos y los más grandes, respectivamente.

Este enfoque se conoce como marcar los datos con la técnica de Pandas 'Cut (). Utilice la función CUT () si alguna vez necesita dividir los datos en segmentos e ingrese los números en los contenedores. Dicho método también es beneficioso para convertir un valor infinito en datos categóricos.

Sintaxis del método Pandas Cut ()

La matriz unidimensional que debe colocarse en el contenedor está representada por el "X" símbolo. Para la clasificación, "Papelera"Define los límites del contenedor. El "bien"Especifica si el límite más derecho debe retenirse o no; La configuración predeterminada es verdadera. El "etiquetas"Ayuda para representar y clasificar los contenedores o mínimos. Da instrucciones para el etiquetado en los contenedores que regresan y debe tener el tamaño exacto como el de los contenedores resultantes. Boolean o matrices son aceptables en etiquetas. El "retbins"Determine si los contenedores deben ser devueltos o no. El término "precisión"Describe el nivel de precisión utilizado mientras preserva y presenta las etiquetas para los contenedores. El "incluir más bajo"Determina si el intervalo inicial se deja integral o no. Siempre que los límites de los contenedores no sean distintivos ",duplicados"Especifica si lanzar un ValueError o eliminar un no distintivo.

Ejemplo 1: segmentar valores en contenedores

Comenzamos la demostración práctica de la función Pandas Cut () con el ejemplo básico y simple de colocar los valores de un marco de datos en los contenedores segmentándolos.

Lo primero que debe hacer antes de comenzar a trabajar en el código principal es importar las bibliotecas necesarias en Python. En esta ilustración, importamos dos bibliotecas de Python que son "Panda" y "Numpy".

La Biblioteca Pandas nos permite utilizar las funciones de Pandas, incluida la función CUT (), que es nuestro tema de discusión hoy. Mientras que la otra biblioteca que importamos es Numpy, que se encuentra entre las herramientas de Python utilizadas para los cálculos estadísticos. Para llenar el objeto DataFrame, utilizamos el Numpy para crear los enteros arbitrarios.

Ahora, comenzamos con el código principal que se puede ver en la imagen anterior.

Aquí, creamos una variable como "new_df" que almacena una matriz de números generados aleatoriamente. El "PD.DataFrame ”se invoca para generar un marco de datos. Requiere 2 parámetros: el título de columna "valor" y el "np.aleatorio.función de randint ". El "np.aleatorio.Randint "genera números aleatorios para el marcado de datos definido. Se necesitan tres parámetros: valor mínimo, valor máximo y la longitud/tamaño de la matriz. Definimos el valor mínimo como 5 y el valor máximo como 50 y la longitud de la matriz se establece en 10. Entonces, genera 10 números aleatorios que van de 5 a 50. Luego, utilizamos la expresión "print ()" para imprimir el DataFrame "New_DF".

Aquí, puede ver un marco de datos con la columna "valores" que tiene 10 valores.

Ahora, creamos otra columna como "value_bins" dentro del marco de datos existente, yo.mi. new_df. Luego llamamos a Pandas Cut (). Pasamos los parámetros al método de corte. A la "X" se le asigna el nombre de DataFrame/Array que necesitamos colocar en el contenedor. En nuestro ejemplo, es "new_df [valores]" donde "valor" es el nombre de la columna en la que se aplica el corte (). El segundo parámetro del parámetro de corte que utilizamos es el "contenedor" para definir los bordes del contenedor. Aquí, queremos dividir los datos en 4 contenedores de (5, 20], (20, 30], (30, 40], (40, 50].

En la última declaración de impresión, llamamos a la función "única ()" que genera una matriz de valores únicos.

La imagen de salida muestra el marco de datos con bin. Puede notar que "20" también se agrega al contenedor. Es el resultado de la inclusión predeterminada del borde más a la derecha. Si no lo necesitamos, use el método Cut () con la opción correcta = falsa.

Ejemplo 2: etiquetar los contenedores

Podemos agregar etiquetas a los contenedores con la función Pandas Cut ().

Para fines de ilustración, creamos un marco de datos con la función Pandas DataFrame como creamos en el ejemplo anterior. Este DataFrame contiene una columna "número" que almacena una matriz de tamaño 10 con valores generados aleatoriamente de 11 a 32. Luego, creamos otra columna en el mismo DataFrame y lo nombramos "Numbers_Labels". Invocamos la función Pandas Cut (). Dentro de esta función, mencionamos el nombre de la columna de nuestro DataFrame para aplicar la función CUT (). Como necesitamos cortar y segmentar los datos en 2 contenedores, proporcionamos 2 límites del contenedor como (11, 22], (22, 32].

Lo siguiente es definir las etiquetas de los contenedores. En el argumento de "etiquetas", pasamos las dos expresiones como "mínimos" y "máximos".

Utilizamos el mismo procedimiento que antes, pero además de dividir los resultados en los contenedores, ahora etiquetamos los contenedores como altibajos.

Los valores estadísticos se diferencian en contenedores. Entonces, podemos observar los números que sean más grandes y cuáles son más pequeños. En la invocación de la función CUT (), establecemos el derecho = falso porque necesitamos 10 para ser un elemento de los máximos.

La imagen de salida muestra los contenedores con etiquetas "mínimos" y "altas". Los valores pequeños se etiquetan como mínimos y los valores más grandes se denominan altibajos.

Conclusión

Este artículo se basa en la función Pandas Cut (). Incluye la introducción a la función Pandas Cut (), así como la necesidad de usar este método. Explicamos todos los detalles necesarios y lo familiarizamos con los conceptos básicos de la función CUT (). Elaboramos cada parámetro de esta función en términos fáciles de entender. Realizamos los ejemplos de código práctico implementados en Spyder para permitirle practicar este método con ellos. De manera similar, puede practicar los otros parámetros de la función CUT (). Hicimos un esfuerzo intencional para brindarle el mejor y más útil ejercicio de aprendizaje y ayudarlo a aprender nuevos conceptos en la programación.