Pandas Qcut

Pandas Qcut

"El" Python "contiene muchas bibliotecas, y cuando queremos analizar o manipular datos, entonces utilizamos estas bibliotecas de" Python ", y los" Pandas "también es la biblioteca de la misma. La biblioteca "pandas" se utiliza en el campo de ciencias de datos, y también se utiliza en actividades de aprendizaje automático. El marco de datos "pandas" nos ayuda a guardar los datos. En "Pandas", cuando queremos la agrupación de datos, luego utilizamos el método "Qcut ()". El método "Qcut ()" se utiliza para convertir las características continuas en categóricas. Podemos agregar diferentes tipos de parámetros en este método "Qcut ()" para obtener diferentes tipos de resultados. Este tutorial se trata del método "Qcut ()", y explicaremos con pleno detalle el método "Qcut ()" aquí. Le explicaremos cómo hacemos el binning de datos con la ayuda de la función "Qcut ()" en "Pandas" en este tutorial."

Ejemplo # 01

Aplicaremos el método "Qcut ()" en estos códigos, y haremos estos códigos en la aplicación "Spyder". Cuando tenemos que trabajar con los "pandas", solo podemos acceder a sus funciones cuando importamos la biblioteca "pandas" en nuestros códigos. Primero, ponemos "importación", y luego escribimos "Pandas como PD". Ahora, tenemos que aplicar el método "Qcut ()", por lo que para esto, estamos creando el marco de datos aquí. Construimos "Random_DF" que contiene "R_ID, R_NAME y R_AGE" como sus columnas, y también en "R_ID", colocamos "R_17, R_21, R_24, R_29, R_31, R_34, R_44, R_46, R_50, R_51, R_55, R_61, R_73 y R_81 ". Luego agregamos "Theodore, Teddy, Noah, Leo, Ivy, Henry, Freddie, Evelyn, Ava, Willow, Theo, Oscar, Jacob y Harper" en la columna "r_name". Después de esto, insertamos "21, 33, 12, 43, 22, 7, 21, 51, 72, 19, 10, 9, 37 y 40" en la columna "r_age". Ahora, usamos el "print ()", que contiene "random_df", y ayudará a representar el marco de datos "random_df". Acabamos de crear DataFrame y todavía no aplicamos el método "Qcut ()".


El icono "Ejecutar" nos ayuda a ejecutar los códigos. Cuando presionamos este icono de "Ejecutar", el resultado de este código se muestra en el terminal de la aplicación "Spyder". El DataFarme "Random_DF" se muestra como el resultado del código que hemos escrito en este ejemplo. Ahora, aplicaremos el método "Qcut ()" y también mostraremos su resultado.


Estamos agrupando los datos aquí. Estamos agrupando la columna "r_age" y colocando el "PD.Método QCut () ", que es el método de" pandas "que ayuda a la binning de datos. En este método, insertamos el nombre del DataFrame y también el nombre de la columna en el que queremos aplicar este método "Qcut ()". También establecemos el valor de "Q" en "5", y se utiliza para cortar los datos de la columna "R_AGE" en cinco cuantiles iguales. Agregamos el método "Qcut ()" en el "print ()", por lo que también mostrará los datos de binning en el terminal.


Aquí, se muestran los datos después del binning y corta el "r_age" en cinco cuantiles. También muestra las categorías en las que se agrupan los datos de la columna "R_AGE". La serie categórica representa los contenedores "r_age".


También podemos ajustar la etiqueta para estos contenedores. Agregamos estas etiquetas de contenedor para que sean fáciles de interpretar. Agregamos una columna "r_age_qcut" a la "random_df" en la que agregamos las etiquetas de estos contenedores. Nuevamente utilizamos el "PD.Método QCut () "para etiquetarlos. Agregamos las etiquetas que son "pequeñas, no tan pequeñas, mediocres, altas y más altas" en ellas. Luego volvemos a poner "Random_DF" en "print ()".


Todos los contenedores están etiquetados y presentados en este resultado. La columna "r_age_qcut" se muestra en este marco de datos en el que se muestran los contenedores etiquetados.

Ejemplo # 02

Para crear el marco de datos, primero agregamos "calificaciones", que son "3, 6, 8, 7, 2, 5, 1, 9, 4, 7 y 8". Luego, agregamos nombres de estudiantes en "estudiantes", que son "Peter, Bromley, James, David, Allies, John, James, Samuel, William, Howard y Alexander". Luego generamos el "Grades_DF" donde hemos agregado el "PD.Método dataFrame () ", y en este método, colocamos" std_name ", que aparecerá como el nombre de la columna y asignará valores de" estudiantes "a esto. Luego establecemos el "Students_grades" como el nombre de la columna del marco de datos y también asignamos "calificaciones" aquí, que hemos creado anteriormente. Después de esto, tenemos el "print ()" en el que agregamos "grados_df" para imprimir.


El cuadro de datos que contiene dos columnas se muestra en el resultado de este código. Ahora, aplicaremos el método "Qcut ()" a la columna "Students_grades" para agrupar los datos de los valores de esta columna.


Agregamos una nueva columna "Grado" aquí en la que hemos aplicado "PD.Qcut () "a la columna" Students_grades ", y también hemos usado" 4 "para el valor de la" Q ", por lo que reducirá los datos en cuatro cuantiles iguales. Después de esto, especificamos estos cuantiles aquí colocando valores en "Q", que son "0, .4, .8 y 1 ". Entonces, también mostramos esto. Ahora, estamos etiquetando estos datos agrupados, y las etiquetas que agregamos aquí son "D, C, A y B" y también se almacenan en la columna "Grado".


Aquí, los datos después del binning se muestran aquí en la columna "Grado", y corta los datos de la columna "Students_grades" en cuatro cuantiles iguales.


El marco de datos que obtenemos después de aplicar el método "Qcut ()" y especificar los cuantiles se muestra en este resultado.


Ahora, después de agregar las etiquetas a estos contenedores, también se representan en este resultado en la columna "Grado", y puede ver que asigna las etiquetas de acuerdo con los valores de los bins.

Ejemplo # 03

También podemos aplicar el método "Qcut ()" a los datos del archivo CSV. Para esto, primero leemos los datos del archivo CSV con la ayuda del método "Read_csv ()". Estamos leyendo los datos de la "Office2.Archivo CSV ", y luego los datos de este archivo se colocan en el" Office_DF ". Este método convertirá los datos del archivo "Office2" en DataFrame y los guardará en "Office_DF". Luego, también mostramos estos datos colocando el "Office_DF" en la "impresión ()". Después de esto, agregamos una nueva columna llamada "units_qcut", a la que aplicamos la función "PD.QCut () "a la columna" Unidades ".

Además, establecemos el valor de la variable "Q" en "5", que dividirá los datos en cinco cuantiles iguales. Los datos, después de cortar en 5 cuantiles iguales, se almacenan en la columna "units_qcut", y esta columna también se agrega al "Office_DF", y el "Office_DF" se representa aquí nuevamente usando "Print ()". Ahora estamos etiquetando estos datos agrupados, agregando las etiquetas en el método "Qcut ()", que son "Unidad 1, Unidad 2, Unidad 3, Unidad 4 y Unidad 5" y almacenándolas en la columna "Etiquetas" también. También representamos este marco de datos en el que se agrega la columna "Etiquetas".


Los datos que obtenemos después de leer el "Office2.El archivo CSV ”se representa aquí en forma de DataFrame. Luego se agrega la columna "units_qcut", en la que se muestran los valores agrupados de la columna "unidades". Después de esto, también se agrega la columna "Etiquetas", que asigna las etiquetas a estos valores agrupados. Todo esto se hace utilizando el método "Qcut ()" en "Pandas".

Conclusión

Hemos explicado el método "Qcut ()" en detalle en este tutorial que ayuda a agrupar los datos en "Pandas". Hemos discutido que los datos se agrupan de acuerdo con el valor de cuantil "Q" que hemos agregado en el método "Qcut ()", y también hemos ajustado las etiquetas a estos datos agrupados. Hemos explorado el método "Qcut ()" y hemos aplicado este método a las columnas del DataFrame, y también hemos aplicado este método "Qcut ()" a los datos del archivo CSV después de leer los archivos CSV. Hemos presentado el resultado de todos los códigos en este tutorial para explicar y mostrar claramente el resultado del método "Qcut ()".