Recuento de frecuencia de pandas

Recuento de frecuencia de pandas
Aprenderá a contar las ocurrencias de datos o valor en una columna en este tutorial de pandas. En la ciencia de datos, hay casos en los que debemos determinar con qué frecuencia ocurre un valor específico en una columna específica de un marco de datos. Esto puede ocurrir, por ejemplo, cuando desea comparar solo un pequeño rango de valores potenciales. Si desea contar la cantidad de valores duplicados o repetidos en una columna, ese es otro ejemplo. Además, es posible que necesitemos contar las observaciones que constituyen un factor o necesitan conocer la proporción de hombres y mujeres en la recopilación de datos, por ejemplo,.

Cómo usar la función promedio de pandas

Necesitamos determinar los recuentos de frecuencia de datos/valores o elementos en una o más de las columnas de un marco de datos PANDAS. Hay varias maneras de lograr esto. Discutiremos algunos métodos para contar las ocurrencias o frecuencia de elementos o valores en la columna de un marco de datos.

Ejemplo 1: Contando la frecuencia de la columna utilizando la función value_counts ()

El método value_counts () en pandas devuelve una serie con la frecuencia de valores únicos. La serie resultante está en orden decreciente de forma predeterminada y sin valores de NA. Los "pandas.El objeto de la serie "es adecuado para su uso con esta función (value_counts ()). Los recuentos de frecuencia de los valores en una sola columna se pueden obtener utilizando este método, ya que los objetos Pandas DataFrame son el grupo de objetos de serie. Primero debemos crear un marco de datos para demostrar este ejemplo. Los "pandas.La función DataFrame () "se utiliza para generar DataFrame. Por lo tanto, primero debemos importar el paquete pandas.


Dentro del PD.Función DataFrame (), utilizamos un diccionario de Python para generar nuestro DataFrame. Asignamos las columnas en nuestro marco de datos con las etiquetas "X" e "Y". Mostramos nuestro marco de datos "DF" utilizando el método print ().


En el recién creado "DF" DataFrame, hay dos columnas: la columna "X" almacena los valores enteros (1, 1, 4, 3, 5, 1, 4, 3, 5, 4) y "Y" de la columna almacena la columna del Valores de cadena ("Q", "R", "T", "Q", "Q", "T", "R", "Q", "T", "R"). Puede observar que hay una repetición en los datos de ambas columnas. Podemos usar la función value_counts () para calcular la frecuencia de los datos en una columna específica. Cuentemos la frecuencia de los datos en la columna "Y".


La función devolvió una serie que tiene los recuentos de valores distintos. El valor "Q" ocurre 4 veces y los valores "R" y "T" ocurren 3 veces en la columna "Y". También contamos los valores únicos en la columna X.


Se puede ver que los valores "1" y "4" ocurren 3 veces en la columna "x", mientras que los valores "3" y "5" ocurren 2 veces.

Ejemplo 2: Contando la frecuencia de la columna usando el grupo.Función counts ()

En este ejemplo, agrupamos las filas por columna utilizando Pandas DataFrame.Función GroupBy () y use el método Count () para determinar el número de valores distintos para cada grupo, ignorando los valores Ninguno y NAN. Creemos un marcador de datos primero donde aplicamos el grupo.función counts ().


Utilizamos un diccionario PANDAS para crear nuestro marco de datos después de importar el módulo pandas. Los nombres de nuestras columnas se especifican como "Col1" y "Col2".


En la columna "COL1", tenemos los datos del entero (8, 6, 5, 8, 8, 7, 7, 9, 5, 7). En la columna "Col2", tenemos los datos de la cadena ("chico", "niño", "niña", "niño", "niño", "niña", "niña", "niña", "niño", ",", " chico"). Ahora aplicamos el grupo.cuenta () función para calcular la frecuencia de valores en cada columna.


Para hacer cálculos, dividimos los datos en varios grupos utilizando la función GroupBy (). Luego, la función Count () se aplica para contar las frecuencias de valores distintos en la columna especificada de DataFrame. El valor "5" ocurre 2 veces. Los valores "6" y "9" ocurren una vez. Mientras que los valores "7" y "8" ocurren 2 veces en la columna "Col1". Ahora, aplicemos el grupo.función count () en la columna "Col2".


La función determinó la frecuencia de los valores de "niño" y "niña" como 6 y 4 veces, respectivamente.

Ejemplo 3: Contando la frecuencia de la columna utilizando el grupo.Función size ()

La frecuencia de los elementos dentro de las columnas individuales se puede contar utilizando este método. Para obtener un objeto DataFrame con un recuento de frecuencia, podemos aplicar el método Count () a un objeto DataFrame que está agrupado por una sola columna. Primero, se crea un marco de datos que contiene al menos una columna repetitiva para que podamos usar la función Count () para determinar la frecuencia de los valores. Primero importamos el módulo pandas antes de crear un marco de datos. Entonces, usando el PD.Función DataFrame (), creamos nuestro DataFrame.


En el DataFrame anterior, tenemos dos columnas: la columna "Nombre" con valores ("Alex", "Jack", "Alex", "Ali", "Jack", "Jack", "Alex", "Alex", "Ali", "Alex", "Ali", "Ali", "Jack", "Alex") y la columna "Grado" que contiene las calificaciones de los individuos ("A", "A", "B", "," B "," B "," B "," A "," C "," A "," C "," C "," C "," A "," B "). Ahora, para encontrar los recuentos de frecuencia de estas columnas, usamos el grupo.función size (). Un int que representa el número de elementos en este objeto se puede obtener utilizando el atributo de tamaño. Si la serie proporciona el número de filas y si el marco de datos devuelve las filas totales multiplicadas por el número de columnas.


Muestra que hay dos ocurrencias en los que "Alex" tiene un valor de grado de "A". También hay dos ocurrencias en los que "Alex" tiene un valor de grado de "B" y "C". "Ali" ocurrió 1 vez con los grados "A" y "B", mientras que 2 veces con el valor de grado de "C". "Jack" ocurrió dos veces con los grados "A" y "B".

Ejemplo 4: Contando la frecuencia de la columna creando una tabla de frecuencia para una fila específica

Podemos aplicar el método crosstab () para determinar las frecuencias en un marco de datos de pandas.

Ahora, supongamos que tenemos que crear un marco de datos con detalles sobre el grado de género, edad y carta de diez estudiantes distintos.


Creamos el marco de datos requerido con tres columnas: la columna de grado ("A", "B", "A", "B", "C", "B", "B", "C", "A", "," A "), la columna de edad (17, 19, 18, 17, 19, 17, 18, 18, 17, 19), y la columna de género (" f "," m "," f "," m ", "F", "F", "M", "M", "F", "F"). Ahora, usamos la función crosstab () para crear una tabla de frecuencia. Se puede utilizar una tabla de tabulación cruzada creada por el método crosstab () para mostrar la frecuencia con la que aparecen las diferentes agrupaciones de datos.


Dentro del PD.Función crosstab (), especificamos la columna "Grado" en el parámetro de índice para calcular la frecuencia de los datos en la columna y especificamos el parámetro de columnas como "frecuencia" para almacenar los valores de retorno/frecuencias de los datos del grupo.

Conclusión

En este tutorial de Pandas, discutimos cómo contar las ocurrencias de datos o valor en una columna de Pandas DataFrame. Intentamos enseñar cómo usar las funciones "value_counts ()" y "groupby ()" junto con los atributos "size ()" y "Count ()" para contar la frecuencia de datos en la columna especificada. También hemos visto cómo contar la frecuencia de una columna creando una tabla de frecuencia utilizando la función crosstab ().