Distrito de conteo de pandas groupby

Distrito de conteo de pandas groupby

Este artículo le enseñará cómo contar los valores distintos para cada grupo después de agrupar los datos utilizando el método GroupBy (). Con la ayuda de los pandas.Método GroupBy (), podemos dividir fácilmente los datos en varios grupos para que las funciones de agregación puedan aplicarse a cada grupo. En los pandas, esta técnica es una parte esencial del análisis de datos. Hay varias formas de determinar cuántos valores únicos están presentes en una columna de DataFrame para un grupo de datos. Uso de DataFrame.GroupBy (), Nunique (), DataFrame.agg () y serie.value_counts () métodos, etc., Podemos obtener el número de valores distintos para los grupos.

Cómo contar los valores únicos después de agrupar los datos en pandas

Primero, dividiremos los datos dentro de la columna o serie en grupos de categorías. Luego utilizaremos una función para calcular el número de datos/valores únicos para el grupo de categorías. En los siguientes ejemplos, utilizaremos diferentes funciones para contar los datos distintos para los grupos de categorías.

Ejemplo # 01: Cuente los valores distintos de una columna DataFrame usando el método valuas_count ()

La función valores_count () devuelve un objeto con recuentos de valores distintos. El objeto resultante se organizará en orden descendente, con el primer elemento que aparece el más frecuente. Por defecto, excluye los valores de NA. Primero creemos un marco de datos. DataFrame se creará después de importar el módulo de pandas.

Hemos creado nuestro marco de datos utilizando un diccionario dentro del PD.Función DataFrame (). Nuestro marcado de datos consta de dos columnas, 'estudiante' y 'edad'. El estudiante de columna que contiene los valores de datos ('Dave', 'Sybil', 'Dave', 'Jenny', 'Dave', 'Dave', 'Sybil', 'Jenny', 'Jenny', 'Sybil') y el columna 'edad' contiene los valores (14, 15, 16, 16, 15, 14, 15, 14, 14, ninguno). Ahora agrupemos los datos y determinemos los valores únicos totales para los grupos.

La función ha devuelto los valores distintos totales para los grupos creados en la columna 'estudiante'. Por ejemplo, para el grupo 'Dave', el valor de edad '14' en la columna 'edad' ocurre dos veces, y los valores '15' y '16' ocurren solo una vez, y así sucesivamente. Como se señaló, la función también ha ignorado el valor faltante.

Ejemplo # 02: Cuente los valores distintos de múltiples columnas usando el método valuas_count ()

En el ejemplo anterior, contamos los valores distintos de una sola columna para cada datos/valor agrupados. Ahora, determinaremos el número de valores distintos de múltiples columnas después de agrupar una columna del DataFrame. Necesitamos otro marco de datos con al menos tres columnas.

Hemos creado nuestro marco de datos con tres columnas, yo.mi., 'Nombre', 'Marcas' y 'Grado'. Las marcas de la columna almacenan los datos ('Tyson', 'Nancy', 'Nancy', 'Tyson', 'Jimmy', 'Jimmy', 'Jimmy', 'Nancy', 'Tyson'). Mientras que las columnas, 'Marcas' y 'grados', contienen los valores (15, 15, 17, 17, 18, 18, 14, 14, 14) y ('b', 'b', 'a', ' A ',' a ',' a ',' b ',' b ',' b ') respectivamente. Ahora, cuentemos los valores únicos de las 'marcas' y 'calificaciones' de la columna después de agrupar los datos del 'nombre' de la columna '.

La función value_counts () se aplica a una lista que contiene las etiquetas de las columnas. La función ha devuelto los recuentos de valor distintivo para cada datos de grupo en la columna 'nombre'.

Ejemplo # 3: Cuente los valores distintos usando Groupby.función nunique ()

El número de valores distintos para cada columna es devuelto por el método nunique (). La función nunique () busca columna por columna y recupera el número de valores de datos distintos para cada fila de marco de datos cuando se especifica el eje de columna (axis = 'columnas'). Al usar el método nunique () para determinar el número de valores distintos, primero crearemos un marco de datos con al menos una columna que contiene datos repetitivos.

Creamos dos columnas, yo.mi., 'Empleado' y 'Salario', en nuestro DataFrame. El empleado de la columna almacena datos como String ('Manager', 'Contador', 'Gerente', 'Gerente', 'Secretario', 'Contador', 'Secretario', 'Secretario', 'Contador', 'Secretario) y El 'salario' de la columna contiene los valores (15000, 14000, 15000, 14000, 12000, 13000, 12000, 14000, 15000, 13000). Encontremos los valores distintos en el salario de la columna para grupos en la columna 'Empleado'.

Hay tres valores únicos en la columna 'salario' para los grupos, 'contador' y 'empleado', en columna 'empleado'. El número de valores distintos para el grupo 'gerente' es 2.

Ejemplo # 4: contar valores distintos de múltiples columnas usando la función Nunique ()

Ahora, calcularemos el recuento de valores únicos para múltiples columnas de marco de datos. Agreguemos otra columna en DataFrame, que creamos en el Ejemplo # 3.

Hemos agregado una nueva columna 'publicación' en nuestro marco de datos con los valores de datos ('junior', 'junior', 'senior', 'junior', 'senior', 'senior', 'senior', 'junior', '' Junior ',' Junior '). Ahora, contaremos los valores únicos de las columnas 'post' y 'salario' para cada datos de grupo en la columna 'Empleado'. Usaremos la función Agg () para encontrar los recuentos de valores únicos para múltiples columnas.

Agrupamos los datos en la columna 'Empleado' y aplicamos la función Agg (). Dentro de la función agg (), pasamos un diccionario con nombres de columnas como teclas y las cadenas nunicas como valores de claves. La función ha devuelto el número de valores únicos en las columnas 'post' y 'salario' para cada datos de grupo, i.E, 'Contador', 'Secretario' y 'Gerente'.

También podemos determinar el número de valores distintos utilizando la función nunique () sin el método agg (). Para esto, primero crearemos una lista con etiquetas de columnas desde las cuales queremos contar los valores distintos. Luego, utilizaremos las funciones GroupBy () y Nunique en las columnas específicas de DataFrame dentro de la lista en lugar de todo DataFrame 'DF'.

Sin la función Agg (), obtuvimos los mismos resultados que antes cuando aplicamos la función Agg ().

También podemos agrupar múltiples columnas y encontrar el número de valores distintos para el grupo y el subgrupo. Agrupe los datos de las columnas 'empleado' y 'publicar' y luego encontremos los valores distintos en la columna 'salario' para cada grupo y subgrupo.

Ejemplo # 5: Determinar valores distintos a partir de la columna DataFrame usando la función única ()

Cuando se trabaja con una columna particular de un marcador de datos, se utiliza la función única () y devuelve todos los datos/valores únicos de la columna. Primero, crearemos un marco de datos a partir del cual encontraremos los valores únicos en la columna especificada para los datos del grupo de una sola columna, agrupada utilizando la función GroupBy ().

Hay dos columnas en nuestro marco de datos, yo.mi., 'Género' y 'edad'. Los valores de datos en la columna 'género' son ('masculino', 'masculino', 'masculino', 'mujer', 'masculino', 'mujer', 'mujer', 'masculina', 'mujer', 'mujer')) y la columna 'edad' está almacenando los valores (19, 19, 20, 18, 20, 18, 19, 20, 17, 20). Ahora, agruparemos los datos en la columna 'género' utilizando la función GroupBy (), y encontraremos los valores distintos en la edad de la columna para cada grupo.

La función ha devuelto un marco de datos con los valores distintos de una columna en lugar de recuentos de valores distintos. Sin embargo, se puede ver que hay cuatro valores únicos (18, 19, 17, 20) para el grupo femenino y 2 valores únicos para el macho grupal en la columna 'edad'.

Conclusión

En este tutorial de pandas, discutimos cómo determinar o contar los valores distintos o datos únicos en una columna o columnas del marco de datos en pandas. Ahora, es posible que pueda contar los valores únicos en los pandas. Implementamos múltiples ejemplos en este artículo para enseñarle cómo contar los valores distintos de una columna DataFrame utilizando las funciones valuas_count (), nunique () y únicas () después de agrupar los datos utilizando la función GroupBy ().