conteo de pandas

conteo de pandas
El gran ecosistema de los paquetes de Python impulsados ​​por la información es un factor significativo por qué Python es una plataforma fantástica para realizar investigaciones de datos. Uno de esos paquetes, pandas, simplifica la toma y el análisis de datos.

Los valores faltantes pueden ser problemáticos en algunas circunstancias. Por lo tanto, ocasionalmente necesitamos especificar objetos con valores que no se pierdan. Un método para localizar columnas con muchos datos faltantes es usar el método de conteo de pandas.

La función Pandas Count () es un método para calcular el número de células que no son de NA en cada segmento o columna. Además, trabajar con datos que no son capaces también es relevante. Al tratar con conjuntos de datos, una habilidad tremenda es la capacidad de presentar resultados comprensiblemente. El uso de un gráfico basado en el eje es una forma común de mostrar datos. El recuento de funciones de python devuelve el número de veces que aparece la subcadena en la cadena y el número de valores en columnas o filas de un marcado de datos. Por lo tanto, repasaremos cómo utilizar la función de conteo en los marcos de datos en esta parte.

Sintaxis para la función pandas count ()

El método de recuento tiene una sintaxis relativamente directa; Sin embargo, hay algunos enfoques diferentes para utilizarlo y algunas opciones que pueden cambiar la forma en que funciona. Solo necesita especificar el nombre de DataFrame seguido de ".count () ”para invocar la función de recuento para un marco de datos. Por lo tanto, suponiendo que su marco de datos se denomina "DataFrame", puede utilizar el script "DataFrame.count () ”para determinar la cantidad de entradas no falsas para todas las columnas. Dentro de los soportes, también puede utilizar algunos argumentos opcionales que explicaremos en un momento.

Aquí, el "nivel" denota la indexación de diversos del eje, y si el eje es jerárquico, el método de conteo de datos de datos finalmente se bloquea y deja de responder a las llamadas del programa, dejando el programa colgando. El término "numérico" se refiere a la compatibilidad del programa con datos numéricos, incluidos los valores enteros, flotantes y lógicos. Dado que siempre debe volver a DataFrame cuando se proporciona el nivel, toma el valor falso como un valor predeterminado. La evaluación del programa de las filas y columnas se proporciona en el "eje". El método Count () utiliza el argumento del eje para especificar columnas y filas específicas para tener en cuenta siempre que el resultado sea producido mediante la aplicación que utiliza PANDAS.

Después de examinar la sintaxis, veamos algunas demostraciones del enfoque de conteo de pandas en la práctica. Exploraremos algunas instancias de formas de contar los valores dentro de un marco de datos, contar las entradas en una columna en particular y algunas aplicaciones adicionales.

Ejemplo 1: Cuente el número de registros en todas las columnas de un marco de datos utilizando el método pandas count ()

Deberá ejecutar algún código preparatorio antes de poder compilar todas las instancias. Debemos importar las bibliotecas relevantes y luego cargar/crear un DataFrame, específicamente.

Primero, importamos la biblioteca Numpy como Biblioteca NP y Pandas y le damos el nombre PD en el programa anterior. Ahora podemos comenzar a construir nuestro marco de datos fundamental a medida que obtenemos accesibilidad a la biblioteca de pandas.

Comenzando con el código principal, aquí puede ver que hemos usado un NP.propiedad nan y lo hizo igual a Nan. El acrónimo nan, que se refiere a "no un número", denota números que no se indican. Además, las entradas faltantes en un conjunto de datos se representan utilizando.

Ahora, construiremos un marco de datos con algunos valores nulos utilizando la función Pandas DataFrame. El código aquí creó una variable llamada "DF" y el resultado de invocar el PD.La función dataFrame () se asigna a esta variable creada. Dentro de las paréntesis de la PD.Función DataFrame (), hemos utilizado los aparatos ortopédicos rizados y escribimos los nombres de las columnas que queremos tener en DataFrame. Hemos creado cuatro columnas: nombre, química, inglés y ciencia. Luego, asignamos todas las columnas con diferentes valores. Debemos mantener todas las columnas del mismo tamaño. Se invoca la función de impresión para imprimir el DataFrame.

La salida muestra el siguiente marco de datos:

Ahora, para cada columna en nuestro marco de datos, calcularemos la cantidad de registros no nulos. La función count () para un marco de datos se aplica de esta manera en el enfoque más directo.

En este caso, estamos aplicando count () aquí en el marco de datos "DF" general. Para lograr esto, ingresamos el nombre de DataFrame, "DF", seguido de la .función count ().

Cuando ejecutamos el código anterior, nos dará el resultado que se muestra en la siguiente imagen:

Puede obtener la cantidad total de entradas que no se faltan para cada columna en el resultado.

Nuestro marco de datos comprende un total de seis filas. Puede notar que el "nombre" variable tiene seis valores en este caso. No hay espacios vacíos en esta variable. Sin embargo, los valores específicos contienen menos de seis. Por ejemplo, la ciencia tiene cuatro entradas que no se faltan, mientras que la química tiene cinco. Para este caso, aplica su configuración predeterminada al parámetro.

Tener este conocimiento puede ser útil al limpiar los datos. Desarrollar un algoritmo de aprendizaje automático también podría ser ventajoso porque las categorías de modelos específicas no aceptan datos faltantes.

Ejemplo 2: Cuente el número de registros en todas las filas de un marco de datos utilizando el método pandas count ()

Ahora, determinemos cuántas entradas no faltantes hay en las filas del marco de datos especificado.

El método Count () generalmente se emplea para enumerar las entradas de no perder las columnas. Sin embargo, puede haber situaciones en las que debes mirar las filas. Utilizaremos la propiedad del eje para lograr esto.

Siguiendo la construcción de DataFrame, el DF.El método Count () calcula el número de valores en cada fila mientras ignora las entradas nulas o nan. Las filas están representadas por el eje = 1. Por lo tanto, instruimos al código que contenga solo las entradas en las filas de DataFrame.

Como resultado, este programa considera el método Count (), genera la fila de DataFrame como se muestra en la captura de pantalla a continuación, y luego vuelve a la función PANDAS.

Hemos revisado los datos, por lo que sabemos que cuatro columnas están en nuestro marco de datos. Por lo tanto, una fila totalmente poblada debe tener cuatro valores no falsos. Sin embargo, puede observar que algunas filas tienen tres o dos datos que no se faltan. Hay cuatro entradas en la primera, segunda y última fila. Esto indica que faltan datos en algunas de las filas. Eso podría estar bien, pero tal vez no, dependiendo de sus acciones.

Establecer axis = "columnas" en su lugar logrará el mismo resultado. Debido a que el exis = 1 y axis = "columnas" son equivalentes, la cantidad de datos que no se pierden para las filas se proporciona cuando elige axis = "columnas."

Esto producirá el mismo resultado que el que se mostró anteriormente.

Sin embargo, recomendamos que no use esta sintaxis alternativa y, en su lugar, usamos eje = 1 porque es bastante difícil de comprender y apenas tiene sentido si está familiarizado con los ejes.

Conclusión

En este artículo, hemos aprendido cómo contar los valores en un marco de datos de pandas. El marco de datos de pandas.El método count () ayuda en nuestro análisis de los números en el marco de datos de Python. Primero creamos un marco de datos utilizando la función Pandas DataFrame y luego aplicamos el método de conteo de DataFrames. Posteriormente, le explicamos contando los datos en columnas y filas. Esperamos que este artículo aumente su conocimiento.