Estadísticas de resumen de pandas

"Pandas" es un gran lenguaje para realizar el análisis de datos debido a su gran ecosistema de paquetes de Python centrados en datos. Eso facilita el análisis e importación de ambos factores. El marco de datos de Pandas proporciona formas también para resumir los valores numéricos que están presentes en el marco de datos. Tenga en cuenta que es importante obtener el resumen de estadísticas en cualquier campo para un análisis de rendimiento de datos adicional de acuerdo con las estadísticas. Los cálculos de estadísticas incluyen la media aritmética como las ubicaciones o las tendencias que reviven, la desviación estándar, la desviación media de acuerdo con la forma de los datos y las medidas que se evalúan de acuerdo con el marco de datos que trabaja en. Discutiremos todos los métodos del cálculo de estadísticas resumidas en pandas. Usaremos la herramienta "Spyder" para la implementación del código, que es un entorno amigable para el idioma "Python".

Sintaxis:

"Estadísticas = DF.describir (valor) "

La sintaxis anterior se utiliza para calcular las estadísticas de resumen en pandas. El "DF" en la sintaxis representa el "marco de datos". Mientras que el "describir" se usa en la fila específica o la columna que define el "DF". El "valor" es el valor de la fila o la columna en la que se debe realizar la función que se ha asignado a las estadísticas. La función ".describir () "da los resultados de la salida como el gran formato que se muestra en DataFrame. El método ejecuta las estadísticas resumidas en el marco de datos de las columnas numéricas incluidas. Los métodos incluyen el "medio", "valores únicos", "min", "max" y "contar".

Aquí, se muestran las siguientes formas en que se pueden hacer las estadísticas resumidas sobre los pandas. Implementaremos cada uno de ellos en el ejemplo para una mejor comprensión del método:

Cálculos de estadísticas resumidas en pandas para todas las variables numéricas
Cálculo de estadísticas resumidas en pandas agrupados por una variable
Cálculos de estadísticas resumidas en pandas para todas las variables de cadena

Creación de un marco de datos para la ejecución de ejemplo de los cálculos en estadísticas de resumen de pandas

Primero, abra la herramienta "Spyder" para implementar el código. Luego, importe la biblioteca de Panadas como "PD" y la biblioteca Numpy como "NP". El numpy se usa para el cálculo numérico. Comience a crear el marco de datos, que consiste en el equipo como "N" y "W" con sus puntajes como "44", "41", "42", "43", "45", "47", "48", y "50". Las asistencias son como "2", "np. nan "," 4 "," 5 "," 6 "," 7 "," 8 "y" 9 ". El valor de los rebotes será como "18", "20", "17", "16", "11", "12", "29", "NP.nan "y" 25 ". El "np.Nan "es el NP para el" Numpy "y Nan significa" no es un valor ", lo que significa que no hay valor asignado allí. Luego, proporcione la condición "imprima" el marco de datos. La función "print ()" funciona para imprimir los resultados del código y escribir los resultados de acuerdo con el mensaje.

La salida muestra el marco de datos creado en consecuencia a los valores asignados en el código. Están las "cuatro" columnas: el equipo, los puntajes, las asistencias y los rebotes.

Ejemplo # 01: Cálculos de estadísticas resumidas en pandas para todas las variables numéricas

En este ejemplo, aprenderemos cómo calcular las estadísticas resumidas en pandas para todas las variables numéricas. DataFrame consiste en el equipo como "O" y "V"; Anotaron "45", "88", "25", "55", "24", "78", "87", "40" y "20". Las asistencias son "2", "11", "1", "3", "6", "4", "2", "10" y "NP.yaya". Los rebotes son "31", "32", "33", "34", "35", "37", "38", "nulo" y "39". La función DataFrame "Describe" calculará la variable numérica en las estadísticas de resumen de DataFrame of Pandas.

La salida muestra las columnas de columnas numéricas, que son "puntajes", "asistencias" y "rebotes". El recuento hace el trabajo de contar los valores "no nulos". La media es para los valores "medios", STD para el cálculo de los valores de desviación estándar, el MIN representa el valor MIN que significa el cálculo de los valores mínimos y el máximo para el cálculo del valor máximo, el 25 por ciento, 50 por ciento, y el 75 por ciento son para las consideraciones de valores.

Ejemplo # 02: Cálculo de estadísticas resumidas en pandas para el agrupado por una variable:

Ejecutaremos el cálculo del grupo mediante una variable en el marco de datos de las estadísticas resumidas en pandas en este ejemplo. El marco de datos consiste en los dos equipos como "M" y "Q" con sus puntajes como "59", "58", "56", "50", "51", "53", "54" y "55 ". Las asistencias se valora como "nulo", "7", "17", "18", "5", "3", "6", "21" y "15". Los rebotes se valora como "81", "82", "60", "30", "24", "97", "56", "nulo" y "71". La función Groupby con ingresos del equipo es la condición aprobada con el cálculo "Dot" "medio ()" que nos lleva a los resultados de las estadísticas de resumen de Pandas. Aquí, la media se calculará con el "Numpy", para calcular la matriz Numpy.

La salida muestra el cálculo de las estadísticas de resumen en pandas. Los equipos "M 'y" Q "que se muestran con los cálculos como la parte superior tienen los valores que ocurren con mayor frecuencia en el" DF ", la" Freq "es el recuento de frecuencia del valor más ocurrido en el" DF "y el "Único" se usa para los valores más únicos en el marco de datos. Esas son las operaciones de fondo realizadas para el cálculo del grupo para todas las variables en estadísticas resumidas de Pandas.

Ejemplo # 03: Cálculos de estadísticas resumidas en pandas para todas las variables de cadena

En este ejemplo, implementaremos el cálculo de todas las variables de cadena en los pandas para las estadísticas de resumen. DataFrame tiene los equipos como "S" y "D". Los puntajes de los equipos son "59", "53", "96", "80", "85", "62", "27", "22" y "21". Las asistencias se valora como "nulo", "8", "27", "50", "15", "31", "61", "11" y "17", y los rebotes consisten en los valores "70 "," 84 "," 30 "," 20 "," 94 "," 95 "," 90 "," Null "y" 91 "respectivamente. La condición se desmayará para el cálculo realizado en el marco de datos que especifica la función "describir" y en el soporte "incluir" igual al "objeto". Esto nos proporcionará el marco de datos calculado de todas las variables de cadena en estadísticas resumidas de pandas.

Los productos salieron como el valor medio para las columnas de "puntos", "rebotes" y las variables de cadena de "asistencia" que han sido agrupadas por la variable "equipo". La salida es como "cuenta, única, superior, frecuente", sus valores son como "9", "2", "D" y "5".

Conclusión

Los pandas son rápidos y fáciles de usar en la biblioteca. Las estadísticas de resumen de Pandas son una función tan útil y útil que utilizamos en los pandas. Se le ocurren diferentes métodos para diferentes situaciones. Hemos ejecutado todas las formas en que se pueden calcular las estadísticas resumidas de Pandas en el marco de datos. El ejemplo anterior proporcionó una gran explicación sobre cómo realizar cada uno de ellos. Hemos completado el cálculo resumido de estadísticas en PANDAS para la variable de cadena presente en el marco de datos, el cálculo de estadísticas en pandas para el grupo de una variable disponible en el marco de datos y, por último, también hemos realizado el ejemplo del cálculo de estadísticas sumarias de todos Los valores numéricos en el marco de datos. Los cálculos de estadísticas resumidas juegan un gran papel en las industrias y las empresas.

Pitón

Python encuentra el índice de todos los sucesos en una lista

La función para bucle, enumerate (), el método index () o la función defaultDict () se puede usar pa...

Pilar Alemán

Pitón

Pandas read_csv multiprocesamiento

Para mejorar la velocidad de carga de datos, incluidos sus beneficios y limitaciones el PD.read_csv ...

Pilar Melgar

c agudo

¿Qué es el sistema?.IO espacio de nombres en C#

Sistema.IO es un espacio de nombres en la C# que proporciona un conjunto de clases, estructuras, enu...

Lorenzo Morales