Promedio de pandas

Promedio de pandas
“En este tutorial, demostraremos cómo aplicar la técnica media de los pandas para calcular el promedio. La media de los valores numéricos en una serie pandas o el marco de datos de pandas se determina utilizando la función media (). Una de las herramientas que simplifican en gran medida el proceso de importación y evaluación de pandas de datos es una de ellas. El valor medio para el eje elegido es devuelto por DataFrame de Pandas.función media (). Si el método se usa en un objeto de la serie Pandas, produce un número escalar que representa el promedio de todos los datos u ocurrencias en el marco de datos. Es común usar esta herramienta en una sola columna DataFrame, pero la función media () en pandas puede funcionar en todo el pandas dataFrames, objetos de serie y columnas de marcas de datos individuales."

Cómo usar la función promedio de pandas?

Primero debemos comprender la sintaxis antes de ver cómo usar el método Mean () para calcular el promedio. Dependiendo del tipo de objeto que esté utilizando, el método medio de pandas determinará su sintaxis. Media () se puede aplicar a las columnas de DataFrame, Series y individuales de DataFrame.

Sintaxis para usar la función media () para los marcos de datos

La siguiente es la sintaxis para usar la función media () en un marco de datos.

Sintaxis: df.significar( )

Debe escribir su nombre de marco de datos seguido de.media () para invocar el método cuando se usa media () en un marco de datos completo. La media (), por defecto, intenta operar en cada columna cuando se aplica a un marcado de datos completo. Sin embargo, en realidad, la salida generalmente consiste en los medios de variables numéricas. También puede usar algunos parámetros opcionales adicionales para alterar ligeramente el resultado que obtenemos utilizando la función media ().

Sintaxis para usar la función media () para la serie Pandas

Al aplicar la técnica media () a una serie, la sintaxis es bastante similar a la de un marco de datos.

Sintaxis: serie.significar( )

Hay algunos argumentos que puede usar para alterar los resultados cuando se usa Mean () en una serie, al igual que con Dataframes.

Sintaxis para usar la función media () para columnas individuales en DataFrame

Dado que las columnas de DataFrame son objetos de la serie Pandas, la aplicación de la media de pandas en una columna requiere dos pasos: usar sintaxis del punto para recuperar la columna especificada y luego llamar a la función media ().

Sintaxis: df.columna.significar( )

Por ejemplo, usaría el código "DF.columna.medio () "Si su marco de datos se llama DF y la columna en la que desea operar se llama" columna ". Luego calculará la media para esa columna.

Parámetros

eje: Esta es una referencia al eje para la función que se utilizará.

Skipna: No incluye ningún valor nulo en el cálculo del resultado.

nivel: Si el eje es un multiíndex, cuenta junto con ese nivel y colapsa en una serie.

Solo numérico:

Solo las columnas int, flotador y booleana están presentes. Si ninguno, intentará usar todo antes de usar información numérica simplemente. No utilizado para la serie.

Devoluciones: Si se especifica el nivel, proporciona la media del DataFrame o la serie.

Ahora, hemos entendido la sintaxis, así que proceda a implementarla en los ejemplos a continuación.

Ejemplo # 1: Encuentre el valor promedio de la columna DataFrame

Primero, se importarán los módulos pandas y numpy, luego crearemos nuestro marco de datos. Creemos una muestra de datos de datos que tiene los datos de los empleados de una empresa.


Hemos producido un marco de datos utilizando el PD.Función DataFrame () y almacenó el registro de 10 empleados en el DF DataFrame pasando parámetros dentro del PD.DataFrame () i.mi. EMP, columnas e índice. La función print () se utiliza para visualizar nuestro marcado de datos.

Calculemos la media de una sola columna en un marco de datos. Aquí, encontraremos la media/promedio de la variable de edad.


La variable de edad, en este caso, se está recuperando utilizando "sintaxis de puntos."Estamos usando el código DF.edad para lograr eso. Pero justo después de eso, calculamos la media usando .significar(). Esto esencialmente extrae la columna de edad del DF DataFrame y calcula la media de esa columna.

Ejemplo # 2: Encuentre el promedio de todo el marco de datos

A continuación, apliquemos el método Mean () a un Data DataFrame completo, que hemos creado en el Ejemplo # 1 de la siguiente manera:


El script anterior calculará la media de todas las columnas numéricas en nuestro DF DataFrame.


El método de la media () calculó la media de cada variable numérica cuando se llamó a la media () en todo el marco de datos. Por lo tanto, calculó la edad, el salario y la bonificación promedio del marco de datos DF. Por lo tanto, utilizando el método medio () en todo el marco de datos, la edad promedio es de 27.000000, el salario promedio es de 17650.000000, y el bono promedio es 2055.555556.

Ejemplo # 3: Encuentre el promedio del marco de datos, incluidos los valores faltantes

¿Has notado que hay los mismos valores faltantes en nuestro DA DataFrame?? La opción Skipna de la media () siempre está configurada como skipna = true de forma predeterminada. Pandas media () ignora los valores faltantes si la opción Skipna se establece en True. Al especificar skipna = false, podemos deshabilitar que.


La media de las columnas que tienen valores faltantes serán nan.


La edad y los medios de columna de bonificación son nan. Esto se debe a los valores faltantes en la edad y las variables de bonificación que ahora se han incluido en la salida. Puede elegir omitir estos valores cuando una variable los tiene configurando skipna = true. Alternativamente, desea usar el método Pandas Fillna para completar los valores faltantes.

Ejemplo # 4: Encuentre el promedio agrupado por una variable categórica

Aquí, el salario medio se calcula por bonificación. Esto implicó algunos pasos:

    1. Agrupe los datos por bonificación usando Groupby ()
    2. recuperar la variable salarial
    3. llamar a la función media ()


Como puede ver, usando .Groupby ([bonificación]) ha convertido los valores de bonificación como grupo donde el valor de los datos ocurrió más de una vez (2000 ocurrió 3 veces). El código DF.Groupby (['Bonus']).Salario.media () calculó el promedio de valores salariales contra los valores agrupados de la variable de bonificación.

Ejemplo # 5: Calcule la media condicional para la variable categórica

El mismo DF DataFrame se utilizará en este ejemplo también. El siguiente código demuestra cómo determinar el promedio de la columna "salario" solo para las filas del marco de datos cuando la columna "bonificación" tiene un valor mayor a 1800.


Se puede acceder a un conjunto de filas y columnas utilizando el DF. Loc [] Propiedad por etiquetas. En el código anterior, puede ver que el salario promedio de las filas con bonificaciones superiores a 1800 se muestra en la columna salarial. Significa el salario promedio de aquellos individuos/empleados cuya bonificación es mayor que 1800 es 16500.0.

Conclusión

Para determinar el valor promedio de una serie pandas o marco de datos, utilizamos el método mediano (). Ahora debería tener una mejor comprensión del funcionamiento del método medio de pandas después de pasar por este artículo. Para determinar el valor promedio de un marcador o serie de datos pandas, se utiliza el método mediano (). Con los ejemplos, tratamos de enseñarle cómo encontrar el promedio de una columna en un marco de datos, encontrar el promedio agrupado por una variable categórica y cómo encontrar media condicional usando la función media ().