Pyspark: Pandas DataFrame representa el Pandas DataFrame, pero contiene el Pyspark DataFrame internamente.
PANDAS Support de la estructura de datos del marco de datos, y los pandas se importan desde el módulo Pyspark.
Antes de eso, debe instalar el módulo Pyspark."
Dominio
PIP install PysparkSintaxis para importar
de Pyspark Import PandasDespués de eso, podemos crear o usar DataFrame desde el módulo Pandas.
Sintaxis para crear Pandas DataFrame
pyspark.pandas.Marco de datos()Podemos aprobar un diccionario o lista de listas con valores.
Creemos un marco de datos Pandas a través de Pyspark con cuatro columnas y cinco filas.
#Pandas de Import del módulo PysparkProducción
Ahora, entraremos en nuestro tutorial.
Las funciones agregadas se utilizan para realizar operaciones de agregación como Sum (), Min (), media () y max ().Estas operaciones funcionan solo en datos numéricos como entero, doble etc.
Vamos a verlos uno por uno.
pyspark.pandas.Marco de datos.suma()
Sum () en el Pyspark Pandas DataFrame se usa para devolver la suma total sobre las filas y las columnas.
Si desea devolver la suma en cada fila, debe especificar el eje = 1, y si desea devolver la suma en cada columna, debe especificar el eje = 0. Por defecto, realizará en cuanto a columnas.
Sintaxis
pyspark_pandas.Sum (axis = 0/axis = 1)Donde pyspark_pandas es el marco de datos Pyspark Pandas.
Parámetro
Solo se necesita un parámetro.
Axis-0 especifica el cálculo de columna y axis = 1 especifica el cálculo de la fila.
Ejemplo 1
En este ejemplo, devolveremos la suma total en cada fila.
Producción
0 281Podemos ver que la operación de suma se realiza en cada fila.
Como, primera fila - 90+100+91 = 281.
Ejemplo 2
En este ejemplo, devolveremos la suma total en cada columna.
Producción
Mark1 379Podemos ver que la operación de suma se realiza en cada columna.
Como, para la columna Mark1 - 90+78+90+54+67 = 379.
pyspark.pandas.Marco de datos.significar()
media () en el Pyspark Pandas DataFrame se usa para devolver el promedio total sobre las filas y las columnas.
Si desea devolver el promedio en cada fila, debe especificar el eje = 1, y si desea devolver el promedio en cada columna, debe especificar el eje = 0. Por defecto, realizará en cuanto a columnas.
Sintaxis
pyspark_pandas.media (eje = 0/axis = 1)Donde pyspark_pandas es el marco de datos Pyspark Pandas.
Parámetro
Solo se necesita un parámetro.
Axis-0 especifica el cálculo de columna y axis = 1 especifica el cálculo de la fila.
Ejemplo 1
En este ejemplo, devolveremos el promedio total en cada fila.
Producción
0 93.666667Podemos ver que la operación promedio se realiza en cada fila.
Como, primera fila - (90+100+91)/3 = 93.666667
Ejemplo 2
En este ejemplo, devolveremos el promedio total en cada columna.
Producción
Mark1 75.8Podemos ver que la operación promedio se realiza en cada columna.
Como, para la columna Mark1 - (90+78+90+54+67)/5 = 75.8.
pyspark.pandas.Marco de datos.min ()
Min () en Pyspark Pandas DataFrame se usa para un valor mínimo sobre las filas y columnas.
Si desea devolver el valor mínimo en cada fila, debe especificar el eje = 1, y si desea devolver el mínimo en cada columna, debe especificar el eje = 0. Por defecto, realizará en cuanto a columnas.
Sintaxis
pyspark_pandas.Min (eje = 0/axis = 1)Donde pyspark_pandas es el marco de datos Pyspark Pandas.
Parámetro
Solo se necesita un parámetro.
Axis-0 especifica el cálculo de columna y axis = 1 especifica el cálculo de la fila.
Ejemplo 1
En este ejemplo, devolveremos el valor mínimo en cada fila.
Producción
0 90Podemos ver que la agregación min () se realiza en cada fila.
Como, primera fila - mínimo (90,100,91) = 90
Ejemplo 2
En este ejemplo, devolveremos el valor mínimo en cada columna.
Producción
Mark1 54Podemos ver que la agregación min () se realiza en cada columna.
Como, para la columna Mark1 - Min (90,78,90,54,67) = 54.
pyspark.pandas.Marco de datos.max ()
max () en el Pyspark Pandas DataFrame se usa para el máximo valor sobre las filas y columnas.
Si desea devolver el valor máximo en cada fila, debe especificar el eje = 1, y si desea devolver el máximo en cada columna, debe especificar el eje = 0. Por defecto, realizará en cuanto a columnas.
Sintaxis
pyspark_pandas.max (axis = 0/axis = 1)Donde pyspark_pandas es el marco de datos Pyspark Pandas.
Parámetro
Solo se necesita un parámetro.
Axis-0 especifica el cálculo de columna y axis = 1 especifica el cálculo de la fila.
Ejemplo 1
En este ejemplo, devolveremos el valor máximo en cada fila.
Producción
0 100Podemos ver que la agregación max () se realiza en cada fila.
Como, primera fila - máximo (90,100,91) = 100
Ejemplo 2
En este ejemplo, devolveremos el valor máximo en cada columna.
Producción
Mark1 90Podemos ver que la agregación max () se realiza en cada columna.
Como, para la columna Mark1 - Max (90,78,90,54,67) = 90.
Conclusión
En este tutorial Pyspark Pandas DataFrame, vimos cuatro funciones de agregación diferentes realizadas en el marco de datos. Es posible calcular a través de la fila y la columna con los parámetros del eje. suma () devolverá la suma total, avg () se usa para devolver el promedio total, Min () se usa para devolver el valor mínimo y Max () devolverá el valor máximo.