PYSPARK - Funciones de agregados de marcas de datos de Pandas

PYSPARK - Funciones de agregados de marcas de datos de Pandas
"En Python, Pyspark es un módulo Spark que proporciona un tipo similar de procesamiento como Spark usando DataFrame, que almacenará los datos dados en formato de fila y columna.

Pyspark: Pandas DataFrame representa el Pandas DataFrame, pero contiene el Pyspark DataFrame internamente.

PANDAS Support de la estructura de datos del marco de datos, y los pandas se importan desde el módulo Pyspark.

Antes de eso, debe instalar el módulo Pyspark."

Dominio

PIP install Pyspark

Sintaxis para importar

de Pyspark Import Pandas

Después de eso, podemos crear o usar DataFrame desde el módulo Pandas.

Sintaxis para crear Pandas DataFrame

pyspark.pandas.Marco de datos()

Podemos aprobar un diccionario o lista de listas con valores.

Creemos un marco de datos Pandas a través de Pyspark con cuatro columnas y cinco filas.

#Pandas de Import del módulo Pyspark
de Pyspark Import Pandas
#Cree DataFrame de Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('student_lastName': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#mostrar
Imprimir (pyspark_pandas)

Producción

Ahora, entraremos en nuestro tutorial.

Las funciones agregadas se utilizan para realizar operaciones de agregación como Sum (), Min (), media () y max ().Estas operaciones funcionan solo en datos numéricos como entero, doble etc.

Vamos a verlos uno por uno.

pyspark.pandas.Marco de datos.suma()

Sum () en el Pyspark Pandas DataFrame se usa para devolver la suma total sobre las filas y las columnas.

Si desea devolver la suma en cada fila, debe especificar el eje = 1, y si desea devolver la suma en cada columna, debe especificar el eje = 0. Por defecto, realizará en cuanto a columnas.

Sintaxis

pyspark_pandas.Sum (axis = 0/axis = 1)

Donde pyspark_pandas es el marco de datos Pyspark Pandas.

Parámetro
Solo se necesita un parámetro.

Axis-0 especifica el cálculo de columna y axis = 1 especifica el cálculo de la fila.

Ejemplo 1
En este ejemplo, devolveremos la suma total en cada fila.

#Pandas de Import del módulo Pyspark
de Pyspark Import Pandas
#Cree DataFrame de Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('student_lastName': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#perform sum () agregación de operación fila
Imprimir (Pyspark_Pandas.suma (eje = 1))

Producción

0 281
1 237
2 284
3 240
4 231
dtype: int64

Podemos ver que la operación de suma se realiza en cada fila.

Como, primera fila - 90+100+91 = 281.

Ejemplo 2
En este ejemplo, devolveremos la suma total en cada columna.

#Pandas de Import del módulo Pyspark
de Pyspark Import Pandas
#Cree DataFrame de Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('student_lastName': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#perform sum () columna de operación de agregación

Producción

Mark1 379
Mark2 429
Mark3 465
dtype: int64

Podemos ver que la operación de suma se realiza en cada columna.

Como, para la columna Mark1 - 90+78+90+54+67 = 379.

pyspark.pandas.Marco de datos.significar()

media () en el Pyspark Pandas DataFrame se usa para devolver el promedio total sobre las filas y las columnas.

Si desea devolver el promedio en cada fila, debe especificar el eje = 1, y si desea devolver el promedio en cada columna, debe especificar el eje = 0. Por defecto, realizará en cuanto a columnas.

Sintaxis

pyspark_pandas.media (eje = 0/axis = 1)

Donde pyspark_pandas es el marco de datos Pyspark Pandas.

Parámetro

Solo se necesita un parámetro.

Axis-0 especifica el cálculo de columna y axis = 1 especifica el cálculo de la fila.

Ejemplo 1
En este ejemplo, devolveremos el promedio total en cada fila.

#Pandas de Import del módulo Pyspark
de Pyspark Import Pandas
#Cree DataFrame de Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('student_lastName': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#PORFORM MEDE () AGREGACIÓN OPERACIÓN FILA WISE
Imprimir (Pyspark_Pandas.media (eje = 1))

Producción

0 93.666667
1 79.000000
2 94.666667
3 80.000000
4 77.000000
dtype: float64

Podemos ver que la operación promedio se realiza en cada fila.

Como, primera fila - (90+100+91)/3 = 93.666667

Ejemplo 2
En este ejemplo, devolveremos el promedio total en cada columna.

#Pandas de Import del módulo Pyspark
de Pyspark Import Pandas
#Cree DataFrame de Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('student_lastName': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#performan () columna de operación de agregación
Imprimir (Pyspark_Pandas.media (eje = 0))

Producción

Mark1 75.8
Mark2 85.8
Mark3 93.0
dtype: float64

Podemos ver que la operación promedio se realiza en cada columna.

Como, para la columna Mark1 - (90+78+90+54+67)/5 = 75.8.

pyspark.pandas.Marco de datos.min ()

Min () en Pyspark Pandas DataFrame se usa para un valor mínimo sobre las filas y columnas.

Si desea devolver el valor mínimo en cada fila, debe especificar el eje = 1, y si desea devolver el mínimo en cada columna, debe especificar el eje = 0. Por defecto, realizará en cuanto a columnas.

Sintaxis

pyspark_pandas.Min (eje = 0/axis = 1)

Donde pyspark_pandas es el marco de datos Pyspark Pandas.

Parámetro
Solo se necesita un parámetro.

Axis-0 especifica el cálculo de columna y axis = 1 especifica el cálculo de la fila.

Ejemplo 1
En este ejemplo, devolveremos el valor mínimo en cada fila.

#Pandas de Import del módulo Pyspark
de Pyspark Import Pandas
#Cree DataFrame de Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('student_lastName': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#perform min () Agregación Operación Row Wise
Imprimir (Pyspark_Pandas.min (eje = 1))

Producción

0 90
1 67
2 90
3 54
4 67
dtype: int64

Podemos ver que la agregación min () se realiza en cada fila.

Como, primera fila - mínimo (90,100,91) = 90

Ejemplo 2
En este ejemplo, devolveremos el valor mínimo en cada columna.

#Pandas de Import del módulo Pyspark
de Pyspark Import Pandas
#Cree DataFrame de Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('student_lastName': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#perform min () columna de operación de agregación
Imprimir (Pyspark_Pandas.min (eje = 0))

Producción

Mark1 54
Mark2 67
Mark3 87
dtype: int64

Podemos ver que la agregación min () se realiza en cada columna.

Como, para la columna Mark1 - Min (90,78,90,54,67) = 54.

pyspark.pandas.Marco de datos.max ()

max () en el Pyspark Pandas DataFrame se usa para el máximo valor sobre las filas y columnas.

Si desea devolver el valor máximo en cada fila, debe especificar el eje = 1, y si desea devolver el máximo en cada columna, debe especificar el eje = 0. Por defecto, realizará en cuanto a columnas.

Sintaxis

pyspark_pandas.max (axis = 0/axis = 1)

Donde pyspark_pandas es el marco de datos Pyspark Pandas.

Parámetro
Solo se necesita un parámetro.

Axis-0 especifica el cálculo de columna y axis = 1 especifica el cálculo de la fila.

Ejemplo 1
En este ejemplo, devolveremos el valor máximo en cada fila.

#Pandas de Import del módulo Pyspark
de Pyspark Import Pandas
#Cree DataFrame de Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('student_lastName': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#perform max () Roda de operación de agregación Wise
Imprimir (Pyspark_Pandas.max (eje = 1))

Producción

0 100
1 92
2 98
3 97
4 87
dtype: int64

Podemos ver que la agregación max () se realiza en cada fila.

Como, primera fila - máximo (90,100,91) = 100

Ejemplo 2
En este ejemplo, devolveremos el valor máximo en cada columna.

#Pandas de Import del módulo Pyspark
de Pyspark Import Pandas
#Cree DataFrame de Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('student_lastName': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#perform max () columna de operación de agregación
Imprimir (Pyspark_Pandas.max (eje = 0))

Producción

Mark1 90
Mark2 100
Mark3 98
dtype: int64

Podemos ver que la agregación max () se realiza en cada columna.

Como, para la columna Mark1 - Max (90,78,90,54,67) = 90.

Conclusión

En este tutorial Pyspark Pandas DataFrame, vimos cuatro funciones de agregación diferentes realizadas en el marco de datos. Es posible calcular a través de la fila y la columna con los parámetros del eje. suma () devolverá la suma total, avg () se usa para devolver el promedio total, Min () se usa para devolver el valor mínimo y Max () devolverá el valor máximo.