Pyspark Pandas DataFrame Groupby

Pyspark Pandas DataFrame Groupby
“En Python, Pyspark es un módulo Spark utilizado para proporcionar un tipo similar de procesamiento como Spark usando DataFrame, que almacenará los datos dados en formato de fila y columna.

Pyspark: Pandas DataFrame representa el Pandas DataFrame, pero contiene el Pyspark DataFrame internamente.

PANDAS Support de la estructura de datos del marco de datos, y los pandas se importan desde el módulo Pyspark.

Antes de eso, debe instalar el módulo Pyspark."

Dominio

PIP install Pyspark

Sintaxis para importar

de Pyspark Import Pandas

Después de eso, podemos crear o usar DataFrame desde el módulo Pandas.

Sintaxis para crear Pandas DataFrame

pyspark.pandas.Marco de datos()

Podemos aprobar un diccionario o lista de listas con valores.

Creemos un marco de datos de Pandas a través de Pyspark que tiene cuatro columnas y cinco filas.

#Pandas de Import del módulo Pyspark
de Pyspark Import Pandas
#Cree DataFrame de Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('s_name': ['Ram', 'Sukanya', 'Sumita', 'Sumita', 'Ram'], 'Mark1': [90,56,78,54,67], 'Mark2': [ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
Imprimir (pyspark_pandas)

Producción

Ahora, entraremos en nuestro tutorial.

GroupBy () se utiliza para agrupar las filas similares en el marco de datos Pyspark Pandas. Después de agrupar podemos realizar operaciones estadísticas como la media (), sum (), min () y max (). Veremos uno por uno con Groupby ().

pyspark.pandas.Marco de datos.Groupby () con media ()

GroupBy () se utiliza para agrupar las filas similares en el marco de datos Pyspark Pandas y devolver los valores promedio para cada fila agrupada.

Sintaxis

pyspark_pandas.Groupby ([columna/s]).significar()

Dónde,

  1. Pyspark_pandas es el Pyspark Pandas DataFrame
  2. La columna es el nombre de la columna en el que los valores similares se agrupan en esta columna

Ejemplo
En este ejemplo, devolveremos el promedio total de datos formados a partir de un grupo: columna S_NAME.

#Pandas de Import del módulo Pyspark
de Pyspark Import Pandas
#Cree DataFrame de Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('s_name': ['Ram', 'Sukanya', 'Sumita', 'Sumita', 'Ram'], 'Mark1': [90,56,78,54,67], 'Mark2': [ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
#group por s_name y devuelve marcas promedio de filas agrupadas
Imprimir (Pyspark_Pandas.Groupby (['s_name']).significar())

Producción

Podemos ver que hay dos filas similares.

  1. RAM - 2 valores se agrupan
  2. Sumita - 2 valores se agrupan
  3. Sukanya - 1 valor se agrupa

Después de eso, se devolvió el promedio total para las tres columnas.

pyspark.pandas.Marco de datos.Groupby () con suma ()

GroupBy () se utiliza para agrupar las filas similares en el marco de datos Pyspark Pandas y devolver la suma total para cada fila agrupada.

Sintaxis

pyspark_pandas.Groupby ([columna/s]).suma()

Dónde,

  1. Pyspark_pandas es el Pyspark Pandas DataFrame
  2. La columna es el nombre de la columna en el que los valores similares se agrupan en esta columna

Ejemplo
En este ejemplo, devolveremos la suma total de datos formados a partir de un grupo - columna S_NAME.

#Pandas de Import del módulo Pyspark
de Pyspark Import Pandas
#Cree DataFrame de Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('s_name': ['Ram', 'Sukanya', 'Sumita', 'Sumita', 'Ram'], 'Mark1': [90,56,78,54,67], 'Mark2': [ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
#group por s_name y suma de retorno de marcas de filas agrupadas
Imprimir (Pyspark_Pandas.Groupby (['s_name']).suma())

Producción

Podemos ver que hay dos filas similares.

  1. RAM - 2 valores se agrupan
  2. Sumita - 2 valores se agrupan
  3. Sukanya - 1 valor se agrupa

Después de eso, se devolvió la suma total para las tres columnas.

pyspark.pandas.Marco de datos.Groupby () con min ()

GroupBy () se utiliza para agrupar las filas similares en el marco de datos Pyspark Pandas y devolver el valor mínimo para cada fila agrupada.

Sintaxis

pyspark_pandas.Groupby ([columna/s]).min ()

Dónde,

  1. Pyspark_pandas es el Pyspark Pandas DataFrame
  2. La columna es el nombre de la columna en el que los valores similares se agrupan en esta columna

Ejemplo
En este ejemplo, devolveremos el mínimo de datos formados desde un grupo - columna S_NAME.

#Pandas de Import del módulo Pyspark
de Pyspark Import Pandas
#Cree DataFrame de Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('s_name': ['Ram', 'Sukanya', 'Sumita', 'Sumita', 'Ram'], 'Mark1': [90,56,78,54,67], 'Mark2': [ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
#group por s_name y devuelve marcas mínimas de filas agrupadas
Imprimir (Pyspark_Pandas.Groupby (['s_name']).min ())

Producción

Podemos ver que hay dos filas similares.

  1. RAM - 2 valores se agrupan
  2. Sumita - 2 valores se agrupan
  3. Sukanya - 1 valor se agrupa

Después de eso, el valor mínimo se devuelve para las tres columnas.

pyspark.pandas.Marco de datos.Groupby () con max ()

GroupBy () se utiliza para agrupar las filas similares en el marco de datos Pyspark Pandas y devolver el valor máximo para cada fila agrupada.

Sintaxis

pyspark_pandas.Groupby ([columna/s]).max ()

Dónde,

  1. Pyspark_pandas es el Pyspark Pandas DataFrame
  2. La columna es el nombre de la columna en el que los valores similares se agrupan en esta columna

Ejemplo
En este ejemplo, devolveremos el máximo de datos formados desde un grupo - columna S_NAME.

#Pandas de Import del módulo Pyspark
de Pyspark Import Pandas
#Cree DataFrame de Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('s_name': ['Ram', 'Sukanya', 'Sumita', 'Sumita', 'Ram'], 'Mark1': [90,56,78,54,67], 'Mark2': [ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
#group por s_name y devuelve marcas máximas de filas agrupadas
Imprimir (Pyspark_Pandas.Groupby (['s_name']).max ())

Producción

Podemos ver que hay dos filas similares.

  1. RAM - 2 valores se agrupan
  2. Sumita - 2 valores se agrupan
  3. Sukanya - 1 valor se agrupa

Después de eso, el valor máximo se devuelve para las tres columnas.

Conclusión

En este tutorial Pyspark Pandas DataFrame Groupby (), vemos qué es Groupby y cómo aplicar Groupby () con funciones estadísticas como Mean (), Min (), Max () y Sum ().