Pyspark Pandas DataFrame Groupby

“En Python, Pyspark es un módulo Spark utilizado para proporcionar un tipo similar de procesamiento como Spark usando DataFrame, que almacenará los datos dados en formato de fila y columna.

Pyspark: Pandas DataFrame representa el Pandas DataFrame, pero contiene el Pyspark DataFrame internamente.

PANDAS Support de la estructura de datos del marco de datos, y los pandas se importan desde el módulo Pyspark.

Antes de eso, debe instalar el módulo Pyspark."

Dominio

PIP install Pyspark

Sintaxis para importar

de Pyspark Import Pandas

Después de eso, podemos crear o usar DataFrame desde el módulo Pandas.

Sintaxis para crear Pandas DataFrame

pyspark.pandas.Marco de datos()

Podemos aprobar un diccionario o lista de listas con valores.

Creemos un marco de datos de Pandas a través de Pyspark que tiene cuatro columnas y cinco filas.

#Pandas de Import del módulo Pyspark
de Pyspark Import Pandas
#Cree DataFrame de Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('s_name': ['Ram', 'Sukanya', 'Sumita', 'Sumita', 'Ram'], 'Mark1': [90,56,78,54,67], 'Mark2': [ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
Imprimir (pyspark_pandas)

Producción

Ahora, entraremos en nuestro tutorial.

GroupBy () se utiliza para agrupar las filas similares en el marco de datos Pyspark Pandas. Después de agrupar podemos realizar operaciones estadísticas como la media (), sum (), min () y max (). Veremos uno por uno con Groupby ().

pyspark.pandas.Marco de datos.Groupby () con media ()

GroupBy () se utiliza para agrupar las filas similares en el marco de datos Pyspark Pandas y devolver los valores promedio para cada fila agrupada.

Sintaxis

pyspark_pandas.Groupby ([columna/s]).significar()

Dónde,

Pyspark_pandas es el Pyspark Pandas DataFrame
La columna es el nombre de la columna en el que los valores similares se agrupan en esta columna

Ejemplo
En este ejemplo, devolveremos el promedio total de datos formados a partir de un grupo: columna S_NAME.

Producción

Podemos ver que hay dos filas similares.

RAM - 2 valores se agrupan
Sumita - 2 valores se agrupan
Sukanya - 1 valor se agrupa

Después de eso, se devolvió el promedio total para las tres columnas.

pyspark.pandas.Marco de datos.Groupby () con suma ()

GroupBy () se utiliza para agrupar las filas similares en el marco de datos Pyspark Pandas y devolver la suma total para cada fila agrupada.

Sintaxis

pyspark_pandas.Groupby ([columna/s]).suma()

Dónde,

Pyspark_pandas es el Pyspark Pandas DataFrame
La columna es el nombre de la columna en el que los valores similares se agrupan en esta columna

Ejemplo
En este ejemplo, devolveremos la suma total de datos formados a partir de un grupo - columna S_NAME.

Producción

Podemos ver que hay dos filas similares.

RAM - 2 valores se agrupan
Sumita - 2 valores se agrupan
Sukanya - 1 valor se agrupa

Después de eso, se devolvió la suma total para las tres columnas.

pyspark.pandas.Marco de datos.Groupby () con min ()

GroupBy () se utiliza para agrupar las filas similares en el marco de datos Pyspark Pandas y devolver el valor mínimo para cada fila agrupada.

Sintaxis

pyspark_pandas.Groupby ([columna/s]).min ()

Dónde,

Pyspark_pandas es el Pyspark Pandas DataFrame
La columna es el nombre de la columna en el que los valores similares se agrupan en esta columna

Ejemplo
En este ejemplo, devolveremos el mínimo de datos formados desde un grupo - columna S_NAME.

Producción

Podemos ver que hay dos filas similares.

RAM - 2 valores se agrupan
Sumita - 2 valores se agrupan
Sukanya - 1 valor se agrupa

Después de eso, el valor mínimo se devuelve para las tres columnas.

pyspark.pandas.Marco de datos.Groupby () con max ()

GroupBy () se utiliza para agrupar las filas similares en el marco de datos Pyspark Pandas y devolver el valor máximo para cada fila agrupada.

Sintaxis

pyspark_pandas.Groupby ([columna/s]).max ()

Dónde,

Pyspark_pandas es el Pyspark Pandas DataFrame
La columna es el nombre de la columna en el que los valores similares se agrupan en esta columna

Ejemplo
En este ejemplo, devolveremos el máximo de datos formados desde un grupo - columna S_NAME.

Producción

Podemos ver que hay dos filas similares.

RAM - 2 valores se agrupan
Sumita - 2 valores se agrupan
Sukanya - 1 valor se agrupa

Después de eso, el valor máximo se devuelve para las tres columnas.

Conclusión

En este tutorial Pyspark Pandas DataFrame Groupby (), vemos qué es Groupby y cómo aplicar Groupby () con funciones estadísticas como Mean (), Min (), Max () y Sum ().

Pitón

¿Cómo verifico si una cadena está vacía en Python?

Función del operador no, Len (), la función Strip (), el método ==, el método __eq __ (), o no + STR...

Lorenzo Morales

Pitón

Etiquetas del eje marino

Los hachas.Funciones de la biblioteca Set () , Matplotlib, o las funciones set_xlabel () y set_ylabe...

Andrés Barrientos

OS de Windows

¿Qué es el administrador de paquetes de Windows?

Windows Package Manager o Winget es una herramienta poderosa para instalar y administrar paquetes de...

Mariana Cotto