Pyspark: Pandas DataFrame representa el Pandas DataFrame, pero contiene el Pyspark DataFrame internamente.
PANDAS Support de la estructura de datos del marco de datos, y los pandas se importan desde el módulo Pyspark.
Antes de eso, debe instalar el módulo Pyspark."
Dominio
PIP install PysparkSintaxis para importar
de Pyspark Import PandasDespués de eso, podemos crear o usar DataFrame desde el módulo Pandas.
Sintaxis para crear Pandas DataFrame
pyspark.pandas.Marco de datos()Podemos aprobar un diccionario o lista de listas con valores.
Creemos un marco de datos de Pandas a través de Pyspark que tiene cuatro columnas y cinco filas.
#Pandas de Import del módulo PysparkProducción
Ahora, entraremos en nuestro tutorial.
GroupBy () se utiliza para agrupar las filas similares en el marco de datos Pyspark Pandas. Después de agrupar podemos realizar operaciones estadísticas como la media (), sum (), min () y max (). Veremos uno por uno con Groupby ().
pyspark.pandas.Marco de datos.Groupby () con media ()
GroupBy () se utiliza para agrupar las filas similares en el marco de datos Pyspark Pandas y devolver los valores promedio para cada fila agrupada.
Sintaxis
pyspark_pandas.Groupby ([columna/s]).significar()Dónde,
Ejemplo
En este ejemplo, devolveremos el promedio total de datos formados a partir de un grupo: columna S_NAME.
Producción
Podemos ver que hay dos filas similares.
Después de eso, se devolvió el promedio total para las tres columnas.
pyspark.pandas.Marco de datos.Groupby () con suma ()
GroupBy () se utiliza para agrupar las filas similares en el marco de datos Pyspark Pandas y devolver la suma total para cada fila agrupada.
Sintaxis
pyspark_pandas.Groupby ([columna/s]).suma()Dónde,
Ejemplo
En este ejemplo, devolveremos la suma total de datos formados a partir de un grupo - columna S_NAME.
Producción
Podemos ver que hay dos filas similares.
Después de eso, se devolvió la suma total para las tres columnas.
pyspark.pandas.Marco de datos.Groupby () con min ()
GroupBy () se utiliza para agrupar las filas similares en el marco de datos Pyspark Pandas y devolver el valor mínimo para cada fila agrupada.
Sintaxis
pyspark_pandas.Groupby ([columna/s]).min ()Dónde,
Ejemplo
En este ejemplo, devolveremos el mínimo de datos formados desde un grupo - columna S_NAME.
Producción
Podemos ver que hay dos filas similares.
Después de eso, el valor mínimo se devuelve para las tres columnas.
pyspark.pandas.Marco de datos.Groupby () con max ()
GroupBy () se utiliza para agrupar las filas similares en el marco de datos Pyspark Pandas y devolver el valor máximo para cada fila agrupada.
Sintaxis
pyspark_pandas.Groupby ([columna/s]).max ()Dónde,
Ejemplo
En este ejemplo, devolveremos el máximo de datos formados desde un grupo - columna S_NAME.
Producción
Podemos ver que hay dos filas similares.
Después de eso, el valor máximo se devuelve para las tres columnas.
Conclusión
En este tutorial Pyspark Pandas DataFrame Groupby (), vemos qué es Groupby y cómo aplicar Groupby () con funciones estadísticas como Mean (), Min (), Max () y Sum ().