Pyspark - Funciones agregadas de la serie Pandas

Pyspark - Funciones agregadas de la serie Pandas
"En Python, Pyspark es un módulo Spark utilizado para proporcionar un tipo similar de procesamiento como Spark usando la serie, que almacenará los datos dados en una matriz (columna en Pyspark internamente).

PYSPARK - La serie Pandas representa la serie Pandas, pero posee la columna Pyspark internamente.

Estructura de datos de la serie de soporte de Pandas, y Pandas se importa del módulo Pyspark.

Antes de eso, debe instalar el módulo Pyspark."

Dominio

PIP install Pyspark

Sintaxis para importar

de Pyspark Import Pandas

Después de eso, podemos crear o usar la serie desde el módulo Pandas.

Sintaxis para crear la serie Pandas

pyspark.pandas.Serie()

Podemos aprobar una lista o lista de listas con valores.

Creemos una serie Pandas a través de Pyspark que tiene cinco valores numéricos.

#Pandas de Import del módulo Pyspark
de Pyspark Import Pandas
#CREATE Series con 5 elementos
pyspark_series = pandas.Serie ([90,56,78,54,0])
Imprimir (Pyspark_Series)

Producción

Ahora, entraremos en nuestro tutorial.

Las funciones agregadas se utilizan para realizar operaciones de agregación como Sum (), Min (), media () y max ().Estas operaciones funcionan solo en datos numéricos como entero, doble, etc

Vamos a verlos uno por uno.

pyspark.pandas.Serie.suma()

Sum () en la serie Pyspark Pandas se usa para devolver la suma total.

Sintaxis

pyspark_series.suma()

Donde Pyspark_Series es la serie Pyspark Pandas.

Ejemplo
Suma de retorno de la serie Pyspark Pyspark anterior.

#Pandas de Import del módulo Pyspark
de Pyspark Import Pandas
#CREATE Series con 5 elementos
pyspark_series = pandas.Serie ([90,56,78,54,0])
#suma de retorno
Imprimir (Pyspark_Series.suma())

Producción:

278
Laboral:
90+56+78+54+0 = 278.

pyspark.pandas.Serie.significar()

media () en la serie Pyspark Pandas se usa para devolver el promedio total.

Sintaxis

pyspark_series.significar()

Donde Pyspark_Series es la serie Pyspark Pandas.

Ejemplo
Promedio de retorno de la serie Pyspark Pyspark anterior.

#Pandas de Import del módulo Pyspark
de Pyspark Import Pandas
#CREATE Series con 5 elementos
pyspark_series = pandas.Serie ([90,56,78,54,0])
#promedio de retorno
Imprimir (Pyspark_Series.significar())

Producción

55.6
Laboral:
(90+56+78+54+0)/5 = 55.6.

pyspark.pandas.Serie.min ()

Min () en la serie Pyspark Pandas se usa para devolver el valor mínimo.

Sintaxis

pyspark_series.min ()

Donde Pyspark_Series es la serie Pyspark Pandas.

Ejemplo
Devolver valor mínimo de la serie Pyspark Pandas anterior.

#Pandas de Import del módulo Pyspark
de Pyspark Import Pandas
#CREATE Series con 5 elementos
pyspark_series = pandas.Serie ([90,56,78,54,0])
#return mínimo
Imprimir (Pyspark_Series.min ())

Producción

0
Laboral:
mínimo (90+56+78+54+0) = 0

pyspark.pandas.Serie.max ()

max () en la serie Pyspark Pandas se usa para devolver el valor máximo.

Sintaxis

pyspark_series.max ()

Donde Pyspark_Series es la serie Pyspark Pandas.

Ejemplo
Devolver el valor máximo de la serie Pyspark Pandas anterior.

#Pandas de Import del módulo Pyspark
de Pyspark Import Pandas
#CREATE Series con 5 elementos
pyspark_series = pandas.Serie ([90,56,78,54,0])
#return máximo
Imprimir (Pyspark_Series.max ())

Producción

90
Laboral:
máximo (90+56+78+54+0) = 90

Conclusión

En este tutorial de la serie Pyspark Pandas, vimos cuatro funciones de agregación diferentes realizadas en la serie. suma () devolverá la suma total, avg () se usa para devolver el promedio total, Min () se usa para devolver el valor mínimo y Max () devolverá el valor máximo.