Pyspark RDD - Funciones agregadas

Pyspark RDD - Funciones agregadas
En Python, Pyspark es un módulo de chispa utilizado para proporcionar un tipo de procesamiento similar como Spark.

RDD significa conjuntos de datos distribuidos resilientes. Podemos llamar a RDD como una estructura de datos fundamental en Apache Spark.

Necesitamos importar RDD del Pyspark.módulo RDD.

En Pyspark para crear un RDD, podemos usar el método Parallelize ().

Sintaxis:

Spark_app.sparkcontext.Paralelizar (datos)

Dónde:

Los datos pueden ser un dimensional (datos lineales) o dos dimensiones (datos de columna de fila).

En este tutorial de Pyspark RDD, veremos cómo realizar diferentes funciones de agregación en Pyspark RDD.

1. suma()

Sum () se usa para devolver el valor total (suma) en el RDD. No se necesitan parámetros.

Sintaxis:

Rdd_data.suma()

Ejemplo:

En este ejemplo, creamos un RDD llamado Student_Marks con 20 elementos y devolvemos la suma de elementos totales de un RDD.

#Importa el módulo Pyspark
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
# Importar RDD de Pyspark.RDD
de Pyspark.RDD import rdd
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# crear datos de alumnos con 20 elementos
student_marks = spark_app.sparkcontext.Paralelice ([89,76,78,89,90,100,34,56,54,22,45,43,23,56,
78,21,34,34,56,34])
#PERFORM SUM () OPERACIÓN
Imprimir (Student_Marks.suma())

Producción:

1112

De la salida anterior, podemos ver que la suma total de elementos en RDD es 1112.

2. min ()

Min () se usa para devolver el valor mínimo del RDD. No se necesitan parámetros.

Sintaxis:

Rdd_data.min ()

Ejemplo:

En este ejemplo, creamos un RDD llamado Student_Marks con 20 elementos y devolvemos el valor mínimo de un RDD.

#Importa el módulo Pyspark
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
# Importar RDD de Pyspark.RDD
de Pyspark.RDD import rdd
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# crear datos de alumnos con 20 elementos
student_marks = spark_app.sparkcontext.Paralelice ([89,76,78,89,90,100,34,56,54,22,45,43,23,56,78,
21,34,34,56,34])
#perform min () operación
Imprimir (Student_Marks.min ())

Producción:

21

De la salida anterior, podemos ver que el valor mínimo en RDD es 21.

3. max ()

max () se usa para devolver el valor máximo del RDD. No se necesitan parámetros.

Sintaxis:

Rdd_data.max ()

Ejemplo:

En este ejemplo, creamos un RDD llamado Student_Marks con 20 elementos y devolvemos el valor máximo de un RDD.

#Importa el módulo Pyspark
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
# Importar RDD de Pyspark.RDD
de Pyspark.RDD import rdd
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# crear datos de alumnos con 20 elementos
student_marks = spark_app.sparkcontext.Paralelice ([89,76,78,89,90,100,34,56,54,22,45,43,23,56,78,
21,34,34,56,34])
#perform max () operación
Imprimir (Student_Marks.max ())

Producción

100

De la salida anterior, podemos ver que el valor máximo en RDD es 100.

significar()

la media () se usa para devolver el valor promedio (media) en el RDD. No se necesitan parámetros.

Sintaxis:

Rdd_data.significar()

Ejemplo:

En este ejemplo, creamos un RDD llamado Student_Marks con 20 elementos y devolvemos el promedio de elementos de un RDD.

#Importa el módulo Pyspark
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
# Importar RDD de Pyspark.RDD
de Pyspark.RDD import rdd
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# crear datos de alumnos con 20 elementos
student_marks = spark_app.sparkcontext.Paralelice ([89,76,78,89,90,100,34,56,54,22,45,43,23,56,
78,21,34,34,56,34])
#performan () operación
Imprimir (Student_Marks.significar())

Producción

55.6

De la salida anterior, podemos ver que el valor promedio en RDD es de 55.6.

contar()

count () se usa para devolver los valores totales presentes en el RDD. No se necesitan parámetros.

Sintaxis:

Rdd_data.contar()

Ejemplo:

En este ejemplo, creamos un RDD llamado Student_Marks con 20 elementos y devolvemos el recuento de elementos en un RDD.

#Importa el módulo Pyspark
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
# Importar RDD de Pyspark.RDD
de Pyspark.RDD import rdd
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# crear datos de alumnos con 20 elementos
student_marks = spark_app.sparkcontext.Paralelice ([89,76,78,89,90,100,34,56,54,22,45,43,23,56,
78,21,34,34,56,34])
#perform count () operación
Imprimir (Student_Marks.contar())

Producción

20

De la salida anterior, podemos ver que el número total de valores en RDD es 20.

Conclusión

En este tutorial de Pyspark, vimos cinco operaciones de agregación diferentes realizadas en RDD. Sum () se usa para devolver el valor total en un RDD. la media () se usa para devolver el promedio total de un RDD. min () y max () se utilizan para devolver valores mínimos y máximos. Si necesita devolver el número total de elementos presentes en un RDD, puede usar la función Count ().