RDD significa conjuntos de datos distribuidos resilientes. Podemos llamar a RDD como una estructura de datos fundamental en Apache Spark.
Necesitamos importar RDD del Pyspark.módulo RDD.
En Pyspark para crear un RDD, podemos usar el método Parallelize ().
Sintaxis:
Spark_app.sparkcontext.Paralelizar (datos)Dónde:
Los datos pueden ser un dimensional (datos lineales) o dos dimensiones (datos de columna de fila).
En este tutorial de Pyspark RDD, veremos cómo realizar diferentes funciones de agregación en Pyspark RDD.
1. suma()
Sum () se usa para devolver el valor total (suma) en el RDD. No se necesitan parámetros.
Sintaxis:
Rdd_data.suma()Ejemplo:
En este ejemplo, creamos un RDD llamado Student_Marks con 20 elementos y devolvemos la suma de elementos totales de un RDD.
#Importa el módulo PysparkProducción:
1112De la salida anterior, podemos ver que la suma total de elementos en RDD es 1112.
2. min ()
Min () se usa para devolver el valor mínimo del RDD. No se necesitan parámetros.
Sintaxis:
Rdd_data.min ()Ejemplo:
En este ejemplo, creamos un RDD llamado Student_Marks con 20 elementos y devolvemos el valor mínimo de un RDD.
#Importa el módulo PysparkProducción:
21De la salida anterior, podemos ver que el valor mínimo en RDD es 21.
3. max ()
max () se usa para devolver el valor máximo del RDD. No se necesitan parámetros.
Sintaxis:
Rdd_data.max ()Ejemplo:
En este ejemplo, creamos un RDD llamado Student_Marks con 20 elementos y devolvemos el valor máximo de un RDD.
#Importa el módulo PysparkProducción
100De la salida anterior, podemos ver que el valor máximo en RDD es 100.
significar()
la media () se usa para devolver el valor promedio (media) en el RDD. No se necesitan parámetros.
Sintaxis:
Rdd_data.significar()Ejemplo:
En este ejemplo, creamos un RDD llamado Student_Marks con 20 elementos y devolvemos el promedio de elementos de un RDD.
#Importa el módulo PysparkProducción
55.6De la salida anterior, podemos ver que el valor promedio en RDD es de 55.6.
contar()
count () se usa para devolver los valores totales presentes en el RDD. No se necesitan parámetros.
Sintaxis:
Rdd_data.contar()Ejemplo:
En este ejemplo, creamos un RDD llamado Student_Marks con 20 elementos y devolvemos el recuento de elementos en un RDD.
#Importa el módulo PysparkProducción
20De la salida anterior, podemos ver que el número total de valores en RDD es 20.
Conclusión
En este tutorial de Pyspark, vimos cinco operaciones de agregación diferentes realizadas en RDD. Sum () se usa para devolver el valor total en un RDD. la media () se usa para devolver el promedio total de un RDD. min () y max () se utilizan para devolver valores mínimos y máximos. Si necesita devolver el número total de elementos presentes en un RDD, puede usar la función Count ().