RDD significa conjuntos de datos distribuidos resilientes. Podemos llamar a RDD como una estructura de datos fundamental en Apache Spark. Par de RDD almacena los elementos/valores en forma de pares de valores clave. Almacenará el par de valores clave en el formato (clave, valor).
Necesitamos importar RDD del Pyspark.módulo RDD.
En Pyspark para crear un RDD, podemos usar el método Parallelize ().
Sintaxis:
Spark_app.sparkcontext.Paralelizar (datos)Donde los datos pueden ser un dimensional (datos lineales) o datos bidimensionales (datos de columna de fila).
Pyspark Rdd - setName ()
setName () en Pyspark RDD se usa para establecer el nombre del RDD. Toma el nombre como parámetro.
Sintaxis:
Rdd_data.setName ('rdd_name')Parámetro:
'Rdd_name' es el nombre del rdd a asignar.
Ejemplo:
En este ejemplo, estamos creando un RDD llamado temas_rating y establece el nombre de este RDD en sub_rate.
#Importa el módulo PysparkProducción:
[('Python', 4), ('JavaScript', 2), ('Linux', 5), ('C#', 4), ('JavaScript', 4), ('Python', 3)]]Podemos ver que RDD está configurado en sub_rate y muestra el método RDD usando Collect ().
Pyspark Rdd - Nombre ()
nombre () en Pyspark Rdd se usa para devolver el nombre del RDD. No se necesitan parámetros.
Sintaxis:
Datos de RDD.nombre()Ejemplo:
En este ejemplo, estamos creando un RDD llamado temas_rating y establecemos el nombre de este RDD en sub_rate y luego obtenga el nombre.
#Importa el módulo PysparkProducción:
SubmarinaPodemos ver que el nombre del rdd es sub_rate.
Conclusión
En este artículo, vimos cómo establecer el nombre de un RDD usando setName () y cómo devolver el nombre de un RDD usando el método Nombre ().