Pyspark RDD - Nombre y nombre de setname

Pyspark RDD - Nombre y nombre de setname
En Python, Pyspark es un módulo de chispa utilizado para proporcionar un tipo de procesamiento similar como Spark.

RDD significa conjuntos de datos distribuidos resilientes. Podemos llamar a RDD como una estructura de datos fundamental en Apache Spark. Par de RDD almacena los elementos/valores en forma de pares de valores clave. Almacenará el par de valores clave en el formato (clave, valor).

Necesitamos importar RDD del Pyspark.módulo RDD.

En Pyspark para crear un RDD, podemos usar el método Parallelize ().

Sintaxis:

Spark_app.sparkcontext.Paralelizar (datos)

Donde los datos pueden ser un dimensional (datos lineales) o datos bidimensionales (datos de columna de fila).

Pyspark Rdd - setName ()

setName () en Pyspark RDD se usa para establecer el nombre del RDD. Toma el nombre como parámetro.

Sintaxis:

Rdd_data.setName ('rdd_name')

Parámetro:

'Rdd_name' es el nombre del rdd a asignar.

Ejemplo:

En este ejemplo, estamos creando un RDD llamado temas_rating y establece el nombre de este RDD en sub_rate.

#Importa el módulo Pyspark
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
# Importar RDD de Pyspark.RDD
de Pyspark.RDD import rdd
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear 6 - pares de asignatura y calificación
Sujets_rating = Spark_App.sparkcontext.Paralelize ([('Python', 4), ('JavaScript', 2), ('Linux', 5), ('C#', 4), ('JavaScript', 4), ('Python', 3) ])
#Set el nombre RDD en sub_rate
resultado = temas_rating.setName ('sub_rate')
#Dispray el RDD
Imprimir (resultado.recolectar())

Producción:

[('Python', 4), ('JavaScript', 2), ('Linux', 5), ('C#', 4), ('JavaScript', 4), ('Python', 3)]]

Podemos ver que RDD está configurado en sub_rate y muestra el método RDD usando Collect ().

Pyspark Rdd - Nombre ()

nombre () en Pyspark Rdd se usa para devolver el nombre del RDD. No se necesitan parámetros.

Sintaxis:

Datos de RDD.nombre()

Ejemplo:

En este ejemplo, estamos creando un RDD llamado temas_rating y establecemos el nombre de este RDD en sub_rate y luego obtenga el nombre.

#Importa el módulo Pyspark
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
# Importar RDD de Pyspark.RDD
de Pyspark.RDD import rdd
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear 6 - pares de asignatura y calificación
Sujets_rating = Spark_App.sparkcontext.Paralelize ([('Python', 4), ('JavaScript', 2), ('Linux', 5), ('C#', 4), ('JavaScript', 4), ('Python', 3) ])
#Set el nombre RDD en sub_rate
resultado = temas_rating.setName ('sub_rate')
#return el nombre de RDD
Imprimir (resultado.nombre())

Producción:

Submarina

Podemos ver que el nombre del rdd es sub_rate.

Conclusión

En este artículo, vimos cómo establecer el nombre de un RDD usando setName () y cómo devolver el nombre de un RDD usando el método Nombre ().