Pyspark Rdd - Búsqueda, colección de colección

Pyspark Rdd - Búsqueda, colección de colección
En Python, Pyspark es un módulo de chispa utilizado para proporcionar un tipo de procesamiento similar como Spark.

RDD significa conjuntos de datos distribuidos resilientes. Podemos llamar a RDD como una estructura de datos fundamental en Apache Spark. Par de RDD almacena los elementos/valores en forma de pares de valores clave. Almacenará el par de valores clave en el formato (clave, valor).

Necesitamos importar RDD del Pyspark.módulo RDD.

En Pyspark para crear un RDD, podemos usar el método Parallelize ().

Sintaxis:

Spark_app.sparkcontext.Paralelizar (datos)

Donde los datos pueden ser un dimensional (datos lineales) o datos bidimensionales (datos de columna de fila).

Pyspark Rdd - Lookup ()

Lookup () es una acción en Par RDD, que se utiliza para devolver todos los valores asociados con una clave en una lista. Se realiza en un solo par RDD. Se necesita una clave como parámetro.

Sintaxis:

Rdd_data.Búsqueda (clave)

Parámetro:

La clave se refiere a la clave presente en el par RDD.

Ejemplo:

En este ejemplo, buscaremos las teclas- Python, JavaScript y Linux.

#Importa el módulo Pyspark
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
# Importar RDD de Pyspark.RDD
de Pyspark.RDD import rdd
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear 6 - pares de asignatura y calificación
Sujets_rating = Spark_App.sparkcontext.Paralelize ([('Python', 4), ('JavaScript', 2), ('Linux', 5), ('C#', 4),
('JavaScript', 4), ('Python', 3)])
#parejas actuales rdd
imprimir ("par rdd:", temas_rating.recolectar())
#get Busque para el Python Key
Imprimir ("Buscar el Python:", temas_rating.Búsqueda ('Python'))
#Obtenga la búsqueda para el JavaScript clave
imprimir ("Buscar el JavaScript:", temas_rating.Búsqueda ('JavaScript'))
#get Busque para el linux de la llave
Imprimir ("Buscar el Linux:", temas_rating.Búsqueda ('Linux'))

Producción:

par rdd: [('python', 4), ('javascript', 2), ('Linux', 5), ('C#', 4), ('JavaScript', 4), ('Python', 3 )
Busca la pitón: [4, 3]
Busca el JavaScript: [2, 4]
Busca el Linux: [5]

De la salida anterior, podemos ver que hay 2 valores que existe con Key-Python, por lo que devolvió 4 y 3. Hay 2 valores que existe con Key-JavaScript, por lo que devolvió 2 y 4. Solo hay 1 valor que existe con Key-Linux, por lo que regresó 1.

Pyspark Rdd - CollectMap ()

CollectMap () es una acción en el par RDD que se utiliza para devolver todos los valores en forma de un par de mapa (clave: valor). Se usa para proporcionar búsqueda. No se necesita parámetro.

Sintaxis:

Rdd_data.CollectMap ()

Ejemplo:

En este ejemplo, obtendremos valores de RDD usando CollectMap ().

#Importa el módulo Pyspark
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
# Importar RDD de Pyspark.RDD
de Pyspark.RDD import rdd
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear 6 - pares de asignatura y calificación
Sujets_rating = Spark_App.sparkcontext.Paralelize ([(('Linux', 5), ('C#', 4),
('JavaScript', 4), ('Python', 53)])
#Apply CollectMap () para devolver el RDD
imprimir (temas_rating.CollectMap ())

Producción:

'Linux': 5, 'C#': 4, 'JavaScript': 4, 'Python': 53

Podemos ver que RDD se devuelve en forma de clave: pares de valor.

Tenga en cuenta que si hay múltiples claves con diferentes valores, CollectMap () se recopilará devolviendo el valor actualizado con respecto a la clave.

Ejemplo:

#Importa el módulo Pyspark
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
# Importar RDD de Pyspark.RDD
de Pyspark.RDD import rdd
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear 6 - pares de asignatura y calificación
Sujets_rating = Spark_App.sparkcontext.Paralelize ([(('Linux', 5), ('C#', 4), ('JavaScript', 4),
('Python', 53), ('Linux', 45), ('C#', 44),])
#Apply CollectMap () para devolver el RDD
imprimir (temas_rating.CollectMap ())

Producción:

'Linux': 45, 'C#': 44, 'JavaScript': 4, 'Python': 53

Podemos ver que las teclas Linux y C# ocurrieron dos veces. La segunda vez los valores son 45 y 44. Por lo tanto, el CollectMap () regresa con los nuevos valores.

Conclusión

En este tutorial de Pyspark RDD, vimos cómo aplicar acciones de búsqueda () y coleccionar () en el par rdd. Lookup () se usa para devolver los valores asociados con la clave en una lista tomando la clave como un parámetro y coleccionar () Devuelve el RDD en forma de mapa.