Pyspark Rdd - Restar, distinto

Pyspark Rdd - Restar, distinto
En Python, Pyspark es un módulo Spark utilizado para proporcionar un tipo similar de procesamiento como Spark usando DataFrame.

RDD significa conjuntos de datos distribuidos resilientes. Podemos llamar a RDD como una estructura de datos fundamental en Apache Spark. Almacenará los datos en forma de filas y columnas como un marcado de datos.

Necesitamos importar RDD del Pyspark.módulo RDD.

En Pyspark, para crear datos o un marcador de datos, tenemos que usar el método paralelize ().

Sintaxis:

Spark_app.sparkcontext.Paralelizar (datos)

Donde los datos pueden ser un dimensional (datos lineales) o datos bidimensionales (datos de columna de fila).

En este tutorial, veremos sobre las operaciones Pyspark Rdd RechT () y Distint ().

Pyspark RDD - SINTRAT ()

sustraer() en RDD es similar a la operación de diferencia establecida que devolverá el nuevo RDD que incluye los elementos presentes en el primer RDD pero no presente en el segundo RDD.

Entonces, necesitamos dos RDD para realizar esta operación.

Sintaxis:

Rdd_data1.Restar (rdd_data2)

Dónde:

  1. Rdd_data1 es el primer RDD
  2. Rdd_data2 es el segundo rdd.

Ejemplo 1:

En este ejemplo, crearemos dos RDD con datos numéricos - Sujets_1 y Sujets_2 y realizaremos sustrando () en dos RDD.

#Importa el módulo Pyspark
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
# Importar RDD de Pyspark.RDD
de Pyspark.RDD import rdd
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear 5 - Marcas de sujeto
Sujetos_1 = Spark_App.sparkcontext.Paralelice ([100,34,56,54,45])
#display subjets_1 rdd
imprimir ("Sujems_1 Rdd:", Sujets_1.recolectar())
# Crear 5 - Marcas de sujeto
Sujetos_2 = Spark_App.sparkcontext.Paralelice ([90,89,34,56,45])
#display subjets_2 rdd
imprimir ("Sujets_2 Rdd:", Sujets_2.recolectar())
#PERFORM SINTRAT () Operación en dos RDD
PRIMIS ("SINTRAT () OPERACIÓN EN SUMPLETS_1 CON SUJETS_2:", SUMPORTS_1.Restar (Sujetos_2).recolectar())
#PERFORM SINTRAT () Operación en dos RDD
PRIMIS ("SINTRAT () OPERACIÓN EN SUMPLETS_2 CON SUJETS_1:", SUMPORTS_2.Restar (Sujetos_1).recolectar())

Producción:

Sujetos_1 RDD: [100, 34, 56, 54, 45]
Sujetos_2 Rdd: [90, 89, 34, 56, 45]
Operación reste () en los sujetos_1 con sujetos_2: [100, 54]
Operación reste () en los sujetos_2 con sujetos_1: [89, 90]

Desde la salida, podemos ver que hay 5 elementos en el RDDS.

En la primera operación, estamos realizando restar en los sujetos_1 con los sujetos_2. Aquí 100 y 54 están presentes en los sujetos_1 pero no en los sujetos_2. Entonces, fueron devueltos.

En la segunda operación, estamos realizando sustracción en los sujetos_2 con los sujetos_1. Aquí, 89 y 90 están presentes en los sujetos_2 pero no en los sujetos_1. Entonces, fueron devueltos.

Ejemplo 2:

En este ejemplo, crearemos dos RDD con datos de cadena - Sujets_1 y Sujets_2 y realizaremos sustrando () en dos RDD.

#Importa el módulo Pyspark
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
# Importar RDD de Pyspark.RDD
de Pyspark.RDD import rdd
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear 3 - Nombres de asignaturas
Sujetos_1 = Spark_App.sparkcontext.Paralelize (["Linux", "Bash", "JavaScript"))
#display subjets_1 rdd
imprimir ("Sujems_1 Rdd:", Sujets_1.recolectar())
# Crear 2 - nombres de asignaturas
Sujetos_2 = Spark_App.sparkcontext.Paralelize (["Linux", "Java"])
#display subjets_2 rdd
imprimir ("Sujets_2 Rdd:", Sujets_2.recolectar())
#PERFORM SINTRAT () Operación en dos RDD
PRIMIS ("SINTRAT () OPERACIÓN EN SUMPLETS_1 CON SUJETS_2:", SUMPORTS_1.Restar (Sujetos_2).recolectar())
#PERFORM SINTRAT () Operación en dos RDD
PRIMIS ("SINTRAT () OPERACIÓN EN SUMPLETS_2 CON SUJETS_1:", SUMPORTS_2.Restar (Sujetos_1).recolectar())

Producción:

Sujets_1 rdd: ['Linux', 'Bash', 'JavaScript']
Sujetos_2 rdd: ['Linux', 'Java']
Operación de sustrato () en temas_1 con temas_2: ['bash', 'javaScript']
Operación de restas en los sujetos_2 con temas_1: ['java']

Desde la salida, podemos ver que hay 5 elementos en el RDDS.

En la primera operación, estamos realizando sustracción en los sujetos_1 con los sujetos_2. Aquí, 'Bash' y 'JavaScript' están presentes en los sujetos_1 pero no en los sujetos_2. Entonces, fueron devueltos.

En la segunda operación, estamos realizando restar en los sujetos_2 con los sujetos_1. Aquí 'Java' está presente en los sujetos_2 pero no en los sujetos_1. Entonces, se devuelve.

Pyspark Rdd - Distint ()

distinto() en RDD se usa para devolver solo valores únicos de RDD. Se aplica solo en un RDD

Por lo tanto, necesitamos un RDD para realizar esta operación. No se necesitan parámetros.

Sintaxis:

Rdd_data.distinto()

Donde, rdd_data1 es el primer RDD.

Ejemplo 1:

En este ejemplo, crearemos un rdd stemts_1 con 10 valores numéricos y devolveremos valores únicos aplicando operación distinta ().

#Importa el módulo Pyspark
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
# Importar RDD de Pyspark.RDD
de Pyspark.RDD import rdd
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear 10 - Marcas de sujeto
Sujetos_1 = Spark_App.sparkcontext.Paralelice ([34,56,54,45,45,56,54,4,3,3])
#display subjets_1 rdd
imprimir ("Sujems_1 Rdd:", Sujets_1.recolectar())
#PERFORM DISTINCT () Operación en RDD anterior.
imprimir ("distinto () operación en temas_1:", temas_1.distinto().recolectar())

Producción:

Sujetos_1 RDD: [34, 56, 54, 45, 45, 56, 54, 4, 3, 3]
Operación distinta () en los sujetos_1: [34, 56, 54, 4, 45, 3]

Creamos un RDD con 10 valores enteros que incluyen duplicados. Después de aplicar distintos () para devolver solo valores únicos.

Ejemplo 2:

En este ejemplo, crearemos un rdd stemts_1 con 5 valores de cadena y devolveremos valores únicos aplicando operación distinta ().

#Importa el módulo Pyspark
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
# Importar RDD de Pyspark.RDD
de Pyspark.RDD import rdd
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear 5 - Sujetos
Sujetos_1 = Spark_App.sparkcontext.Paralelize (['java', 'java', 'python', 'javascript', 'javaScript'])
#display subjets_1 rdd
imprimir ("Sujems_1 Rdd:", Sujets_1.recolectar())
#PERFORM DISTINCT () Operación en RDD anterior.
imprimir ("distinto () operación en temas_1:", temas_1.distinto().recolectar())

Producción:

Sujetos_1 rdd: ['java', 'java', 'python', 'javaScript', 'javaScript']
Operación distintiva () en temas_1: ['java', 'python', 'javaScript']]

Creamos un RDD con 5 valores de cadena que incluyen duplicados. Después de eso aplicamos distintos () para devolver solo valores únicos. Los valores únicos devueltos son - Java, Python y JavaScript.

Conclusión

En este tutorial de Pyspark RDD, discutimos los métodos de resta () y distintos ().Restar () como se aplica en dos RDDS. Se usa para devolver los elementos presentes en el primer RDD pero no presente en el segundo. RDD.distinto () se aplica en un solo RDD que se utiliza para devolver elementos únicos del RDD.