RDD significa conjuntos de datos distribuidos resilientes. Podemos llamar a RDD como una estructura de datos fundamental en Apache Spark. Almacenará los datos en forma de filas y columnas como un marcado de datos.
Necesitamos importar RDD del Pyspark.módulo RDD.
En Pyspark, para crear datos o un marcador de datos, tenemos que usar el método paralelize ().
Sintaxis:
Spark_app.sparkcontext.Paralelizar (datos)Donde los datos pueden ser un dimensional (datos lineales) o datos bidimensionales (datos de columna de fila).
En este tutorial, veremos sobre las operaciones Pyspark Rdd RechT () y Distint ().
Pyspark RDD - SINTRAT ()
sustraer() en RDD es similar a la operación de diferencia establecida que devolverá el nuevo RDD que incluye los elementos presentes en el primer RDD pero no presente en el segundo RDD.
Entonces, necesitamos dos RDD para realizar esta operación.
Sintaxis:
Rdd_data1.Restar (rdd_data2)Dónde:
Ejemplo 1:
En este ejemplo, crearemos dos RDD con datos numéricos - Sujets_1 y Sujets_2 y realizaremos sustrando () en dos RDD.
#Importa el módulo PysparkProducción:
Sujetos_1 RDD: [100, 34, 56, 54, 45]Desde la salida, podemos ver que hay 5 elementos en el RDDS.
En la primera operación, estamos realizando restar en los sujetos_1 con los sujetos_2. Aquí 100 y 54 están presentes en los sujetos_1 pero no en los sujetos_2. Entonces, fueron devueltos.
En la segunda operación, estamos realizando sustracción en los sujetos_2 con los sujetos_1. Aquí, 89 y 90 están presentes en los sujetos_2 pero no en los sujetos_1. Entonces, fueron devueltos.
Ejemplo 2:
En este ejemplo, crearemos dos RDD con datos de cadena - Sujets_1 y Sujets_2 y realizaremos sustrando () en dos RDD.
#Importa el módulo PysparkProducción:
Sujets_1 rdd: ['Linux', 'Bash', 'JavaScript']Desde la salida, podemos ver que hay 5 elementos en el RDDS.
En la primera operación, estamos realizando sustracción en los sujetos_1 con los sujetos_2. Aquí, 'Bash' y 'JavaScript' están presentes en los sujetos_1 pero no en los sujetos_2. Entonces, fueron devueltos.
En la segunda operación, estamos realizando restar en los sujetos_2 con los sujetos_1. Aquí 'Java' está presente en los sujetos_2 pero no en los sujetos_1. Entonces, se devuelve.
Pyspark Rdd - Distint ()
distinto() en RDD se usa para devolver solo valores únicos de RDD. Se aplica solo en un RDD
Por lo tanto, necesitamos un RDD para realizar esta operación. No se necesitan parámetros.
Sintaxis:
Rdd_data.distinto()Donde, rdd_data1 es el primer RDD.
Ejemplo 1:
En este ejemplo, crearemos un rdd stemts_1 con 10 valores numéricos y devolveremos valores únicos aplicando operación distinta ().
#Importa el módulo PysparkProducción:
Sujetos_1 RDD: [34, 56, 54, 45, 45, 56, 54, 4, 3, 3]Creamos un RDD con 10 valores enteros que incluyen duplicados. Después de aplicar distintos () para devolver solo valores únicos.
Ejemplo 2:
En este ejemplo, crearemos un rdd stemts_1 con 5 valores de cadena y devolveremos valores únicos aplicando operación distinta ().
#Importa el módulo PysparkProducción:
Sujetos_1 rdd: ['java', 'java', 'python', 'javaScript', 'javaScript']Creamos un RDD con 5 valores de cadena que incluyen duplicados. Después de eso aplicamos distintos () para devolver solo valores únicos. Los valores únicos devueltos son - Java, Python y JavaScript.
Conclusión
En este tutorial de Pyspark RDD, discutimos los métodos de resta () y distintos ().Restar () como se aplica en dos RDDS. Se usa para devolver los elementos presentes en el primer RDD pero no presente en el segundo. RDD.distinto () se aplica en un solo RDD que se utiliza para devolver elementos únicos del RDD.