Pyspark - Union & Unionall

En Python, Pyspark es un módulo Spark utilizado para proporcionar un tipo similar de procesamiento como Spark usando DataFrame. Podemos agregar filas/datos del segundo marco de datos al primer marco de datos utilizando dos métodos: union () y unionall (). Ambos métodos son los mismos. El método Unionall () está en desuso en los 2.0 versión de Pyspark, y se reemplaza por el método union (). Antes de conocer estos métodos, creemos dos marcos de datos de Pyspark.

Ejemplo 1:
En el siguiente ejemplo, vamos a crear el PySpark DataFrame con 5 filas y 6 columnas y mostrar usando el método show ():

#Importa el módulo Pyspark
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear datos de estudiante con 5 filas y 6 atributos
Students1 = ['rollno': '001', 'nombre': 'sravan', 'edad': 23, 'altura': 5.79, 'Peso': 67, 'Dirección': 'Guntur',
'Rollno': '002', 'Nombre': 'ojaswi', 'edad': 16, 'altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '003', 'Nombre': 'Gnanesh Chowdary', 'Age': 7, 'Altura': 2.79, 'Peso': 17, 'Dirección': 'Patna',
'rollno': '004', 'nombre': 'rohith', 'edad': 9, 'altura': 3.69, 'Peso': 28, 'Dirección': 'Hyd',
'Rollno': '005', 'Nombre': 'Sridevi', 'Age': 37, 'Altura': 5.59, 'Peso': 54, 'Dirección': 'Hyd']
# Crea el DataFrame
DF = Spark_App.Createdataframe (estudiantes1)
# Muestra DataFrame
df.espectáculo()

Producción:

Ejemplo 2:
En el siguiente ejemplo, vamos a crear el PySpark DataFrame con 3 filas y 6 columnas y mostrar usando el método show ():

#Importa el módulo Pyspark
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear datos de estudiante con 5 filas y 6 atributos
Students2 = ['Rollno': '056', 'Nombre': 'Vinay', 'Age': 23, 'Altura': 5.79, 'Peso': 67, 'Dirección': 'Tamilnadu',
'rollno': '045', 'nombre': 'bhanu', 'edad': 16, 'altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '032', 'Nombre': 'Jyothika ChowDary', 'Age': 7, 'Altura': 2.79, 'Peso': 17, 'Dirección': 'Delhi']
# Crea el DataFrame
DF2 = Spark_App.Createdataframe (estudiantes2)
# Muestra el segundo marco de datos
DF2.espectáculo()

Producción:

Función Pyspark - Union ()

La función Union () agregará filas de uno o más marcos de datos al primer cuadro de datos. Veremos cómo agregar filas desde el segundo marco de datos al primer cuadro de datos.

Sintaxis:

First_DataFrame.Union (Second_DataFrame)

Dónde:

First_DataFrame es la primera entrada DataFrame.
Second_DataFrame es la segunda entrada DataFrame.

Ejemplo:

En este ejemplo, aplicamos la función union () para agregar el segundo marco de datos al primero

Marco de datos. Finalmente, estamos mostrando DataFrame usando el método show ():

#Importa el módulo Pyspark
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear datos de estudiante con 5 filas y 6 atributos
Students1 = ['rollno': '001', 'nombre': 'sravan', 'edad': 23, 'altura': 5.79, 'Peso': 67, 'Dirección': 'Guntur',
'Rollno': '002', 'Nombre': 'ojaswi', 'edad': 16, 'altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '003', 'Nombre': 'Gnanesh Chowdary', 'Age': 7, 'Altura': 2.79, 'Peso': 17, 'Dirección': 'Patna',
'rollno': '004', 'nombre': 'rohith', 'edad': 9, 'altura': 3.69, 'Peso': 28, 'Dirección': 'Hyd',
'Rollno': '005', 'Nombre': 'Sridevi', 'Age': 37, 'Altura': 5.59, 'Peso': 54, 'Dirección': 'Hyd']
# Crea el DataFrame
DF = Spark_App.Createdataframe (estudiantes1)
# Crear datos de estudiante con 5 filas y 6 atributos
Students2 = ['Rollno': '056', 'Nombre': 'Vinay', 'Age': 23, 'Altura': 5.79, 'Peso': 67, 'Dirección': 'Tamilnadu',
'rollno': '045', 'nombre': 'bhanu', 'edad': 16, 'altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '032', 'Nombre': 'Jyothika ChowDary', 'Age': 7, 'Altura': 2.79, 'Peso': 17, 'Dirección': 'Delhi']
# Crea el DataFrame
DF2 = Spark_App.Createdataframe (estudiantes2)
# realizar union ()
df.Unión (DF2).espectáculo()

Producción:

Función Pyspark - UnionAll ()

La función UnionAll () agregará filas de uno o más marcos de datos a First DataFrame. Veremos cómo agregar filas desde el segundo marco de datos al primer cuadro de datos.

Sintaxis:

First_DataFrame.Unionall (Second_DataFrame)

Dónde:

First_DataFrame es la primera entrada DataFrame.
Second_DataFrame es la segunda entrada DataFrame.

Ejemplo:

En este ejemplo, aplicamos la función UnionAll () para agregar el segundo marco de datos al primer cuadro de datos. Finalmente, estamos mostrando DataFrame usando el método show ().

#Importa el módulo Pyspark
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear datos de estudiante con 5 filas y 6 atributos
Students1 = ['rollno': '001', 'nombre': 'sravan', 'edad': 23, 'altura': 5.79, 'Peso': 67, 'Dirección': 'Guntur',
'Rollno': '002', 'Nombre': 'ojaswi', 'edad': 16, 'altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '003', 'Nombre': 'Gnanesh Chowdary', 'Age': 7, 'Altura': 2.79, 'Peso': 17, 'Dirección': 'Patna',
'rollno': '004', 'nombre': 'rohith', 'edad': 9, 'altura': 3.69, 'Peso': 28, 'Dirección': 'Hyd',
'Rollno': '005', 'Nombre': 'Sridevi', 'Age': 37, 'Altura': 5.59, 'Peso': 54, 'Dirección': 'Hyd']
# Crea el DataFrame
DF = Spark_App.Createdataframe (estudiantes1)
# Crear datos de estudiante con 5 filas y 6 atributos
Students2 = ['Rollno': '056', 'Nombre': 'Vinay', 'Age': 23, 'Altura': 5.79, 'Peso': 67, 'Dirección': 'Tamilnadu',
'rollno': '045', 'nombre': 'bhanu', 'edad': 16, 'altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '032', 'Nombre': 'Jyothika ChowDary', 'Age': 7, 'Altura': 2.79, 'Peso': 17, 'Dirección': 'Delhi']
# Crea el DataFrame
DF2 = Spark_App.Createdataframe (estudiantes2)
# realizar unionall ()
df.Unionall (DF2).espectáculo()

Producción:

Conclusión

En este artículo, podemos agregar dos o más marcos de datos utilizando los métodos Union () y Unionall (). La funcionalidad de ambos métodos es la misma y se discute con ejemplos proporcionados. Esperamos que hayas encontrado este artículo útil. Echa un vistazo a más artículos de Sugerencia de Linux para consejos y tutoriales.

Pitón

Astype numpy

El método astype () del módulo Numpy se usa para cambiar el tipo de datos de una matriz Numpy en otr...

Daniela Villaseñor

Pitón

¿Cómo verifico si una cadena está vacía en Python?

Función del operador no, Len (), la función Strip (), el método ==, el método __eq __ (), o no + STR...

Lorenzo Morales

OS de Windows

¿Cuál es la diferencia entre Windows Top 10 Home y Pro

La versión Pro es para usuarios profesionales y tiene más herramientas administrativas, mientras que...

Pilar Melgar