Pyspark - Union & Unionall

Pyspark - Union & Unionall
En Python, Pyspark es un módulo Spark utilizado para proporcionar un tipo similar de procesamiento como Spark usando DataFrame. Podemos agregar filas/datos del segundo marco de datos al primer marco de datos utilizando dos métodos: union () y unionall (). Ambos métodos son los mismos. El método Unionall () está en desuso en los 2.0 versión de Pyspark, y se reemplaza por el método union (). Antes de conocer estos métodos, creemos dos marcos de datos de Pyspark.

Ejemplo 1:
En el siguiente ejemplo, vamos a crear el PySpark DataFrame con 5 filas y 6 columnas y mostrar usando el método show ():

#Importa el módulo Pyspark
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear datos de estudiante con 5 filas y 6 atributos
Students1 = ['rollno': '001', 'nombre': 'sravan', 'edad': 23, 'altura': 5.79, 'Peso': 67, 'Dirección': 'Guntur',
'Rollno': '002', 'Nombre': 'ojaswi', 'edad': 16, 'altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '003', 'Nombre': 'Gnanesh Chowdary', 'Age': 7, 'Altura': 2.79, 'Peso': 17, 'Dirección': 'Patna',
'rollno': '004', 'nombre': 'rohith', 'edad': 9, 'altura': 3.69, 'Peso': 28, 'Dirección': 'Hyd',
'Rollno': '005', 'Nombre': 'Sridevi', 'Age': 37, 'Altura': 5.59, 'Peso': 54, 'Dirección': 'Hyd']
# Crea el DataFrame
DF = Spark_App.Createdataframe (estudiantes1)
# Muestra DataFrame
df.espectáculo()

Producción:

Ejemplo 2:
En el siguiente ejemplo, vamos a crear el PySpark DataFrame con 3 filas y 6 columnas y mostrar usando el método show ():

#Importa el módulo Pyspark
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear datos de estudiante con 5 filas y 6 atributos
Students2 = ['Rollno': '056', 'Nombre': 'Vinay', 'Age': 23, 'Altura': 5.79, 'Peso': 67, 'Dirección': 'Tamilnadu',
'rollno': '045', 'nombre': 'bhanu', 'edad': 16, 'altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '032', 'Nombre': 'Jyothika ChowDary', 'Age': 7, 'Altura': 2.79, 'Peso': 17, 'Dirección': 'Delhi']
# Crea el DataFrame
DF2 = Spark_App.Createdataframe (estudiantes2)
# Muestra el segundo marco de datos
DF2.espectáculo()

Producción:

Función Pyspark - Union ()

La función Union () agregará filas de uno o más marcos de datos al primer cuadro de datos. Veremos cómo agregar filas desde el segundo marco de datos al primer cuadro de datos.

Sintaxis:

First_DataFrame.Union (Second_DataFrame)

Dónde:

  1. First_DataFrame es la primera entrada DataFrame.
  2. Second_DataFrame es la segunda entrada DataFrame.

Ejemplo:

En este ejemplo, aplicamos la función union () para agregar el segundo marco de datos al primero

Marco de datos. Finalmente, estamos mostrando DataFrame usando el método show ():

#Importa el módulo Pyspark
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear datos de estudiante con 5 filas y 6 atributos
Students1 = ['rollno': '001', 'nombre': 'sravan', 'edad': 23, 'altura': 5.79, 'Peso': 67, 'Dirección': 'Guntur',
'Rollno': '002', 'Nombre': 'ojaswi', 'edad': 16, 'altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '003', 'Nombre': 'Gnanesh Chowdary', 'Age': 7, 'Altura': 2.79, 'Peso': 17, 'Dirección': 'Patna',
'rollno': '004', 'nombre': 'rohith', 'edad': 9, 'altura': 3.69, 'Peso': 28, 'Dirección': 'Hyd',
'Rollno': '005', 'Nombre': 'Sridevi', 'Age': 37, 'Altura': 5.59, 'Peso': 54, 'Dirección': 'Hyd']
# Crea el DataFrame
DF = Spark_App.Createdataframe (estudiantes1)
# Crear datos de estudiante con 5 filas y 6 atributos
Students2 = ['Rollno': '056', 'Nombre': 'Vinay', 'Age': 23, 'Altura': 5.79, 'Peso': 67, 'Dirección': 'Tamilnadu',
'rollno': '045', 'nombre': 'bhanu', 'edad': 16, 'altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '032', 'Nombre': 'Jyothika ChowDary', 'Age': 7, 'Altura': 2.79, 'Peso': 17, 'Dirección': 'Delhi']
# Crea el DataFrame
DF2 = Spark_App.Createdataframe (estudiantes2)
# realizar union ()
df.Unión (DF2).espectáculo()

Producción:

Función Pyspark - UnionAll ()

La función UnionAll () agregará filas de uno o más marcos de datos a First DataFrame. Veremos cómo agregar filas desde el segundo marco de datos al primer cuadro de datos.

Sintaxis:

First_DataFrame.Unionall (Second_DataFrame)

Dónde:

  1. First_DataFrame es la primera entrada DataFrame.
  2. Second_DataFrame es la segunda entrada DataFrame.

Ejemplo:

En este ejemplo, aplicamos la función UnionAll () para agregar el segundo marco de datos al primer cuadro de datos. Finalmente, estamos mostrando DataFrame usando el método show ().

#Importa el módulo Pyspark
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear datos de estudiante con 5 filas y 6 atributos
Students1 = ['rollno': '001', 'nombre': 'sravan', 'edad': 23, 'altura': 5.79, 'Peso': 67, 'Dirección': 'Guntur',
'Rollno': '002', 'Nombre': 'ojaswi', 'edad': 16, 'altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '003', 'Nombre': 'Gnanesh Chowdary', 'Age': 7, 'Altura': 2.79, 'Peso': 17, 'Dirección': 'Patna',
'rollno': '004', 'nombre': 'rohith', 'edad': 9, 'altura': 3.69, 'Peso': 28, 'Dirección': 'Hyd',
'Rollno': '005', 'Nombre': 'Sridevi', 'Age': 37, 'Altura': 5.59, 'Peso': 54, 'Dirección': 'Hyd']
# Crea el DataFrame
DF = Spark_App.Createdataframe (estudiantes1)
# Crear datos de estudiante con 5 filas y 6 atributos
Students2 = ['Rollno': '056', 'Nombre': 'Vinay', 'Age': 23, 'Altura': 5.79, 'Peso': 67, 'Dirección': 'Tamilnadu',
'rollno': '045', 'nombre': 'bhanu', 'edad': 16, 'altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '032', 'Nombre': 'Jyothika ChowDary', 'Age': 7, 'Altura': 2.79, 'Peso': 17, 'Dirección': 'Delhi']
# Crea el DataFrame
DF2 = Spark_App.Createdataframe (estudiantes2)
# realizar unionall ()
df.Unionall (DF2).espectáculo()

Producción:

Conclusión

En este artículo, podemos agregar dos o más marcos de datos utilizando los métodos Union () y Unionall (). La funcionalidad de ambos métodos es la misma y se discute con ejemplos proporcionados. Esperamos que hayas encontrado este artículo útil. Echa un vistazo a más artículos de Sugerencia de Linux para consejos y tutoriales.