Reorganizar las columnas en Pyspark DataFrame

Reorganizar las columnas en Pyspark DataFrame
En Python, Pyspark es un módulo Spark utilizado para proporcionar un tipo similar de procesamiento como Spark usando DataFrame.

Discutiremos diferentes escenarios para cambiar el orden de las columnas en Pyspark DataFrame.

Para todos los escenarios, estamos utilizando el método select (). Antes de pasar a los escenarios, crearemos primero Pyspark DataFrame.

Ejemplo:
Aquí vamos a crear Pyspark DataFrame con 5 filas y 6 columnas.

#Importa el módulo Pyspark
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear datos de estudiante con 5 filas y 6 atributos
estudiantes = ['Rollno': '001', 'Nombre': 'Sravan', 'Age': 23, 'Altura': 5.79, 'Peso': 67, 'Dirección': 'Guntur',
'Rollno': '002', 'Nombre': 'ojaswi', 'edad': 16, 'altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '003', 'Nombre': 'Gnanesh Chowdary', 'Age': 7, 'Altura': 2.79, 'Peso': 17, 'Dirección': 'Patna',
'rollno': '004', 'nombre': 'rohith', 'edad': 9, 'altura': 3.69, 'Peso': 28, 'Dirección': 'Hyd',
'Rollno': '005', 'Nombre': 'Sridevi', 'Age': 37, 'Altura': 5.59, 'Peso': 54, 'Dirección': 'Hyd']
# Crea el DataFrame
DF = Spark_App.Createdataframe (estudiantes)
#Disprazando el marco de datos
df.espectáculo()

Producción:

Escenario 1: reorganizar las columnas

En este escenario, utilizaremos solo el método select () para ordenar/reorganizar las columnas en el marco de datos de PySpark dado proporcionando una por una columna en el método.

Sintaxis:
marco de datos.Seleccionar ("columna1", ..., "columna")

Dónde:

  1. DataFrame es la entrada Pyspark DataFrame
  2. columnas son los nombres de la columna a reorganizar.

Ejemplo:
En este ejemplo, vamos a reorganizar las columnas en este orden: "dirección", "altura", "rollno", "nombre", "peso" y "edad". Luego, muestre el Método de DataFrame usando show ().

#Importa el módulo Pyspark
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear datos de estudiante con 5 filas y 6 atributos
estudiantes = ['Rollno': '001', 'Nombre': 'Sravan', 'Age': 23, 'Altura': 5.79, 'Peso': 67, 'Dirección': 'Guntur',
'Rollno': '002', 'Nombre': 'ojaswi', 'edad': 16, 'altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '003', 'Nombre': 'Gnanesh Chowdary', 'Age': 7, 'Altura': 2.79, 'Peso': 17, 'Dirección': 'Patna',
'rollno': '004', 'nombre': 'rohith', 'edad': 9, 'altura': 3.69, 'Peso': 28, 'Dirección': 'Hyd',
'Rollno': '005', 'Nombre': 'Sridevi', 'Age': 37, 'Altura': 5.59, 'Peso': 54, 'Dirección': 'Hyd']
# Crea el DataFrame
DF = Spark_App.Createdataframe (estudiantes)
#Rearrange las columnas en el orden - "Dirección", "Altura", "Rollno", "Nombre", "Peso", "Edad"
DF = DF.Seleccione ("Dirección", "Altura", "Rollno", "Nombre", "Peso", "Age")
#dispay el marco de datos
df.espectáculo()

Producción:

Escenario 2: reorganizar las columnas en orden ascendente

En este escenario, utilizaremos el método Sorted () junto con el método select () para reorganizar las columnas en el orden ascendente a través del método Sorted ().

Sintaxis:
marco de datos.Seleccionar (Ordenado (DataFrame.columnas, reversa = falso)))

Dónde:

  1. DataFrame es la entrada Pyspark DataFrame
  2. sorted () es el método que ordenará el marco de datos en orden ascendente. Tomará dos parámetros. El primer parámetro se refiere al método de columnas para seleccionar todas las columnas de DataFrame. El segundo parámetro se usa para reorganizar el marco de datos en orden ascendente si se establece en falso.

Ejemplo:
En este ejemplo, vamos a reorganizar las columnas en orden ascendente para mostrar el método show () show ().

#Importa el módulo Pyspark
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
#Importa la función col
de Pyspark.sql.Funciones Importar Col
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear datos de estudiante con 5 filas y 6 atributos
estudiantes = ['Rollno': '001', 'Nombre': 'Sravan', 'Age': 23, 'Altura': 5.79, 'Peso': 67, 'Dirección': 'Guntur',
'Rollno': '002', 'Nombre': 'ojaswi', 'edad': 16, 'altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '003', 'Nombre': 'Gnanesh Chowdary', 'Age': 7, 'Altura': 2.79, 'Peso': 17, 'Dirección': 'Patna',
'rollno': '004', 'nombre': 'rohith', 'edad': 9, 'altura': 3.69, 'Peso': 28, 'Dirección': 'Hyd',
'Rollno': '005', 'Nombre': 'Sridevi', 'Age': 37, 'Altura': 5.59, 'Peso': 54, 'Dirección': 'Hyd']
# Crea el DataFrame
DF = Spark_App.Createdataframe (estudiantes)
#Rearrange las columnas en orden ascendente
DF = DF.Seleccionar (Ordenado (DF.columnas, reversa = falso)))
#dispay el marco de datos
df.espectáculo()

Producción:

Escenario 3: reorganizar las columnas en orden descendente

En este escenario, utilizaremos el método Sorted () junto con el método select () para reorganizar las columnas en el orden descendente a través del método Sorted ().

Sintaxis:
marco de datos.Seleccionar (Ordenado (DataFrame.columnas, reversa = true)))

Dónde:

  1. DataFrame es la entrada Pyspark DataFrame
  2. sorted () es el método que ordenará el marco de datos en orden ascendente. Tomará dos parámetros. El primer parámetro se refiere al método de columnas para seleccionar todas las columnas de DataFrame. El segundo parámetro se usa para reorganizar el marco de datos en orden descendente si está configurado en verdadero.

Ejemplo:
En este ejemplo, vamos a reorganizar las columnas en orden descendente para mostrar el método show () show ().

#Importa el módulo Pyspark
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
#Importa la función col
de Pyspark.sql.Funciones Importar Col
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear datos de estudiante con 5 filas y 6 atributos
estudiantes = ['Rollno': '001', 'Nombre': 'Sravan', 'Age': 23, 'Altura': 5.79, 'Peso': 67, 'Dirección': 'Guntur',
'Rollno': '002', 'Nombre': 'ojaswi', 'edad': 16, 'altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '003', 'Nombre': 'Gnanesh Chowdary', 'Age': 7, 'Altura': 2.79, 'Peso': 17, 'Dirección': 'Patna',
'rollno': '004', 'nombre': 'rohith', 'edad': 9, 'altura': 3.69, 'Peso': 28, 'Dirección': 'Hyd',
'Rollno': '005', 'Nombre': 'Sridevi', 'Age': 37, 'Altura': 5.59, 'Peso': 54, 'Dirección': 'Hyd']
# Crea el DataFrame
DF = Spark_App.Createdataframe (estudiantes)
#Rearrange las columnas en orden descendente
DF = DF.Seleccionar (Ordenado (DF.columnas, reversa = true)))
#dispay el marco de datos
df.espectáculo()

Producción:

Conclusión

En este tutorial, discutimos cómo reorganizar las columnas en Pyspark DataFrame con tres escenarios aplicando el método select (). Hemos usado el método Sorted () junto con el método select () para reorganizar las columnas.