Reorganizar las columnas en Pyspark DataFrame

En Python, Pyspark es un módulo Spark utilizado para proporcionar un tipo similar de procesamiento como Spark usando DataFrame.

Discutiremos diferentes escenarios para cambiar el orden de las columnas en Pyspark DataFrame.

Para todos los escenarios, estamos utilizando el método select (). Antes de pasar a los escenarios, crearemos primero Pyspark DataFrame.

Ejemplo:
Aquí vamos a crear Pyspark DataFrame con 5 filas y 6 columnas.

#Importa el módulo Pyspark
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear datos de estudiante con 5 filas y 6 atributos
estudiantes = ['Rollno': '001', 'Nombre': 'Sravan', 'Age': 23, 'Altura': 5.79, 'Peso': 67, 'Dirección': 'Guntur',
'Rollno': '002', 'Nombre': 'ojaswi', 'edad': 16, 'altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '003', 'Nombre': 'Gnanesh Chowdary', 'Age': 7, 'Altura': 2.79, 'Peso': 17, 'Dirección': 'Patna',
'rollno': '004', 'nombre': 'rohith', 'edad': 9, 'altura': 3.69, 'Peso': 28, 'Dirección': 'Hyd',
'Rollno': '005', 'Nombre': 'Sridevi', 'Age': 37, 'Altura': 5.59, 'Peso': 54, 'Dirección': 'Hyd']
# Crea el DataFrame
DF = Spark_App.Createdataframe (estudiantes)
#Disprazando el marco de datos
df.espectáculo()

Producción:

Escenario 1: reorganizar las columnas

En este escenario, utilizaremos solo el método select () para ordenar/reorganizar las columnas en el marco de datos de PySpark dado proporcionando una por una columna en el método.

Sintaxis:
marco de datos.Seleccionar ("columna1", ..., "columna")

Dónde:

DataFrame es la entrada Pyspark DataFrame
columnas son los nombres de la columna a reorganizar.

Ejemplo:
En este ejemplo, vamos a reorganizar las columnas en este orden: "dirección", "altura", "rollno", "nombre", "peso" y "edad". Luego, muestre el Método de DataFrame usando show ().

#Importa el módulo Pyspark
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear datos de estudiante con 5 filas y 6 atributos
estudiantes = ['Rollno': '001', 'Nombre': 'Sravan', 'Age': 23, 'Altura': 5.79, 'Peso': 67, 'Dirección': 'Guntur',
'Rollno': '002', 'Nombre': 'ojaswi', 'edad': 16, 'altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '003', 'Nombre': 'Gnanesh Chowdary', 'Age': 7, 'Altura': 2.79, 'Peso': 17, 'Dirección': 'Patna',
'rollno': '004', 'nombre': 'rohith', 'edad': 9, 'altura': 3.69, 'Peso': 28, 'Dirección': 'Hyd',
'Rollno': '005', 'Nombre': 'Sridevi', 'Age': 37, 'Altura': 5.59, 'Peso': 54, 'Dirección': 'Hyd']
# Crea el DataFrame
DF = Spark_App.Createdataframe (estudiantes)
#Rearrange las columnas en el orden - "Dirección", "Altura", "Rollno", "Nombre", "Peso", "Edad"
DF = DF.Seleccione ("Dirección", "Altura", "Rollno", "Nombre", "Peso", "Age")
#dispay el marco de datos
df.espectáculo()

Producción:

Escenario 2: reorganizar las columnas en orden ascendente

En este escenario, utilizaremos el método Sorted () junto con el método select () para reorganizar las columnas en el orden ascendente a través del método Sorted ().

Sintaxis:
marco de datos.Seleccionar (Ordenado (DataFrame.columnas, reversa = falso)))

Dónde:

DataFrame es la entrada Pyspark DataFrame
sorted () es el método que ordenará el marco de datos en orden ascendente. Tomará dos parámetros. El primer parámetro se refiere al método de columnas para seleccionar todas las columnas de DataFrame. El segundo parámetro se usa para reorganizar el marco de datos en orden ascendente si se establece en falso.

Ejemplo:
En este ejemplo, vamos a reorganizar las columnas en orden ascendente para mostrar el método show () show ().

#Importa el módulo Pyspark
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
#Importa la función col
de Pyspark.sql.Funciones Importar Col
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear datos de estudiante con 5 filas y 6 atributos
estudiantes = ['Rollno': '001', 'Nombre': 'Sravan', 'Age': 23, 'Altura': 5.79, 'Peso': 67, 'Dirección': 'Guntur',
'Rollno': '002', 'Nombre': 'ojaswi', 'edad': 16, 'altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '003', 'Nombre': 'Gnanesh Chowdary', 'Age': 7, 'Altura': 2.79, 'Peso': 17, 'Dirección': 'Patna',
'rollno': '004', 'nombre': 'rohith', 'edad': 9, 'altura': 3.69, 'Peso': 28, 'Dirección': 'Hyd',
'Rollno': '005', 'Nombre': 'Sridevi', 'Age': 37, 'Altura': 5.59, 'Peso': 54, 'Dirección': 'Hyd']
# Crea el DataFrame
DF = Spark_App.Createdataframe (estudiantes)
#Rearrange las columnas en orden ascendente
DF = DF.Seleccionar (Ordenado (DF.columnas, reversa = falso)))
#dispay el marco de datos
df.espectáculo()

Producción:

Escenario 3: reorganizar las columnas en orden descendente

En este escenario, utilizaremos el método Sorted () junto con el método select () para reorganizar las columnas en el orden descendente a través del método Sorted ().

Sintaxis:
marco de datos.Seleccionar (Ordenado (DataFrame.columnas, reversa = true)))

Dónde:

DataFrame es la entrada Pyspark DataFrame
sorted () es el método que ordenará el marco de datos en orden ascendente. Tomará dos parámetros. El primer parámetro se refiere al método de columnas para seleccionar todas las columnas de DataFrame. El segundo parámetro se usa para reorganizar el marco de datos en orden descendente si está configurado en verdadero.

Ejemplo:
En este ejemplo, vamos a reorganizar las columnas en orden descendente para mostrar el método show () show ().

#Importa el módulo Pyspark
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
#Importa la función col
de Pyspark.sql.Funciones Importar Col
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear datos de estudiante con 5 filas y 6 atributos
estudiantes = ['Rollno': '001', 'Nombre': 'Sravan', 'Age': 23, 'Altura': 5.79, 'Peso': 67, 'Dirección': 'Guntur',
'Rollno': '002', 'Nombre': 'ojaswi', 'edad': 16, 'altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '003', 'Nombre': 'Gnanesh Chowdary', 'Age': 7, 'Altura': 2.79, 'Peso': 17, 'Dirección': 'Patna',
'rollno': '004', 'nombre': 'rohith', 'edad': 9, 'altura': 3.69, 'Peso': 28, 'Dirección': 'Hyd',
'Rollno': '005', 'Nombre': 'Sridevi', 'Age': 37, 'Altura': 5.59, 'Peso': 54, 'Dirección': 'Hyd']
# Crea el DataFrame
DF = Spark_App.Createdataframe (estudiantes)
#Rearrange las columnas en orden descendente
DF = DF.Seleccionar (Ordenado (DF.columnas, reversa = true)))
#dispay el marco de datos
df.espectáculo()

Producción:

Conclusión

En este tutorial, discutimos cómo reorganizar las columnas en Pyspark DataFrame con tres escenarios aplicando el método select (). Hemos usado el método Sorted () junto con el método select () para reorganizar las columnas.

Windows

Solicitar permiso de TrustedInstaller resolver el problema

Qué hacer si TrustedInstaller no le permite eliminar una carpeta o archivo y escribe que el acceso s...

Gilberto García

Windows

Cómo averiguar en qué se ocupa el lugar de disco?

Programas gratuitos para analizar un lugar en un disco duro, lo que le permite averiguar qué espacio...

Soledad Adorno

Windows

Discos gratis para discos de grabación

Los mejores programas gratuitos para grabar discos CD, DVD y Blu-ray en Windows. Grabación simple y ...

Ariadna Arevalo