Discutiremos diferentes escenarios para cambiar el orden de las columnas en Pyspark DataFrame.
Para todos los escenarios, estamos utilizando el método select (). Antes de pasar a los escenarios, crearemos primero Pyspark DataFrame.
Ejemplo:
Aquí vamos a crear Pyspark DataFrame con 5 filas y 6 columnas.
#Importa el módulo Pyspark
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear datos de estudiante con 5 filas y 6 atributos
estudiantes = ['Rollno': '001', 'Nombre': 'Sravan', 'Age': 23, 'Altura': 5.79, 'Peso': 67, 'Dirección': 'Guntur',
'Rollno': '002', 'Nombre': 'ojaswi', 'edad': 16, 'altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '003', 'Nombre': 'Gnanesh Chowdary', 'Age': 7, 'Altura': 2.79, 'Peso': 17, 'Dirección': 'Patna',
'rollno': '004', 'nombre': 'rohith', 'edad': 9, 'altura': 3.69, 'Peso': 28, 'Dirección': 'Hyd',
'Rollno': '005', 'Nombre': 'Sridevi', 'Age': 37, 'Altura': 5.59, 'Peso': 54, 'Dirección': 'Hyd']
# Crea el DataFrame
DF = Spark_App.Createdataframe (estudiantes)
#Disprazando el marco de datos
df.espectáculo()
Producción:
Escenario 1: reorganizar las columnas
En este escenario, utilizaremos solo el método select () para ordenar/reorganizar las columnas en el marco de datos de PySpark dado proporcionando una por una columna en el método.
Sintaxis:
marco de datos.Seleccionar ("columna1", ..., "columna")
Dónde:
Ejemplo:
En este ejemplo, vamos a reorganizar las columnas en este orden: "dirección", "altura", "rollno", "nombre", "peso" y "edad". Luego, muestre el Método de DataFrame usando show ().
#Importa el módulo Pyspark
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear datos de estudiante con 5 filas y 6 atributos
estudiantes = ['Rollno': '001', 'Nombre': 'Sravan', 'Age': 23, 'Altura': 5.79, 'Peso': 67, 'Dirección': 'Guntur',
'Rollno': '002', 'Nombre': 'ojaswi', 'edad': 16, 'altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '003', 'Nombre': 'Gnanesh Chowdary', 'Age': 7, 'Altura': 2.79, 'Peso': 17, 'Dirección': 'Patna',
'rollno': '004', 'nombre': 'rohith', 'edad': 9, 'altura': 3.69, 'Peso': 28, 'Dirección': 'Hyd',
'Rollno': '005', 'Nombre': 'Sridevi', 'Age': 37, 'Altura': 5.59, 'Peso': 54, 'Dirección': 'Hyd']
# Crea el DataFrame
DF = Spark_App.Createdataframe (estudiantes)
#Rearrange las columnas en el orden - "Dirección", "Altura", "Rollno", "Nombre", "Peso", "Edad"
DF = DF.Seleccione ("Dirección", "Altura", "Rollno", "Nombre", "Peso", "Age")
#dispay el marco de datos
df.espectáculo()
Producción:
Escenario 2: reorganizar las columnas en orden ascendente
En este escenario, utilizaremos el método Sorted () junto con el método select () para reorganizar las columnas en el orden ascendente a través del método Sorted ().
Sintaxis:
marco de datos.Seleccionar (Ordenado (DataFrame.columnas, reversa = falso)))
Dónde:
Ejemplo:
En este ejemplo, vamos a reorganizar las columnas en orden ascendente para mostrar el método show () show ().
#Importa el módulo Pyspark
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
#Importa la función col
de Pyspark.sql.Funciones Importar Col
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear datos de estudiante con 5 filas y 6 atributos
estudiantes = ['Rollno': '001', 'Nombre': 'Sravan', 'Age': 23, 'Altura': 5.79, 'Peso': 67, 'Dirección': 'Guntur',
'Rollno': '002', 'Nombre': 'ojaswi', 'edad': 16, 'altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '003', 'Nombre': 'Gnanesh Chowdary', 'Age': 7, 'Altura': 2.79, 'Peso': 17, 'Dirección': 'Patna',
'rollno': '004', 'nombre': 'rohith', 'edad': 9, 'altura': 3.69, 'Peso': 28, 'Dirección': 'Hyd',
'Rollno': '005', 'Nombre': 'Sridevi', 'Age': 37, 'Altura': 5.59, 'Peso': 54, 'Dirección': 'Hyd']
# Crea el DataFrame
DF = Spark_App.Createdataframe (estudiantes)
#Rearrange las columnas en orden ascendente
DF = DF.Seleccionar (Ordenado (DF.columnas, reversa = falso)))
#dispay el marco de datos
df.espectáculo()
Producción:
Escenario 3: reorganizar las columnas en orden descendente
En este escenario, utilizaremos el método Sorted () junto con el método select () para reorganizar las columnas en el orden descendente a través del método Sorted ().
Sintaxis:
marco de datos.Seleccionar (Ordenado (DataFrame.columnas, reversa = true)))
Dónde:
Ejemplo:
En este ejemplo, vamos a reorganizar las columnas en orden descendente para mostrar el método show () show ().
#Importa el módulo Pyspark
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
#Importa la función col
de Pyspark.sql.Funciones Importar Col
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear datos de estudiante con 5 filas y 6 atributos
estudiantes = ['Rollno': '001', 'Nombre': 'Sravan', 'Age': 23, 'Altura': 5.79, 'Peso': 67, 'Dirección': 'Guntur',
'Rollno': '002', 'Nombre': 'ojaswi', 'edad': 16, 'altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '003', 'Nombre': 'Gnanesh Chowdary', 'Age': 7, 'Altura': 2.79, 'Peso': 17, 'Dirección': 'Patna',
'rollno': '004', 'nombre': 'rohith', 'edad': 9, 'altura': 3.69, 'Peso': 28, 'Dirección': 'Hyd',
'Rollno': '005', 'Nombre': 'Sridevi', 'Age': 37, 'Altura': 5.59, 'Peso': 54, 'Dirección': 'Hyd']
# Crea el DataFrame
DF = Spark_App.Createdataframe (estudiantes)
#Rearrange las columnas en orden descendente
DF = DF.Seleccionar (Ordenado (DF.columnas, reversa = true)))
#dispay el marco de datos
df.espectáculo()
Producción:
Conclusión
En este tutorial, discutimos cómo reorganizar las columnas en Pyspark DataFrame con tres escenarios aplicando el método select (). Hemos usado el método Sorted () junto con el método select () para reorganizar las columnas.