Pyspark - Método Columnrenamed

Pyspark - Método Columnrenamed
En Python, Pyspark es un módulo Spark utilizado para proporcionar un tipo similar de procesamiento como Spark usando DataFrame.

El método WithColumnrenamed () en Pyspark se usa para cambiar el nombre de las columnas existentes en el marco de datos de Pyspark.

Sintaxis:

Marco de datos.WithColumnrenamed ('Old_Column', 'New_Column')

Parámetros:

  1. Old_column es el nombre de la columna antigua
  2. new_column es el nuevo nombre para la columna anterior

Creemos el Pyspark DataFrame con 5 filas y 6 columnas y mostrárselo usando el método show ()

Ejemplo:

#Importa el módulo pyspaprk
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
#Importa la función col
de Pyspark.sql.Funciones Importar Col
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear datos de estudiante con 5 filas y 6 atributos
estudiantes = ['Rollno': '001', 'Nombre': 'Sravan', 'Age': 23, 'Altura': 5.79, 'Peso': 67, 'Dirección': 'Guntur',
'Rollno': '002', 'Nombre': 'ojaswi', 'edad': 16, 'altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '003', 'Nombre': 'Gnanesh Chowdary', 'Age': 7, 'Altura': 2.79, 'Peso': 17, 'Dirección': 'Patna',
'rollno': '004', 'nombre': 'rohith', 'edad': 9, 'altura': 3.69, 'Peso': 28, 'Dirección': 'Hyd',
'Rollno': '005', 'Nombre': 'Sridevi', 'Age': 37, 'Altura': 5.59, 'Peso': 54, 'Dirección': 'Hyd']
# Crea el DataFrame
DF = Spark_App.Createdataframe (estudiantes)
#Disprazando el marco de datos
df.espectáculo()

Producción:

Cambiaremos el nombre de la columna 'Dirección' a 'Dirección de estudiantes', columna 'Rollno' a 'ID de estudiantes' y columna 'Nombre' a 'Nombre de los estudiantes'.

Ejemplo:

#Importa el módulo pyspaprk
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear datos de estudiante con 5 filas y 6 atributos
estudiantes = ['Rollno': '001', 'Nombre': 'Sravan', 'Age': 23, 'Altura': 5.79, 'Peso': 67, 'Dirección': 'Guntur',
'Rollno': '002', 'Nombre': 'ojaswi', 'edad': 16, 'altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '003', 'Nombre': 'Gnanesh Chowdary', 'Age': 7, 'Altura': 2.79, 'Peso': 17, 'Dirección': 'Patna',
'rollno': '004', 'nombre': 'rohith', 'edad': 9, 'altura': 3.69, 'Peso': 28, 'Dirección': 'Hyd',
'Rollno': '005', 'Nombre': 'Sridevi', 'Age': 37, 'Altura': 5.59, 'Peso': 54, 'Dirección': 'Hyd']
# Crea el DataFrame
DF = Spark_App.Createdataframe (estudiantes)
#columna de nombre de renombre al nombre de los alumnos
DF = DF.WithColumnrenamed ("Nombre", "Nombre de los estudiantes")
#columna de dirección de renovado a los estudiantes nombre
DF = DF.WithColumnrenamed ("Dirección", "Dirección de estudiantes")
#Rename Rollno Columna para estudiantes
DF = DF.WithColumnrenamed ("Rollno", "Students Id")
#lets muestra el esquema
df.printschema ()

Producción:

raíz
|- Dirección de estudiantes: cadena (anulable = verdadero)
|- edad: larga (anulable = verdadero)
|- Altura: Double (Nullable = True)
|- Nombre de los estudiantes: String (Nullable = True)
|- ID de estudiantes: String (Nullable = True)
|- peso: largo (anulable = verdadero)

Si queremos múltiples nombres de columnas a la vez, entonces tenemos que usar la función withColumnrenamed () varias veces separada por el punto (.) operador

Sintaxis:

Marco de datos.WithColumnrenamed ('Old_Column1', 'New_Column') ... con Columnrenamed ('Old_Column2', 'New_Column') ... con Columnrenamed ('Old_Column3', 'New_Column').
.WithColumnrenamed ('Old_Column N', 'New_Column')

Ejemplo:

En este ejemplo, cambiará el nombre de la columna 'Dirección' a 'Dirección de estudiantes', columna 'Rollno' a 'ID de estudiantes' y columna de 'Nombre' a 'Nombre de los estudiantes' y finalmente mostrará el esquema.

#Importa el módulo pyspaprk
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear datos de estudiante con 5 filas y 6 atributos
estudiantes = ['Rollno': '001', 'Nombre': 'Sravan', 'Age': 23, 'Altura': 5.79, 'Peso': 67, 'Dirección': 'Guntur',
'Rollno': '002', 'Nombre': 'ojaswi', 'edad': 16, 'altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '003', 'Nombre': 'Gnanesh Chowdary', 'Age': 7, 'Altura': 2.79, 'Peso': 17, 'Dirección': 'Patna',
'rollno': '004', 'nombre': 'rohith', 'edad': 9, 'altura': 3.69, 'Peso': 28, 'Dirección': 'Hyd',
'Rollno': '005', 'Nombre': 'Sridevi', 'Age': 37, 'Altura': 5.59, 'Peso': 54, 'Dirección': 'Hyd']
# Crea el DataFrame
DF = Spark_App.Createdataframe (estudiantes)
#columna de nombre de renombre al nombre de los alumnos,
#columna de abogado al nombre de los estudiantes
#Rename Rollno Columna para estudiantes
DF = DF.WithColumnrenamed ("Nombre", "Nombre de los estudiantes").WithColumnrenamed ("Dirección", "Dirección de estudiantes").WithColumnrenamed ("Rollno", "Students Id")
#lets muestra el esquema
df.printschema ()

Producción:

raíz
|- Dirección de estudiantes: cadena (anulable = verdadero)
|- edad: larga (anulable = verdadero)
|- Altura: Double (Nullable = True)
|- Nombre de los estudiantes: String (Nullable = True)
|- ID de estudiantes: String (Nullable = True)
|- peso: largo (anulable = verdadero)

Conclusión

En este artículo, discutimos cómo cambiar el nombre de los nombres de la columna usando la función withColumnrenamed () y vimos cómo cambiar el nombre de varias columnas.