Pyspark - Lit

Pyspark - Lit

En Python, Pyspark es un módulo Spark utilizado para proporcionar un tipo similar de procesamiento como Spark usando DataFrame. Lit () se usa Crear una nueva columna agregando valores a esa columna en Pyspark DataFrame. Antes de pasar a la sintaxis, crearemos Pyspark DataFrame.

Ejemplo:

Aquí, vamos a crear Pyspark DataFrame con 5 filas y 6 columnas.

#Importa el módulo Pyspark
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
#Importa la función col
de Pyspark.sql.Funciones Importar Col
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear datos de estudiante con 5 filas y 6 atributos
estudiantes = ['Rollno': '001', 'Nombre': 'Sravan', 'Age': 23, 'Altura': 5.79, 'Peso': 67, 'Dirección': 'Guntur',
'Rollno': '002', 'Nombre': 'ojaswi', 'edad': 16, 'altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '003', 'Nombre': 'Gnanesh Chowdary', 'Age': 7, 'Altura': 2.79, 'peso': 17,
'Dirección': 'Patna',
'rollno': '004', 'nombre': 'rohith', 'edad': 9, 'altura': 3.69, 'Peso': 28, 'Dirección': 'Hyd',
'Rollno': '005', 'Nombre': 'Sridevi', 'Age': 37, 'Altura': 5.59, 'Peso': 54, 'Dirección': 'Hyd']
# Crea el DataFrame
DF = Spark_App.Createdataframe (estudiantes)
#Disprazando el marco de datos
df.espectáculo()

Producción:

Lit () - Sintaxis

encendido ("valor").alias ("column_name")

Dónde,

  1. column_name es la nueva columna.
  2. El valor es el valor constante agregado a la nueva columna.

Tenemos que importar este método de Pyspark.sql.módulo de funciones.

Nota: Podemos agregar varias columnas a la vez

Usando el método select (), podemos usar el método lit ().

Select () se usa para mostrar las columnas de DataFrame. Junto con eso podemos agregar columnas/s usando el método lit ().

Sintaxis:

marco de datos.Seleccionar (col ("columna"), ..., lit ("valor").alias ("new_column"))

Dónde,

  1. La columna es el nombre de la columna existente para mostrar.
  2. new_column es el nuevo nombre de la columna que se agregará.
  3. El valor es el valor constante agregado a la nueva columna.

Ejemplo 1:

En este ejemplo, vamos a agregar una nueva columna llamada - Pincode y agregar un valor constante - 522112 a esta columna y seleccione la columna Rollno junto con Pincode del Pyspark DataFrame.

#Importa el módulo Pyspark
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
#Importa la función col, lit
de Pyspark.sql.Funciones Importar col, Lit
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear datos de estudiante con 5 filas y 6 atributos
estudiantes = ['Rollno': '001', 'Nombre': 'Sravan', 'Age': 23, 'Altura': 5.79, 'Peso': 67, 'Dirección': 'Guntur',
'Rollno': '002', 'Nombre': 'ojaswi', 'edad': 16, 'altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '003', 'Nombre': 'Gnanesh Chowdary', 'Age': 7, 'Altura': 2.79, 'peso': 17,
'Dirección': 'Patna',
'rollno': '004', 'nombre': 'rohith', 'edad': 9, 'altura': 3.69, 'Peso': 28, 'Dirección': 'Hyd',
'Rollno': '005', 'Nombre': 'Sridevi', 'Age': 37, 'Altura': 5.59, 'Peso': 54, 'Dirección': 'Hyd']
# Crea el DataFrame
DF = Spark_App.Createdataframe (estudiantes)
# Agregue una nueva columna Pincode con valor constante - 522112
final = df.Seleccione (col ("Rollno"), Lit ("522112").alias ("Pincode"))
#Disprazan el final de datos final
final.espectáculo()

Producción:

Ejemplo 2:

En este ejemplo, vamos a agregar nuevas columnas llamadas - Pincode y City y agregar un valor constante - 522112 y Guntur a estas columnas y seleccionar columna Rollno junto con Pincode y City desde el Pyspark DataFrame.

#Importa el módulo Pyspark
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
#Importa la función col, lit
de Pyspark.sql.Funciones Importar col, Lit
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear datos de estudiante con 5 filas y 6 atributos
estudiantes = ['Rollno': '001', 'Nombre': 'Sravan', 'Age': 23, 'Altura': 5.79, 'Peso': 67, 'Dirección': 'Guntur',
'Rollno': '002', 'Nombre': 'ojaswi', 'edad': 16, 'altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '003', 'Nombre': 'Gnanesh Chowdary', 'Age': 7, 'Altura': 2.79, 'peso': 17,
'Dirección': 'Patna',
'rollno': '004', 'nombre': 'rohith', 'edad': 9, 'altura': 3.69, 'Peso': 28, 'Dirección': 'Hyd',
'Rollno': '005', 'Nombre': 'Sridevi', 'Age': 37, 'Altura': 5.59, 'Peso': 54, 'Dirección': 'Hyd']
# Crea el DataFrame
DF = Spark_App.Createdataframe (estudiantes)
# Agregue una nueva columna: Pincode con valor constante - 522112
# Ciudad con valor constante - Guntur
final = df.Seleccione (col ("Rollno"), Lit ("522112").alias ("Pincode"), Lit ("Guntur").alias ("ciudad"))
#Disprazan el final de datos final
final.espectáculo()

Producción:

También podemos agregar valores a la nueva columna de los valores de columna existentes. Solo necesitamos proporcionar el nombre de la columna dentro del parámetro lit (valor).

Sintaxis:

marco de datos.Seleccionar (col (columna "), ..., lit (DataFrame.columna).alias ("new_column"))

Dónde,

  1. DataFrame es la entrada Pyspark DataFrame.
  2. La columna es el nombre de la columna existente para mostrar.
  3. new_column es el nuevo nombre de la columna que se agregará.
  4. El valor es el valor constante agregado a la nueva columna.

Ejemplo:

En este ejemplo, vamos a agregar una columna: "Pincode City" y asignar valores de la columna de dirección.

#Importa el módulo Pyspark
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
#Importa la función col, lit
de Pyspark.sql.Funciones Importar col, Lit
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear datos de estudiante con 5 filas y 6 atributos
estudiantes = ['Rollno': '001', 'Nombre': 'Sravan', 'Age': 23, 'Altura': 5.79, 'Peso': 67, 'Dirección': 'Guntur',
'Rollno': '002', 'Nombre': 'ojaswi', 'edad': 16, 'altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '003', 'Nombre': 'Gnanesh Chowdary', 'Age': 7, 'Altura': 2.79, 'peso': 17,
'Dirección': 'Patna',
'rollno': '004', 'nombre': 'rohith', 'edad': 9, 'altura': 3.69, 'Peso': 28, 'Dirección': 'Hyd',
'Rollno': '005', 'Nombre': 'Sridevi', 'Age': 37, 'Altura': 5.59, 'Peso': 54, 'Dirección': 'Hyd']
# Crea el DataFrame
DF = Spark_App.Createdataframe (estudiantes)
# Agregue una nueva columna: "Pincode City desde la columna de dirección
final = df.Seleccionar (col ("rollno"), encendido (df.DIRECCIÓN).alias ("Pincode City"))
#Disprazan el final de datos final
final.espectáculo()

Producción:

También podemos agregar los valores de columna existentes a través del índice de columna: la indexación de columna comienza con - 0.

Ejemplo:

En este ejemplo, vamos a agregar una columna: "Pincode City" y asignar valores desde la columna de dirección a través del índice de columna de dirección I I.mi., - 4.

#Importa el módulo Pyspark
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
#Importa la función col, lit
de Pyspark.sql.Funciones Importar col, Lit
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear datos de estudiante con 5 filas y 6 atributos
estudiantes = ['Rollno': '001', 'Nombre': 'Sravan', 'Age': 23, 'Altura': 5.79, 'Peso': 67, 'Dirección': 'Guntur',
'Rollno': '002', 'Nombre': 'ojaswi', 'edad': 16, 'altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '003', 'Nombre': 'Gnanesh Chowdary', 'Age': 7, 'Altura': 2.79, 'peso': 17,
'Dirección': 'Patna',
'rollno': '004', 'nombre': 'rohith', 'edad': 9, 'altura': 3.69, 'Peso': 28, 'Dirección': 'Hyd',
'Rollno': '005', 'Nombre': 'Sridevi', 'Age': 37, 'Altura': 5.59, 'Peso': 54, 'Dirección': 'Hyd']
# Crea el DataFrame
DF = Spark_App.Createdataframe (estudiantes)
# Agregue una nueva columna: "Pincode City desde la columna de dirección
final = df.Seleccionar (col ("Rollno"), Lit (DF [4]).alias ("Pincode City"))
#Disprazan el final de datos final
final.espectáculo()

Producción:

Conclusión

En este tutorial, discutimos el método lit () para crear una nueva columna con valores constantes. Puede ser posible asignar los valores de la columna existente especificando la columna en lugar del parámetro de valor a través del nombre de la columna, así como un índice de columna.