Pyspark - Seleccionar cláusula

Pyspark - Seleccionar cláusula
En Python, Pyspark es un módulo Spark utilizado para proporcionar un tipo similar de procesamiento como Spark usando DataFrame.

Select () en Pyspark se usa para seleccionar las columnas en DataFrame.

Podemos seleccionar columnas de muchas maneras.

Discutamos uno por uno. Antes de eso, tenemos que crear Pyspark DataFrame para la demostración.

Ejemplo:

Crearemos un marco de datos con 5 filas y 6 columnas y lo mostraremos usando el método show ().

#Importa el módulo pyspaprk
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear datos de estudiante con 5 filas y 6 atributos
estudiantes = ['Rollno': '001', 'Nombre': 'Sravan', 'Age': 23, 'Altura': 5.79, 'Peso': 67, 'Dirección': 'Guntur',
'Rollno': '002', 'Nombre': 'ojaswi', 'edad': 16, 'altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '003', 'Nombre': 'Gnanesh Chowdary', 'Age': 7, 'Altura': 2.79, 'Peso': 17, 'Dirección': 'Patna',
'rollno': '004', 'nombre': 'rohith', 'edad': 9, 'altura': 3.69, 'Peso': 28, 'Dirección': 'Hyd',
'Rollno': '005', 'Nombre': 'Sridevi', 'Age': 37, 'Altura': 5.59, 'Peso': 54, 'Dirección': 'Hyd']
# Crea el DataFrame
DF = Spark_App.Createdataframe (estudiantes)
#Data DataFrame
df.espectáculo()

Producción:

Método -1: usando los nombres de la columna

Aquí daremos nombres de columna directamente al método select (). Este método devuelve los datos presentes en esas columnas; Podemos dar múltiples columnas simultáneamente.

Sintaxis:

Marco de datos.Seleccione ("column_name", .. .)

Ejemplo:

En este ejemplo, vamos a seleccionar la columna de nombre y dirección del Pyspark DataFrame y mostrarlo usando el método Collect ()

#Importa el módulo pyspaprk
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear datos de estudiante con 5 filas y 6 atributos
estudiantes = ['Rollno': '001', 'Nombre': 'Sravan', 'Age': 23, 'Altura': 5.79, 'Peso': 67, 'Dirección': 'Guntur',
'Rollno': '002', 'Nombre': 'ojaswi', 'edad': 16, 'altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '003', 'Nombre': 'Gnanesh Chowdary', 'Age': 7, 'Altura': 2.79, 'Peso': 17, 'Dirección': 'Patna',
'rollno': '004', 'nombre': 'rohith', 'edad': 9, 'altura': 3.69, 'Peso': 28, 'Dirección': 'Hyd',
'Rollno': '005', 'Nombre': 'Sridevi', 'Age': 37, 'Altura': 5.59, 'Peso': 54, 'Dirección': 'Hyd']
# Crea el DataFrame
DF = Spark_App.Createdataframe (estudiantes)
#columnas de nombre y dirección de desplazamiento
df.Seleccione ("Nombre", "Dirección").recolectar()

Producción:

[Row (name = 'sravan', direcciones = 'Guntur'),
Fila (name = 'ojaswi', dirección = 'hyd'),
Fila (name = 'gnanesh chowDary', dirección = 'patna'),
Fila (name = 'rohith', dirección = 'hyd'),
Fila (name = 'sridevi', dirección = 'hyd')]

Método -2: Uso de nombres de columna con DataFrame

Aquí daremos nombres de columnas con DataFrame para seleccionar () Método. Este método devuelve los datos presentes en esas columnas; Podemos dar múltiples columnas simultáneamente.

Sintaxis:

Marco de datos.Seleccionar (DataFrame.column_name, .. .)

Ejemplo:

En este ejemplo, vamos a seleccionar la columna de nombre y dirección del Pyspark DataFrame y mostrarlo usando el método Collect ()

#Importa el módulo pyspaprk
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear datos de estudiante con 5 filas y 6 atributos
estudiantes = ['Rollno': '001', 'Nombre': 'Sravan', 'Age': 23, 'Altura': 5.79, 'Peso': 67, 'Dirección': 'Guntur',
'Rollno': '002', 'Nombre': 'ojaswi', 'edad': 16, 'altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '003', 'Nombre': 'Gnanesh Chowdary', 'Age': 7, 'Altura': 2.79, 'Peso': 17, 'Dirección': 'Patna',
'rollno': '004', 'nombre': 'rohith', 'edad': 9, 'altura': 3.69, 'Peso': 28, 'Dirección': 'Hyd',
'Rollno': '005', 'Nombre': 'Sridevi', 'Age': 37, 'Altura': 5.59, 'Peso': 54, 'Dirección': 'Hyd']
# Crea el DataFrame
DF = Spark_App.Createdataframe (estudiantes)
#columnas de nombre y dirección de desplazamiento
df.Seleccionar (DF.Nombre, DF.DIRECCIÓN).recolectar()

Producción:

[Row (name = 'sravan', direcciones = 'Guntur'),
Fila (name = 'ojaswi', dirección = 'hyd'),
Fila (name = 'gnanesh chowDary', dirección = 'patna'),
Fila (name = 'rohith', dirección = 'hyd'),
Fila (name = 'sridevi', dirección = 'hyd')]

Método -3: Uso del operador []

Aquí daremos nombres de columnas dentro del operador [] con DataFrame para seleccionar () Método. Este método devuelve los datos presentes en esas columnas; Podemos dar múltiples columnas simultáneamente.

Sintaxis:

Marco de datos.Seleccionar (DataFrame.column_name, .. .)

Ejemplo:

En este ejemplo, vamos a seleccionar la columna de nombre y dirección del Pyspark DataFrame y mostrarlo usando el método Collect ()

#Importa el módulo pyspaprk
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear datos de estudiante con 5 filas y 6 atributos
estudiantes = ['Rollno': '001', 'Nombre': 'Sravan', 'Age': 23, 'Altura': 5.79, 'Peso': 67, 'Dirección': 'Guntur',
'Rollno': '002', 'Nombre': 'ojaswi', 'edad': 16, 'altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '003', 'Nombre': 'Gnanesh Chowdary', 'Age': 7, 'Altura': 2.79, 'Peso': 17, 'Dirección': 'Patna',
'rollno': '004', 'nombre': 'rohith', 'edad': 9, 'altura': 3.69, 'Peso': 28, 'Dirección': 'Hyd',
'Rollno': '005', 'Nombre': 'Sridevi', 'Age': 37, 'Altura': 5.59, 'Peso': 54, 'Dirección': 'Hyd']
# Crea el DataFrame
DF = Spark_App.Createdataframe (estudiantes)
#columnas de nombre y dirección de desplazamiento
df.Seleccionar (DF ["Nombre"], DF ["Dirección"]).recolectar()

Producción:

[Row (name = 'sravan', direcciones = 'Guntur'),
Fila (name = 'ojaswi', dirección = 'hyd'),
Fila (name = 'gnanesh chowDary', dirección = 'patna'),
Fila (name = 'rohith', dirección = 'hyd'),
Fila (name = 'sridevi', dirección = 'hyd')]

Método -4: usando la función col

Aquí daremos nombres de columnas dentro de la función col para seleccionar () método. Esta función está disponible en Pyspark.Funciones SQL, que devuelven los datos presentes en esas columnas; Podemos dar varias columnas a la vez dentro del método select ().Sintaxis:

Marco de datos.Seleccionar (col ("column_name"), .. .)

Ejemplo:

En este ejemplo, vamos a seleccionar la columna de nombre y dirección del Método Pyspark DataFrame y Mostrar usando Collect ()

#Importa el módulo pyspaprk
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
#Importa la función col
de Pyspark.sql.Funciones Importar Col
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear datos de estudiante con 5 filas y 6 atributos
estudiantes = ['Rollno': '001', 'Nombre': 'Sravan', 'Age': 23, 'Altura': 5.79, 'Peso': 67, 'Dirección': 'Guntur',
'Rollno': '002', 'Nombre': 'ojaswi', 'edad': 16, 'altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '003', 'Nombre': 'Gnanesh Chowdary', 'Age': 7, 'Altura': 2.79, 'Peso': 17, 'Dirección': 'Patna',
'rollno': '004', 'nombre': 'rohith', 'edad': 9, 'altura': 3.69, 'Peso': 28, 'Dirección': 'Hyd',
'Rollno': '005', 'Nombre': 'Sridevi', 'Age': 37, 'Altura': 5.59, 'Peso': 54, 'Dirección': 'Hyd']
# Crea el DataFrame
DF = Spark_App.Createdataframe (estudiantes)
#columnas de nombre y dirección de desplazamiento
#con la función col
df.Seleccionar (col ("nombre"), col ("dirección")).recolectar()

Producción:

[Row (name = 'sravan', direcciones = 'Guntur'),
Fila (name = 'ojaswi', dirección = 'hyd'),
Fila (name = 'gnanesh chowDary', dirección = 'patna'),
Fila (name = 'rohith', dirección = 'hyd'),
Fila (name = 'sridevi', dirección = 'hyd')]

Conclusión

En este artículo, discutimos cómo seleccionar los datos de DataFrame, y discutimos 4 formas de seleccionar los datos utilizando nombres de columna con el método recopilar ().