Iterar sobre filas y columnas en el marco de datos de Pyspark

Iterar sobre filas y columnas en el marco de datos de Pyspark

En Python, Pyspark es un módulo Spark utilizado para proporcionar un tipo similar de procesamiento como Spark usando DataFrame.

Podemos atravesar el marco de datos de Pyspark a través de filas y columnas usando:

  1. recolectar()
  2. seleccionar()
  3. itrows ()

Antes de pasar a estos, crearemos Pyspark DataFrame.

Ejemplo:

Aquí, vamos a crear Pyspark DataFrame con 5 filas y 6 columnas.

#Importa el módulo Pyspark
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
#Importa la función col
de Pyspark.sql.Funciones Importar Col
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear datos de estudiante con 5 filas y 6 atributos
estudiantes = [
'Rollno': '001', 'nombre': 'sravan', 'edad': 23, 'altura': 5.79, 'Peso': 67, 'Dirección': 'Guntur',
'Rollno': '002', 'Nombre': 'ojaswi', 'edad': 16, 'altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '003', 'Nombre': 'Gnanesh Chowdary', 'Age': 7, 'Altura': 2.79, 'Peso': 17, 'Dirección': 'Patna',
'rollno': '004', 'nombre': 'rohith', 'edad': 9, 'altura': 3.69, 'Peso': 28, 'Dirección': 'Hyd',
'Rollno': '005', 'Nombre': 'Sridevi', 'Age': 37, 'Altura': 5.59, 'Peso': 54, 'Dirección': 'Hyd']
# Crea el DataFrame
DF = Spark_App.Createdataframe (estudiantes)
#Disprazando el marco de datos
df.espectáculo()

Producción:

recolectar()

Este método se utiliza para iterar las columnas en el marcado de datos PySpark dado. Se puede usar con bucle y toma nombres de columnas a través del iterador para iterar columnas. Finalmente, mostrará las filas de acuerdo con las columnas especificadas.

Sintaxis:

Para Row_Iterator en DataFrame.recolectar():
print (row_iterator ['columna'], .. .)

Dónde,

  1. DataFrame es la entrada Pyspark DataFrame.
  2. La columna es el nombre de la columna en Pyspark DataFrame.
  3. row_iterator es la variable iteradora utilizada para iterar los valores de fila en la columna especificada.

Ejemplo 1:

En este ejemplo, estamos iterando filas de las columnas Rollno, altura y dirección del final de datos de Pyspark.

#Importa el módulo Pyspark
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
#Importa la función col
de Pyspark.sql.Funciones Importar Col
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear datos de estudiante con 5 filas y 6 atributos
estudiantes = [
'Rollno': '001', 'nombre': 'sravan', 'edad': 23, 'altura': 5.79, 'Peso': 67, 'Dirección': 'Guntur',
'Rollno': '002', 'Nombre': 'ojaswi', 'edad': 16, 'altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '003', 'Nombre': 'Gnanesh Chowdary', 'Age': 7, 'Altura': 2.79, 'Peso': 17, 'Dirección': 'Patna',
'rollno': '004', 'nombre': 'rohith', 'edad': 9, 'altura': 3.69, 'Peso': 28, 'Dirección': 'Hyd',
'Rollno': '005', 'Nombre': 'Sridevi', 'Age': 37, 'Altura': 5.59, 'Peso': 54, 'Dirección': 'Hyd']
# Crea el DataFrame
DF = Spark_App.Createdataframe (estudiantes)
# iterar sobre columnas de rollno, altura y dirección
Para Row_Iterator en DF.recolectar():
print (row_iterator ['rollno'], row_iterator ['altura'], row_iterator ['dirección'])

Producción:

001 5.79 Guntur
002 3.79 Hyd
003 2.79 Patna
004 3.69 Hyd
005 5.59 Hyd

Ejemplo 2:

En este ejemplo, estamos iterando filas de la columna de nombre de la marca de datos de Pyspark anterior.

#Importa el módulo Pyspark
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
#Importa la función col
de Pyspark.sql.Funciones Importar Col
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear datos de estudiante con 5 filas y 6 atributos
estudiantes = [
'Rollno': '001', 'nombre': 'sravan', 'edad': 23, 'altura': 5.79, 'Peso': 67, 'Dirección': 'Guntur',
'Rollno': '002', 'Nombre': 'ojaswi', 'edad': 16, 'altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '003', 'Nombre': 'Gnanesh Chowdary', 'Age': 7, 'Altura': 2.79, 'Peso': 17, 'Dirección': 'Patna',
'rollno': '004', 'nombre': 'rohith', 'edad': 9, 'altura': 3.69, 'Peso': 28, 'Dirección': 'Hyd',
'Rollno': '005', 'Nombre': 'Sridevi', 'Age': 37, 'Altura': 5.59, 'Peso': 54, 'Dirección': 'Hyd']
# Crea el DataFrame
DF = Spark_App.Createdataframe (estudiantes)
# iterar sobre la columna de nombre
Para Row_Iterator en DF.recolectar():
print (row_iterator ['nombre'])

Producción:

sravan
ojaswi
chowdary de Gnanesh
rohith
sridevi

seleccionar()

Este método se utiliza para iterar las columnas en el marcado de datos PySpark dado. Se puede usar con el método coleccionista () y toma columna. Finalmente, mostrará las filas de acuerdo con las columnas especificadas.

Sintaxis:

marco de datos.Seleccionar ("columna", ...).recolectar()

Dónde,

  1. DataFrame es la entrada Pyspark DataFrame.
  2. La columna es el nombre de la columna en Pyspark DataFrame.

Ejemplo 1:

En este ejemplo, estamos iterando filas de la columna RollNo y Nombre de la marca de datos Pyspark anterior.

#Importa el módulo Pyspark
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
#Importa la función col
de Pyspark.sql.Funciones Importar Col
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear datos de estudiante con 5 filas y 6 atributos
estudiantes = [
'Rollno': '001', 'nombre': 'sravan', 'edad': 23, 'altura': 5.79, 'Peso': 67, 'Dirección': 'Guntur',
'Rollno': '002', 'Nombre': 'ojaswi', 'edad': 16, 'altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '003', 'Nombre': 'Gnanesh Chowdary', 'Age': 7, 'Altura': 2.79, 'Peso': 17, 'Dirección': 'Patna',
'rollno': '004', 'nombre': 'rohith', 'edad': 9, 'altura': 3.69, 'Peso': 28, 'Dirección': 'Hyd',
'Rollno': '005', 'Nombre': 'Sridevi', 'Age': 37, 'Altura': 5.59, 'Peso': 54, 'Dirección': 'Hyd']
# Crea el DataFrame
DF = Spark_App.Createdataframe (estudiantes)
#COLUMNAS DE ROLLO Y NOMBRES
df.Seleccionar ("Rollno", "Nombre").recolectar()

Producción:

[Fila (rollno = '001', name = 'sravan'),
Fila (rollno = '002', name = 'ojaswi'),
Fila (rollNo = '003', name = 'Gnanesh ChowDary'),
Fila (rollno = '004', name = 'Rohith'),
Fila (rollno = '005', name = 'sridevi')]

Ejemplo 2:

En este ejemplo, estamos iterando filas de la columna RollNo y de peso del marcado de datos de Pyspark anterior.

#Importa el módulo Pyspark
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
#Importa la función col
de Pyspark.sql.Funciones Importar Col
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear datos de estudiante con 5 filas y 6 atributos
estudiantes = [
'Rollno': '001', 'nombre': 'sravan', 'edad': 23, 'altura': 5.79, 'Peso': 67, 'Dirección': 'Guntur',
'Rollno': '002', 'Nombre': 'ojaswi', 'edad': 16, 'altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '003', 'Nombre': 'Gnanesh Chowdary', 'Age': 7, 'Altura': 2.79, 'Peso': 17, 'Dirección': 'Patna',
'rollno': '004', 'nombre': 'rohith', 'edad': 9, 'altura': 3.69, 'Peso': 28, 'Dirección': 'Hyd',
'Rollno': '005', 'Nombre': 'Sridevi', 'Age': 37, 'Altura': 5.59, 'Peso': 54, 'Dirección': 'Hyd']
# Crea el DataFrame
DF = Spark_App.Createdataframe (estudiantes)
#columnas de rollno y peso de los perros
df.Seleccione ("Rollno", "Peso").recolectar()

Producción:

[Fila (rollno = '001', peso = 67),
Fila (rollno = '002', peso = 34),
Fila (rollno = '003', peso = 17),
Fila (rollno = '004', peso = 28),
Fila (rollno = '005', peso = 54)]

itrows ()

Este método se utiliza para iterar las columnas en el marcado de datos PySpark dado. Se puede usar con bucle y toma nombres de columnas a través del iterador de fila e índice para iterar columnas. Finalmente, mostrará las filas de acuerdo con los índices especificados. Antes de eso, tenemos que convertir en pandas usando el método topandas ().

Sintaxis:

Para el índice, row_iterator en DataFrame.topandas ().itrowrows ():
print (row_iterator [index_value], ...)

Dónde,

  1. DataFrame es la entrada Pyspark DataFrame.
  2. index_value es la posición del índice de columna en el marco de datos de Pyspark.
  3. row_iterator es la variable iteradora utilizada para iterar los valores de fila en la columna especificada.

Ejemplo 1:

En este ejemplo, estamos iterando filas de las columnas de dirección y altura del marcado de datos de Pyspark anterior.

#Importa el módulo Pyspark
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
#Importa la función col
de Pyspark.sql.Funciones Importar Col
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear datos de estudiante con 5 filas y 6 atributos
estudiantes = [
'Rollno': '001', 'nombre': 'sravan', 'edad': 23, 'altura': 5.79, 'Peso': 67, 'Dirección': 'Guntur',
'Rollno': '002', 'Nombre': 'ojaswi', 'edad': 16, 'altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '003', 'Nombre': 'Gnanesh Chowdary', 'Age': 7, 'Altura': 2.79, 'Peso': 17, 'Dirección': 'Patna',
'rollno': '004', 'nombre': 'rohith', 'edad': 9, 'altura': 3.69, 'Peso': 28, 'Dirección': 'Hyd',
'Rollno': '005', 'Nombre': 'Sridevi', 'Age': 37, 'Altura': 5.59, 'Peso': 54, 'Dirección': 'Hyd']
# Crea el DataFrame
DF = Spark_App.Createdataframe (estudiantes)
#COLUMAS DE DIRECCIÓN Y ALEDIA
Para el índice, row_iterator en DF.topandas ().itrowrows ():
print (row_iterator [0], row_iterator [1])

Producción:

Guntur 23
Hyd 16
Patna 7
Hyd 9
HYD 37

Ejemplo 2:

En este ejemplo, estamos iterando filas de las columnas de dirección y nombre de la marca de datos de Pyspark anterior.

#Importa el módulo Pyspark
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
#Importa la función col
de Pyspark.sql.Funciones Importar Col
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear datos de estudiante con 5 filas y 6 atributos
estudiantes = [
'Rollno': '001', 'nombre': 'sravan', 'edad': 23, 'altura': 5.79, 'Peso': 67, 'Dirección': 'Guntur',
'Rollno': '002', 'Nombre': 'ojaswi', 'edad': 16, 'altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '003', 'Nombre': 'Gnanesh Chowdary', 'Age': 7, 'Altura': 2.79, 'Peso': 17, 'Dirección': 'Patna',
'rollno': '004', 'nombre': 'rohith', 'edad': 9, 'altura': 3.69, 'Peso': 28, 'Dirección': 'Hyd',
'Rollno': '005', 'Nombre': 'Sridevi', 'Age': 37, 'Altura': 5.59, 'Peso': 54, 'Dirección': 'Hyd']
# Crea el DataFrame
DF = Spark_App.Createdataframe (estudiantes)
#COLUMNAS DE DIRECCIÓN Y NAME
Para el índice, row_iterator en DF.topandas ().itrowrows ():
print (row_iterator [0], row_iterator [3])

Producción:

Guntur Sravan
Hyd Ojaswi
Patna Gnanesh Chowdary
Hyd Rohith
Hyd Sridevi

Conclusión

En este tutorial, discutimos cómo iterar sobre filas y columnas en el marco de datos de Pyspark. Discutimos tres métodos: select (), coleccionar () e itrows () con bucle. Entonces, al usar estos métodos, podemos especificar las columnas que se iteran a través de la fila iteradora.