Iterar sobre filas y columnas en el marco de datos de Pyspark

En Python, Pyspark es un módulo Spark utilizado para proporcionar un tipo similar de procesamiento como Spark usando DataFrame.

Podemos atravesar el marco de datos de Pyspark a través de filas y columnas usando:

recolectar()
seleccionar()
itrows ()

Antes de pasar a estos, crearemos Pyspark DataFrame.

Ejemplo:

Aquí, vamos a crear Pyspark DataFrame con 5 filas y 6 columnas.

#Importa el módulo Pyspark
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
#Importa la función col
de Pyspark.sql.Funciones Importar Col
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear datos de estudiante con 5 filas y 6 atributos
estudiantes = [
'Rollno': '001', 'nombre': 'sravan', 'edad': 23, 'altura': 5.79, 'Peso': 67, 'Dirección': 'Guntur',
'Rollno': '002', 'Nombre': 'ojaswi', 'edad': 16, 'altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '003', 'Nombre': 'Gnanesh Chowdary', 'Age': 7, 'Altura': 2.79, 'Peso': 17, 'Dirección': 'Patna',
'rollno': '004', 'nombre': 'rohith', 'edad': 9, 'altura': 3.69, 'Peso': 28, 'Dirección': 'Hyd',
'Rollno': '005', 'Nombre': 'Sridevi', 'Age': 37, 'Altura': 5.59, 'Peso': 54, 'Dirección': 'Hyd']
# Crea el DataFrame
DF = Spark_App.Createdataframe (estudiantes)
#Disprazando el marco de datos
df.espectáculo()

Producción:

recolectar()

Este método se utiliza para iterar las columnas en el marcado de datos PySpark dado. Se puede usar con bucle y toma nombres de columnas a través del iterador para iterar columnas. Finalmente, mostrará las filas de acuerdo con las columnas especificadas.

Sintaxis:

Para Row_Iterator en DataFrame.recolectar():
print (row_iterator ['columna'], .. .)

Dónde,

DataFrame es la entrada Pyspark DataFrame.
La columna es el nombre de la columna en Pyspark DataFrame.
row_iterator es la variable iteradora utilizada para iterar los valores de fila en la columna especificada.

Ejemplo 1:

En este ejemplo, estamos iterando filas de las columnas Rollno, altura y dirección del final de datos de Pyspark.

Producción:

001 5.79 Guntur
002 3.79 Hyd
003 2.79 Patna
004 3.69 Hyd
005 5.59 Hyd

Ejemplo 2:

En este ejemplo, estamos iterando filas de la columna de nombre de la marca de datos de Pyspark anterior.

Producción:

sravan
ojaswi
chowdary de Gnanesh
rohith
sridevi

seleccionar()

Este método se utiliza para iterar las columnas en el marcado de datos PySpark dado. Se puede usar con el método coleccionista () y toma columna. Finalmente, mostrará las filas de acuerdo con las columnas especificadas.

Sintaxis:

marco de datos.Seleccionar ("columna", ...).recolectar()

Dónde,

DataFrame es la entrada Pyspark DataFrame.
La columna es el nombre de la columna en Pyspark DataFrame.

Ejemplo 1:

En este ejemplo, estamos iterando filas de la columna RollNo y Nombre de la marca de datos Pyspark anterior.

Producción:

[Fila (rollno = '001', name = 'sravan'),
Fila (rollno = '002', name = 'ojaswi'),
Fila (rollNo = '003', name = 'Gnanesh ChowDary'),
Fila (rollno = '004', name = 'Rohith'),
Fila (rollno = '005', name = 'sridevi')]

Ejemplo 2:

En este ejemplo, estamos iterando filas de la columna RollNo y de peso del marcado de datos de Pyspark anterior.

Producción:

[Fila (rollno = '001', peso = 67),
Fila (rollno = '002', peso = 34),
Fila (rollno = '003', peso = 17),
Fila (rollno = '004', peso = 28),
Fila (rollno = '005', peso = 54)]

itrows ()

Este método se utiliza para iterar las columnas en el marcado de datos PySpark dado. Se puede usar con bucle y toma nombres de columnas a través del iterador de fila e índice para iterar columnas. Finalmente, mostrará las filas de acuerdo con los índices especificados. Antes de eso, tenemos que convertir en pandas usando el método topandas ().

Sintaxis:

Para el índice, row_iterator en DataFrame.topandas ().itrowrows ():
print (row_iterator [index_value], ...)

Dónde,

DataFrame es la entrada Pyspark DataFrame.
index_value es la posición del índice de columna en el marco de datos de Pyspark.
row_iterator es la variable iteradora utilizada para iterar los valores de fila en la columna especificada.

Ejemplo 1:

En este ejemplo, estamos iterando filas de las columnas de dirección y altura del marcado de datos de Pyspark anterior.

Producción:

Guntur 23
Hyd 16
Patna 7
Hyd 9
HYD 37

Ejemplo 2:

En este ejemplo, estamos iterando filas de las columnas de dirección y nombre de la marca de datos de Pyspark anterior.

Producción:

Guntur Sravan
Hyd Ojaswi
Patna Gnanesh Chowdary
Hyd Rohith
Hyd Sridevi

Conclusión

En este tutorial, discutimos cómo iterar sobre filas y columnas en el marco de datos de Pyspark. Discutimos tres métodos: select (), coleccionar () e itrows () con bucle. Entonces, al usar estos métodos, podemos especificar las columnas que se iteran a través de la fila iteradora.

Estibador

¿Cómo se definen los volúmenes en Docker Compose Yaml??

Los volúmenes se definen utilizando la tecla Volúmenes en Docker Compose Yaml File. Los usuarios pue...

Homero Ontiveros

golang

¿Qué son las estructuras en Golang?

En Golang, una estructura es un tipo de datos compuestos que consiste en cero o más campos con nombr...

Homero Ontiveros

Fuerza de ventas

Cargador de datos de Salesforce

Tutorial sobre cómo insertar, eliminar y actualizar los datos de Salesforce, y cómo importar/exporta...

Homero Ontiveros