Pyspark - Collect

Jacobo Piña

En Python, Pyspark es un módulo Spark utilizado para proporcionar un tipo similar de procesamiento como Spark usando DataFrame. El método recopilar () en Pyspark muestra los datos presentes en DataFrame Row por fila.

Sintaxis:

Marco de datos.recolectar()

Ejemplo:

En este ejemplo, crearemos un marco de datos de Pyspark con 6 columnas y 5 filas y mostraremos el marco de datos en un formato tabular utilizando el método show ().

#Importa el módulo pyspaprk
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear datos de estudiante con 5 filas y 6 atributos
estudiantes = ['Rollno': '001', 'Nombre': 'Sravan', 'Age': 23, 'Altura': 5.79, 'Peso': 67, 'Dirección': 'Guntur',
'Rollno': '002', 'Nombre': 'ojaswi', 'edad': 16, 'altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '003', 'Nombre': 'Gnanesh Chowdary', 'Age': 7, 'Altura': 2.79, 'Peso': 17, 'Dirección': 'Patna',
'rollno': '004', 'nombre': 'rohith', 'edad': 9, 'altura': 3.69, 'Peso': 28, 'Dirección': 'Hyd',
'Rollno': '005', 'Nombre': 'Sridevi', 'Age': 37, 'Altura': 5.59, 'Peso': 54, 'Dirección': 'Hyd']
# Crea el DataFrame
DF = Spark_App.Createdataframe (estudiantes)
# marco de datos
df.espectáculo()

Producción:

Ejemplo 2:

Mostraramos el marco de datos utilizando el método recopilar ()

Producción:

[Fila (dirección = 'Guntur', edad = 23, altura = 5.79, nombre = 'sravan', rollno = '001', peso = 67),
Fila (dirección = 'hyd', edad = 16, altura = 3.79, nombre = 'ojaswi', rollno = '002', peso = 34),
Fila (dirección = 'patna', edad = 7, altura = 2.79, nombre = 'Gnanesh Chowdary', rollno = '003', peso = 17),
Fila (dirección = 'hyd', edad = 9, altura = 3.69, nombre = 'rohith', rollno = '004', peso = 28),
Fila (dirección = 'hyd', edad = 37, altura = 5.59, nombre = 'sridevi', rollNo = '005', peso = 54)]

También podemos usar el método de bucle con bucle con coleccionar para iterar la fila por fila

Sintaxis:

para iterador en DataFrame.recolectar():
Imprimir (Iterator)

Para mostrar columnas particulares, tenemos que especificar el nombre de la columna con Iterator usando [] operador

Sintaxis:

para iterador en DataFrame.recolectar():
print (iterator ['column1'], iterator ['column2'], .. .)

Ejemplo:

Este ejemplo iterará múltiples columnas en un marco de datos con el método recopilar ().

Producción:

sravan
ojaswi
chowdary de Gnanesh
rohith
sridevi
------------------------------------
Sravan 67
Ojaswi 34
Gnanesh Chowdary 17
Rohith 28
Sridevi 54
------------------------------------
Fila (dirección = 'Guntur', edad = 23, altura = 5.79, nombre = 'sravan', rollno = '001', peso = 67)
Fila (dirección = 'hyd', edad = 16, altura = 3.79, nombre = 'ojaswi', rollno = '002', peso = 34)
Fila (dirección = 'patna', edad = 7, altura = 2.79, nombre = 'Gnanesh Chowdary', rollno = '003', peso = 17)
Fila (dirección = 'hyd', edad = 9, altura = 3.69, nombre = 'rohith', rollno = '004', peso = 28)
Fila (dirección = 'hyd', edad = 37, altura = 5.59, name = 'sridevi', rollno = '005', peso = 54)

También podemos obtener la fila particular utilizando el método Collect () usando un índice.

En Pyspark DataFrame, la indexación comienza desde 0.

Sintaxis:

Marco de datos.coleccionar () [row_index]

Ejemplo:

En este ejemplo, estamos recolectando primero, segunda y quinta fila.

Producción:

Fila (dirección = 'Guntur', edad = 23, altura = 5.79, nombre = 'sravan', rollno = '001', peso = 67)
Fila (dirección = 'hyd', edad = 16, altura = 3.79, nombre = 'ojaswi', rollno = '002', peso = 34)
Fila (dirección = 'hyd', edad = 37, altura = 5.59, name = 'sridevi', rollno = '005', peso = 54)

También podemos obtener la columna particular en una fila utilizando el método Collect () utilizando un índice.

En Pyspark DataFrame, la indexación comienza desde 0.

Sintaxis:

Marco de datos.Collect () [Row_index] [column_index]

Ejemplo:

En este ejemplo, vamos a obtener valores desde la primera fila: primera columna, tercera fila - primera columna

Producción:

Guntur
patna

Conclusión

En este artículo, cubrimos el uso del método Collect () con diferentes escenarios. Finalmente, entendemos que el método Collect () se usa para obtener la fila de datos por fila en el marco de datos de Pyspark.

para principiantes

Cómo deshabilitar la reproducción de video automático en los sitios

Desconectar el lanzamiento automático de video en compañeros de clase, YouTube y otros sitios con au...

Cristian Collazo

Windows

Solicitar permiso de los administradores

Cómo solicitar el permiso de un administrador para eliminar una carpeta o archivo si Windows informa...

Ariadna Arevalo

Internet

Cómo limpiar la pared de VK

Cómo eliminar rápidamente todas las notas de la pared en contacto. Paso las instrucciones de paso pa...

Jerónimo Araña