Pyspark - Clase de fila

Pyspark - Clase de fila
En Python, Pyspark es un módulo Spark utilizado para proporcionar un tipo similar de procesamiento como Spark usando DataFrame.

La clase de fila en Pyspark se usa para crear fila para el marco de datos de Pyspark. Podemos crear una fila usando la función fila ().

Esto está disponible en el Pyspark.módulo SQL. Entonces tenemos que importar fila de este módulo.

Sintaxis:

Fila (column_name = 'valor', .. .)

Dónde,

  1. column_name es la columna para Pyspark DataFrame
  2. El valor es el valor de fila para una columna en particular

Podemos especificar cualquier número de columnas en la clase de fila.

Si queremos crear varias filas, entonces tenemos que especificar la clase de fila dentro de una lista separada por un operador de coma.

Sintaxis:

[Fila (column_name = 'valor', .. .), Fila (column_name = 'valor', .. .)
,…]

Para crear PySpark DataFrame desde esta fila, simplemente pasamos la lista de filas al método createAtAtaFrame ().

Si queremos mostrar el PySpark DataFrame en formato de fila, tenemos que usar el método recopilar ().

Este método se utiliza para obtener los datos en una fila por formato de fila

Sintaxis:

Marco de datos.recolectar()

Donde DataFrame es la entrada Pyspark DataFrame.

Ejemplo :

Este ejemplo creará 5 filas usando la clase de fila con 6 columnas y mostrará el marco de datos utilizando el método recopilar ().

#Importa el módulo pyspaprk
importar pyspark
#Import Sparksession para crear una sesión y fila
de Pyspark.SQL Import Sparksession, fila
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
#Cree filas
row_data = [fila (rollno = '001', name = 'sravan', edad = 23, altura = 5.79, peso = 67, dirección = 'Guntur'),
Fila (rollno = '002', name = 'ojaswi', edad = 16, altura = 3.79, peso = 34, dirección = 'hyd'),
Fila (rollno = '003', name = 'Gnanesh ChowDary', edad = 7, altura = 2.79, peso = 17, dirección = 'patna'),
Fila (rollno = '004', name = 'Rohith', edad = 9, altura = 3.69, peso = 28, dirección = 'hyd'),
Fila (rollno = '005', name = 'sridevi', edad = 37, altura = 5.59, peso = 54, dirección = 'hyd')]
#Cree el DataFrame de ROW_DATA
DF = Spark_App.CreatedAtaFrame (Row_Data)
# Muestra el marco de datos
#by filas
df.recolectar()

Producción:

[Fila (rollno = '001', name = 'sravan', edad = 23, altura = 5.79, peso = 67, dirección = 'Guntur'),
Fila (rollno = '002', name = 'ojaswi', edad = 16, altura = 3.79, peso = 34, dirección = 'hyd'),
Fila (rollno = '003', name = 'Gnanesh ChowDary', edad = 7, altura = 2.79, peso = 17, dirección = 'patna'),
Fila (rollno = '004', name = 'Rohith', edad = 9, altura = 3.69, peso = 28, dirección = 'hyd'),
Fila (rollno = '005', name = 'sridevi', edad = 37, altura = 5.59, peso = 54, dirección = 'hyd')]

También podemos definir las columnas primero y luego pasar los valores a las filas.

Esto se hace usando el nombre de la fila. Definiremos las columnas con el nombre de la fila y usando esto podemos agregar valores a la fila

Sintaxis:

Row_name = row ("column_name1", column_name2 ", .. .,"Column_name n)
[Row_name (value1, value2, ..., valuen), ..., row_name (value1, value2, ..., valuen)]]

Ejemplo:

En este ejemplo, vamos a agregar 6 columnas con nombre de fila como estudiantes con nombres como "rollno", "nombre", "edad", "altura", "peso", "dirección" y agregando 5 valores a esta fila de estudiantes.

#Importa el módulo pyspaprk
importar pyspark
#Import Sparksession para crear una sesión y fila
de Pyspark.SQL Import Sparksession, fila
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crea una fila con 6 columnas
estudiantes = fila ("rollno", "nombre", "edad", "altura", "peso", "dirección")
#cree valores para las filas
row_data = [Estudiantes ('001', 'Sravan', 23,5.79,67, 'Guntur'),
estudiantes ('002', 'ojaswi', 16,3.79,34, 'Hyd'),
Estudiantes ('003', 'Gnanesh Chowdary', 7,2.79,17, 'Patna'),
estudiantes ('004', 'rohith', 9,3.69,28, 'Hyd'),
Estudiantes ('005', 'Sridevi', 37,5.59,54, 'hyd')]
#Cree el DataFrame de ROW_DATA
DF = Spark_App.CreatedAtaFrame (Row_Data)
# Muestra el marco de datos
#by filas
df.recolectar()

Producción:

[Fila (rollno = '001', name = 'sravan', edad = 23, altura = 5.79, peso = 67, dirección = 'Guntur'),
Fila (rollno = '002', name = 'ojaswi', edad = 16, altura = 3.79, peso = 34, dirección = 'hyd'),
Fila (rollno = '003', name = 'Gnanesh ChowDary', edad = 7, altura = 2.79, peso = 17, dirección = 'patna'),
Fila (rollno = '004', name = 'Rohith', edad = 9, altura = 3.69, peso = 28, dirección = 'hyd'),
Fila (rollno = '005', name = 'sridevi', edad = 37, altura = 5.59, peso = 54, dirección = 'hyd')]

Creando fila anidada

La fila dentro de una fila se conoce como fila anidada. Podemos crear la fila anidada dentro de la fila es similar a la creación de la fila normal

Sintaxis:

[Fila (column_name = row (column_name = 'valor', .. .), .. .),
Fila (column_name = row (column_name = 'valor', .. .),
…]

Ejemplo:

En este ejemplo, crearemos DataFrame de arriba al anterior, pero estamos agregando una columna con nombre de sujetos a cada fila y agregando valores de Java y PHP utilizando la fila anidada.

#Importa el módulo pyspaprk
importar pyspark
#Import Sparksession para crear una sesión y fila
de Pyspark.SQL Import Sparksession, fila
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
#Cree filas
row_data = [fila (rollno = '001', name = 'sravan', edad = 23, altura = 5.79, peso = 67, dirección = 'Guntur', Sujetos = Row (SUTMET1 = 'Java', SUMT2 = 'PHP'))),
Fila (rollno = '002', name = 'ojaswi', edad = 16, altura = 3.79, peso = 34, dirección = 'hyd', sujetos = row (somett1 = 'java', somet2 = 'php')))),
Fila (rollno = '003', name = 'Gnanesh ChowDary', edad = 7, altura = 2.79, peso = 17, dirección = 'patna', sujetos = fila (somett1 = 'java', sujeto2 = 'php')))),
Fila (rollno = '004', name = 'Rohith', edad = 9, altura = 3.69, peso = 28, dirección = 'hyd', sujetos = row (somett1 = 'java', somet2 = 'php')))),
Fila (rollno = '005', name = 'sridevi', edad = 37, altura = 5.59, peso = 54, dirección = 'hyd', sujetos = row (somett1 = 'java', sujeto2 = 'php'))]]
#Cree el DataFrame de ROW_DATA
DF = Spark_App.CreatedAtaFrame (Row_Data)
# Muestra el marco de datos
#by filas
df.recolectar()

Producción:

[Fila (rollno = '001', name = 'sravan', edad = 23, altura = 5.79, peso = 67, dirección = 'Guntur', Sujetos = Row (SUTMET1 = 'Java', SUMT2 = 'PHP'))),
Fila (rollno = '002', name = 'ojaswi', edad = 16, altura = 3.79, peso = 34, dirección = 'hyd', sujetos = row (somett1 = 'java', somet2 = 'php')))),
Fila (rollno = '003', name = 'Gnanesh ChowDary', edad = 7, altura = 2.79, peso = 17, dirección = 'patna', sujetos = fila (somett1 = 'java', sujeto2 = 'php')))),
Fila (rollno = '004', name = 'Rohith', edad = 9, altura = 3.69, peso = 28, dirección = 'hyd', sujetos = row (somett1 = 'java', somet2 = 'php')))),
Fila (rollno = '005', name = 'sridevi', edad = 37, altura = 5.59, peso = 54, dirección = 'hyd', sujetos = row (somett1 = 'java', sujeto2 = 'php'))]]

Conclusión:

Este artículo discutió la clase de fila y cómo crear Pyspark DataFrame utilizando la clase de fila. Por fin, discutimos la clase de fila anidada.