Diferentes formas de crear Pyspark DataFrame

Diferentes formas de crear Pyspark DataFrame

En Python, Pyspark es un módulo Spark utilizado para proporcionar un tipo similar de procesamiento como Spark usando DataFrame. En este artículo, discutiremos varias formas de crear Pyspark DataFrame.

Método 1: Uso del diccionario

El diccionario es una datos de datos que almacenará los datos en el formato clave del par de valor.

La clave actúa como columna y valor actúa como valor de fila/datos en el marco de datos de Pyspark. Esto tiene que pasarse dentro de la lista.

Estructura:

['valor clave]

También podemos proporcionar múltiples diccionarios.

Estructura:

['Key': Value, 'Key': Value, .. .,'valor clave]

Ejemplo:

Aquí, vamos a crear Pyspark DataFrame con 5 filas y 6 columnas a través del diccionario. Finalmente, estamos mostrando DataFrame usando el método show ().

#Importa el módulo Pyspark
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear datos de estudiante con 5 filas y 6 atributos
estudiantes = ['Rollno': '001', 'Nombre': 'Sravan', 'Age': 23, 'Altura': 5.79, 'Peso': 67, 'Dirección': 'Guntur',
'Rollno': '002', 'Nombre': 'ojaswi', 'edad': 16, 'altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '003', 'Nombre': 'Gnanesh Chowdary', 'Age': 7, 'Altura': 2.79, 'Peso': 17, 'Dirección': 'Patna',
'rollno': '004', 'nombre': 'rohith', 'edad': 9, 'altura': 3.69, 'Peso': 28, 'Dirección': 'Hyd',
'Rollno': '005', 'Nombre': 'Sridevi', 'Age': 37, 'Altura': 5.59, 'Peso': 54, 'Dirección': 'Hyd']
# Crea el DataFrame
DF = Spark_App.Createdataframe (estudiantes)
#Disprazando el marco de datos
df.espectáculo()

Producción:

Método 2: Uso de la lista de tuplas

Tuple es una estructura de datos que almacenará los datos en ().

Podemos pasar las filas separadas por coma en una tupla rodeada de una lista.

Estructura:

[(valor1, valor2,.,valuen)]

También podemos proporcionar múltiples tuples en una lista.

Estructura:

[(valor1, valor2,.,valuen), (valor1, valor2,.,valuen), ..., (valor1, valor2,.,valuen)]

Necesitamos proporcionar los nombres de la columna a través de una lista mientras creamos DataFrame.

Sintaxis:

column_names = ['columna1', 'columna2', .. .'columna']
Spark_app.creatataframe (list_of_tuple, column_names)

Ejemplo:

Aquí, vamos a crear Pyspark DataFrame con 5 filas y 6 columnas a través del diccionario. Finalmente, estamos mostrando DataFrame usando el método show ().

#Importa el módulo Pyspark
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear datos de estudiante con 5 filas y 6 atributos
estudiantes = [('001', 'Sravan', 23,5.79,67, 'Guntur'),
('002', 'ojaswi', 16,3.79,34, 'Hyd'),
('003', 'Gnanesh Chowdary', 7,2.79,17, 'Patna'),
('004', 'Rohith', 9,3.69,28, 'Hyd'),
('005', 'Sridevi', 37,5.59,54, 'hyd')]
#sign los nombres de la columna
column_names = ['rollno', 'nombre', 'edad', 'altura', 'peso', 'dirección']
# Crea el DataFrame
DF = Spark_App.CreatedAtaFrame (estudiantes, column_names)
#Disprazando el marco de datos
df.espectáculo()

Producción:

Método 3: Uso de la tupla de listas

La lista es una estructura de datos que almacenará los datos en [].

Podemos pasar las filas separadas por coma en una lista rodeada por una tupla.

Estructura:

([valor1, valor2,.,Valuen])

También podemos proporcionar múltiples listas en una tupla.

Estructura:

([valor1, valor2,.,Valuen], [valor1, valor2,.,Valuen], ..., [valor1, valor2,.,Valuen])

Necesitamos proporcionar los nombres de la columna a través de una lista mientras creamos DataFrame.

Sintaxis:

column_names = ['columna1', 'columna2', .. .'columna']
Spark_app.creatataframe (tuple_of_list, column_names)

Ejemplo:

Aquí, vamos a crear Pyspark DataFrame con 5 filas y 6 columnas a través del diccionario. Finalmente, estamos mostrando DataFrame usando el método show ().

#Importa el módulo Pyspark
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear datos de estudiante con 5 filas y 6 atributos
estudiantes = (['001', 'sravan', 23,5.79,67, 'Guntur'],
['002', 'ojaswi', 16,3.79,34, 'Hyd'],
['003', 'Gnanesh Chowdary', 7,2.79,17, 'Patna'],
['004', 'rohith', 9,3.69,28, 'Hyd'],
['005', 'Sridevi', 37,5.59,54, 'hyd'])
#sign los nombres de la columna
column_names = ['rollno', 'nombre', 'edad', 'altura', 'peso', 'dirección']
# Crea el DataFrame
DF = Spark_App.CreatedAtaFrame (estudiantes, column_names)
#Disprazando el marco de datos
df.espectáculo()

Producción:

Método 4: Uso de la lista anidada

La lista es una datos que almacenará los datos en [].

Entonces, podemos pasar las filas separadas por coma en una lista rodeada de una lista.

Estructura:

[[valor1, valor2,.,Valuen]]

También podemos proporcionar múltiples listas en una lista.

Estructura:

[[valor1, valor2,.,Valuen], [valor1, valor2,.,Valuen], ..., [valor1, valor2,.,Valuen]]

Necesitamos proporcionar los nombres de la columna a través de una lista mientras creamos DataFrame.

Sintaxis:

column_names = ['columna1', 'columna2', .. .'columna']
Spark_app.creatataframe (nested_list, column_names)

Ejemplo:

Aquí, vamos a crear Pyspark DataFrame con 5 filas y 6 columnas a través del diccionario. Finalmente, estamos mostrando DataFrame usando el método show ().

#Importa el módulo Pyspark
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear datos de estudiante con 5 filas y 6 atributos
estudiantes = [['001', 'Sravan', 23,5.79,67, 'Guntur'],
['002', 'ojaswi', 16,3.79,34, 'Hyd'],
['003', 'Gnanesh Chowdary', 7,2.79,17, 'Patna'],
['004', 'rohith', 9,3.69,28, 'Hyd'],
['005', 'Sridevi', 37,5.59,54, 'hyd']]
#sign los nombres de la columna
column_names = ['rollno', 'nombre', 'edad', 'altura', 'peso', 'dirección']
# Crea el DataFrame
DF = Spark_App.CreatedAtaFrame (estudiantes, column_names)
#Disprazando el marco de datos
df.espectáculo()

Producción:

Método 5: Uso de tupla anidada

Estructura:

((valor1, valor2,.,valuen))

También podemos proporcionar múltiples tuples en una tupla.

Estructura:

((valor1, valor2,.,valuen), (valor1, valor2,.,valuen), ..., (valor1, valor2,.,valuen))

Necesitamos proporcionar los nombres de la columna a través de una lista mientras creamos DataFrame.

Sintaxis:

column_names = ['columna1', 'columna2', .. .'columna']
Spark_app.creatataframe (nested_tuple, column_names)

Ejemplo:

Aquí, vamos a crear Pyspark DataFrame con 5 filas y 6 columnas a través del diccionario. Finalmente, estamos mostrando DataFrame usando el método show ().

#Importa el módulo Pyspark
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear datos de estudiante con 5 filas y 6 atributos
estudiantes = (('001', 'sravan', 23,5.79,67, 'Guntur'),
('002', 'ojaswi', 16,3.79,34, 'Hyd'),
('003', 'Gnanesh Chowdary', 7,2.79,17, 'Patna'),
('004', 'Rohith', 9,3.69,28, 'Hyd'),
('005', 'Sridevi', 37,5.59,54, 'hyd'))
#sign los nombres de la columna
column_names = ['rollno', 'nombre', 'edad', 'altura', 'peso', 'dirección']
# Crea el DataFrame
DF = Spark_App.CreatedAtaFrame (estudiantes, column_names)
#Disprazando el marco de datos
df.espectáculo()

Producción:

Conclusión

En este tutorial, discutimos cinco métodos para crear Pyspark DataFrame: Lista de tuplas, tupla de listas, tupla anidada, uso de listas anidadas y lista de columnas para proporcionar nombres de columnas. No es necesario proporcionar la lista de nombres de columnas mientras se crea Pyspark DataFrame utilizando el diccionario.