Convertir Pyspark DataFrame en Pandas DataFrame

Convertir Pyspark DataFrame en Pandas DataFrame

En Python, Pyspark es un módulo Spark utilizado para proporcionar un tipo similar de procesamiento como Spark usando DataFrame. Proporciona varios métodos para devolver las filas superiores del marco de datos de Pyspark.

Pandas es un módulo utilizado para el análisis de datos. Admite tres estructuras de datos: series, datos de datos y panel. Podemos convertir Pyspark DataFrame a Pandas DataFrame una vez que tengamos Pyspark DataFrame.

Creemos primero Pyspark DataFrame.

Ejemplo:

#Importa el módulo Pyspark
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear datos de estudiante con 5 filas y 6 atributos
estudiantes = ['Rollno': '001', 'Nombre': 'Sravan', 'Age': 23, 'Altura': 5.79, 'Peso': 67, 'Dirección': 'Guntur',
'Rollno': '002', 'Nombre': 'ojaswi', 'edad': 16, 'altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '003', 'Nombre': 'Gnanesh Chowdary', 'Age': 7, 'Altura': 2.79, 'Peso': 17, 'Dirección': 'Patna',
'rollno': '004', 'nombre': 'rohith', 'edad': 9, 'altura': 3.69, 'Peso': 28, 'Dirección': 'Hyd',
'Rollno': '005', 'Nombre': 'Sridevi', 'Age': 37, 'Altura': 5.59, 'Peso': 54, 'Dirección': 'Hyd']
# Crea el DataFrame
DF = Spark_App.Createdataframe (estudiantes)
# marco de datos
df.espectáculo()

Producción:

topandas () es un método que convertirá PySpark DataFrame en Pandas DataFrame.

Sintaxis:

marco de datos.topandas ()

Donde DataFrame es la entrada Pyspark DataFrame.

Ejemplo:

En este ejemplo, estamos convirtiendo por encima de Pyspark DataFrame a Pandas DataFrame.

#Importa el módulo Pyspark
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear datos de estudiante con 5 filas y 6 atributos
estudiantes = ['Rollno': '001', 'Nombre': 'Sravan', 'Age': 23, 'Altura': 5.79, 'Peso': 67, 'Dirección': 'Guntur',
'Rollno': '002', 'Nombre': 'ojaswi', 'edad': 16, 'altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '003', 'Nombre': 'Gnanesh Chowdary', 'Age': 7, 'Altura': 2.79, 'Peso': 17, 'Dirección': 'Patna',
'rollno': '004', 'nombre': 'rohith', 'edad': 9, 'altura': 3.69, 'Peso': 28, 'Dirección': 'Hyd',
'Rollno': '005', 'Nombre': 'Sridevi', 'Age': 37, 'Altura': 5.59, 'Peso': 54, 'Dirección': 'Hyd']
# Crea el DataFrame
DF = Spark_App.Createdataframe (estudiantes)
#Convertir a Pandas DataFrame
Imprimir (DF.topandas ())

Producción:

Podemos iterar el marco de datos a través de itrows () convirtiendo Pyspark en pandas.

itrows ()

Este método se utiliza para iterar las columnas en el marco de datos PySpark dado al convertir en Pandas DataFrame, se puede usar para el bucle y toma nombres de columnas a través del iterador de fila e índice para iterar columnas. Finalmente, mostrará las filas de acuerdo con los índices especificados.

Sintaxis:

Para el índice, row_iterator en DataFrame.topandas ().itrowrows ():
print (row_iterator [index_value], ...)

Dónde:

  1. DataFrame es la entrada Pyspark DataFrame.
  2. index_value es la posición del índice de columna en el marco de datos de Pyspark.
  3. row_iterator es la variable iteradora utilizada para iterar los valores de fila en la columna especificada.

Ejemplo 1:

En este ejemplo, estamos iterando filas de las columnas de dirección y altura del marcado de datos de Pyspark anterior.

#Importa el módulo Pyspark
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
#Importa la función col
de Pyspark.sql.Funciones Importar Col
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear datos de estudiante con 5 filas y 6 atributos
estudiantes = ['Rollno': '001', 'Nombre': 'Sravan', 'Age': 23, 'Altura': 5.79, 'Peso': 67, 'Dirección': 'Guntur',
'Rollno': '002', 'Nombre': 'ojaswi', 'edad': 16, 'altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '003', 'Nombre': 'Gnanesh Chowdary', 'Age': 7, 'Altura': 2.79, 'Peso': 17, 'Dirección': 'Patna',
'rollno': '004', 'nombre': 'rohith', 'edad': 9, 'altura': 3.69, 'Peso': 28, 'Dirección': 'Hyd',
'Rollno': '005', 'Nombre': 'Sridevi', 'Age': 37, 'Altura': 5.59, 'Peso': 54, 'Dirección': 'Hyd']
# Crea el DataFrame
DF = Spark_App.Createdataframe (estudiantes)
#COLUMAS DE DIRECCIÓN Y ALEDIA
Para el índice, row_iterator en DF.topandas ().itrowrows ():
print (row_iterator [0], row_iterator [1])

Producción:

Guntur 23
Hyd 16
Patna 7
Hyd 9
HYD 37

Ejemplo 2:

En este ejemplo, estamos iterando filas de las columnas de dirección y nombre de la marca de datos de Pyspark anterior.

#Importa el módulo Pyspark
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
#Importa la función col
de Pyspark.sql.Funciones Importar Col
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear datos de estudiante con 5 filas y 6 atributos
estudiantes = ['Rollno': '001', 'Nombre': 'Sravan', 'Age': 23, 'Altura': 5.79, 'Peso': 67, 'Dirección': 'Guntur',
'Rollno': '002', 'Nombre': 'ojaswi', 'edad': 16, 'altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '003', 'Nombre': 'Gnanesh Chowdary', 'Age': 7, 'Altura': 2.79, 'Peso': 17, 'Dirección': 'Patna',
'rollno': '004', 'nombre': 'rohith', 'edad': 9, 'altura': 3.69, 'Peso': 28, 'Dirección': 'Hyd',
'Rollno': '005', 'Nombre': 'Sridevi', 'Age': 37, 'Altura': 5.59, 'Peso': 54, 'Dirección': 'Hyd']
# Crea el DataFrame
DF = Spark_App.Createdataframe (estudiantes)
#COLUMNAS DE DIRECCIÓN Y NAME
Para el índice, row_iterator en DF.topandas ().itrowrows ():
print (row_iterator [0], row_iterator [3])

Producción:

Guntur Sravan
Hyd Ojaswi
Patna Gnanesh Chowdary
Hyd Rohith
Hyd Sridevi

Conclusión

En este tutorial, discutimos la conversión de Pyspark DataFrame a Pandas DataFrame usando el método topandas () e iteramos el hechice de pandas usando itrowrows () método.