Convertir Pyspark Pandas DataFrame a diferentes formatos

Convertir Pyspark Pandas DataFrame a diferentes formatos
"En Python, Pyspark es un módulo Spark que proporciona un tipo similar de procesamiento para chispa usando DataFrame, que almacenará los datos dados en formato de fila y columna.

Pyspark: Pandas DataFrame representa el Pandas DataFrame, pero contiene el Pyspark DataFrame internamente.

PANDAS Support de la estructura de datos del marco de datos, y los pandas se importan desde el módulo Pyspark.

Antes de eso, debe instalar el módulo Pyspark."

Dominio

PIP install Pyspark

Sintaxis para importar:

de Pyspark Import Pandas

Después de eso, podemos crear o usar DataFrame desde el módulo de Pandas.

Sintaxis para crear pandas dataFrame:

pyspark.pandas.Marco de datos()

Podemos aprobar un diccionario o lista de listas con valores.

Creemos un marco de datos Pandas a través de Pyspark con tres columnas y cinco filas.

#Pandas de Import del módulo Pyspark
de Pyspark Import Pandas
#Cree DataFrame de Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Mark1': [90,56,78,54,67], 'Mark2': [100,67,96,89,32], 'Mark3': [91,92,98,97,87] )
Imprimir (pyspark_pandas)

Producción:

Ahora, entraremos en nuestro tutorial.

Veremos diferentes formatos en los que se convierte el marco de datos Pyspark Pyspark creado anteriormente.

pyspark.pandas.Marco de datos.to_html ()

Pyspark Pandas DataFrame se convierte en formato HTML de modo que los nombres de la columna se colocan en Los valores de la etiqueta y la columna se colocan en etiqueta.

Sintaxis:

pyspark_pandas.to_html ()

Donde pyspark_pandas es el marco de datos Pyspark Pandas.

Ejemplo 1

En este ejemplo, convertiremos el formato de datos Pyspark Pyspark Pyspark en formato HTML.

#Pandas de Import del módulo Pyspark
de Pyspark Import Pandas
#Cree DataFrame de Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Mark1': [90,56,78,54,67], 'Mark2': [100,67,96,89,32], 'Mark3': [91,92,98,97,87] )
#convertir pyspark_pandas a html
Imprimir (Pyspark_Pandas.to_html ())

Producción:

Puedes ver que los nombres de la columna se colocan dentro Las etiquetas y los valores se colocan dentro etiquetas.

pyspark.pandas.Marco de datos.to_json ()

Pyspark Pandas DataFrame se convierte en formato JSON de modo que los nombres de la columna actuarán como claves y los valores de la columna serán valores.

Sintaxis:

pyspark_pandas.to_json ()

Donde pyspark_pandas es el marco de datos Pyspark Pandas.

Ejemplo: 2

En este ejemplo, convertiremos el PySpark Pandas DataFrame en formato JSON.

#Pandas de Import del módulo Pyspark
de Pyspark Import Pandas
#Cree DataFrame de Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Mark1': [90,56,78,54,67], 'Mark2': [100,67,96,89,32], 'Mark3': [91,92,98,97,87] )
#convertir pyspark_pandas a json
Imprimir (Pyspark_Pandas.to_json ())

Producción:

["Mark1": 90, "Mark2": 100, "Mark3": 91, "Mark1": 56, "Mark2": 67, "Mark3": 92, "Mark1": 78, "Mark2 ": 96," Mark3 ": 98, " Mark1 ": 54," Mark2 ": 89," Mark3 ": 97, " Mark1 ": 67," Mark2 ": 32," Mark3 ": 87 ]

Puedes ver que los nombres de la columna son teclas.

pyspark.pandas.Marco de datos.to_numpy ()

Pyspark Pandas DataFrame se convierte en formato de matriz utilizando el método to_numpy ().

Sintaxis:

pyspark_pandas.to_numpy ()

Donde pyspark_pandas es el marco de datos Pyspark Pandas.

Ejemplo: 3

En este ejemplo, convertiremos el PySpark Pandas DataFrame en formato de matriz.

#Pandas de Import del módulo Pyspark
de Pyspark Import Pandas
#Cree DataFrame de Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Mark1': [90,56,78,54,67], 'Mark2': [100,67,96,89,32], 'Mark3': [91,92,98,97,87] )
#convertir a una matriz Numpy
Imprimir (Pyspark_Pandas.to_numpy ())

Producción:

[[90 100 91]
[56 67 92]
[78 96 98]
[54 89 97]
[67 32 87]]

Puede ver que los valores se almacenan en forma de una matriz 2-D con cinco filas y tres columnas.

pyspark.pandas.Marco de datos.to_pandas ()

Pyspark Pandas DataFrame se convierte en Pandas DataFrame utilizando el método To_pandas ().

Sintaxis:

pyspark_pandas.to_pandas ()

Donde pyspark_pandas es el marco de datos Pyspark Pandas.

Ejemplo: 4

En este ejemplo, convertiremos el Pyspark Pandas DataFrame a un marco de datos PANDAS.

#Pandas de Import del módulo Pyspark
de Pyspark Import Pandas
#Cree DataFrame de Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Mark1': [90,56,78,54,67], 'Mark2': [100,67,96,89,32], 'Mark3': [91,92,98,97,87] )
#convertir en pandas
Imprimir (Pyspark_Pandas.to_pandas ())

Producción:

Mark1 Mark2 Mark3
0 90 100 91
1 56 67 92
2 78 96 98
3 54 89 97
4 67 32 87

Puede ver que los valores se almacenan en forma de un marco de datos de pandas con cinco filas y tres columnas.

pyspark.pandas.Marco de datos.to_markdown ()

Pyspark Pandas DataFrame se convierte en Markdown utilizando el método To_markdown ().

Sintaxis:

pyspark_pandas.to_markdown ()

Donde pyspark_pandas es el marco de datos Pyspark Pandas.

Ejemplo: 5

En este ejemplo, convertiremos el Pyspark Pandas Pandas DataFrame en formato de Markdown.

#Pandas de Import del módulo Pyspark
de Pyspark Import Pandas
#Cree DataFrame de Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Mark1': [90,56,78,54,67], 'Mark2': [100,67,96,89,32], 'Mark3': [91,92,98,97,87] )
#Dispray en formato de Markdown
Imprimir (Pyspark_Pandas.to_markdown ())

Producción:

Puede ver que el Pyspark Pandas DataFrame se convierte en formato de Markdown.

pyspark.pandas.Marco de datos.to_dict ()

Pyspark Pandas DataFrame se convierte en un diccionario utilizando el método to_dict ().Los nombres de la columna serán teclas.

Sintaxis:

pyspark_pandas.to_dict ()

Donde pyspark_pandas es el marco de datos Pyspark Pandas.

Ejemplo: 6

En este ejemplo, convertiremos el Pyspark Pandas DataFrame en un diccionario utilizando el método To_Dict ().

#Pandas de Import del módulo Pyspark
de Pyspark Import Pandas
#Cree DataFrame de Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Mark1': [90,56,78,54,67], 'Mark2': [100,67,96,89,32], 'Mark3': [91,92,98,97,87] )
#convertir en el diccionario
Imprimir (Pyspark_Pandas.to_dict ())

Producción:

'Mark1': 0: 90, 1: 56, 2: 78, 3: 54, 4: 67, 'Mark2': 0: 100, 1: 67, 2: 96, 3: 89, 4: 32, 'Mark3': 0: 91, 1: 92, 2: 98, 3: 97, 4: 87

Puede ver que el Pyspark Pandas DataFrame se convierte en un diccionario con claves como nombres de columnas.

pyspark.pandas.Marco de datos.to_records ()

Pyspark Pandas DataFrame se convierte en un registro utilizando el método To_records (). Aquí, para cada fila del registro, se coloca una identificación que comienza desde 1.

Sintaxis:

pyspark_pandas.to_records ()

Donde pyspark_pandas es el marco de datos Pyspark Pandas.

Ejemplo: 7

En este ejemplo, convertiremos el Pyspark Pyspark Pandas DataFrame a un registro utilizando el método To_records ().

#Pandas de Import del módulo Pyspark
de Pyspark Import Pandas
#Cree DataFrame de Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Mark1': [90,56,78,54,67], 'Mark2': [100,67,96,89,32], 'Mark3': [91,92,98,97,87] )
#convertir a los registros
Imprimir (Pyspark_Pandas.to_records ())

Producción:

[(0, 90, 100, 91) (1, 56, 67, 92) (2, 78, 96, 98) (3, 54, 89, 97)
(4, 67, 32, 87)]

pyspark.pandas.Marco de datos.to_latex ()

Pyspark Pandas DataFrame se convierte en un registro utilizando el método To_Latex ().

Sintaxis:

pyspark_pandas.to_latex ()

Donde pyspark_pandas es el marco de datos Pyspark Pandas.

Ejemplo: 8

En este ejemplo, convertiremos el PySpark Pandas DataFrame en formato de látex.

#Pandas de Import del módulo Pyspark
de Pyspark Import Pandas
#Cree DataFrame de Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Mark1': [90,56,78,54,67], 'Mark2': [100,67,96,89,32], 'Mark3': [91,92,98,97,87] )
#convertir a látex
Imprimir (Pyspark_Pandas.to_latex ())

Producción:

Podemos ver que el Pyspark Pandas DataFrame se convierte en formato de látex.

pyspark.pandas.Marco de datos.brillar()

Pyspark Pandas DataFrame se convierte en un marcador de datos de Spark utilizando el método To_Spark (). Utiliza el método show () para mostrar el marco de datos en formato tabular.

Sintaxis:

pyspark_pandas.brillar()

Donde pyspark_pandas es el marco de datos Pyspark Pandas.

Ejemplo: 9

En este ejemplo, convertiremos el Pyspark Pandas DataFrame en un marcador de datos Spark.

#Pandas de Import del módulo Pyspark
de Pyspark Import Pandas
#Cree DataFrame de Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Mark1': [90,56,78,54,67], 'Mark2': [100,67,96,89,32], 'Mark3': [91,92,98,97,87] )
#convertir a chispa
pyspark_pandas.brillar().espectáculo()

Producción:

Podemos ver que el Pyspark Pandas DataFrame se convierte en un marcador de datos Spark.

pyspark.pandas.Marco de datos.Encadenar()

Pyspark Pandas DataFrame se convierte en una cadena utilizando el método To_String (). Se muestra en un formato tabular.

Sintaxis:

pyspark_pandas.Encadenar()

Donde pyspark_pandas es el marco de datos Pyspark Pandas.

Ejemplo: 10

En este ejemplo, convertiremos el Pyspark Pyspark Pandas DataFrame en una cadena

#Pandas de Import del módulo Pyspark
de Pyspark Import Pandas
#Cree DataFrame de Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Mark1': [90,56,78,54,67], 'Mark2': [100,67,96,89,32], 'Mark3': [91,92,98,97,87] )
#convertir al formato de cadena
Imprimir (Pyspark_Pandas.Encadenar())

Producción:

Mark1 Mark2 Mark3
0 90 100 91
1 56 67 92
2 78 96 98
3 54 89 97
4 67 32 87

Podemos ver que el Pyspark Pandas DataFrame se convierte en una cadena con un formato tabular.

Conclusión

En este tutorial, vimos los diferentes formatos que convierten el marco de datos Pyspark Pandas.

to_html () convierte el Pyspark Pandas DataFrame en formato HTML. Si desea convertirlo en una matriz Numpy, puede elegir el método to_numpy (). Si desea convertirlo en un Pandas DataFrame, puede elegir el método to_pandas ().

TO_LATEX () formatea el Pyspark Pandas DataFrame en Latex, To_markDown formatea el Pyspark Pandas DataFrame en Markdown. Si desea que la columna sea una clave, puede preferir a_dict () y to_json ().