Pyspark: Pandas DataFrame representa el Pandas DataFrame, pero contiene el Pyspark DataFrame internamente.
PANDAS Support de la estructura de datos del marco de datos, y los pandas se importan desde el módulo Pyspark.
Antes de eso, debe instalar el módulo Pyspark."
Dominio
PIP install PysparkSintaxis para importar:
de Pyspark Import PandasDespués de eso, podemos crear o usar DataFrame desde el módulo de Pandas.
Sintaxis para crear pandas dataFrame:
pyspark.pandas.Marco de datos()Podemos aprobar un diccionario o lista de listas con valores.
Creemos un marco de datos Pandas a través de Pyspark con tres columnas y cinco filas.
#Pandas de Import del módulo PysparkProducción:
Ahora, entraremos en nuestro tutorial.
Veremos diferentes formatos en los que se convierte el marco de datos Pyspark Pyspark creado anteriormente.
pyspark.pandas.Marco de datos.to_html ()
Pyspark Pandas DataFrame se convierte en formato HTML de modo que los nombres de la columna se colocan en
Sintaxis:
pyspark_pandas.to_html ()Donde pyspark_pandas es el marco de datos Pyspark Pandas.
Ejemplo 1
En este ejemplo, convertiremos el formato de datos Pyspark Pyspark Pyspark en formato HTML.
#Pandas de Import del módulo PysparkProducción:
Puedes ver que los nombres de la columna se colocan dentro
pyspark.pandas.Marco de datos.to_json ()
Pyspark Pandas DataFrame se convierte en formato JSON de modo que los nombres de la columna actuarán como claves y los valores de la columna serán valores.
Sintaxis:
pyspark_pandas.to_json ()Donde pyspark_pandas es el marco de datos Pyspark Pandas.
Ejemplo: 2
En este ejemplo, convertiremos el PySpark Pandas DataFrame en formato JSON.
#Pandas de Import del módulo PysparkProducción:
["Mark1": 90, "Mark2": 100, "Mark3": 91, "Mark1": 56, "Mark2": 67, "Mark3": 92, "Mark1": 78, "Mark2 ": 96," Mark3 ": 98, " Mark1 ": 54," Mark2 ": 89," Mark3 ": 97, " Mark1 ": 67," Mark2 ": 32," Mark3 ": 87 ]Puedes ver que los nombres de la columna son teclas.
pyspark.pandas.Marco de datos.to_numpy ()
Pyspark Pandas DataFrame se convierte en formato de matriz utilizando el método to_numpy ().
Sintaxis:
pyspark_pandas.to_numpy ()Donde pyspark_pandas es el marco de datos Pyspark Pandas.
Ejemplo: 3
En este ejemplo, convertiremos el PySpark Pandas DataFrame en formato de matriz.
#Pandas de Import del módulo PysparkProducción:
[[90 100 91]Puede ver que los valores se almacenan en forma de una matriz 2-D con cinco filas y tres columnas.
pyspark.pandas.Marco de datos.to_pandas ()
Pyspark Pandas DataFrame se convierte en Pandas DataFrame utilizando el método To_pandas ().
Sintaxis:
pyspark_pandas.to_pandas ()Donde pyspark_pandas es el marco de datos Pyspark Pandas.
Ejemplo: 4
En este ejemplo, convertiremos el Pyspark Pandas DataFrame a un marco de datos PANDAS.
#Pandas de Import del módulo PysparkProducción:
Mark1 Mark2 Mark3Puede ver que los valores se almacenan en forma de un marco de datos de pandas con cinco filas y tres columnas.
Pyspark Pandas DataFrame se convierte en Markdown utilizando el método To_markdown ().
Sintaxis:
pyspark_pandas.to_markdown ()Donde pyspark_pandas es el marco de datos Pyspark Pandas.
Ejemplo: 5
En este ejemplo, convertiremos el Pyspark Pandas Pandas DataFrame en formato de Markdown.
#Pandas de Import del módulo PysparkProducción:
Puede ver que el Pyspark Pandas DataFrame se convierte en formato de Markdown.
Pyspark Pandas DataFrame se convierte en un diccionario utilizando el método to_dict ().Los nombres de la columna serán teclas.
Sintaxis:
pyspark_pandas.to_dict ()Donde pyspark_pandas es el marco de datos Pyspark Pandas.
Ejemplo: 6
En este ejemplo, convertiremos el Pyspark Pandas DataFrame en un diccionario utilizando el método To_Dict ().
#Pandas de Import del módulo PysparkProducción:
'Mark1': 0: 90, 1: 56, 2: 78, 3: 54, 4: 67, 'Mark2': 0: 100, 1: 67, 2: 96, 3: 89, 4: 32, 'Mark3': 0: 91, 1: 92, 2: 98, 3: 97, 4: 87Puede ver que el Pyspark Pandas DataFrame se convierte en un diccionario con claves como nombres de columnas.
pyspark.pandas.Marco de datos.to_records ()
Pyspark Pandas DataFrame se convierte en un registro utilizando el método To_records (). Aquí, para cada fila del registro, se coloca una identificación que comienza desde 1.
Sintaxis:
pyspark_pandas.to_records ()Donde pyspark_pandas es el marco de datos Pyspark Pandas.
Ejemplo: 7
En este ejemplo, convertiremos el Pyspark Pyspark Pandas DataFrame a un registro utilizando el método To_records ().
#Pandas de Import del módulo PysparkProducción:
[(0, 90, 100, 91) (1, 56, 67, 92) (2, 78, 96, 98) (3, 54, 89, 97)pyspark.pandas.Marco de datos.to_latex ()
Pyspark Pandas DataFrame se convierte en un registro utilizando el método To_Latex ().
Sintaxis:
pyspark_pandas.to_latex ()Donde pyspark_pandas es el marco de datos Pyspark Pandas.
Ejemplo: 8
En este ejemplo, convertiremos el PySpark Pandas DataFrame en formato de látex.
#Pandas de Import del módulo PysparkProducción:
Podemos ver que el Pyspark Pandas DataFrame se convierte en formato de látex.
pyspark.pandas.Marco de datos.brillar()
Pyspark Pandas DataFrame se convierte en un marcador de datos de Spark utilizando el método To_Spark (). Utiliza el método show () para mostrar el marco de datos en formato tabular.
Sintaxis:
pyspark_pandas.brillar()Donde pyspark_pandas es el marco de datos Pyspark Pandas.
Ejemplo: 9
En este ejemplo, convertiremos el Pyspark Pandas DataFrame en un marcador de datos Spark.
#Pandas de Import del módulo PysparkProducción:
Podemos ver que el Pyspark Pandas DataFrame se convierte en un marcador de datos Spark.
pyspark.pandas.Marco de datos.Encadenar()
Pyspark Pandas DataFrame se convierte en una cadena utilizando el método To_String (). Se muestra en un formato tabular.
Sintaxis:
pyspark_pandas.Encadenar()Donde pyspark_pandas es el marco de datos Pyspark Pandas.
Ejemplo: 10
En este ejemplo, convertiremos el Pyspark Pyspark Pandas DataFrame en una cadena
#Pandas de Import del módulo PysparkProducción:
Mark1 Mark2 Mark3Podemos ver que el Pyspark Pandas DataFrame se convierte en una cadena con un formato tabular.
Conclusión
En este tutorial, vimos los diferentes formatos que convierten el marco de datos Pyspark Pandas.
to_html () convierte el Pyspark Pandas DataFrame en formato HTML. Si desea convertirlo en una matriz Numpy, puede elegir el método to_numpy (). Si desea convertirlo en un Pandas DataFrame, puede elegir el método to_pandas ().
TO_LATEX () formatea el Pyspark Pandas DataFrame en Latex, To_markDown formatea el Pyspark Pandas DataFrame en Markdown. Si desea que la columna sea una clave, puede preferir a_dict () y to_json ().