Pyspark: Pandas DataFrame representa el Pandas DataFrame, pero contiene el Pyspark DataFrame internamente.
PANDAS Support de la estructura de datos del marco de datos, y los pandas se importan desde el módulo Pyspark.
Antes de eso, debe instalar el módulo Pyspark."
Dominio
PIP install PysparkSintaxis para importar:
de Pyspark Import PandasDespués de eso, podemos crear o usar DataFrame desde el módulo Pandas.
Sintaxis para crear pandas dataFrame:
pyspark.pandas.Marco de datos()Podemos aprobar un diccionario o lista de listas con valores.
Creemos un marco de datos de Pandas a través de Pyspark que tiene cuatro columnas y cinco filas.
#Pandas de Import del módulo PysparkProducción:
Ahora, entraremos en nuestro tutorial.
Hay varias formas de devolver la parte superior y las últimas filas del Pyspark Pandas DataFrame.
Vamos a verlos uno por uno.
pyspark.pandas.Marco de datos.cabeza
Head () devolverá las filas superiores desde la parte superior del Pyspark Pandas DataFrame. Toma N como un parámetro que especifica el número de filas que se muestran desde la parte superior. Por defecto, devolverá las 5 filas principales.
Sintaxis:
pyspark_pandas.Cabeza (n)Donde pyspark_pandas es el marco de datos Pyspark Pandas.
Parámetro:
n especifica un valor entero que muestra el número de filas desde la parte superior del marco de datos Pyspark Pandas.
También podemos usar la función Head () para mostrar una columna específica.
Sintaxis:
pyspark_pandas.columna.Cabeza (n)Ejemplo 1
En este ejemplo, devolveremos las 2 y 4 filas en la columna Mark1.
#Pandas de Import del módulo PysparkProducción:
0 90Podemos ver que las 2 y 4 filas se seleccionaron de la columna Marks1.
Ejemplo 2
En este ejemplo, devolveremos las 2 y 4 filas principales en la columna Student_LastName.
#Pandas de Import del módulo PysparkProducción:
0 ManasaPodemos ver que las 2 y 4 filas se seleccionaron de la estudiante_lastname columna.
Ejemplo 3
En este ejemplo, devolveremos las 2 filas principales de todo el marco de datos.
#Pandas de Import del módulo PysparkProducción:
student_lastName Mark1 Mark2 Mark3Podemos ver que todo el marco de datos se devuelve con las 2 y 4 filas principales.
pyspark.pandas.Marco de datos.cola
Tail () devolverá filas de la última en el Pyspark Pandas DataFrame. Toma N como un parámetro que especifica el número de filas que se muestran desde la última.
Sintaxis:
pyspark_pandas.cola (n)Donde pyspark_pandas es el marco de datos Pyspark Pandas.
Parámetro:
n especifica un valor entero que muestra el número de filas desde el último de Pyspark Pandas DataFrame. Por defecto, devolverá las últimas 5 filas.
También podemos usar la función Tail () para mostrar columnas específicas.
Sintaxis:
pyspark_pandas.columna.cola (n)Ejemplo 1
En este ejemplo, devolveremos las últimas 2 y 4 filas en la columna Mark1.
#Pandas de Import del módulo PysparkProducción:
3 54Podemos ver que las últimas 2 y 4 filas fueron seleccionadas de la columna Marks1.
Ejemplo 2
En este ejemplo, devolveremos las últimas 2 y 4 filas en la columna Student_LastName.
#Pandas de Import del módulo PysparkProducción:
3 KapilaPodemos ver que las últimas 2 y 4 filas fueron seleccionadas de la estudiante_lastname columna.
Ejemplo 3
En este ejemplo, devolveremos las últimas 2 filas de todo el marco de datos.
#Pandas de Import del módulo PysparkProducción:
student_lastName Mark1 Mark2 Mark3Podemos ver que todo el marco de datos se devuelve con las últimas 2 y 4 filas.
Conclusión
Vimos cómo mostrar las filas superior y última de las funciones Pyspark Pandas DataFrame usando Head () y Tail (). Por defecto, devuelven 5 filas.Las funciones de cabeza () y cola () también se usan para obtener las filas superior y las últimas con columnas específicas.