Devuelve las filas Top y Last de Pyspark Pandas DataFrame

Devuelve las filas Top y Last de Pyspark Pandas DataFrame
“En Python, Pyspark es un módulo Spark utilizado para proporcionar un tipo similar de procesamiento como Spark usando DataFrame, que almacenará los datos dados en formato de fila y columna.

Pyspark: Pandas DataFrame representa el Pandas DataFrame, pero contiene el Pyspark DataFrame internamente.

PANDAS Support de la estructura de datos del marco de datos, y los pandas se importan desde el módulo Pyspark.

Antes de eso, debe instalar el módulo Pyspark."

Dominio

PIP install Pyspark

Sintaxis para importar:

de Pyspark Import Pandas

Después de eso, podemos crear o usar DataFrame desde el módulo Pandas.

Sintaxis para crear pandas dataFrame:

pyspark.pandas.Marco de datos()

Podemos aprobar un diccionario o lista de listas con valores.

Creemos un marco de datos de Pandas a través de Pyspark que tiene cuatro columnas y cinco filas.

#Pandas de Import del módulo Pyspark
de Pyspark Import Pandas
#Cree DataFrame de Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Student_LastName': ['Manasa', 'Trisha', 'Lehara', 'Kapila', 'Hyna'],
'Mark1': [90,56,78,54,67], 'Mark2': [100,67,96,89,32], 'Mark3': [91,92,98,97,87])
Imprimir (pyspark_pandas)

Producción:

Ahora, entraremos en nuestro tutorial.

Hay varias formas de devolver la parte superior y las últimas filas del Pyspark Pandas DataFrame.

Vamos a verlos uno por uno.

pyspark.pandas.Marco de datos.cabeza

Head () devolverá las filas superiores desde la parte superior del Pyspark Pandas DataFrame. Toma N como un parámetro que especifica el número de filas que se muestran desde la parte superior. Por defecto, devolverá las 5 filas principales.

Sintaxis:

pyspark_pandas.Cabeza (n)

Donde pyspark_pandas es el marco de datos Pyspark Pandas.

Parámetro:

n especifica un valor entero que muestra el número de filas desde la parte superior del marco de datos Pyspark Pandas.

También podemos usar la función Head () para mostrar una columna específica.

Sintaxis:

pyspark_pandas.columna.Cabeza (n)

Ejemplo 1

En este ejemplo, devolveremos las 2 y 4 filas en la columna Mark1.

#Pandas de Import del módulo Pyspark
de Pyspark Import Pandas
#Cree DataFrame de Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('student_lastname': ['Manasa', 'Trisha', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,56,78,54,67], 'Mark2': [[ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
#display top 2 filas en la columna Mark1
Imprimir (Pyspark_Pandas.marca.Cabeza (2))
imprimir()
#Display Top 4 filas en la columna Mark1
Imprimir (Pyspark_Pandas.marca.cabeza (4))

Producción:

0 90
1 56
Nombre: Mark1, dtype: int64
0 90
1 56
2 78
3 54
Nombre: Mark1, dtype: int64

Podemos ver que las 2 y 4 filas se seleccionaron de la columna Marks1.

Ejemplo 2

En este ejemplo, devolveremos las 2 y 4 filas principales en la columna Student_LastName.

#Pandas de Import del módulo Pyspark
de Pyspark Import Pandas
#Cree DataFrame de Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('student_lastname': ['Manasa', 'Trisha', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,56,78,54,67], 'Mark2': [[ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
#display top 2 filas en la columna student_lastname
Imprimir (Pyspark_Pandas.estudiante_lastname.Cabeza (2))
imprimir()
#display las 4 filas Top Top en la columna Student_LastName
Imprimir (Pyspark_Pandas.estudiante_lastname.cabeza (4))

Producción:

0 Manasa
1 Trisha
Nombre: student_lastname, dtype: objeto
0 Manasa
1 Trisha
2 Lehara
3 Kapila
Nombre: student_lastname, dtype: objeto

Podemos ver que las 2 y 4 filas se seleccionaron de la estudiante_lastname columna.

Ejemplo 3

En este ejemplo, devolveremos las 2 filas principales de todo el marco de datos.

#Pandas de Import del módulo Pyspark
de Pyspark Import Pandas
#Cree DataFrame de Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('student_lastname': ['Manasa', 'Trisha', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,56,78,54,67], 'Mark2': [[ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
#Dispray Top 2 filas
Imprimir (Pyspark_Pandas.Cabeza (2))
imprimir()
#Dispray top 4 filas
Imprimir (Pyspark_Pandas.cabeza (4))

Producción:

student_lastName Mark1 Mark2 Mark3
0 Manasa 90 100 91
1 Trisha 56 67 92
student_lastName Mark1 Mark2 Mark3
0 Manasa 90 100 91
1 Trisha 56 67 92
2 Lehara 78 96 98
3 Kapila 54 89 97

Podemos ver que todo el marco de datos se devuelve con las 2 y 4 filas principales.

pyspark.pandas.Marco de datos.cola

Tail () devolverá filas de la última en el Pyspark Pandas DataFrame. Toma N como un parámetro que especifica el número de filas que se muestran desde la última.

Sintaxis:

pyspark_pandas.cola (n)

Donde pyspark_pandas es el marco de datos Pyspark Pandas.

Parámetro:

n especifica un valor entero que muestra el número de filas desde el último de Pyspark Pandas DataFrame. Por defecto, devolverá las últimas 5 filas.

También podemos usar la función Tail () para mostrar columnas específicas.

Sintaxis:

pyspark_pandas.columna.cola (n)

Ejemplo 1

En este ejemplo, devolveremos las últimas 2 y 4 filas en la columna Mark1.

#Pandas de Import del módulo Pyspark
de Pyspark Import Pandas
#Cree DataFrame de Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('student_lastname': ['Manasa', 'Trisha', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,56,78,54,67], 'Mark2': [[ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
#Display Últimas 2 filas en la columna Mark1
Imprimir (Pyspark_Pandas.marca.cola (2))
imprimir()
#Display Últimas 4 filas en la columna Mark1
Imprimir (Pyspark_Pandas.marca.cola (4))

Producción:

3 54
4 67
Nombre: Mark1, dtype: int64
1 56
2 78
3 54
4 67
Nombre: Mark1, dtype: int64

Podemos ver que las últimas 2 y 4 filas fueron seleccionadas de la columna Marks1.

Ejemplo 2

En este ejemplo, devolveremos las últimas 2 y 4 filas en la columna Student_LastName.

#Pandas de Import del módulo Pyspark
de Pyspark Import Pandas
#Cree DataFrame de Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('student_lastname': ['Manasa', 'Trisha', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,56,78,54,67], 'Mark2': [[ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
#display Últimas 2 filas en la columna Student_LastName
Imprimir (Pyspark_Pandas.estudiante_lastname.cola (2))
imprimir()
#display las últimas 4 filas en la columna Student_LastName
Imprimir (Pyspark_Pandas.estudiante_lastname.cola (4))

Producción:

3 Kapila
4 hyna
Nombre: student_lastname, dtype: objeto
1 Trisha
2 Lehara
3 Kapila
4 hyna
Nombre: student_lastname, dtype: objeto

Podemos ver que las últimas 2 y 4 filas fueron seleccionadas de la estudiante_lastname columna.

Ejemplo 3

En este ejemplo, devolveremos las últimas 2 filas de todo el marco de datos.

#Pandas de Import del módulo Pyspark
de Pyspark Import Pandas
#Cree DataFrame de Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('student_lastname': ['Manasa', 'Trisha', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,56,78,54,67], 'Mark2': [[ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
#Dispray las últimas 2 filas
Imprimir (Pyspark_Pandas.cola (2))
imprimir()
#Dispray las últimas 4 filas
Imprimir (Pyspark_Pandas.cola (4))

Producción:

student_lastName Mark1 Mark2 Mark3
3 Kapila 54 89 97
4 Hyna 67 32 87
student_lastName Mark1 Mark2 Mark3
1 Trisha 56 67 92
2 Lehara 78 96 98
3 Kapila 54 89 97
4 Hyna 67 32 87

Podemos ver que todo el marco de datos se devuelve con las últimas 2 y 4 filas.

Conclusión

Vimos cómo mostrar las filas superior y última de las funciones Pyspark Pandas DataFrame usando Head () y Tail (). Por defecto, devuelven 5 filas.Las funciones de cabeza () y cola () también se usan para obtener las filas superior y las últimas con columnas específicas.