Pyspark - Pandas DataFrame nsmallest y nlar más

Pyspark - Pandas DataFrame nsmallest y nlar más
“En Python, Pyspark es un módulo Spark utilizado para proporcionar un tipo similar de procesamiento como Spark usando DataFrame, que almacenará los datos dados en formato de fila y columna.

Pyspark: Pandas DataFrame representa el Pandas DataFrame, pero contiene el Pyspark DataFrame internamente.

PANDAS Support de la estructura de datos del marco de datos, y los pandas se importan desde el módulo Pyspark.

Antes de eso, debe instalar el módulo Pyspark."

Dominio

PIP install Pyspark

Sintaxis para importar

de Pyspark Import Pandas

Después de eso, podemos crear o usar DataFrame desde el módulo Pandas.

Sintaxis para crear Pandas DataFrame

pyspark.pandas.Marco de datos()

Podemos aprobar un diccionario o lista de listas con valores.

Creemos un marco de datos de Pandas a través de Pyspark que tiene cuatro columnas y cinco filas.

#Pandas de Import del módulo Pyspark
de Pyspark Import Pandas
#Cree DataFrame de Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('student_lastName': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#mostrar
Imprimir (pyspark_pandas)

Producción

Ahora, entraremos en nuestro tutorial.

Vamos a verlos uno por uno.

Pyspark - Pandas DataFrame: nsmallest ()

pyspark.pandas.Marco de datos.nsmallest ()

nsmallest () en el Pyspark Pandas DataFrame se usa para devolver las primeras filas que son mínimas en función de la columna. Por lo tanto, devolverá las primeras filas mínimas completas presentes en el Pyspark Pandas DataFrame. Se necesitan dos parámetros.

Sintaxis

pyspark_pandas.nsmallest (n, columna)

Parámetros

  1. n se usa para devolver el número de filas mínimas de todos los pandas de Pyspark en función de la columna
  2. La columna se refiere al nombre de la columna presente en el Pyspark Pandas DataFrame.

Ejemplo 1
En este ejemplo, obtendremos las primeras 2 filas mínimas basadas en la columna Mark1.

#Pandas de Import del módulo Pyspark
de Pyspark Import Pandas
#Cree DataFrame de Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('student_lastName': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#get las primeras 2 filas mínimas basadas en la columna Mark1
Imprimir (Pyspark_Pandas.nsmallest (2, "mark1"))

Producción

Aquí, 54 y 67 son los primeros 2 valores mínimos (mínimos) presentes en la columna Mark1. Entonces se devolvieron 2 filas correspondientes.

Ejemplo 2
En este ejemplo, obtendremos las primeras 4 filas mínimas basadas en la columna Student_LastName.

#Pandas de Import del módulo Pyspark
de Pyspark Import Pandas
#Cree DataFrame de Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('student_lastName': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#Obtenga las primeras 4 filas mínimas basadas en la columna Student_LastName
Imprimir (Pyspark_Pandas.nsmallest (4, "student_lastName"))

Producción

Aquí, Chamundi, Hyna, Kapila y Lehara son los primeros 4 valores mínimos (mínimos) presentes en la columna Student_Name. Entonces se devolvieron 4 filas correspondientes.

Pyspark - Pandas DataFrame: nlargest ()

pyspark.pandas.Marco de datos.nlar más ()

nlargest () en el Pyspark Pandas DataFrame se utiliza para devolver las primeras filas que son máximas en función de la columna. Por lo tanto, devolverá las primeras filas máximas completas presentes en el Pyspark Pandas DataFrame. Se necesitan dos parámetros.

Sintaxis

pyspark_pandas.nlar más (n, columna)

Parámetros

  1. n se usa para devolver el número de filas máximas de todos los pandas de Pyspark en función de la columna
  2. La columna se refiere al nombre de la columna presente en el Pyspark Pandas DataFrame.

Ejemplo 1
En este ejemplo, obtendremos las primeras 2 filas máximas basadas en la columna Mark1.

#Pandas de Import del módulo Pyspark
de Pyspark Import Pandas
#Cree DataFrame de Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('student_lastName': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#get las primeras 2 filas máximas basadas en la columna Mark1
Imprimir (Pyspark_Pandas.nlar más (2, "Mark1"))

Producción

Aquí, 90 y 90 son los primeros 2 valores grandes (máximos) presentes en la columna Mark1. Entonces se devolvieron 2 filas correspondientes.

Ejemplo 2
En este ejemplo, obtendremos las primeras 4 filas máximas basadas en la columna Student_LastName.

#Pandas de Import del módulo Pyspark
de Pyspark Import Pandas
#Cree DataFrame de Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('student_lastName': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#get Primeras 4 filas máximas basadas en la columna Student_LastName
Imprimir (Pyspark_Pandas.NLArgest (4, "Student_LastName"))

Producción

Aquí, Manasa, Lehara, Kapila e Hyna son los primeros 4 valores altos (máximos) presentes en el nombre de estudiante.columna. Entonces se devolvieron 4 filas correspondientes.

Conclusión

En este tutorial Pyspark Pandas DataFrame, vimos cómo obtener los primeros valores mínimos y máximos utilizando las funciones nsmallest () y nLargest (). Estas funciones toman el nombre de la columna que devolverán las filas en función de esta columna.