Pyspark: Pandas DataFrame representa el Pandas DataFrame, pero contiene el Pyspark DataFrame internamente.
PANDAS Support de la estructura de datos del marco de datos, y los pandas se importan desde el módulo Pyspark.
Antes de eso, debe instalar el módulo Pyspark."
Dominio
PIP install PysparkSintaxis para importar
de Pyspark Import PandasDespués de eso, podemos crear o usar DataFrame desde el módulo Pandas.
Sintaxis para crear Pandas DataFrame
pyspark.pandas.Marco de datos()Podemos aprobar un diccionario o lista de listas con valores.
Creemos un marco de datos de Pandas a través de Pyspark que tiene cuatro columnas y cinco filas.
#Pandas de Import del módulo PysparkProducción
Ahora, entraremos en nuestro tutorial.
Vamos a verlos uno por uno.
Pyspark - Pandas DataFrame: nsmallest ()
pyspark.pandas.Marco de datos.nsmallest ()nsmallest () en el Pyspark Pandas DataFrame se usa para devolver las primeras filas que son mínimas en función de la columna. Por lo tanto, devolverá las primeras filas mínimas completas presentes en el Pyspark Pandas DataFrame. Se necesitan dos parámetros.
Sintaxis
pyspark_pandas.nsmallest (n, columna)Parámetros
Ejemplo 1
En este ejemplo, obtendremos las primeras 2 filas mínimas basadas en la columna Mark1.
Producción
Aquí, 54 y 67 son los primeros 2 valores mínimos (mínimos) presentes en la columna Mark1. Entonces se devolvieron 2 filas correspondientes.
Ejemplo 2
En este ejemplo, obtendremos las primeras 4 filas mínimas basadas en la columna Student_LastName.
Producción
Aquí, Chamundi, Hyna, Kapila y Lehara son los primeros 4 valores mínimos (mínimos) presentes en la columna Student_Name. Entonces se devolvieron 4 filas correspondientes.
Pyspark - Pandas DataFrame: nlargest ()
pyspark.pandas.Marco de datos.nlar más ()nlargest () en el Pyspark Pandas DataFrame se utiliza para devolver las primeras filas que son máximas en función de la columna. Por lo tanto, devolverá las primeras filas máximas completas presentes en el Pyspark Pandas DataFrame. Se necesitan dos parámetros.
Sintaxis
pyspark_pandas.nlar más (n, columna)Parámetros
Ejemplo 1
En este ejemplo, obtendremos las primeras 2 filas máximas basadas en la columna Mark1.
Producción
Aquí, 90 y 90 son los primeros 2 valores grandes (máximos) presentes en la columna Mark1. Entonces se devolvieron 2 filas correspondientes.
Ejemplo 2
En este ejemplo, obtendremos las primeras 4 filas máximas basadas en la columna Student_LastName.
Producción
Aquí, Manasa, Lehara, Kapila e Hyna son los primeros 4 valores altos (máximos) presentes en el nombre de estudiante.columna. Entonces se devolvieron 4 filas correspondientes.
Conclusión
En este tutorial Pyspark Pandas DataFrame, vimos cómo obtener los primeros valores mínimos y máximos utilizando las funciones nsmallest () y nLargest (). Estas funciones toman el nombre de la columna que devolverán las filas en función de esta columna.