"En Python, Pyspark es un módulo Spark utilizado para proporcionar un tipo similar de procesamiento como Spark usando la serie, que almacenará los datos dados en una matriz (columna en Pyspark internamente).
PYSPARK - La serie Pandas representa la serie Pandas, pero posee la columna Pyspark internamente.
Estructura de datos de la serie de soporte de Pandas, y Pandas se importa del módulo Pyspark.
Antes de eso, debe instalar el módulo Pyspark."
Dominio
PIP install Pyspark
Sintaxis para importar
de Pyspark Import PandasDespués de eso, podemos crear o usar la serie desde el módulo Pandas.
Sintaxis para crear la serie Pandas
pyspark.pandas.Serie()Podemos aprobar una lista o lista de listas con valores.
Creemos una serie Pandas a través de Pyspark que tiene cinco valores numéricos.
#Pandas de Import del módulo PysparkProducción
Ahora, entraremos en nuestro tutorial.
pyspark.pandas.Serie.nsmallest ()nsmallest () en la serie Pyspark Pandas se usa para devolver los primeros valores que son mínimos. Simplemente, devolverá los primeros valores más pequeños de la serie de valores. Se necesita un parámetro.
Sintaxis
pyspark_series.nsmallest (n)Donde Pyspark_Series es la serie Pyspark Pandas
Parámetro
n se usa para devolver el número de valores mínimos de toda la serie Pyspark basada en la columna
Ejemplo 1
Devuelve los primeros 2 valores más pequeños de la serie Pyspark Pandas.
Producción
Los primeros 2 valores pequeños son 0 y 54.
Ejemplo 2
Devuelve los primeros 4 valores más pequeños de la serie Pyspark Pandas.
Producción
Los primeros 4 valores pequeños son 0, 54, 56 y 78.
pyspark.pandas.Serie.nlar más ()nlargest () de la serie Pyspark Pandas se usa para devolver los primeros valores que son máximos. Simplemente, devolverá los primeros valores más grandes de la serie de valores. Se necesita un parámetro.
Sintaxis
pyspark_series.nlar más (n)Donde Pyspark_Series es la serie Pyspark Pandas
Parámetro
n se usa para devolver el número de valores máximos de toda la serie Pyspark basada en la columna
Ejemplo 1
Devuelva los primeros 2 valores más grandes de la serie Pyspark Pandas.
Producción
Los primeros 2 valores grandes son 90 y 78.
Ejemplo 2
Devuelva los primeros 4 valores más grandes de la serie Pyspark Pandas.
Producción
Los primeros 4 valores pequeños son 90,78,56 y 54.
Conclusión
En este tutorial de la serie Pyspark Pandas, vimos cómo obtener los primeros valores mínimos y máximos utilizando funciones nsmallest () y nlar (). Estas funciones toman un parámetro que se refiere al número de filas a devolver (filas mínimas para nsmallest () y filas máximas para nlar ()).