Pyspark - Serie Pandas nsmallest y nlar

Pyspark - Serie Pandas nsmallest y nlar

"En Python, Pyspark es un módulo Spark utilizado para proporcionar un tipo similar de procesamiento como Spark usando la serie, que almacenará los datos dados en una matriz (columna en Pyspark internamente).

PYSPARK - La serie Pandas representa la serie Pandas, pero posee la columna Pyspark internamente.

Estructura de datos de la serie de soporte de Pandas, y Pandas se importa del módulo Pyspark.

Antes de eso, debe instalar el módulo Pyspark."

Dominio

PIP install Pyspark

Sintaxis para importar

de Pyspark Import Pandas

Después de eso, podemos crear o usar la serie desde el módulo Pandas.

Sintaxis para crear la serie Pandas

pyspark.pandas.Serie()

Podemos aprobar una lista o lista de listas con valores.

Creemos una serie Pandas a través de Pyspark que tiene cinco valores numéricos.

#Pandas de Import del módulo Pyspark
de Pyspark Import Pandas
#CREATE Series con 5 elementos
pyspark_series = pandas.Serie ([90,56,78,54,0])
Imprimir (Pyspark_Series)

Producción

Ahora, entraremos en nuestro tutorial.

pyspark.pandas.Serie.nsmallest ()

nsmallest () en la serie Pyspark Pandas se usa para devolver los primeros valores que son mínimos. Simplemente, devolverá los primeros valores más pequeños de la serie de valores. Se necesita un parámetro.

Sintaxis

pyspark_series.nsmallest (n)

Donde Pyspark_Series es la serie Pyspark Pandas

Parámetro
n se usa para devolver el número de valores mínimos de toda la serie Pyspark basada en la columna

Ejemplo 1
Devuelve los primeros 2 valores más pequeños de la serie Pyspark Pandas.

#Pandas de Import del módulo Pyspark
de Pyspark Import Pandas
#CREATE Series con 5 elementos
pyspark_series = pandas.Serie ([90,56,78,54,0])
#return primero 2 valores pequeños
Imprimir (Pyspark_Series.nsmallest (2))

Producción

Los primeros 2 valores pequeños son 0 y 54.

Ejemplo 2
Devuelve los primeros 4 valores más pequeños de la serie Pyspark Pandas.

#Pandas de Import del módulo Pyspark
de Pyspark Import Pandas
#CREATE Series con 5 elementos
pyspark_series = pandas.Serie ([90,56,78,54,0])
#return primero 4 valores pequeños
Imprimir (Pyspark_Series.nsmallest (4))

Producción

Los primeros 4 valores pequeños son 0, 54, 56 y 78.

pyspark.pandas.Serie.nlar más ()

nlargest () de la serie Pyspark Pandas se usa para devolver los primeros valores que son máximos. Simplemente, devolverá los primeros valores más grandes de la serie de valores. Se necesita un parámetro.

Sintaxis

pyspark_series.nlar más (n)

Donde Pyspark_Series es la serie Pyspark Pandas

Parámetro
n se usa para devolver el número de valores máximos de toda la serie Pyspark basada en la columna

Ejemplo 1
Devuelva los primeros 2 valores más grandes de la serie Pyspark Pandas.

#Pandas de Import del módulo Pyspark
de Pyspark Import Pandas
#CREATE Series con 5 elementos
pyspark_series = pandas.Serie ([90,56,78,54,0])
#return primero 2 valores grandes
Imprimir (Pyspark_Series.nlar más (2))

Producción

Los primeros 2 valores grandes son 90 y 78.

Ejemplo 2
Devuelva los primeros 4 valores más grandes de la serie Pyspark Pandas.

#Pandas de Import del módulo Pyspark
de Pyspark Import Pandas
#CREATE Series con 5 elementos
pyspark_series = pandas.Serie ([90,56,78,54,0])
#return primero 4 valores grandes
Imprimir (Pyspark_Series.nlar más (4))

Producción

Los primeros 4 valores pequeños son 90,78,56 y 54.

Conclusión

En este tutorial de la serie Pyspark Pandas, vimos cómo obtener los primeros valores mínimos y máximos utilizando funciones nsmallest () y nlar (). Estas funciones toman un parámetro que se refiere al número de filas a devolver (filas mínimas para nsmallest () y filas máximas para nlar ()).