Antes de discutir estas funciones, crearemos una muestra de Pyspark DataFrame.
Datos
importar pyspark
de Pyspark.SQL Import Sparksession
Spark_app = Sparksession.constructor.nombre de la aplicación('_').getorcreate ()
estudiantes = [(4, 'Sravan', 23, ninguno, ninguno),
(4, 'Chandana', 23, 'CSS', 'Pyspark'),
(46, 'Mounika', 22, ninguno, '.NETO'),
(4, 'Deepika', 21, 'html', ninguno),
]
dataFrame_OBJ = Spark_App.creatataFrame (estudiantes, ['temas_id', 'nombre', 'edad', 'tecnología1', 'tecnología2'])
dataframe_obj.espectáculo()
Producción:
Ahora hay 5 columnas y 4 filas.
ASC_NULLS_FIRST () Función
La función ASC_NULLS_FIRST () clasifica los valores en una columna en orden ascendente, pero primero colocará los valores nulos existentes en una columna.
Se puede usar con el método select () para seleccionar las columnas ordenadas. Es muy importante usar Orderby () porque lo principal aquí es clasificar.ordenby () y toma asc_nulls_first () como parámetro.
Sintaxis
dataframe_obj.SELECT (dataFrame_obj.columna).OrderBy (DataFrame_obj.columna.asc_nulls_
primero())
Donde DataFrame_obj es el DataFrame y la columna es el nombre de la columna en el que se ordenan los valores, todos los valores nulos se colocarán primero.
Entonces, nuestro marco de datos está listo. Demostremos la función ASC_NULLS_FIRST ().
Ejemplo 1
Ahora, ordenaremos los valores en la columna Technology1 con valores NINGUNOS/NULL en orden ascendente utilizando la función ASC_NULLS_FIRST ().
#sorta la columna Technology1 en orden ascendente y obtenga primero los valores nulos.
dataframe_obj.SELECT (dataFrame_obj.Tecnología1).OrderBy (DataFrame_obj.Tecnología1.asc_
nulls_first ()).espectáculo()
Producción:
En realidad, hay dos valores nulos. Primero, se colocan, y más tarde, CSS y HTML se clasifican en orden ascendente.
Ejemplo 2
Ahora, ordenaremos los valores en la columna Technology2 que no tiene valores NUN/NULL en orden ascendente utilizando la función ASC_NULLS_FIRST ().
#sorta la columna Technology2 en orden ascendente y obtenga primero los valores nulos.
Dataframe_obj.SELECT (dataFrame_obj.tecnología2).OrderBy (DataFrame_obj.Tecnología2.asc_
nulls_first ()).espectáculo()
Producción:
En realidad, hay dos valores nulos. Primero, se colocan y luego, .Net y Pyspark se clasifican en orden ascendente.
ASC_NULLS_LAST () Función
La función ASC_NULLS_LAST () clasifica los valores en una columna en orden ascendente, pero colocará los valores nulos existentes en una columna al final.
Se puede usar con el método select () para seleccionar las columnas ordenadas. Es muy importante usar Orderby () porque lo principal aquí es clasificar.OrderBy () ya que toma asc_nulls_first () como parámetro.
Sintaxis
dataframe_obj.SELECT (dataFrame_obj.columna).OrderBy (DataFrame_obj.columna.asc_nulls_last ())
Donde DataFrame_obj es el DataFrame y la columna es el nombre de la columna en el que se ordenan los valores, todos los valores nulos se colocarán por fin.
Entonces, nuestro marco de datos está listo. Demostremos la función ASC_NULLS_LAST ().
Ejemplo 1
Ahora, ordenaremos los valores en la columna Technology2 que no tiene valores NUN/NULL en orden ascendente utilizando la función ASC_NULLS_LAST ().
#sorta la columna Technology1 en orden ascendente y obtenga los valores nulos en último lugar.
dataframe_obj.SELECT (dataFrame_obj.Tecnología1).OrderBy (DataFrame_obj.Tecnología1.asc_
nulls_last ()).espectáculo()
Producción:
En realidad, hay dos valores nulos. Primero, CSS y HTML se clasifican en orden ascendente, y se colocan dos valores nulos el último.
Ejemplo 2
Ahora, ordenaremos los valores en la columna Technology2 que no tiene valores NUN/NULL en orden ascendente utilizando la función ASC_NULLS_LAST ().
#sorta la columna Technology2 en orden ascendente y obtenga los valores nulos en último lugar.
dataframe_obj.SELECT (dataFrame_obj.tecnología2).OrderBy (DataFrame_obj.Tecnología2.asc_
nulls_last ()).espectáculo()
Producción:
En realidad, hay dos valores nulos. Primero, .Net y pyspark se clasifican en orden ascendente y se colocan dos valores nulos el último.
Código general
importar pyspark
de Pyspark.SQL Import Sparksession
Spark_app = Sparksession.constructor.nombre de la aplicación('_').getorcreate ()
estudiantes = [(4, 'Sravan', 23, ninguno, ninguno),
(4, 'Chandana', 23, 'CSS', 'Pyspark'),
(46, 'Mounika', 22, ninguno, '.NETO'),
(4, 'Deepika', 21, 'html', ninguno),
]
dataFrame_OBJ = Spark_App.creatataFrame (estudiantes, ['temas_id', 'nombre', 'edad', 'tecnología1', 'tecnología2'])
dataframe_obj.espectáculo()
#sorta la columna Technology1 en orden ascendente y obtenga primero los valores nulos.
dataframe_obj.SELECT (dataFrame_obj.Tecnología1).OrderBy (DataFrame_obj.Tecnología1.asc_
nulls_first ()).espectáculo()
#sorta la columna Technology2 en orden ascendente y obtenga primero los valores nulos.
dataframe_obj.SELECT (dataFrame_obj.tecnología2).OrderBy (DataFrame_obj.Tecnología2.asc_
nulls_first ()).espectáculo()
#sorta la columna Technology1 en orden ascendente y obtenga los valores nulos en último lugar.
dataframe_obj.SELECT (dataFrame_obj.Tecnología1).OrderBy (DataFrame_obj.Tecnología1.asc_
nulls_last ()).espectáculo()
#sorta la columna Technology2 en orden ascendente y obtenga los valores nulos en último lugar.
dataframe_obj.SELECT (dataFrame_obj.tecnología2).OrderBy (DataFrame_obj.Tecnología2.asc_
nulls_last ()).espectáculo()
Conclusión
Al final de este tutorial de Pyspark, aprendimos que es posible lidiar con NULL mientras se clasifica los valores en un marco de datos utilizando las funciones ASC_NULLS_FIRST () y ASC_NULLS_LAST (). La función ASC_NULLS_FIRST () clasifica los valores en una columna en orden ascendente, pero primero colocará los valores nulos existentes en una columna. La función ASC_NULLS_LAST () clasifica los valores en una columna en orden ascendente, pero colocará los valores nulos existentes en una columna al final. Puede ejecutar todo el código especificado en la última parte del tutorial.