Pyspark entre la función

Pyspark entre la función
La función entre () en Pyspark se usa para seleccionar los valores dentro del rango especificado. Se puede usar con el método select ().

Devolverá verdadero en todos los valores dentro del rango especificado.

Para los valores que no están en el rango especificado, se devuelve el falso.

Sintaxis
dataframe_obj.SELECT (dataFrame_obj.edad.entre (bajo, alto))

Dónde,
dataFrame_Object es el Pyspark DataFrame.

Parámetros:
Se necesitan dos parámetros.

  1. El bajo será el rango inicial
  2. El alto será el rango final.

Devolver:
Devuelve todas las filas con valores booleanos (verdadero/falso).

Veremos diferentes ejemplos.

Ejemplo 1
Aquí, obtendremos los valores en la columna de edad que se encuentran en el rango de 10 a 21.

importar pyspark
de Pyspark.Importación SQL *
Spark_app = Sparksession.constructor.nombre de la aplicación('_').getorcreate ()
Estudiantes = [(4, 'Sravan', 23, 'Php', 'Pruebas'),
(2, 'Sravan', 23, 'Oracle', 'Prueba'),
(46, 'Mounika', 22, '.Net ',' html '),
(12, 'Deepika', 21, 'Oracle', 'html'),
(46, 'Mounika', 22, 'Oracle', 'Prueba'),
(12, 'Chandrika', 23, 'Hadoop', 'C#'),
(12, 'Chandrika', 22, 'Oracle', 'Prueba'),
(45, 'Sravan', 23, 'Oracle', 'C#'),
(4, 'Deepika', 21, 'Php', 'C#'),
(46, 'Mounika', 22, '.Net ',' prueba ')
]
dataFrame_OBJ = Spark_App.creatataFrame (estudiantes, ['temas_id', 'nombre', 'edad', 'tecnología1', 'tecnología2'])
Imprimir ("--- DataFrame real ---")
dataframe_obj.espectáculo()
Imprimir ("--- Los valores en la columna de edad entre 10 y 21 ---")
dataframe_obj.SELECT (dataFrame_obj.edad, dataframe_obj.edad.entre (10, 21)).espectáculo()

Producción:

Puede ver que los valores en la columna de edad volvieron verdaderos entre 10 y 21. El resto de los valores devueltos falsos.

Ejemplo 2
Aquí, tendremos los valores en la columna temas_id que están en el rango de 40 a 46.

importar pyspark
de Pyspark.Importación SQL *
Spark_app = Sparksession.constructor.nombre de la aplicación('_').getorcreate ()
Estudiantes = [(4, 'Sravan', 23, 'Php', 'Pruebas'),
(2, 'Sravan', 23, 'Oracle', 'Prueba'),
(46, 'Mounika', 22, '.Net ',' html '),
(12, 'Deepika', 21, 'Oracle', 'html'),
(46, 'Mounika', 22, 'Oracle', 'Prueba'),
(12, 'Chandrika', 23, 'Hadoop', 'C#'),
(12, 'Chandrika', 22, 'Oracle', 'Prueba'),
(45, 'Sravan', 23, 'Oracle', 'C#'),
(4, 'Deepika', 21, 'Php', 'C#'),
(46, 'Mounika', 22, '.Net ',' prueba ')
]
dataFrame_OBJ = Spark_App.creatataFrame (estudiantes, ['temas_id', 'nombre', 'edad', 'tecnología1', 'tecnología2'])
Imprimir ("--- DataFrame real ---")
dataframe_obj.espectáculo()
Imprimir ("--- Los valores en la columna temas_id entre 40 y 46 ---")
dataframe_obj.SELECT (dataFrame_obj.temas_id, dataframe_obj.asunto_id.entre (40,46)).espectáculo()

Producción:

Puede ver que los valores en la columna TIEMPLE_ID devolvieron verdadero que están entre 40 y 46. El resto de los valores se devuelven falso.

Ejemplo 3
Aquí, obtendremos los valores en la columna temas_id que están en el rango de 60 a 100.

importar pyspark
de Pyspark.Importación SQL *
Spark_app = Sparksession.constructor.nombre de la aplicación('_').getorcreate ()
Estudiantes = [(4, 'Sravan', 23, 'Php', 'Pruebas'),
(2, 'Sravan', 23, 'Oracle', 'Prueba'),
(46, 'Mounika', 22, '.Net ',' html '),
(12, 'Deepika', 21, 'Oracle', 'html'),
(46, 'Mounika', 22, 'Oracle', 'Prueba'),
(12, 'Chandrika', 23, 'Hadoop', 'C#'),
(12, 'Chandrika', 22, 'Oracle', 'Prueba'),
(45, 'Sravan', 23, 'Oracle', 'C#'),
(4, 'Deepika', 21, 'Php', 'C#'),
(46, 'Mounika', 22, '.Net ',' prueba ')
]
dataFrame_OBJ = Spark_App.creatataFrame (estudiantes, ['temas_id', 'nombre', 'edad', 'tecnología1', 'tecnología2'])
Imprimir ("--- DataFrame real ---")
dataframe_obj.espectáculo()
Imprimir ("--- Los valores en la columna temas_id entre 60 y 100 ---")
dataframe_obj.SELECT (dataFrame_obj.temas_id, dataframe_obj.asunto_id.entre (60,100)).espectáculo()

Producción:

Puede ver que los valores de NO en la columna temas_id no están en el rango especificado. Entonces, para todas las filas, se devuelve el falso.

Conclusión

En este tutorial de Pyspark, discutimos la función entre (). En donde, la función entre () selecciona los valores dentro del rango especificado. Se puede usar con el método select (). Devolverá verdadero en todos los valores que están dentro del rango especificado. Para los valores que no están en el rango especificado, se devuelve el falso.