Pyspark contiene función

Pyspark contiene función
Si queremos devolver los valores de la columna DataFrame en PysPark, entonces el método Contiene () disponible en Pyspark se usa para devolver las filas en función de los valores especificados dentro de él.

Se puede usar con la cláusula de filtro o donde la cláusula. Los veremos uno por uno con los diferentes ejemplos.

Sintaxis

dataFrame_Object.Filtro (DataFrame_obj.columna.contiene (valor/cadena))
dataFrame_Object.donde (dataframe_obj.columna.contiene (valor/cadena))

Dónde,
dataFrame_Object es el Pyspark DataFrame.

Parámetro:
La función contiene () toma un parámetro.

Puede ser un valor o cadena que la función contiene () verificará si el valor especificado está presente en la columna DataFrame o no.

Devolver:
Basado en esta columna, se devuelve toda la fila.

Primero, crearemos el marco de datos de Pyspark con 10 filas y 5 columnas.

importar pyspark
de Pyspark.Importación SQL *
Spark_app = Sparksession.constructor.nombre de la aplicación('_').getorcreate ()
Estudiantes = [(4, 'Sravan', 23, 'Php', 'Pruebas'),
(2, 'Sravan', 23, 'Oracle', 'Prueba'),
(46, 'Mounika', 22, '.Net ',' html '),
(12, 'Deepika', 21, 'Oracle', 'html'),
(46, 'Mounika', 22, 'Oracle', 'Prueba'),
(12, 'Chandrika', 23, 'Hadoop', 'C#'),
(12, 'Chandrika', 22, 'Oracle', 'Prueba'),
(45, 'Sravan', 23, 'Oracle', 'C#'),
(4, 'Deepika', 21, 'Php', 'C#'),
(46, 'Mounika', 22, '.Net ',' prueba ')
]
dataFrame_OBJ = Spark_App.creatataFrame (estudiantes, ['temas_id', 'nombre', 'edad', 'tecnología1', 'tecnología2'])
dataframe_obj.espectáculo()

Producción:

Ahora, apliquemos la función Contiene () en el PySpark DataFrame para devolver los resultados.

Ejemplo 1
Proporcionaremos la cadena 'sravan' en la columna de nombre dentro del método Contiene () y devolveremos todas las filas que coinciden con esta cadena.

#Check for String- Sravan en la columna de nombre y returación filas con el nombre - Sravan.
imprimir ("-------- usando where () cláusula --------")
dataframe_obj.donde (dataframe_obj.nombre.contiene ('sravan')).espectáculo()
#Check para string- sravan en la columna de nombre y returación filas con el nombre - sravan.
imprime ("-------- usando la cláusula filtre () --------")
dataframe_obj.Filtro (DataFrame_obj.nombre.contiene ('sravan')).espectáculo()

Producción:

Explicación
Puedes ver que Sravan se encuentra tres veces, y las filas fueron devueltas.

Ejemplo 2
Proporcionaremos la cadena 'PHP' en la columna Technology1 dentro del método Contiene () y devolveremos todas las filas que coinciden con esta cadena.

#Check para String- PHP en la columna Technology1 y retorno filas con tecnología1 - PHP.
imprimir ("-------- usando where () cláusula --------")
dataframe_obj.donde (dataframe_obj.Tecnología1.contiene ('php')).espectáculo()
#Check para String- PHP en la columna Technology1 y retorno filas con tecnología1 - PHP.
Imprime ("-------- usando la cláusula filtre () --------")
dataframe_obj.Filtro (DataFrame_obj.Tecnología1.contiene ('php')).espectáculo()

Producción:

Explicación
Puede ver que PHP se encuentra dos veces en la columna Technology1 y se devuelven filas.

Ejemplo 3
Proporcionaremos el valor 46 en la columna TEMPLE_ID dentro del método Contiene () y devolveremos todas las filas que coinciden con este valor.

#Check for Value - 46 en columna TIGN_ID y return filas con temas_id - 46.
imprimir ("-------- usando where () cláusula --------")
dataframe_obj.donde (dataframe_obj.asunto_id.contiene (46)).espectáculo()
#Check for Value - 46 en columna TIGN_ID y return filas con temas_id - 46.
imprime ("-------- usando la cláusula filtre () --------")
dataframe_obj.Filtro (DataFrame_obj.asunto_id.contiene (46)).espectáculo()

Producción:

Explicación
Puede ver que 46 se encuentra tres veces en la columna temas_id y las filas fueron devueltas.

Ejemplo 4
Proporcionaremos el valor 1000 en la columna TIEMPLE_ID dentro del método Contiene () y devolveremos todas las filas que coinciden con este valor.

#Check for Value - 1000 en la columna TIGN_ID y return filas con temas_id - 1000.
imprimir ("-------- usando where () cláusula --------")
dataframe_obj.donde (dataframe_obj.asunto_id.contiene (1000)).espectáculo()
#Check for Value - 1000 en la columna TIGN_ID y return filas con temas_id - 1000.
imprime ("-------- usando la cláusula filtre () --------")
dataframe_obj.Filtro (DataFrame_obj.asunto_id.contiene (1000)).espectáculo()

Producción:

Explicación
Puede ver que 1000 no se encuentra en la columna temas_id. Entonces, no se devuelven filas.

Conclusión

Este tutorial de Pyspark discutió que es posible filtrar las filas presentes en el marco de datos utilizando el método Contins (). Vimos cuatro ejemplos diferentes para comprender mejor este concepto. Es posible usar este método utilizando las funciones Where () y Filter ().