Se pueden usar con la cláusula de filtro o donde la cláusula. Los veremos uno por uno con diferentes ejemplos.
Función como ()
La función Me gusta () en Pyspark se usa para verificar si existe una cadena o un patrón en una columna de Pyspark DataFrame. Si existe, las filas emparejadas serán devueltas. De lo contrario, se devuelve un marco de datos vacío. Es sensible a la caja.
Sintaxis
dataFrame_Object.Filtro (DataFrame_obj.columna.como (patrón/cadena)))Dónde,
dataFrame_Object es el Pyspark DataFrame.
Parámetro:
El como() la función tiene un parámetro.
Puede ser un patrón o una cadena de tal manera que la función me gusta () verificará si el valor especificado está presente en la columna DataFrame o no.
Devolver:
Basado en esta columna, se devuelve toda la fila.
Primero, crearemos el marco de datos de Pyspark con 10 filas y 5 columnas.
importar pysparkProducción:
Ahora, apliquemos la función me gusta () en el PySpark DataFrame para devolver los resultados.
Ejemplo 1
Proporcionaremos la cadena, 'sravan', en la columna de nombre dentro del método me gusta () y devolveremos todas las filas que coinciden con esta cadena.
Producción:
Puedes ver que Sravan se encuentra tres veces, y las filas fueron devueltas.
Ejemplo 2
Proporcionaremos la cadena, 'PHP', en la columna Technology1 dentro del método me gusta () y devolveremos todas las filas que coinciden con esta cadena.
Producción:
Puede ver que PHP no se encuentra en la columna Technology1. Por lo tanto, 0 filas fueron devueltas.
función ilike ()
La función ilike () en Pyspark se usa para verificar si existe una cadena o un patrón en una columna de Pyspark DataFrame. Si existe, las filas emparejadas serán devueltas. De lo contrario, se devuelve el marco de datos vacío. Es insensible.
Sintaxis
dataFrame_Object.Filtro (DataFrame_obj.columna.ilike (patrón/cadena))Dónde,
dataFrame_Object es el Pyspark DataFrame.
Parámetro:
La función ilike () tiene un parámetro.
Puede ser un patrón o una cadena de tal manera que la función ilike () verifique si el valor especificado está presente en la columna DataFrame o no.
Devolver:
Basado en esta columna, se devuelve toda la fila.
Ejemplo 1
Proporcionaremos la cadena, 'sravan', en la columna de nombre dentro del método ilike () y devolveremos todas las filas que coinciden con esta cadena.
Producción:
Explicación
Puedes ver que Sravan se encuentra tres veces y las filas fueron devueltas.
Ejemplo 2
Proporcionaremos la cadena, 'PHP', en la columna Technology1 dentro del método me gusta () y devolveremos todas las filas que coinciden con esta cadena.
Producción:
Explicación
Puede ver que PHP no se encuentra en la columna Technology1. Pero ilike () es insensible a los casos. Entonces, se necesitan PHP y PHP como lo mismo. Entonces, las filas fueron devueltas.
Conclusión
En este tutorial de Pyspark, vimos dos funciones que devuelven valores basados en la coincidencia de cadenas en la columna Pyspark DataFrame. Las funciones Me gusta () e ilike () se utilizan para verificar si existe una cadena o un patrón en una columna de Pyspark DataFrame. La diferencia es como () es sensible a los casos y ilike () es insensible a los casos.