En este artículo demostraremos los operadores de comparación de maracos de datos de Pandas y cómo se pueden usar en Pyspark. Antes de eso, debe instalar el módulo Pyspark como se muestra a continuación:
Dominio
PIP install PysparkSintaxis para importar
de Pyspark Import PandasDespués de eso, podemos crear o usar DataFrame desde el módulo Pandas.
Sintaxis para crear Pandas DataFrame
pyspark.pandas.Marco de datos()Podemos aprobar un diccionario o lista de listas con valores. Creemos un marco de datos Pandas a través de Pyspark con tres columnas y cinco filas.
#Pandas de Import del módulo PysparkProducción
Ahora, entraremos en nuestro tutorial.
Los operadores de comparación se utilizan para comparar todos los valores en Pyspark Pandas DataFrame con un valor. Devuelve verdadero si la condición está satisfecha; de lo contrario, devolverá falso para todos los valores en un DataFrame.
Vamos a verlos uno por uno.
pyspark.pandas.Marco de datos.LT (menos que el operador)
Este operador de comparación se utiliza para verificar si todos los valores en el marco de datos PySpark Pyspark son menores que el valor dado. En caso afirmativo, entonces devolverá verdadero para ese valor; de lo contrario, se devuelve el falso.
También es posible usar '<' - less than operator.
Sintaxis
pyspark_pandas.LT (valor)Parámetro
Toma el valor como un parámetro que se refiere a un valor numérico.
EjemploEn este ejemplo, compararemos el marcado de datos creado anteriormente con valor - 75 usando LT y < operators.
#Pandas de Import del módulo PysparkProducción
Ambos operadores devolvieron lo mismo, y de acuerdo con la condición, los valores inferiores a 75 devolvieron verdadero, y en otros casos, devolvió falso.
pyspark.pandas.Marco de datos.LE (operador menor o igual)
LE es el operador de comparación utilizado para verificar si todos los valores en el marco de datos PySpark PySpark son menores o iguales al valor dado. En caso afirmativo, entonces devolverá verdadero para ese valor; de lo contrario, se devuelve el falso.
También es posible usar '<=' - less than or equal to operator.
Sintaxis
pyspark_pandas.LE (valor)Donde pyspark_pandas es el marco de datos Pyspark Pandas.
Parámetro
Toma el valor como un parámetro que se refiere a un valor numérico.
Ejemplo
En este ejemplo, compararemos el marcado de datos creado anteriormente con valor - 75 utilizando LE y <= operators.
Producción
Ambos operadores devolvieron lo mismo, y de acuerdo con la condición, los valores menores o iguales a 75 devolvieron verdadero, y en otros casos, devolvió falso.
pyspark.pandas.Marco de datos.GT (mayor que el operador)
Este operador de comparación se utiliza para verificar si todos los valores en el marco de datos PySpark PySpark son mayores que el valor dado. En caso afirmativo, entonces devolverá verdadero para ese valor; de lo contrario, se devuelve el falso.
También es posible usar '>' - mayor que el operador.
Sintaxis
pyspark_pandas.GT (valor)Donde pyspark_pandas es el marco de datos Pyspark Pandas.
Parámetro
Toma el valor como un parámetro que se refiere a un valor numérico.
Ejemplo
En este ejemplo, compararemos el marcado de datos creado anteriormente con valor - 75 utilizando GT y> operadores.
Producción
Ambos operadores devolvieron lo mismo, y de acuerdo con la condición, los valores superiores a 75 devolvieron verdadero, y en otros casos, devolvió falso.
pyspark.pandas.Marco de datos.GE (operador mayor o igual)
GE es el operador de comparación utilizado para verificar si todos los valores en el marco de datos PySpark Pyspark dados son mayores o iguales al valor dado. En caso afirmativo, entonces devolverá verdadero para ese valor; de lo contrario, se devuelve el falso.
También es posible usar '> =' - mayor o igual al operador.
Sintaxis
pyspark_pandas.GE (valor)Donde pyspark_pandas es el marco de datos Pyspark Pandas.
Parámetro
Toma el valor como un parámetro que se refiere a un valor numérico.
Ejemplo
En este ejemplo, compararemos el marcado de datos creado anteriormente con valor - 75 usando GE y> = operadores.
Producción
Ambos operadores devolvieron lo mismo, y de acuerdo con la condición, los valores mayores o iguales a 75 devolvieron verdadero, y en otros casos, devolvió falso.
pyspark.pandas.Marco de datos.EQ (operador lógico de igualdad)
EQ es el operador de comparación utilizado para verificar si todos los valores en el marco de datos PySpark PySpark son iguales al valor dado. En caso afirmativo, entonces devolverá verdadero para ese valor; de lo contrario, se devuelve el falso.
También es posible usar '==' - igual al operador.
Sintaxis
pyspark_pandas.EQ (valor)Donde pyspark_pandas es el marco de datos Pyspark Pandas.
Parámetro
Toma el valor como un parámetro que se refiere a un valor numérico.
Ejemplo
En este ejemplo, compararemos el marcado de datos creado anteriormente con el valor - 97 utilizando EQ y == Operadores.
Producción
Ambos operadores devolvieron lo mismo, y de acuerdo con la condición, los valores iguales a 97 devolvieron verdadero, y en otros casos, devolvió falso.
pyspark.pandas.Marco de datos.NE (no igual al operador)
NE es el operador de comparación utilizado para verificar si todos los valores en el marco de datos PySpark Pyspark no son iguales al valor dado. En caso afirmativo, entonces devolverá verdadero para ese valor; de lo contrario, se devuelve el falso.
También es posible usar '!= ' - no es igual al operador.
Sintaxis
pyspark_pandas.ne (valor)Donde pyspark_pandas es el marco de datos Pyspark Pandas.
Parámetro
Toma el valor como un parámetro que se refiere a un valor numérico.
Ejemplo
En este ejemplo, compararemos el marcado de datos creado anteriormente con el valor - 97 utilizando NE y != operadores.
Producción
Ambos operadores devolvieron lo mismo, y de acuerdo con la condición, los valores no iguales a 97 devolvieron verdadero, y en otros casos, devolvió falso.
Conclusión
En este artículo de Pyspark Pandas vemos cómo aplicar diferentes operadores de comparación en DataFrame a través de operadores incorporados y operadores normales. Cada operador devuelve un valor booleano en el elemento Pyspark Pandas DataFrame Wise. Los operadores de comparación que utilizamos son: eq (), ne (), lt (), gt (), le () y ge ().