PYSPARK - Operadores de comparación de marcas de datos PANDAS

PYSPARK - Operadores de comparación de marcas de datos PANDAS
En Python, Pyspark es un módulo Spark que proporciona un tipo similar de procesamiento como Spark usando DataFrame, que almacenará los datos dados en formato de fila y columna. Pyspark: Pandas DataFrame representa el Pandas DataFrame, pero contiene el Pyspark DataFrame internamente. PANDAS Support de la estructura de datos del marco de datos, y los pandas se importan desde el módulo Pyspark.

En este artículo demostraremos los operadores de comparación de maracos de datos de Pandas y cómo se pueden usar en Pyspark. Antes de eso, debe instalar el módulo Pyspark como se muestra a continuación:

Dominio

PIP install Pyspark

Sintaxis para importar

de Pyspark Import Pandas

Después de eso, podemos crear o usar DataFrame desde el módulo Pandas.

Sintaxis para crear Pandas DataFrame

pyspark.pandas.Marco de datos()

Podemos aprobar un diccionario o lista de listas con valores. Creemos un marco de datos Pandas a través de Pyspark con tres columnas y cinco filas.

#Pandas de Import del módulo Pyspark
de Pyspark Import Pandas
#Cree DataFrame de Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Mark1': [90,78,90,54,67], 'Mark2': [100,67,96,89,77], 'Mark3': [91,92,98,97,87] )
#mostrar
Imprimir (pyspark_pandas)

Producción

Ahora, entraremos en nuestro tutorial.

Los operadores de comparación se utilizan para comparar todos los valores en Pyspark Pandas DataFrame con un valor. Devuelve verdadero si la condición está satisfecha; de lo contrario, devolverá falso para todos los valores en un DataFrame.

Vamos a verlos uno por uno.

pyspark.pandas.Marco de datos.LT (menos que el operador)

Este operador de comparación se utiliza para verificar si todos los valores en el marco de datos PySpark Pyspark son menores que el valor dado. En caso afirmativo, entonces devolverá verdadero para ese valor; de lo contrario, se devuelve el falso.

También es posible usar '<' - less than operator.

Sintaxis

pyspark_pandas.LT (valor)
pyspark_pandasDonde pyspark_pandas es el marco de datos Pyspark Pandas.

Parámetro
Toma el valor como un parámetro que se refiere a un valor numérico.

EjemploEn este ejemplo, compararemos el marcado de datos creado anteriormente con valor - 75 usando LT y < operators.

#Pandas de Import del módulo Pyspark
de Pyspark Import Pandas
#Cree DataFrame de Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Mark1': [90,78,90,54,67], 'Mark2': [100,67,96,89,77], 'Mark3': [91,92,98,97,87] )
#Comprobar todos los valores en el marcado de datos anterior son inferiores a 75
Imprimir (Pyspark_Pandas.Lt (75))
imprimir()
#Comprobar todos los valores en el marcado de datos anterior son inferiores a 75
Imprimir (Pyspark_Pandas<75)

Producción

Ambos operadores devolvieron lo mismo, y de acuerdo con la condición, los valores inferiores a 75 devolvieron verdadero, y en otros casos, devolvió falso.

pyspark.pandas.Marco de datos.LE (operador menor o igual)

LE es el operador de comparación utilizado para verificar si todos los valores en el marco de datos PySpark PySpark son menores o iguales al valor dado. En caso afirmativo, entonces devolverá verdadero para ese valor; de lo contrario, se devuelve el falso.

También es posible usar '<=' - less than or equal to operator.

Sintaxis

pyspark_pandas.LE (valor)
pyspark_pandas<=value

Donde pyspark_pandas es el marco de datos Pyspark Pandas.

Parámetro
Toma el valor como un parámetro que se refiere a un valor numérico.

Ejemplo
En este ejemplo, compararemos el marcado de datos creado anteriormente con valor - 75 utilizando LE y <= operators.

#Pandas de Import del módulo Pyspark
de Pyspark Import Pandas
#Cree DataFrame de Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Mark1': [90,78,90,54,67], 'Mark2': [100,67,96,89,77], 'Mark3': [91,92,98,97,87] )
#Chek Todos los valores en el marcado de datos anterior son menores o iguales a 75
Imprimir (Pyspark_Pandas.LE (75))
imprimir()
#Chek Todos los valores en el marcado de datos anterior son menores o iguales a 75
Imprimir (Pyspark_Pandas<=75)

Producción

Ambos operadores devolvieron lo mismo, y de acuerdo con la condición, los valores menores o iguales a 75 devolvieron verdadero, y en otros casos, devolvió falso.

pyspark.pandas.Marco de datos.GT (mayor que el operador)

Este operador de comparación se utiliza para verificar si todos los valores en el marco de datos PySpark PySpark son mayores que el valor dado. En caso afirmativo, entonces devolverá verdadero para ese valor; de lo contrario, se devuelve el falso.

También es posible usar '>' - mayor que el operador.

Sintaxis

pyspark_pandas.GT (valor)
pyspark_pandas> valor

Donde pyspark_pandas es el marco de datos Pyspark Pandas.

Parámetro
Toma el valor como un parámetro que se refiere a un valor numérico.

Ejemplo
En este ejemplo, compararemos el marcado de datos creado anteriormente con valor - 75 utilizando GT y> operadores.

#Pandas de Import del módulo Pyspark
de Pyspark Import Pandas
#Cree DataFrame de Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Mark1': [90,78,90,54,67], 'Mark2': [100,67,96,89,77], 'Mark3': [91,92,98,97,87] )
#Comprobar todos los valores en el marcado de datos anterior son mayores que 75
Imprimir (Pyspark_Pandas.GT (75))
imprimir()
#Comprobar todos los valores en el marcado de datos anterior son mayores que 75
Imprimir (Pyspark_pandas> 75)

Producción

Ambos operadores devolvieron lo mismo, y de acuerdo con la condición, los valores superiores a 75 devolvieron verdadero, y en otros casos, devolvió falso.

pyspark.pandas.Marco de datos.GE (operador mayor o igual)

GE es el operador de comparación utilizado para verificar si todos los valores en el marco de datos PySpark Pyspark dados son mayores o iguales al valor dado. En caso afirmativo, entonces devolverá verdadero para ese valor; de lo contrario, se devuelve el falso.

También es posible usar '> =' - mayor o igual al operador.

Sintaxis

pyspark_pandas.GE (valor)
pyspark_pandas> = valor

Donde pyspark_pandas es el marco de datos Pyspark Pandas.

Parámetro
Toma el valor como un parámetro que se refiere a un valor numérico.

Ejemplo
En este ejemplo, compararemos el marcado de datos creado anteriormente con valor - 75 usando GE y> = operadores.

#Pandas de Import del módulo Pyspark
de Pyspark Import Pandas
#Cree DataFrame de Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Mark1': [90,78,90,54,67], 'Mark2': [100,67,96,89,77], 'Mark3': [91,92,98,97,87] )
#Comprobar todos los valores en el marco de datos anterior son mayores o iguales a 75
Imprimir (Pyspark_Pandas.GE (75))
imprimir()
#Comprobar todos los valores en el marco de datos anterior son mayores o iguales a 75
Imprimir (Pyspark_pandas> = 75)

Producción

Ambos operadores devolvieron lo mismo, y de acuerdo con la condición, los valores mayores o iguales a 75 devolvieron verdadero, y en otros casos, devolvió falso.

pyspark.pandas.Marco de datos.EQ (operador lógico de igualdad)

EQ es el operador de comparación utilizado para verificar si todos los valores en el marco de datos PySpark PySpark son iguales al valor dado. En caso afirmativo, entonces devolverá verdadero para ese valor; de lo contrario, se devuelve el falso.

También es posible usar '==' - igual al operador.

Sintaxis

pyspark_pandas.EQ (valor)
pyspark_pandas == valor

Donde pyspark_pandas es el marco de datos Pyspark Pandas.

Parámetro
Toma el valor como un parámetro que se refiere a un valor numérico.

Ejemplo
En este ejemplo, compararemos el marcado de datos creado anteriormente con el valor - 97 utilizando EQ y == Operadores.

#Pandas de Import del módulo Pyspark
de Pyspark Import Pandas
#Cree DataFrame de Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Mark1': [90,78,90,54,67], 'Mark2': [100,67,96,89,77], 'Mark3': [91,92,98,97,87] )
#Comprobar todos los valores en el marcado de datos anterior son iguales a 97
Imprimir (Pyspark_Pandas.Eq (97))
imprimir()
#Comprobar todos los valores en el marcado de datos anterior son iguales a 97
Imprimir (Pyspark_Pandas == 97)

Producción

Ambos operadores devolvieron lo mismo, y de acuerdo con la condición, los valores iguales a 97 devolvieron verdadero, y en otros casos, devolvió falso.

pyspark.pandas.Marco de datos.NE (no igual al operador)

NE es el operador de comparación utilizado para verificar si todos los valores en el marco de datos PySpark Pyspark no son iguales al valor dado. En caso afirmativo, entonces devolverá verdadero para ese valor; de lo contrario, se devuelve el falso.

También es posible usar '!= ' - no es igual al operador.

Sintaxis

pyspark_pandas.ne (valor)
pyspark_pandas!= valor

Donde pyspark_pandas es el marco de datos Pyspark Pandas.

Parámetro
Toma el valor como un parámetro que se refiere a un valor numérico.

Ejemplo
En este ejemplo, compararemos el marcado de datos creado anteriormente con el valor - 97 utilizando NE y != operadores.

#Pandas de Import del módulo Pyspark
de Pyspark Import Pandas
#Cree DataFrame de Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Mark1': [90,78,90,54,67], 'Mark2': [100,67,96,89,77], 'Mark3': [91,92,98,97,87] )
#Comprobar todos los valores en el marcado de datos anterior no son iguales a 97
Imprimir (Pyspark_Pandas.NE (97))
imprimir()
#Comprobar todos los valores en el marcado de datos anterior no son iguales a 97
Imprimir (Pyspark_Pandas!= 97)

Producción

Ambos operadores devolvieron lo mismo, y de acuerdo con la condición, los valores no iguales a 97 devolvieron verdadero, y en otros casos, devolvió falso.

Conclusión

En este artículo de Pyspark Pandas vemos cómo aplicar diferentes operadores de comparación en DataFrame a través de operadores incorporados y operadores normales. Cada operador devuelve un valor booleano en el elemento Pyspark Pandas DataFrame Wise. Los operadores de comparación que utilizamos son: eq (), ne (), lt (), gt (), le () y ge ().