Pyspark - Pandas DataFrame ISNA, Notna, NotNull

Pyspark - Pandas DataFrame ISNA, Notna, NotNull
“En Python, Pyspark es un módulo Spark utilizado para proporcionar un tipo similar de procesamiento como Spark usando DataFrame, que almacenará los datos dados en formato de fila y columna.

Pyspark: Pandas DataFrame representa el Pandas DataFrame, pero contiene el Pyspark DataFrame internamente.

PANDAS Support de la estructura de datos del marco de datos, y los pandas se importan desde el módulo Pyspark.

Antes de eso, debe instalar el módulo Pyspark."

Dominio

PIP install Pyspark

Sintaxis para importar

de Pyspark Import Pandas

Después de eso, podemos crear o usar DataFrame desde el módulo Pandas.

Sintaxis para crear pandas dataFrame:

pyspark.pandas.Marco de datos()

Podemos aprobar un diccionario o lista de listas con valores.

Creemos un marco de datos de Pandas a través de Pyspark que tiene cuatro columnas y cinco filas.

#Pandas de Import del módulo Pyspark
de Pyspark Import Pandas
#Cree DataFrame de Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('student_lastName': ['Manasa', ninguno, 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90, Ninguno, Ninguno, 54,67], 'Mark2': [100, 67,96,89, ninguno], 'Mark3': [91,92,98,97,87])
Imprimir (pyspark_pandas)

Producción

Ahora, entraremos en nuestro tutorial.

Las funciones ISNA (), Notna () y NotNull () se usan para verificar si ninguno de los valores no ha ocurrido en Pyspark Pandas DataFrame. Están representados por Nan (no un número); En Python, podemos crearlos usando ninguno.

Vamos a verlos uno por uno.

pyspark.pandas.Marco de datos.isna

ISNA se usa para verificar si el valor es nulo. Si es nulo, entonces devolverá verdadero a ese valor. De lo contrario, devuelve falso. No se necesitan parámetros.

Sintaxis

pyspark_pandas.isna

Donde pyspark_pandas es el marco de datos Pyspark Pandas.

También podemos verificar columnas particulares.

Sintaxis

pyspark_pandas.columna.isna

Donde la columna es el nombre de la columna.

Ejemplo 1
En este ejemplo, verificaremos los valores de NAN en la columna Mark1 usando ISNA.

#Pandas de Import del módulo Pyspark
de Pyspark Import Pandas
#Cree DataFrame de Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('student_lastName': ['Manasa', ninguno, 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90, Ninguno, Ninguno, 54,67], 'Mark2': [100, 67,96,89, ninguno], 'Mark3': [91,92,98,97,87])
#Check for Ninguno Valores en la columna Mark1
Imprimir (Pyspark_Pandas.marca.isna ())

Producción

0 falso
1 verdadero
2 Verdadero
3 falsos
4 falso
Nombre: Mark1, Dtype: Bool

Podemos ver que en la segunda y tercera fila está disponible, por lo que en estas posiciones, Isna devolvió la verdadera. En otros casos, devolvió falso.

Ejemplo 2
En este ejemplo, verificaremos los valores NAN en todo el marco de datos Pyspark Pandas usando ISNA.

#Pandas de Import del módulo Pyspark
de Pyspark Import Pandas
#Cree DataFrame de Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('student_lastName': ['Manasa', ninguno, 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90, Ninguno, Ninguno, 54,67], 'Mark2': [100, 67,96,89, ninguno], 'Mark3': [91,92,98,97,87])
#Check para ninguno de los valores en todo el marco de datos
Imprimir (Pyspark_Pandas.isna ())

Producción

student_lastName Mark1 Mark2 Mark3
0 falso falso falso
1 verdadero verdadero falso falso
2 False Verdadero Falso Falso
3 falso falso falso falso
4 falso falso verdadero falso

Podemos ver que se devuelve verdadero donde sea que exista nan.

pyspark.pandas.Marco de datos.no

no se usa para verificar si el valor no es nulo. Si es nulo, entonces devolverá falso a ese valor. De lo contrario, devuelve verdadero. No se necesitan parámetros.

Sintaxis

pyspark_pandas.no

Donde pyspark_pandas es el marco de datos Pyspark Pandas.

También podemos verificar columnas particulares.

Sintaxis

pyspark_pandas.columna.no

Donde la columna es el nombre de la columna.

Ejemplo 1
En este ejemplo, verificaremos los valores de NAN en la columna Mark1 usando Notna.

#Pandas de Import del módulo Pyspark
de Pyspark Import Pandas
#Cree DataFrame de Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('student_lastName': ['Manasa', ninguno, 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90, Ninguno, Ninguno, 54,67], 'Mark2': [100, 67,96,89, ninguno], 'Mark3': [91,92,98,97,87])
#Check for Ninguno Valores en la columna Mark1
Imprimir (Pyspark_Pandas.marca.NOTNA ())

Producción

0 Verdadero
1 falso
2 falsos
3 Verdadero
4 Verdadero
Nombre: Mark1, Dtype: Bool

Podemos ver que en la segunda y tercera fila no está disponible, por lo que en estas posiciones, no devolvió falso. En otros casos, devolvió verdad.

Ejemplo 2
En este ejemplo, verificaremos los valores NAN en todo el marco de datos Pyspark Pandas usando ISNA.

#Pandas de Import del módulo Pyspark
de Pyspark Import Pandas
#Cree DataFrame de Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('student_lastName': ['Manasa', ninguno, 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90, Ninguno, Ninguno, 54,67], 'Mark2': [100, 67,96,89, ninguno], 'Mark3': [91,92,98,97,87])
#Check para ninguno de los valores en todo el marco de datos
Imprimir (Pyspark_Pandas.NOTNA ())

Producción

student_lastName Mark1 Mark2 Mark3
0 True True True True
1 falso falso verdadero verdadero
2 Verdadero Falso Verdadero Verdadero
3 True True True True
4 Verdadero Verdadero Falso Verdadero

Podemos ver que Notna devuelve falso donde sea que exista nan.

pyspark.pandas.Marco de datos.no nulo

NotNull es similar a NotNA utilizado para verificar si el valor no es nulo. Si es nulo, entonces devolverá falso a ese valor. De lo contrario, devuelve verdadero. No se necesitan parámetros.

Sintaxis

pyspark_pandas.no nulo

Donde pyspark_pandas es el marco de datos Pyspark Pandas.

También podemos verificar columnas particulares.

Sintaxis

pyspark_pandas.columna.no nulo

Donde la columna es el nombre de la columna.

Ejemplo 1
En este ejemplo, verificaremos los valores de NAN en la columna Mark1 usando NotNull.

#Pandas de Import del módulo Pyspark
de Pyspark Import Pandas
#Cree DataFrame de Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('student_lastName': ['Manasa', ninguno, 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90, Ninguno, Ninguno, 54,67], 'Mark2': [100, 67,96,89, ninguno], 'Mark3': [91,92,98,97,87])
#Check for Ninguno Valores en la columna Mark1
Imprimir (Pyspark_Pandas.marca.no nulo())

Producción

0 Verdadero
1 falso
2 falsos
3 Verdadero
4 Verdadero
Nombre: Mark1, Dtype: Bool

Podemos ver que en la segunda y tercera fila no está disponible, por lo que en estas posiciones, Notnull devolvió falso. En otros casos, devolvió verdad.

Ejemplo 2
En este ejemplo, verificaremos los valores de NAN en todo el marco de datos Pyspark Pandas usando NotNull.

#Pandas de Import del módulo Pyspark
de Pyspark Import Pandas
#Cree DataFrame de Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('student_lastName': ['Manasa', ninguno, 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90, Ninguno, Ninguno, 54,67], 'Mark2': [100, 67,96,89, ninguno], 'Mark3': [91,92,98,97,87])
#Check para ninguno de los valores en todo el marco de datos
Imprimir (Pyspark_Pandas.no nulo())

Producción

student_lastName Mark1 Mark2 Mark3
0 True True True True
1 falso falso verdadero verdadero
2 Verdadero Falso Verdadero Verdadero
3 True True True True
4 Verdadero Verdadero Falso Verdadero

Podemos ver que NotNull devuelve falso donde sea que exista nan.

Conclusión

En este tutorial Pyspark Pandas DataFrame, vimos cómo verificar los valores de NAN en DataFrame. ISNA se usa para devolver verdadero si es Nan, y Notna y Notnull funcionarán lo mismo devolviendo verdadero si el valor no es Nan.