Pyspark: Pandas DataFrame representa el Pandas DataFrame, pero contiene el Pyspark DataFrame internamente.
PANDAS Support de la estructura de datos del marco de datos, y los pandas se importan desde el módulo Pyspark.
Antes de eso, debe instalar el módulo Pyspark."
Dominio
PIP install PysparkSintaxis para importar
de Pyspark Import PandasDespués de eso, podemos crear o usar DataFrame desde el módulo Pandas.
Sintaxis para crear pandas dataFrame:
pyspark.pandas.Marco de datos()Podemos aprobar un diccionario o lista de listas con valores.
Creemos un marco de datos de Pandas a través de Pyspark que tiene cuatro columnas y cinco filas.
#Pandas de Import del módulo PysparkProducción
Ahora, entraremos en nuestro tutorial.
Las funciones ISNA (), Notna () y NotNull () se usan para verificar si ninguno de los valores no ha ocurrido en Pyspark Pandas DataFrame. Están representados por Nan (no un número); En Python, podemos crearlos usando ninguno.
Vamos a verlos uno por uno.
pyspark.pandas.Marco de datos.isna
ISNA se usa para verificar si el valor es nulo. Si es nulo, entonces devolverá verdadero a ese valor. De lo contrario, devuelve falso. No se necesitan parámetros.
Sintaxis
pyspark_pandas.isnaDonde pyspark_pandas es el marco de datos Pyspark Pandas.
También podemos verificar columnas particulares.
Sintaxis
pyspark_pandas.columna.isnaDonde la columna es el nombre de la columna.
Ejemplo 1
En este ejemplo, verificaremos los valores de NAN en la columna Mark1 usando ISNA.
Producción
0 falsoPodemos ver que en la segunda y tercera fila está disponible, por lo que en estas posiciones, Isna devolvió la verdadera. En otros casos, devolvió falso.
Ejemplo 2
En este ejemplo, verificaremos los valores NAN en todo el marco de datos Pyspark Pandas usando ISNA.
Producción
student_lastName Mark1 Mark2 Mark3Podemos ver que se devuelve verdadero donde sea que exista nan.
pyspark.pandas.Marco de datos.no
no se usa para verificar si el valor no es nulo. Si es nulo, entonces devolverá falso a ese valor. De lo contrario, devuelve verdadero. No se necesitan parámetros.
Sintaxis
pyspark_pandas.noDonde pyspark_pandas es el marco de datos Pyspark Pandas.
También podemos verificar columnas particulares.
Sintaxis
pyspark_pandas.columna.noDonde la columna es el nombre de la columna.
Ejemplo 1
En este ejemplo, verificaremos los valores de NAN en la columna Mark1 usando Notna.
Producción
0 VerdaderoPodemos ver que en la segunda y tercera fila no está disponible, por lo que en estas posiciones, no devolvió falso. En otros casos, devolvió verdad.
Ejemplo 2
En este ejemplo, verificaremos los valores NAN en todo el marco de datos Pyspark Pandas usando ISNA.
Producción
student_lastName Mark1 Mark2 Mark3Podemos ver que Notna devuelve falso donde sea que exista nan.
pyspark.pandas.Marco de datos.no nulo
NotNull es similar a NotNA utilizado para verificar si el valor no es nulo. Si es nulo, entonces devolverá falso a ese valor. De lo contrario, devuelve verdadero. No se necesitan parámetros.
Sintaxis
pyspark_pandas.no nuloDonde pyspark_pandas es el marco de datos Pyspark Pandas.
También podemos verificar columnas particulares.
Sintaxis
pyspark_pandas.columna.no nuloDonde la columna es el nombre de la columna.
Ejemplo 1
En este ejemplo, verificaremos los valores de NAN en la columna Mark1 usando NotNull.
Producción
0 VerdaderoPodemos ver que en la segunda y tercera fila no está disponible, por lo que en estas posiciones, Notnull devolvió falso. En otros casos, devolvió verdad.
Ejemplo 2
En este ejemplo, verificaremos los valores de NAN en todo el marco de datos Pyspark Pandas usando NotNull.
Producción
student_lastName Mark1 Mark2 Mark3Podemos ver que NotNull devuelve falso donde sea que exista nan.
Conclusión
En este tutorial Pyspark Pandas DataFrame, vimos cómo verificar los valores de NAN en DataFrame. ISNA se usa para devolver verdadero si es Nan, y Notna y Notnull funcionarán lo mismo devolviendo verdadero si el valor no es Nan.