Pandas cae na

Pandas cae na
Pandas, una biblioteca de código abierto para Python, es sin duda el conjunto de herramientas más popular para la investigación y evaluación de datos. También es una buena opción para las tareas de transformación de datos ad-hoc. Debido a su representación de datos excepcionalmente flexible, utilizando marcos de datos y la gran cantidad de métodos disponibles para modificar los datos almacenados en estos marcos de datos. Cualquier problema de datos del mundo real podría dar lugar a datos faltantes y estos conjuntos de datos deben manejarse correctamente. Los datos podrían faltar por muchas razones. No es inusual cuando se trata de datos severamente desordenados. Comprender cómo hacer frente a los valores faltantes es una competencia esencial para cualquier profesional de datos. En este tutorial, aprenderá cómo lidiar con los valores nulos que utilizan el "marco de datos PANDAS.método dropna () ”.

Método pandas dropna ()

En un marco de datos de pandas, es posible que deba eliminar filas con valores nan. Afortunadamente, esto sería fácil de lograr con el método de pandas "dropna ()". La sintaxis para emplear el método "dropna ()" es la siguiente:

El primer parámetro es el "eje". Para columnas y filas, el "eje" acepta valores int o cadena. Las entradas enteras pueden ser 1 o 0 y las entradas de cadena pueden ser 'columnas' o 'índice'. El parámetro "cómo" Solo acepta valores de cadena de dos tipos (ya sea 'cualquiera' o 'All')). 'Any Any' elimina la fila/columna si algún valor es nulo y 'todo' elimina la fila/columna cuando todas las entradas son nulas. El "trillar" acepta un valor entero que especifica el número mínimo de entradas de NA para soltar. El "subconjunto" es una matriz que restringe la operación de caída a las filas/columnas dadas a través de la lista. El último parámetro "en su lugar" es un booleano que, si es cierto, modifica el marco de datos en sí.

Ejemplo # 1: Utilización del método pandas dropna () para soltar filas con cualquier valor nulo

En esta ilustración, veremos cómo eliminar los valores nulos en las filas de un marco de datos utilizando el método pandas "dropna ()".

Hemos lanzado la herramienta "Spyder" y comenzamos el programa. En el archivo de Python, importamos las dos bibliotecas requeridas. El primer kit de herramientas que cargamos en el archivo es el pandas como "PD" y el segundo paquete es la biblioteca Numpy como "NP". Ahora alias en alias ambas bibliotecas y podemos acceder a ellas utilizando estas abreviaturas. La biblioteca Pandas se importa para poder utilizar métodos Pandas, mientras que la biblioteca Numpy ayudará a lidiar con los valores NAN en el marco de datos.

Tenemos que crear un marco de datos con algunos valores nulos. Para esto, Pandas nos proporciona un método "PD.Marco de datos()". Invocamos este método para crear un marco de datos con cuatro columnas "primero", "segundo", "tercero" y "cuarto". La columna "primero" tiene estos valores "np.nan "," 98 "," 66 "," NP.Nan "," 14 "," 30 "," 26 "," 79 "y" 11 ". La columna "Segunda" está almacenando valores "NP.nan "," 29 "," 14 "," 16 "," 27 "," 10 "," 32 "," 19 "y" 21 ". La columna "Tercer" está conteniendo valores que son "10", "45", "7", "13", "5", "7", "8", "9" y "18". La última columna "Cuarta" tiene entradas "16", "7", "10", "NP.nan "," 6 "," 7 "," 9 "," 20 "y" 30 ". Todas las columnas sostienen nueve entradas.

Construimos un objeto de DataFrame "contador" y le asignamos el resultado de invocar el "PD.Función DataFrame () ". Entonces, el marco de datos se almacena en la variable "contador". Mostramos el marco de datos en la consola Python empleando el método "print ()" de Python.

Para ejecutar el programa, presionamos la opción "Ejecutar archivo" en la herramienta Spyder. El marco de datos resultante que se muestra en el terminal nos muestra que la columna "Primero" tiene dos valores NAN, la columna "Segunda" y "Cuarto" tiene un valor NAN en cada uno, mientras que la columna "Tercer" no tiene ningún valor NAN.

Ahora aprendemos la técnica para soltar las filas con los valores de NAN en un marco de datos utilizando pandas "DataFrame.método dropna () ”.

Llamamos al método pandas "dropna ()" con el nombre del "contador" de DataFrame. Aquí pasamos dos parámetros a esta función "eje" y "cómo". Los valores para el parámetro "eje" se establecen en "0" que indica las filas, mientras que el "cómo" se especifica en los valores "cualquiera" porque queremos soltar filas que tengan algún valor NAN en ellas. Se crea una variable "faltante" para almacenar la salida del método "dropna ()". Por último, invocamos el método "print ()" para exhibir el contenido de la variable "faltante".

Aquí tenemos un marco de datos resultante. En este marco de datos, podemos observar que las filas que contienen valores nulos se descargan de DataFrame. Las filas con los índices 0 y 3 se eliminan porque tienen valores NAN.

También podemos verificar el tamaño del DataFrame utilizando el método "Len ()". Invocamos el método "print ()" y proporcionamos la función "len ()" como su parámetro. En la primera función "len ()" encontramos el tamaño del marco de datos "contador" y la siguiente función "len ()" se calcula la longitud del marco de datos "faltante". Luego, por último, restamos ambas longitudes para encontrar el número de filas con valores nulos.

Aquí, podemos ver que el antiguo "contador" de DataFrame tenía 9 filas, mientras que el nuevo DataFrame "Falting tiene 7 filas. Y los números de filas que tienen valores nulos son 2.

Ejemplo # 2: Utilización del método pandas dropna () para soltar filas con valores nulos debajo de un umbral especificado

Para este caso, utilizamos el DataFrame creado en el ejemplo anterior. Utilizamos otra propiedad proporcionada por la función "dropna ()".

Invocamos el "marco de datos.método dropna () ”. Como establece la sintaxis, el nombre de DataFrame se suministra con la función "dropna ()" como "contador.dropna () ". Los parámetros que usamos aquí son "eje" y "umbral". Establecimos el "eje" en "0" para la caída de la fila y el "umbral" se establece en "4", lo que significa que la función "dropna ()" verificará las filas en las que el número de valores no nulos es Menos de 4. Cualquiera que sea la fila que tenga el número de valores no nulos por debajo de cuatro, los dejará caer. Almacenamos la salida en la variable "faltante" y simplemente la mostramos usando el método "print ()".

En la imagen de salida, se exhibe un marco de datos. Aquí, la fila 0 y la fila 3 se descartan porque tenían un recuento de valores no nulos por debajo de 4.

Ejemplo # 3: Utilización del método pandas dropna () para soltar filas con valores nulos para una columna especificada

Utilizando el marco de datos de la primera ilustración, invocamos el método "dropna ()". Esta vez, lo estamos utilizando para soltar filas en una columna en particular. Para eliminar filas con valores nulos en una columna especificada, tenemos un parámetro "subconjunto" de la función "dropna ()". La propiedad "subconjunto" pasa la columna o fila proporcionada como una lista al método "dropna ()". Aquí, hemos seleccionado la columna "segundo" para este parámetro. Luego, simplemente exhibimos el nuevo marco de datos en la consola.

La columna "Segunda" tiene la primera fila que contiene el valor NAN, por lo que se descarta en el nuevo DataFrame.

Conclusión

Trabajar en marcos de datos y encontrar el problema de encontrar valores faltantes hace que las cosas sean desordenadas. Tratar con estos valores faltantes es una habilidad de aprendizaje central. Siempre que estemos atrapados en un desafío, los pandas entran en juego. Los pandas nos proporcionan la función "DataFrame.dropna () ”para lidiar con estas entradas nulas. Este tutorial demostró la sintaxis de esta función con todos sus parámetros. Realizamos la implementación práctica de los códigos de ejemplo de Python para soltar valores nulos que utilizan el método "dropna ()" con diferentes argumentos.