Función FFILL PANDAS

El manejo de los datos faltantes es un componente integral de cada estrategia de ciencia de datos. Las formas comunes de lidiar con los datos faltantes implican ignorar los valores faltantes, soltar entradas con registros faltantes y completar los datos faltantes. En este tutorial, veremos la función pandas "DataFrame.ffill () ”para completar los datos faltantes.

Método pandas ffill ()

El método pandas ffill () nos permite completar el valor nan en el marco de datos. El FFILL significa reenviar el relleno, lo que significa que los valores nulos se reemplazan con los datos de la columna o fila anterior.

La sintaxis para usar este método se da aquí:

El "eje" es el eje a lo largo del cual llenar los valores de NAN. Su valor predeterminado es 0. Este parámetro se utilizará en nuestros ejemplos aquí.

Con la ayuda de los ejemplos de código del programa de Python, repasaremos cómo usar "ffill ()" para reenviar los valores faltantes de llenar en todas las columnas de un marco de datos PANDAS en este artículo.

Ejemplo # 1: Utilizando el método ffill () para llenar los valores a lo largo de las filas

En esta ilustración, verá cómo llenaremos los valores de NAN en un marco de datos a lo largo del eje de índice utilizando el método "ffill ()".

La implementación práctica de cualquier programa comienza con la selección de una herramienta de ejecución apropiada. Para este tutorial, hemos elegido la herramienta "Spyder" para poner en práctica el script de la muestra de Python. Cargar la Biblioteca Pandas en nuestro archivo Python nos hará capaces de emplear todas las características proporcionadas por Pandas. "PD" se utilizará en el código donde necesitemos usar "Pandas" como su alias.

La segunda parte del código posee dos operaciones; Para crear un marco de datos con algunos valores de NAN utilizando el pandas "PD.Método DataFrame () "y luego complete estos valores de NAN utilizando la función Pandas" ffill () ". Tomando en nuestras manos la primera operación, que es crear un marco de datos con algunos valores de NAN, hemos invocado los pandas "PD.Método dataFrame () ”aquí. Este método generará un marco de datos con valores especificados o un archivo CSV.

Aquí estamos construyendo el marco de datos con datos definidos por el usuario en lugar de importar un archivo CSV. El marco de datos se inicializa por cuatro columnas con títulos como se mencionó: "Verde", "blanco", "marrón" y "naranja."La longitud de cada columna que hemos creado aquí es cuatro. Estamos obligados a hacer de todas las columnas del mismo tamaño para un marco de datos. Nuestra primera columna de marco de datos, "verde", contiene los valores "7", "1", "Ninguno" y "3". La columna "blanca" contiene entradas que son "7", "2", "1" y "9". La columna "marrón" tiene valores "2", "6", "8" y "ninguno", mientras que la columna "naranja" almacena "ninguno", "6", "9" y "2".

Para preservar este marco de datos, necesitamos un objeto de cuadro de datos. Así que lo creamos con el nombre "Visual" y lo logramos para almacenar el marco de datos que construimos desde el "PD.Método DataFrame () ". Ahora, para mostrar este marco de datos, lo acabamos de almacenar en el objeto de marco de datos "visual", que hemos llamado el método "print ()" de la programación de Python.

Cuando ejecutamos este script de Python, en el que hemos elaborado anteriormente, al presionar la opción "Ejecutar archivo", se muestra un marco de datos de cuatro columnas en la consola. Aquí puede ver que este marco de datos tiene tres valores NAN.

Hemos completado la primera operación de generar el marco de datos. Ahora nos moveremos a la otra parte, que es llenar estos valores NAN. Lo haremos utilizando el método de pandas "ffill".

Hemos invocado "DataFrame.ffill () ”para llenar todos los valores de NAN en nuestro marco de datos. Proporcionamos el nombre de nuestro marco de datos que acabamos de crear anteriormente "visual" con el ".Método Fill () ". Entre los paréntesis de esta función, se utiliza un parámetro "eje". Lo hemos establecido en "0", que representa el eje de fila o índice. Porque hemos estado usando el método "relleno ()" para llenar los valores de NAN a lo largo del eje de fila para esta ilustración. Entonces escribimos todo esto como "visual.ffill (axis = 0) "y luego colocó esto en el método" print () "para imprimir el marco de datos con los valores NAN rellenos a lo largo del eje de fila.

Aquí está la trama de datos de salida. Cada valor de NAN se pobla utilizando el valor correspondiente de la fila anterior cuando ffill () se ejecuta en el índice o el eje de fila. Has observado que las entradas en la primera fila siguen siendo valores nan porque no hay una fila sobre ella, de la cual los valores que no son NA se propagarían. Todos los demás valores de NAN se reemplazan con éxito copiando los valores de fila correspondientes en él.

Ejemplo # 1: Utilizando el método ffill () para llenar los valores a lo largo de las columnas

Esta ilustración le dirá cómo llenar los valores de NAN en un marco de datos a lo largo del eje de la columna utilizando el método Pandas "Fill ()". Comencemos a trabajar en esta técnica.

Hemos lanzado la herramienta "Spyder" y comenzamos a escribir el código Python. Primero, necesitamos obtener el requisito previo para el programa, que está cargando la biblioteca de Pandas. Tenemos que importar esta biblioteca en un archivo de Python porque vamos a usar pandas "PD.DataFrame () "y" DataFrame.Métodos ffill () "En esta ilustración, que solo se pueden emplear si tenemos acceso a esta biblioteca.

Tenemos que generar un marco de datos utilizando pandas "PD.Método DataFrame () ". El método se llama e inicializado por cuatro columnas, que son "P1", "P2", "P3" y "P4". La primera columna aquí, "P1" tiene valores de "1", "12", "7", "4" y "Ninguno". Los registros "P2" son "13", "9", "Ninguno", "4" y "3". "P3" tiene entradas "ninguno", "14", "1", "8" y "7". Los valores almacenados en "P4" son "11", "3", "16", "8" y "Ninguno". Almacenamos este marco de datos en la "puntuación" del objeto de cuadro de datos ". Ahora para mostrar este marco de datos en la consola, hemos llamado el método "print ()".

Este fragmento de código se ejecuta para ver el marco de datos creado. Aquí, puede observar que el marco de datos tiene cuatro columnas, y en cada columna hemos encontrado un valor nan. En general, tenemos cuatro entradas nulas en el marco de datos.

Para llenar estos valores nulos a lo largo del eje de la columna en el marco de datos, hemos utilizado el "marco de datos PANDAS.método ffill () ". Invocamos el "marco de datos.función ffill () ”. Aquí lo hemos usado con el parámetro "eje" y lo establecemos en "1", que se refiere al eje de la columna porque estamos llenando los valores nulos a lo largo de las columnas para esta demostración. Toda la línea de script está escrita como "puntaje.ffill (axis = 1) "y luego, para la necesidad de mostrar este marco de datos lleno de resultante en la consola, hemos puesto esta función entre los aparatos ortopédicos del método" print () "y lo invocamos.

Esto nos consigue el cuadro de datos a continuación. Como puede ver, el valor de la primera columna es NAN ya que no queda una columna para llenarla con el valor de la columna anterior a lo largo del eje de la columna.

Conclusión:

Trabajar con marcos de datos y manejar los valores nulos en ellos es una necesidad básica y fundamental en los procesos de análisis de datos. En este tutorial, hemos aprendido que los pandas proporcionaron "DataFrame.Método ffill () "para llenar los registros NAN en el marco de datos. Lo hemos familiarizado con las dos técnicas para llenar el marco de datos. Cada estrategia se elabora con el ejemplo de scripts de Python de ejemplo prácticamente implementado ejecutados utilizando la herramienta "Spyder". Puede usar cada técnica de acuerdo con sus necesidades.

Pitón

Python OS Mkdir

El sistema operativo.El método mkdir () del módulo OS se utiliza para crear un solo directorio, dire...

José Luis Villagómez

Pitón

Pandas read_csv multiprocesamiento

Para mejorar la velocidad de carga de datos, incluidos sus beneficios y limitaciones el PD.read_csv ...

Pilar Melgar

Pitón

Matplotlib 2d histograma

En Python, el PLT.Hist2d () La función del módulo Pyplot en la biblioteca matplotlib se usa para tra...

Beatriz Enríquez