Pandas deja caer todas las columnas excepto

Pandas deja caer todas las columnas excepto
Los datos deben limpiarse, estructurarse y ordenarse antes de comenzar cualquier análisis. Para lograr la selección óptima de datos para una evaluación o presentación particular, a veces se requiere alterar un marco de datos PANDAS para eliminar columnas innecesarias o para optimizar el conjunto de datos para la creación del modelo. En los pandas, la modificación de la columna puede ocurrir en una variedad de técnicas. A veces es difícil comprender cómo eliminar las columnas de un marco de datos. El comando "DataFrame Drop" es la clave. Usando el "DF.Función Drop () ", se pueden descartar columnas especificadas. En esta guía, comprenderemos cómo excluir columnas en un marco de datos de pandas excepto los especificados.

Método pandas drop ()

El método de pandas "drop ()" nos ayuda a descartar las columnas especificadas del marco de datos proporcionado mientras mantiene las seleccionadas en el marcado de datos resultante. Esto se puede hacer usando la siguiente sintaxis:

Veremos su demostración práctica con los programas de Python en este artículo.

Ejemplo 1: Utilización de la función pandas drop () para soltar todas las columnas, excepto la columna única especificada, en el marco de datos real

Este ejemplo le hará comprender la ejecución práctica del método pandas "drop ()" para eliminar todas las columnas en un marco de datos, excepto los ciertos que elegiremos para mostrar.

Necesitaríamos software o una herramienta para compilar el programa que generaremos para el ejemplo. De las opciones, la que hemos encontrado que es la herramienta más adecuada para nuestras demostraciones es la herramienta "Spyder". Se abre un nuevo archivo de proyecto en la herramienta y luego comenzamos el script. Hemos cargado el módulo necesario que es pandas aquí. La biblioteca Pandas se ha importado al archivo de Python y está alias como "PD".

Luego necesitamos crear un marco de datos utilizando este método de kit de herramientas de pandas. Pandas tiene un método muy simple "PD.DataFrame () "para construir un DataFrame. Aquí "PD" es el alias para los pandas, mientras que el "marco de datos", como lo muestra el nombre, es la palabra clave que invoca el proceso de creación de datos de datos. Hemos llamado a este método y lo instruimos para crear un marco de datos con 5 columnas. Hemos especificado las etiquetas para las columnas, así como suministramos la misma longitud de valores para cada columna.

Las etiquetas que hemos definido para las columnas son "enero", "febrero", "marzo", "abril" y "mayo". Los valores que hemos almacenado en la columna "enero" son "1", "2", "3", "4", "3" y "5". La columna "Febrero" tiene valores "7", "8", "9", "10", "11" y "12". La "marcha" está manteniendo entradas como "13", "14", "15", "16", "17" y '18 ". Suministramos valores a la columna "April" como "19", "20", "21", "22", "23" y "24". La última columna en DataFrame "May" lleva estos valores "25", "26", "27", "28", "29" y "30". Hemos proporcionado el mismo tamaño de columna para cada columna en el marco de datos.

Como puede observar, cada columna contiene 6 valores. Si cambia la longitud de cualquier columna dentro de un marco de datos particular, le dará un error de longitud desigual de la columna. Cuando el "PD.La función DataFrame () "se invoca con las columnas proporcionadas, generará un DataFrame. Ahora requiere un objeto o una variable en la que puede colocar este marco de datos, por lo que no se perderá este marco de datos. Además, cada vez que necesitamos trabajar con ese marco de datos en particular, podemos acceder a él a través del objeto que hemos proporcionado para almacenar DataFrame. El objeto DataFrame que hemos creado aquí se llama "meses". Lo hemos asignado el resultado del "PD.Método DataFrame () ".

La función "print ()" imprime lo que sea que le transmitirá. Le hemos proporcionado nuestro objeto DataFrame "meses" para mostrar el contenido que ha conservado.

Ejecutar el script Python elaborado anteriormente simplemente golpeando la tecla "Ejecutar archivo" coloca un marco de datos que tiene 5 columnas especificadas en la consola Python para ver.

Ahora, veremos cómo utilizar el método "drop ()" para eliminar todas las columnas del marco de datos, excepto una determinada columna que mantendremos en el marco de datos.

Hemos invocado el "DF.método drop () "suministrando el" DF.columnas.Método de diferencia () "junto con otros dos parámetros" eje "y el" innace ". El ".El método difrence () "nos proporciona el complemento de los datos que ingresaremos como parámetro. En este caso, hemos proporcionado a la columna "marzo". Cuando se invoca el método "Drop ()" para descartar las columnas en el marco de datos "meses", mantendrá los valores de la columna "March".

El parámetro "eje" se establece en "1" que se refiere a las columnas. Y el "inplace" se valora como "verdadero" que realizará todas las alteraciones en el marco de datos original sin hacer ninguna copia de ella. Después de llamar a esta función, necesitamos ver el cuadro de datos actualizado. Hemos empleado el método "print ()" para mostrar el marco de datos real con contenido modificado en la pantalla.

Así es como se ve nuestro marco de datos real ahora. Hemos dejado caer todas las columnas, pero mantuvimos la columna de "marzo" en el marco de datos actualizado.

Ejemplo 2: Utilización de la función pandas drop () para soltar todas las columnas, excepto múltiples columnas especificadas en la copia de DataFrame

Para esta demostración, veremos cómo eliminar todas las columnas, excepto las múltiples columnas seleccionadas y realizar los cambios en la copia del marco de datos en lugar del DataFrame real.

En este ejemplo, utilizaremos el marco de datos que hemos construido en la instancia anterior. Después de mostrar DataFrame, hemos invocado el método "Drop ()". Entre las paréntesis del "DF.Función Drop () ", hemos llamado" DF.función de diferencia () "y hemos proporcionado dos columnas" enero "y" marzo ". Por lo tanto, estas dos columnas se mantendrán en el marco de datos y todas las columnas restantes se eliminarán en el marcado de datos "meses". El parámetro "eje" se valora en "1". Esto le dirá a Python que aplique la función en cuanto a la fila.

Aquí, el tercer parámetro "inplace" está establecido en "falso". Mantener esto "falso" significa que la función realizará los cambios en la copia de DataFrame en lugar del marcado de datos real. Para almacenar esta copia modificada del DataFrame "meses", hemos creado una variable "copia". Esta variable mantendrá el marco de datos actualizado después de dejar caer todas las columnas, excepto las dos que hemos especificado, que son "enero" y "marzo". Por último, hemos empleado el método "print ()" para exhibir el resultado del "DF.método drop () "en el terminal pasándolo la variable de" copia ".

El método "print ()" nos presenta dos marcos de datos cuando ejecutamos el script de Python escrita anteriormente. Aquí, el primer cuadro de datos que se muestra es el marco de datos real sin modificaciones, mientras que el segundo marco de datos es la copia del marco de datos real después de dejar caer todas las columnas, excepto las dos especificadas que se muestran.

Conclusión

Decidir qué datos mantener y cuáles omitir al analizar los conjuntos de datos es un concepto muy esencial para aprender. En este artículo, hemos elaborado en el "DF.Función Drop () "con su sintaxis. Hemos implementado este método en la herramienta Spyder. El primer ejemplo le enseña a modificar el marco de datos real, mientras que el segundo marco de datos explica cómo hacer una copia del marco de datos para mantener los cambios.