Pandas DataFrame de CSV

Pilar Alemán

A DataFrame es una estructura de datos bidimensional en Python a la que accede el módulo Pandas que almacena el contenido en formato tabular. En otras palabras, usando columnas y filas. Cada columna en un marco de datos puede contener un tipo de elemento variado.

Los archivos CSV o los "valores separados por comas" son los valores separados por las comas y se pueden ver de manera similar a un archivo de Excel. "Pandas" es el paquete de ciencia de datos más esencial en Python. Al analizar los datos, debemos tratar con grandes conjuntos de datos, que generalmente están en formato CSV. Hay varios enfoques para usar los archivos CSV para crear un Pandas DataFrame. La técnica que elegimos explicar e implementar en este artículo es el método de pandas "read_csv ()". Para leer y procesar los archivos CSV, el método "leer csv ()" de Pandas es esencial.

Veremos su demostración práctica a través del ejemplo explicado y ejecutado en lo siguiente:

Ejemplo: utilizando el método pandas "read_csv ()" para crear un marco de datos desde CSV

En esta ilustración, veremos cómo podemos crear un marco de datos a partir de un archivo CSV utilizando los pandas "PD.método read_csv () ". Sigamos implementando este concepto prácticamente.

Para cada lenguaje de programación con el que seleccione trabajar de acuerdo con los requisitos, debe encontrar un software o una herramienta para ensamblar este idioma en. Cuando comience a buscarlo, encontrará un montón de opciones. En nuestro artículo, el lenguaje de programación utilizado es "Python". Necesitamos obtener la herramienta o software que ensamble el idioma y se encuentre compatible con nuestro sistema. De una variedad de opciones, seleccionamos la herramienta "Spyder". Necesitamos descargarlo desde el sitio web oficial de "Spyder".

Cuando se completa la descarga, lanzamos el asistente de instalación. Una vez que se realiza la instalación, puede acceder a la herramienta simplemente escribiendo su nombre en la barra de búsqueda de la computadora portátil. Al hacer clic en él abre la interfaz de la herramienta "Spyder". Aquí, estamos listo para comenzar con nuestra manifestación práctica.

En la interfaz de la herramienta "Spyder", haga clic en el botón "Nuevo archivo" o presione "Ctrl+N" para abrir un nuevo archivo. Este archivo se abre y puede ver que el nombre del archivo tiene un ".extensión de py ". Esta extensión se refiere al archivo "Python". Todos estamos configurados para comenzar a escribir el código. Ahora, comenzando con el código, el primer y principal requisito al escribir un código es importar sus bibliotecas relevantes cuyas características desea acceder. En nuestro caso, la ilustración se basa en la implementación de las características de "pandas". Por lo tanto, primero importamos la biblioteca utilizando la línea de código "Importar pandas como PD". Esta "PD" es una forma corta para los pandas, lo que significa que ahora podemos cargar los métodos de pandas utilizando el "PD".

Ahora, hemos terminado de importar la biblioteca de pandas requerida. La siguiente tarea es aprender cómo podemos crear un marco de datos utilizando el archivo CSV. Aquí, tiene dos opciones: o debe crear su archivo CSV en Microsoft Excel o Hojas de cálculo de Google o cualquier herramienta relevante con el ".Extensión de CSV ”Si necesita realizar algunas operaciones en Python o puede descargar un archivo CSV de muestra de Internet para fines de aprendizaje. Nosotros, por otro lado, descargamos un archivo CSV de muestra de Internet para el proceso de aprendizaje. Invocamos el "PD.Método read_csv () "que lee el archivo CSV proporcionado. Entre sus paréntesis, proporcione el nombre del archivo CSV.

Como mencionamos, el "día de la semana.Nombre del archivo de CSV ". Una cosa importante a considerar aquí es que el archivo CSV que creó o descargó debe estar en la misma carpeta donde su ".Los archivos de Py "residen dentro del".carpeta Spyder-Py3 ”. De lo contrario, cuando intente ejecutar el programa, lanzará un error. Cuando llamamos al "PD.Read_csv ("Día de la semana.Método CSV ”)”, lee el contenido de este archivo y crea un marco de datos. Ahora, para almacenar este marco de datos, creamos una "muestra" de objeto DataFrame que contiene la salida generada desde el "PD.método read_csv () ". Por último, invocamos el método "print ()" para mostrar este marco de datos en el terminal.

Siendo novedoso para "Python" y "Spyder", es posible que esté pensando en cómo ejecutar el código que anteriormente está escrito. Solo necesita presionar el botón "Ejecutar archivo" en la interfaz "Spyder" o simplemente presionar las teclas "Shift+Enter" para ejecutar el programa. Aquí está nuestro DataFrame creado a partir del archivo CSV proporcionado.

En el cuadro de datos dado, tenemos cuatro columnas y siete filas. La primera columna es "Nombre" que almacena los nombres de los días de semana como "Lunes", "Martes", "Miércoles", "Jueves", "Viernes", "Sábado" y "Domingo". La segunda columna "Abreviatura" almacena los términos cortos para los datos como "Mon.", "Mar.", "Casarse.", "Jue.", "Vie."," Sat "y" Sol ". La tercera y la cuarta columnas son "numéricas" y "numéricas-2". Almacenan los números de "0" a "7". Ambos tienen valores numéricos para los días de semana.

Puede haber una situación en la que solo desea crear un marco de datos a partir de las columnas seleccionadas del archivo CSV. Esto se puede hacer usando el mismo "PD.read_csv () "Función simplemente agregando un parámetro" usecol ". Este parámetro toma el nombre de las columnas que desea recuperar del archivo CSV para DataFrame. Como ya hemos visto, las columnas de nuestro DataFrame que se importan desde el archivo CSV están utilizando la columna "Nombre" y la columna "Numérica" que se utilizará desde el archivo CSV para crear un DataFrame. Luego, invocamos el método "print ()" para mostrar las columnas seleccionadas en DataFrame.

Ejecutar este código nos produce el marco de datos de salida con solo dos columnas del archivo CSV. El marco de datos se muestra en la siguiente imagen:

Además de crear un marco de datos utilizando las columnas seleccionadas del archivo CSV proporcionado, también puede hacer otras operaciones. Puede haber un archivo CSV que contenga datos grandes y no todo se necesita necesariamente para mostrarse para su marco de datos porque un gran datos innecesarios a veces crean un desastre. Entonces, a menudo tratamos de evitarlo. Podemos hacerlo saltando las filas irrelevantes del marco de datos. Necesitamos agregar un parámetro de "omisión" y especificar los números de fila que desea excluir. Especificamos los números de fila "[1, 3, 5]" aquí. Se llama al método "print ()" para mostrar el nuevo DataFrame.

Aquí en la imagen de salida, puede observar que el marco de datos creado a partir del archivo CSV no contiene las filas "1", "3" y "5".

También podemos cambiar el nombre de la columna del archivo CSV de acuerdo con nuestros requisitos para el marco de datos cuando llamamos al "PD.función read_csv () ". Para completar esta operación, debemos pasar una lista de cadenas de caracteres al "PD.read_csv () "Nombres de la función" Nombres ". Estas cadenas de caracteres sirven como nombres de las nuevas columnas. Además, parece lógico excluir la primera fila del conjunto de datos de entrada porque contiene el título original del archivo CSV. Proporcionamos los nombres para las columnas como "nombres = ['C1', 'C2', 'C3', 'C4']". Finalmente, mostramos DataFrame con nuevos nombres de columnas.

Esto nos obtiene el siguiente marcado de datos de salida:

Conclusión

Los marcos de datos son los bloques más utilizados e importantes de los pandas de Python. Existen varias formas de crear un marco de datos en pandas. De lo cual, discutimos sobre cómo crear un marco de datos a partir de un archivo CSV en este artículo. Utilizamos un método pandas "read_csv ()" para leer el archivo CSV proporcionado y luego crear un marcado de datos desde él. A través de la implementación práctica de los códigos de ejemplo ejecutados en "Spyder", elaboramos la utilización de esta función. También explicamos e implementamos los diferentes parámetros útiles proporcionados por este método para lograr el resultado deseado. Anticipamos que nuestro esfuerzo para facilitar el aprendizaje en los módulos de pandas realmente lo ayudará en su edificio de habilidades de Python.

Windows

Grabando una imagen de más de 4 GB en FAT32 UEFI

Método de distribución de Windows de más de 4 gigabytes en un USB FAT32 USB para la carga de UEFI ut...

Cristian Collazo

Internet

Cómo limpiar la pared de VK

Cómo eliminar rápidamente todas las notas de la pared en contacto. Paso las instrucciones de paso pa...

Jerónimo Araña

Internet

Cómo eliminar la publicidad en uTorrent

Dos formas de desconectar por completo el anuncio en el programa UTORRENT. Manualmente, usando un cl...

Soledad Adorno