Pandas concatenar dos marcos de datos

Pandas concatenar dos marcos de datos
La información que necesitamos a menudo aparece en numerosas fuentes en escenarios del mundo real. Para evaluar las estadísticas, con frecuencia requerimos la integración de múltiples archivos en un marco de datos uniforme. Con la ayuda de los pandas, es posible combinar rápidamente la serie, así como el marco de datos con los diferentes tipos de lógica predefinida para los índices más capacidades de álgebra relacional para las funciones de tipo y fusión de fusión. Además, los pandas tienen herramientas que le permiten comparar dos series o marcos de datos y enumerar cualquier variación. Es posible que necesite combinar los datos utilizando una variedad de enfoques. Por ejemplo, puede concatenar los conjuntos de datos para fusionarlos. La concatenación de los conjuntos de datos se puede realizar en una variedad de métodos.

Las acciones de concatenación en todo el eje se manejan mediante el método concat () y la lógica de configuración adicional para los índices en planos adyacentes también se realiza. Debemos considerar ciertas selecciones mientras concatenamos o agreguemos los marcos de datos. Tales opciones podrían involucrar cosas como si queramos mantener los índices originales, agregar claves más beneficiosas y más.

La utilización del método de concatenato de pandas requiere la siguiente sintaxis:

Tenemos una carga de cobertura de numerosas configuraciones a nuestra disposición con este método para adaptar aún más la concatenación de los datos. No necesariamente necesitará comprender por completo cada uno de estos para navegar. Sin embargo, es importante ser consciente de su existencia, así como lo que sea que realicen si su caso de uso les exige.

Ejemplo 1: Concatenate columnas similares de dos marcos de datos utilizando la función de concatenado de pandas

El ejemplo más simple y fácil para comenzar es concatenar las mismas columnas de los dos marcos de datos diferentes.

Como sabemos, trabajar con el módulo Pandas de Python requiere la importación de la biblioteca Pandas. Entonces, comenzamos nuestra implementación práctica de los códigos de ejemplo importando la Biblioteca Pandas en Python como PD.

Una vez hecho esto, ahora estamos listos para comenzar a trabajar en nuestro script principal, ya que las características de Pandas son actualmente accesibles para nosotros.

Luego creamos nuestros marcos de datos fundamentales. Necesitamos dos marcos de datos aquí, ya que tenemos que realizar la concatenación.

Se generaron las variables "D1" y "D2" y se muestran en el ejemplo dado. Utilizamos la función Pandas DataFrame para construir DataFrames. El PD.Se invoca el método DataFrame (). Dentro de sus aparatos ortopédicos, le hemos dado 2 valores: identificación y nombre. Se asignan los valores para ambas columnas de Dataframes. Empleamos el método print () para mostrar los marcos de datos D1 y D2.

La siguiente imagen de salida muestra 2 marcos de datos con las mismas columnas:

Creamos con éxito nuestros marcos de datos. El siguiente paso es concatenarlos. Para este propósito, empleamos el método de concatenato de pandas - PD.de acuerdo (). Este método fusiona los datos de las mismas columnas de Dataframes D1 y D2.

Construimos una variable "con_output" que almacena el resultado de invocar el PD.función concat (). Solo necesita suministrar el PD.Función concat () con los objetos que desea concatenar para que la lista de variables se pueda pasar simplemente en. Teniendo en cuenta esto, podemos ingresar al [D1, D2]. Asegúrese de que si está colocando directamente la lista dentro del PD.Función de concate (), debe usar los soportes "[]". De lo contrario, proporciona un mensaje de error. Hen invocamos el método print () y lo pasean la variable "con_output" para mostrar lo que almacenamos en él en él.

Los marcos de datos concatenados que contienen las columnas similares se obtienen ejecutando el programa mencionado anteriormente.

Los marcos de datos se fusionan como estaban ya que no pusimos ningún parámetro. Debido a estos factores, se incluyen la configuración de índices reales. El índice ocasionalmente puede requerir un ajuste. El parámetro Ignore Index = True se puede utilizar para hacer esto.

Como resultado, los índices se alteran a partir de las 0 hasta el punto final del tamaño. Los valores de índice modificados se muestran en la siguiente instantánea:

Ejemplo 2: Concatenate diferentes columnas de dos marcos de datos utilizando la función de concatenado de pandas con el parámetro de unión

Agregamos nuestros marcos de datos unos a otros, verticalmente, para concatenarlos. Utilizar las columnas de cada conjunto de datos que tiene valores similares, como una ID única compartida, es un método adicional para combinar los marcos de datos. "Unirse" es el proceso de fusionar los marcos de datos utilizando un campo compartido. La "Clave (s) de unión" se refiere a las columnas que incluyen los datos compartidos. Este método para combinar los marcos de datos es frecuentemente ventajoso donde un marco de datos sirve como una "tabla de búsqueda" para el contenido complementario que pretendemos integrar en la segunda tabla. Idéntico a cómo conectamos las tablas en una base de datos relacional, este método une muchos conjuntos de datos juntos.

Posee flexibilidad en formas de tratar los ejes adicionales siempre que vinculemos numerosos marcos de datos por completo, excluyendo el que se está combinando.

Hay dos enfoques para lograr esto. El primer enfoque es ingresar el unión = "exterior" para obtener la combinación de todos estos. Dicha configuración es la configuración predeterminada porque no se comprometen los datos. La otra estrategia es tener en cuenta el cruce con el Join = "Inner".

Consideremos la siguiente ilustración:

Aquí, creamos dos marcos de datos con diferentes columnas. El primer DataFrame "D1" consta de 2 columnas: ID y nombre. Mientras que el segundo marco de datos "D3" tiene 2 columnas: ciudad y edad. Creamos una variable "resultado" para almacenar la salida de llamar al PD.función concat ().

Entre las paréntesis de la función de concatenato de pandas, especificamos el nombre de los marcos de datos como D1 y D3. La línea final del script llama al método print ().

Esto nos produce la siguiente salida:

Los dos marcos de datos en la instancia mencionada anteriormente se fusionan. No obstante, como algunas columnas estaban ausentes de cualquiera de los marcos de datos, se suministraron utilizando las entradas en blanco. Estas entradas se insertan ya que el valor predeterminado del argumento "unión =" es "exterior", lo que explica su inclusión. Como resultado, se conservan todos los datos entre las entidades.

"Inner" es un argumento viable diferente para el método.

Utilizamos los argumentos "unirse" y "eje" en este caso. Para el argumento "unirse", ponemos el valor "interno", mientras que, para el argumento "eje", se establece en "1". El "eje" es el eje a lo largo del cual concatenamos nuestros marcos de datos. Está configurado en 0 por defecto. Las columnas adicionales se introducen si hay un requisito para aumentar el número de objetos en el eje = 1. El PD.concat () realiza una unión externa a través de las filas por defecto. Ahora, cambiamos los valores predeterminados para que realice el unión interna de la columna en los marcos de datos para la concatenación.

La salida que obtenemos del código ejecutado previamente se muestra en el siguiente:

Conclusión

Esta discusión se centró en la función de concatenado de pandas. Dimos una introducción detallada a la función concatenada de pandas y la necesidad de emplear este método. La sintaxis para usar esta técnica se proporciona al principio y se identifican todos los parámetros que puede usar dentro de esta función. Elaboramos la concatenación de los dos marcos de datos con una demostración práctica de los códigos de ejemplo. En este escrito se explica la combinación de las mismas columnas de los diferentes marcos de datos, así como la combinación del marco de datos con diferentes columnas. Aprender a trabajar con los pandas.La función concat () lo acomoda en el manejo y el análisis de los datos.