Pandas fusionar por índice

Pandas fusionar por índice
El procedimiento de combinar dos conjuntos de datos en uno y alinear las filas de acuerdo con los atributos o columnas compartidas se conoce como "Pandas Merge ()". Utilizando una operación de unión de estilo de base de datos, se combinan dos objetos de Dataframes utilizando la función Pandas DataFrame "Merge ()". Una estructura de datos bidimensional llamada Pandas DataFrame está alineada en un formato tabular. Existen numerosas formas de integrar estos marcos de datos, incluidos "unir ()" y "fusionar ()". Los procedimientos de unión completos de Pandas y el rendimiento sobresaliente son comparables a los de una base de datos relacional SQL. Las operaciones de unión entre los objetos de Dataframes se pueden lograr utilizando la función "Merge ()". En columnas o índices, la unión está realizada. Los índices no se tienen en cuenta al unir columnas. Los objetos de marcado de datos de origen no se tocan y esta función devuelve un nuevo marco de datos.

Aunque se usan en situaciones distintas, los pandas "unirse" y "fusionar" se utilizan para realizar uniones en Pandas Dataframes. Mientras que el procedimiento "fusionar ()" es más flexible y le permite unir los marcos de datos tanto en índices como en columnas, la función unión () se usa típicamente para unir Dataframes en el índice. El "Left_index" se usa como la tecla de unión y el "index derecho ", que utiliza el índice de" DataFrame de datos correcto ", se usa como la otra tecla de enlace. La técnica "unir ()" se puede emplear para unir el marco de datos izquierdo a una columna, pero el marco de datos correcto requiere que se adjunte a su índice.

La sintaxis para combinar dos marcos de datos mediante índice utilizando el método fusion ()

Usando esta sintaxis, se pueden combinar dos marcos de datos en función de sus índices.

La sintaxis para unir dos marcos de datos mediante índice utilizando el método Join ()

Ejemplo 1: Al usar su índice, la función fusion () se puede usar para unir dos marcos de datos.

Panda es un módulo para el procesamiento de datos. Los datos tabulares se pueden almacenar en Python utilizando un marco de datos. Puede almacenar y trabajar rápidamente con datos tabulares, como filas y columnas, utilizando DataFrame. Los pandas ofrecen una variedad de instalaciones para combinar series o marcos de datos con varios tipos de razonamiento establecido para los índices y capacidades de matemáticas estructurales en caso de operaciones de tipo o fusión de fusión.

En este ejemplo, usaremos la función "fusion ()" para unir dos marcos de datos haciendo coincidir sus valores de índice. En este ejemplo, se crean dos marcos de datos. El primer DataFrame tiene dos columnas y se llama "Data1". "Age" y "Nombres" son las columnas de "Data1". Tenemos una lista de valores en cada columna. Los valores para "edad" tenemos "28", "37", "29" y "32" y para la columna "Nombre" tenemos "George", "James", "Arthur" y "Henry". En este marco de datos, el tamaño del índice es "4". El índice "ID" es "1", "2", "3" y "4". La información del índice de DataFrame se devuelve a través de la propiedad de índice. Las etiquetas para las filas están contenidas en la información del índice. La propiedad de índice produce un objeto de índice de rango con los valores de inicio, final y de fase si las filas no tienen índices nombrados.

A continuación, creamos otro DataFrame "data2". Tiene dos columnas "ID" y "profesión". En estas dos columnas, tenemos una lista de valores. En la columna "ID" tenemos "1", "2", "3" y "4" . La columna "profesión" tiene "médico" y "maestro" e "ingeniero". Luego, mencionamos el índice aquí que es "1", "2", "3", "6" y "7".

Ahora, usamos la función "fusion ()" para unir los dos marcos de datos, "data1" y "data2". Se utilizan dos parámetros de la función de fusión: "Left_index = true" y "right_index = true. Ciertas filas y columnas de datos deben elegirse de un marco de datos. Como la tecla combinada, el "índice izquierdo" se utiliza desde el marco de datos izquierdo y otra clave de conexión. El "Right _Index" utiliza el índice desde el marco de datos correcto.

La indexación es el proceso de elegir todas las filas y algunas de las columnas, algunas de las filas y todas las columnas, o una pieza de cada fila y cada columna. Otro nombre para la indexación es la selección de subconjuntos. "Merge ()" es la función que necesita cuando desea fusionar elementos de datos basados ​​en una o más claves, como lo haría en una base de datos relacional. Fusionar filas particularmente con datos similares se realiza mejor con la función "fusionar ()". Ahora, concatenará los dos marcos de datos al hacer coincidir su dirección de índice y mostrarlos en la pantalla utilizando la función "print ()".

Se muestra un marco de datos en la imagen de salida en este ejemplo. Entonces, cuando la función de fusión se une a los dos marcos de datos, podemos ver que solo se mostraron los valores cuyas direcciones de índice coincidentes. Las últimas dos filas del segundo marco de datos y la cuarta fila del primer marco de datos no se pudieron mostrar porque sus direcciones de índice no coincidían. El tamaño del marco de datos que tenemos ahora es tres después de usar fusionar en el índice.

Ejemplo 2: Para combinar dos marcos de datos dependiendo de sus índices, use la función Join ().

Hay situaciones cuando la fusión de dos marcos de datos produce un marco de datos con un patrón de índice que no cumple con nuestros requisitos. Queremos modificar el índice que resulta de la fusión. Al fusionar los marcos de datos, restableceremos el índice por este motivo. La menor cantidad de control es posible con esta función basada en una columna o índice compartido, las filas de las dos tablas se unirán.

Para nuestro segundo ejemplo, que es similar al primero, este programa tiene dos marcos de datos "DF1" y "DF2". Tenemos dos columnas "nombres" y "marcas" en el primer marco de datos. Los valores que tenemos en la primera columna son "Emma", "Watson", "Jhon", "Lilly", "Edward", "Noah", "Smith" y "Enna" y los valores en la columna "Marcas" son "25", "20", "14", "16", "27", "20", "12" y "15". Después de eso, teníamos una lista de índices "A", "B", "C", "D", "E", "F", "G" y "H". Del mismo modo, hay dos columnas en el segundo DataFrame "Asunto" y "Observaciones". En la columna "Asunto" tenemos una lista de sujetos que incluye "OOP", "PF", "Python", "Java", "PHP" y "Cálculo" y tenemos una lista de comentarios en la columna "Observaciones" que son "pasar" o "fallar". La lista de índices para el segundo marco de datos es "A" "C", "D", "G", "M" y "N".

Luego, según los índices de los dos marcos de datos, los fusionamos utilizando la técnica "unir ()". La estrategia de unión funciona mejor al vincular los marcos de datos en sus índices, a pesar de que podemos elegir otra columna para que la izquierda DataFrame se una. Además de permitirnos proporcionar columnas que no sean el índice para unirnos para ambos marcos de datos, la técnica de fusión es más flexible. Se fusionará DF1 y DF2 después de hacer coincidir el índice de DF2 con el índice de DF1, muestra la "nan" en esa fila de DF2 para aquellos cuyos índices no coinciden.

Se pueden ver tres marcos de datos en la imagen resultante. Los dos primeros DataFrame "DF1" y "DF2", son aquellos que hemos creado. Podemos ver que el tercer marco de datos usa la función "unir ()" para combinar los marcos de datos superiores e inferiores en función de sus índices. Aquellos cuyo índice no coincidió se mostraron "nan" allí.

Conclusión

DataFrame se combina utilizando la técnica Pandas "Merge ()". Las columnas de ambos marcos de datos se combinan durante el proceso de unión conocido como fusión. Unirse, los índices o una combinación de los dos también se respaldan fusionando. Este artículo ha cubierto la operación de las funciones "uniones ()" y "fusionar ()" en la Biblioteca Pandas Python. Puede unir fácilmente dos marcos de datos utilizando sus ubicaciones de índice utilizando los métodos mencionados anteriormente, y también aprendió cómo implementar los procedimientos de unión.