Pandas verifique si dos columnas son iguales

Pandas verifique si dos columnas son iguales
Con frecuencia, querrá comparar datos en dos columnas en un marco de datos PANDAS y mostrar los resultados en una tercera columna. Aprenderemos todas las pautas sobre cómo comparar las columnas en un marco de datos de pandas en esta publicación. Pandas es un paquete útil de Python para análisis de datos, visualización, purificación de datos y otras actividades. Sigue leyendo este artículo para encontrar todos los detalles sobre la comparación de dos columnas en un marco de datos de Pandas con ejemplos.

Módulo Pandas en Python

El módulo Python Pandas es esencialmente un paquete de Python gratuito. Tiene una amplia gama de aplicaciones en computación, análisis de datos, estadísticas y otros campos.

El módulo pandas utiliza las características del núcleo del módulo Numpy. Numpy es una estructura de datos de bajo nivel. Permite a los usuarios manipular matrices multidimensionales y aplicarles varias operaciones matemáticas. Pandas ofrece una interfaz de usuario más avanzada. También incluye una capacidad robusta de series temporales y una mejor alineación de datos tabulares.

DataFrame es la estructura de datos principal de Pandas. Es una estructura de datos en 2-D que le permite almacenar y manipular datos que están en forma tabular.

Los pandas tienen muchas características para el marco de datos. Alineación de datos, corte, estadísticas de datos, agrupación, concatenación de datos, fusión, etc. son ejemplos.

¿Por qué comparar dos columnas en pandas??

Cuando deseamos comparar los valores de dos columnas o ver cuán similares son, debemos compararlos. Por ejemplo, si tenemos dos columnas y queremos determinar si la columna es más o menos que la otra columna o su semejanza, comparar las columnas es la forma apropiada de hacerlo.

Para asociar los valores en pandas y numpy, hay una variedad de enfoques. En este editorial, pasaremos por numerosas estrategias y las acciones involucradas en ponerlas en práctica.

Supongamos que tenemos dos columnas: la columna A contiene varios proyectos, y la columna B tiene los nombres asociados. En la columna D, tenemos varios proyectos no relacionados. Según los proyectos de la columna D, deseamos devolver los nombres asociados de la columna B. En Excel, ¿cómo podría comparar las columnas A y D y obtener los valores relativos de la columna B? Veamos algunos ejemplos y entendamos cómo puede lograr esto.

Ejemplo 1:

El NP.donde () la técnica se utilizará en este ejemplo. La sintaxis es numpy.donde (condición [, a, b]). Este método recibe la condición, y si la condición es verdadera, el valor que proporcionamos ('a' en la sintaxis) será el valor que les proporcionamos.

Importamos las bibliotecas, pandas y numpy necesarias en el código a continuación. Construimos un diccionario y enumeramos los valores para cada columna.

Obtenemos la condición para comparar las columnas utilizando el método Where () en Numpy. Si 'First_Column' es más pequeño que 'Second_Column' y 'First_Column' es más pequeño que 'Third_Column,' los valores de 'First_Column' se imprimen. Si la condición falla, el valor se establece en 'nan.'Estos resultados se guardan en la nueva columna de DataFrame. Finalmente, DataFrame se presenta en la pantalla.

importación de pandas
importar numpy
data =
'First_Column': [2, 3, 40, 5],
'Second_Column': [8, 5, 30, 10],
'Third_Column': [4, 9, 12, 40]

d_frame = pandas.DataFrame (datos)
d_frame ['nuevo'] = numpy.donde ((d_frame ['first_column'] <= d_frame['Second_Column']) & (
D_frame ['First_Column'] <= d_frame['Third_Column']), d_frame['First_Column'], numpy.nan)
imprimir (d_frame)

La salida se muestra a continuación. Aquí puede ver el primer_column, Second_Column y Third_Column. La columna 'nueva' muestra los valores resultantes después de ejecutar el comando.

Ejemplo 2:

Este ejemplo demuestra cómo usar el método igual () para comparar dos columnas y devolver el resultado en la tercera columna. Marco de datos.igual (otro) es la sintaxis. Este método verifica si dos columnas tienen los mismos elementos.

Estamos utilizando el mismo método en el siguiente código, que implica importar bibliotecas y construir un marco de datos. Hemos creado una nueva columna (llamada: Fourth_Column) en este DataFrame. Esta nueva columna es igual a 'Second_Column' para mostrar lo que realiza la función en este marco de datos.

importación de pandas
importar numpy
data =
'First_Column': [2, 3, 40, 5],
'Second_Column': [8, 5, 30, 10],
'Third_Column': [4, 9, 12, 40],
'Fourth_Column': [8, 5, 30, 10],

d_frame = pandas.DataFrame (datos)
print (d_frame ['4TH_COLUMN'].iguales (d_frame ['segundo_column']))

Cuando ejecutamos el código de muestra dado anteriormente, devuelve 'verdadero', como puede ver en la imagen adjunta.

Ejemplo 3:

Este método nos permite pasar el método y las condiciones de otro modo en el ejemplo final de nuestro artículo y tener la misma función ejecutada en la serie Pandas DataFrame. Usando esta estrategia, minimizamos el tiempo y el código.

El mismo código también se usa en este ejemplo para crear un marco de datos en pandas. Creamos una función anónima temporal en aplicar () en sí utilizando lambda utilizando el método Aplicar (). Determina si 'column1' es más pequeño que 'columna2' y 'columna1' es más pequeño que 'columna3'. Si es verdadero, se devolverá el valor 'columna1'. Mostrará nan si es falso. La nueva columna se usa para contener estos valores. Como resultado, las columnas se compararon.

importación de pandas
importar numpy
data =
'First_Column': [2, 3, 40, 5],
'Second_Column': [8, 5, 30, 10],
'Third_Column': [4, 9, 12, 40],

d_frame = pandas.DataFrame (datos)
d_frame ['new'] = d_frame.Aplicar (Lambda X: X ['First_Column'] si X ['First_Column'] <=
X ['Second_Column'] y X ['First_Column']
<= x['Third_Column'] else numpy.nan, axis=1)
imprimir (d_frame)

La imagen adjunta muestra la comparación de dos columnas.

Conclusión:

Esta fue una publicación breve sobre el uso de pandas y python para comparar una o más columnas de dos marcos de datos. Hemos repasado la función igual () (que verifica si dos objetos pandas tienen los mismos elementos), el NP.donde () método (que devuelve elementos de x o y dependiendo de los criterios), y el método Aplicar () (que acepta una función y lo aplica a todos los valores en una serie Pandas). Si no está familiarizado con el concepto, puede usar esta guía. Para su conveniencia, la publicación incluye todos los detalles, así como numerosas muestras.