Cómo soltar filas duplicadas en Pandas Python

Cómo soltar filas duplicadas en Pandas Python
Python es uno de los lenguajes de programación más populares para el análisis de datos y también admite varios paquetes centrados en datos de Python. Los paquetes Pandas son algunos de los paquetes de Python más populares y se pueden importar para el análisis de datos. En casi todos los conjuntos de datos, a menudo existen filas duplicadas, lo que puede causar problemas durante el análisis de datos o la operación aritmética. El mejor enfoque para el análisis de datos es identificar cualquier fila duplicada y eliminarlas de su conjunto de datos. Usando la función pandas drop_dupplicates (), puede eliminar fácilmente o eliminar registros duplicados de un marco de datos.
Este artículo le muestra cómo encontrar duplicados en los datos y eliminar los duplicados utilizando las funciones Pandas Python.

En este artículo, hemos tomado un conjunto de datos de la población de diferentes estados en los Estados Unidos, que está disponible en un .Formato de archivo CSV. Leeremos el .archivo CSV para mostrar el contenido original de este archivo, como sigue:

importar pandas como PD
df_state = PD.Read_csv ("c:/users/Dell/Desktop/Popoam_Ds.CSV ")
Imprimir (DF_STATE)

En la siguiente captura de pantalla, puede ver el contenido duplicado de este archivo:

Identificación de duplicados en Pandas Python

Es necesario determinar si los datos que está utilizando tienen filas duplicadas. Para verificar la duplicación de datos, puede usar cualquiera de los métodos cubiertos en las siguientes secciones.

Método 1:

Lea el archivo CSV y páselo al marco de datos. Luego, identifique las filas duplicadas utilizando el duplicado () función. Finalmente, use la declaración de impresión para mostrar las filas duplicadas.

importar pandas como PD
df_state = PD.Read_csv ("c:/users/Dell/Desktop/Popoam_Ds.CSV ")
Dup_rows = df_state [DF_STATE.duplicado ()]
imprimir ("\ n \ nduplicate filas: \ n ".formato (dup_rows))

Método 2:

Usando este método, el is_duplicado La columna se agregará al final de la tabla y se marcará como 'verdadero' en el caso de las filas duplicadas.

importar pandas como PD
df_state = PD.Read_csv ("c:/users/Dell/Desktop/Popoam_Ds.CSV ")
df_state ["is_duplicate"] = df_state.duplicado ()
imprimir ("\ n ".formato (df_state))

Dejar caer duplicados en Pandas Python

Las filas duplicadas se pueden eliminar de su marco de datos utilizando la siguiente sintaxis:
drop_dupplicates (subset = ", keep =", inplace = false)
Los tres parámetros anteriores son opcionales y se explican con mayor detalle a continuación:
mantener: Este parámetro tiene tres valores diferentes: primero, último y falso. El primer valor mantiene la primera ocurrencia y elimina los duplicados posteriores, el último valor mantiene solo el último ocurrencia y elimina todos los duplicados anteriores, y el valor falso elimina todas las filas duplicadas.
subconjunto: etiqueta utilizada para identificar las filas duplicadas
en su lugar: contiene dos condiciones: verdadero y falso. Este parámetro eliminará filas duplicadas si está configurada en True.

Eliminar los duplicados manteniendo solo el primer hecho

Cuando use "Keep = First", solo se mantendrá la primera fila, y se eliminarán todos los demás duplicados.

Ejemplo

En este ejemplo, solo se mantendrá la primera fila y se eliminarán los duplicados restantes:

importar pandas como PD
df_state = PD.Read_csv ("c:/users/Dell/Desktop/Popoam_Ds.CSV ")
Dup_rows = df_state [DF_STATE.duplicado ()]
imprimir ("\ n \ nduplicate filas: \ n ".formato (dup_rows))
DF_RM_DUP = DF_STATE.drop_dupplicates (Keep = 'First')
print ('\ n \ nResult DataFrame después de la eliminación duplicada: \ n', df_rm_dup.cabeza (n = 5))

En la siguiente captura de pantalla, la aparición de la primera fila retenida se resalta en rojo y se eliminan las duplicaciones restantes:

Eliminar los duplicados manteniendo solo el último ocurrencia

Cuando use "Keep = Last", todas las filas duplicadas, excepto la última ocurrencia, se eliminarán.

Ejemplo

En el siguiente ejemplo, todas las filas duplicadas se eliminan, excepto solo el último ocurrencia.

importar pandas como PD
df_state = PD.Read_csv ("c:/users/Dell/Desktop/Popoam_Ds.CSV ")
Dup_rows = df_state [DF_STATE.duplicado ()]
imprimir ("\ n \ nduplicate filas: \ n ".formato (dup_rows))
DF_RM_DUP = DF_STATE.drop_dupplicates (Keep = 'Last')
print ('\ n \ nResult DataFrame después de la eliminación duplicada: \ n', df_rm_dup.cabeza (n = 5))

En la siguiente imagen, se eliminan los duplicados y solo se mantiene la última fila:

Eliminar todas las filas duplicadas

Para eliminar todas las filas duplicadas de una tabla, establezca "Keep = False", de la siguiente manera:

importar pandas como PD
df_state = PD.Read_csv ("c:/users/Dell/Desktop/Popoam_Ds.CSV ")
Dup_rows = df_state [DF_STATE.duplicado ()]
imprimir ("\ n \ nduplicate filas: \ n ".formato (dup_rows))
DF_RM_DUP = DF_STATE.drop_dupplicates (Keep = False)
print ('\ n \ nResult DataFrame después de la eliminación duplicada: \ n', df_rm_dup.cabeza (n = 5))

Como puede ver en la siguiente imagen, todos los duplicados se eliminan del marco de datos:

Eliminar duplicados relacionados de una columna especificada

Por defecto, la función verifica todas las filas duplicadas de todas las columnas en el marco de datos dada. Pero, también puede especificar el nombre de la columna utilizando el parámetro de subconjunto.

Ejemplo

En el siguiente ejemplo, todos los duplicados relacionados se eliminan de la columna 'estados'.

importar pandas como PD
df_state = PD.Read_csv ("c:/users/Dell/Desktop/Popoam_Ds.CSV ")
Dup_rows = df_state [DF_STATE.duplicado ()]
imprimir ("\ n \ nduplicate filas: \ n ".formato (dup_rows))
DF_RM_DUP = DF_STATE.drop_dupplicates (subset = 'estado')
print ('\ n \ nResult DataFrame después de la eliminación duplicada: \ n', df_rm_dup.cabeza (n = 6))

Conclusión

Este artículo le mostró cómo eliminar las filas duplicadas de un marco de datos utilizando el drop_dupplicates () función en Pandas Python. También puede borrar sus datos de duplicación o redundancia utilizando esta función. El artículo también le mostró cómo identificar cualquier duplicado en su marco de datos.