En este artículo, hemos tomado un conjunto de datos de la población de diferentes estados en los Estados Unidos, que está disponible en un .Formato de archivo CSV. Leeremos el .archivo CSV para mostrar el contenido original de este archivo, como sigue:
importar pandas como PDEn la siguiente captura de pantalla, puede ver el contenido duplicado de este archivo:
Identificación de duplicados en Pandas Python
Es necesario determinar si los datos que está utilizando tienen filas duplicadas. Para verificar la duplicación de datos, puede usar cualquiera de los métodos cubiertos en las siguientes secciones.
Método 1:
Lea el archivo CSV y páselo al marco de datos. Luego, identifique las filas duplicadas utilizando el duplicado () función. Finalmente, use la declaración de impresión para mostrar las filas duplicadas.
importar pandas como PDMétodo 2:
Usando este método, el is_duplicado La columna se agregará al final de la tabla y se marcará como 'verdadero' en el caso de las filas duplicadas.
importar pandas como PDDejar caer duplicados en Pandas Python
Las filas duplicadas se pueden eliminar de su marco de datos utilizando la siguiente sintaxis:
drop_dupplicates (subset = ", keep =", inplace = false)
Los tres parámetros anteriores son opcionales y se explican con mayor detalle a continuación:
mantener: Este parámetro tiene tres valores diferentes: primero, último y falso. El primer valor mantiene la primera ocurrencia y elimina los duplicados posteriores, el último valor mantiene solo el último ocurrencia y elimina todos los duplicados anteriores, y el valor falso elimina todas las filas duplicadas.
subconjunto: etiqueta utilizada para identificar las filas duplicadas
en su lugar: contiene dos condiciones: verdadero y falso. Este parámetro eliminará filas duplicadas si está configurada en True.
Eliminar los duplicados manteniendo solo el primer hecho
Cuando use "Keep = First", solo se mantendrá la primera fila, y se eliminarán todos los demás duplicados.
Ejemplo
En este ejemplo, solo se mantendrá la primera fila y se eliminarán los duplicados restantes:
importar pandas como PDEn la siguiente captura de pantalla, la aparición de la primera fila retenida se resalta en rojo y se eliminan las duplicaciones restantes:
Eliminar los duplicados manteniendo solo el último ocurrencia
Cuando use "Keep = Last", todas las filas duplicadas, excepto la última ocurrencia, se eliminarán.
Ejemplo
En el siguiente ejemplo, todas las filas duplicadas se eliminan, excepto solo el último ocurrencia.
importar pandas como PDEn la siguiente imagen, se eliminan los duplicados y solo se mantiene la última fila:
Eliminar todas las filas duplicadas
Para eliminar todas las filas duplicadas de una tabla, establezca "Keep = False", de la siguiente manera:
importar pandas como PDComo puede ver en la siguiente imagen, todos los duplicados se eliminan del marco de datos:
Eliminar duplicados relacionados de una columna especificada
Por defecto, la función verifica todas las filas duplicadas de todas las columnas en el marco de datos dada. Pero, también puede especificar el nombre de la columna utilizando el parámetro de subconjunto.
Ejemplo
En el siguiente ejemplo, todos los duplicados relacionados se eliminan de la columna 'estados'.
importar pandas como PDConclusión
Este artículo le mostró cómo eliminar las filas duplicadas de un marco de datos utilizando el drop_dupplicates () función en Pandas Python. También puede borrar sus datos de duplicación o redundancia utilizando esta función. El artículo también le mostró cómo identificar cualquier duplicado en su marco de datos.