Eliminar los duplicados en r

Eliminar los duplicados en r
"Una de las tareas más difíciles para un científico de datos es la limpieza de datos. Con frecuencia eliminamos los duplicados dependiendo de condiciones particulares, como los valores de la columna, para examinar con precisión el conjunto de datos. En este artículo, analizaremos cómo eliminar la duplicación de datos en función de los valores de fila o columna y los diversos métodos para hacerlo. Los valores duplicados pueden existir en un conjunto de datos, y las filas duplicadas deben ser reconocidas y eliminadas para preservarlo sin redundancia y preciso. Veremos para ver si nuestro conjunto de datos contenía datos duplicados y, de ser así, lo eliminaremos."

Cómo eliminar los duplicados en la R en Ubuntu 20.04?

Descubrirá cómo eliminar la duplicación de un marco de datos en este tutorial R. Entenderá cómo deshacerse de las filas duplicadas primero, luego columnas. Veremos cómo usar Base R y Dplyr para eliminar las entradas duplicadas del marco de datos.

Ejemplo # 1: Reconocimiento de datos duplicados en R en Ubuntu 20.04

Utilizaremos la función duplicada () para identificar filas duplicadas, que devuelve un valor numérico de las filas duplicadas totales.

Aquí, hemos mostrado los datos grabados, que contienen los nombres de las columnas como inglés, ciencias y matemáticas. Además, tenemos varias filas duplicadas dentro de estos datos. Luego, tenemos una función duplicada a la que hemos pasado la variable de resultado como argumento. Una vez que ejecutamos el comando de esta función duplicada, se generan los valores booleanos. Muestra todos los valores falsos ya que no se encuentra redundancia en el marco de datos.

Ejemplo # 2: Eliminar datos duplicados utilizando el método único en R en Ubuntu 20.04

Para obtener elementos únicos de los datos especificados, use la función única () en R.

Aquí, tenemos un marco de datos que contiene el nombre del campo, la identificación y el salario del empleado y se almacena dentro de la variable emp_data. Luego se ejecuta el emp_data, que genera el marco de datos en forma tabular. Ahora, hemos utilizado una función única para extraer el registro único de los datos. Dentro de la función única, hemos pasado el emp_data. La salida generada por la función única ha eliminado la fila duplicada de la trama de datos dada.

Ejemplo # 3: Eliminar datos duplicados utilizando el método distintivo en R en Ubuntu 20.04

La función distinta es una de las bibliotecas de manipulación de datos más utilizadas en el lenguaje R, y la proporciona el paquete DPLYR. La función distinta recoge filas en un marco de datos que son todos únicos. El marco de datos es el argumento inicial, seguido de las variables a considerar durante la selección. Para filtrar filas únicas, se pueden proporcionar muchas columnas variables, pero mostraremos instancias variables únicas en la siguiente muestra. El tercer argumento no es obligatorio y tiene el valor falso por defecto; Sin embargo, si el usuario especifica expresamente verdadero, la función mantendrá todas las variables en el marco de datos después de la filtración. Vale la pena señalar que DPLYR emplea una función de operador llamada tuberías de la forma %> %, lo que se entiende que pasa la variable izquierda como el primer parámetro de la función derecha. Específicamente, la notación x %? % f (y) se convierte en f (x, y).

Aquí, tenemos un cuadro de datos Products_Results que se muestra en forma tabular. Puede ver las filas redundantes dentro del marco de datos de productos_resultos. Podemos eliminar estos duplicados utilizando la función distinta. En nuestro próximo comando, hemos utilizado los productos_result dentro de la función distinta como argumento. Ahora, el marco de datos muestra el registro del marco de datos sin filas duplicadas.

En el marco de datos anterior, dos filas aparecieron dos veces en el marco de datos, pero después de usar la función distinta, se eliminó la fila duplicada.

Ejemplo # 4: Eliminar datos duplicados utilizando el método de filtro Group_BY en R en Ubuntu 20.04

Otra opción para eliminar filas duplicadas basadas en columnas es agrupar el conjunto de datos con la variable de columnas y luego usar el filtro y los métodos duplicados para filtrar elementos. Su primer paso se completa utilizando el grupo del paquete dplyr por función. El resultado de la operación anterior se transfiere a la función de filtro, que elimina las filas duplicadas.

Aquí, nuestro paso inicial es importar la biblioteca dplyr que admite la función de filtro group_by en el script R. Luego, creamos un marco de datos que tiene el registro de los equipos que aparecen en días aleatorios. También hemos especificado el género para el marco de datos. Cuando el marco de datos se imprime en la pantalla, podemos ver la redundancia en cada columna. Podemos eliminar esto utilizando la función de filtro Group_BY. En la siguiente figura, se invoca la función Group_By y toma la columna "día" como argumento en la variable T1. Luego, el filtro se aplica a la función duplicada donde se pasa la columna "día". Cuando ejecutamos el T1, solo elimina los duplicados de la columna "Día."

Igual que el anterior, hemos aplicado la función de filtro Group_By a la columna "Sexo."

Aquí, hemos eliminado los duplicados de la columna "equipo" de la función de filtro Group_BY.

Ejemplo # 5: Eliminar datos duplicados utilizando el método Group_By Slice en R en Ubuntu 20.04

Alternativamente, el grupo por función se puede utilizar junto con una porción para eliminar filas duplicadas basadas en valores de columna. Slice es un paquete dplyr que elige filas por índice. Cuando se agrupa el marco de datos dado, el corte selecciona las filas en cada grupo en función del índice suministrado, como se ve en el siguiente código de muestra.

Arriba, hemos creado y mostrado el registro del cuadro de datos. Aquí, solo tenemos dos columnas que tienen valores redundantes. Esto, podemos eliminar la función Group_by proporcionando el COL1 dentro de él y luego aplicar la función de corte en ella.

Ahora, las filas duplicadas se han eliminado del COL1, por lo que también hemos eliminado la redundancia de COL2 aplicando la función Group_By Slice. Por lo tanto, la fila de duplicados se ha eliminado del cuadro de datos a continuación.

Conclusión

En este punto de la lección, ha aprendido cómo usar el lenguaje R para identificar y eliminar filas duplicadas que aparecen varias veces. Use funciones fundamentales como unique () y duplicado () para eliminar filas o columnas redundantes de un vector o marco de datos. Use el método distintivo () en el paquete dplyr si está trabajando con un conjunto de datos grande y desea eliminar entradas duplicadas. Además, podemos usar el método group_by, filtro y corte para eliminar la fila y las columnas duplicadas en r.