Valores únicos de la columna pandas

Valores únicos de la columna pandas
La biblioteca de ciencia de datos de Python más popular se llama pandas. Ofrece estructuras de datos de análisis de datos de alto rendimiento y fácil de usar y herramientas para programadores de Python. Una vez que comprende las operaciones fundamentales y cómo se pueden usar, Pandas es una herramienta útil para alterar los datos. Veamos una de esas operaciones en este tutorial, junto con algunos ejemplos y salida, para obtener valores distintos en una columna de un marco de datos de pandas.

Cómo extraer valores únicos de la columna Pandas?

Se pueden usar varias maneras para encontrar valores únicos en pandas. La forma más común de extraer valores únicos de una columna es usar la función única () y la función drop_dupplicates (). Antes de usar estas funciones, veamos primero su sintaxis.

Sintaxis de función única (): serie.único( )

Devoluciones: ndarray o extensionarray

Sintaxis de la función drop_duplicate ()

Marco de datos.drop_dupplicates (subset = none, keep = 'first', inplace = false)


Parámetros:

subconjunto: El subconjunto requiere una lista de etiquetas de columna o una columna. Ninguno es el valor predeterminado para ello. Después de pasar columnas, solo tendrá en cuenta los duplicados.

mantener: Para controlar cómo se consideran los valores duplicados. Podemos usar tres valores distintos; es 'primero' por defecto.

    1. Si 'primero', el primer valor se considerará único, y el resto de los mismos valores de repetición se considerará un duplicado.
    2. Si 'último', el último valor se considerará único, y el resto de los mismos valores o repetición se considerará un duplicado.
    3. Si es falso, los mismos valores se considerarán un duplicado.

en su lugar: Valor booleano. Si es cierto, elimina las filas duplicadas.

Devoluciones: Dependiendo de los argumentos, el tipo de retorno será un marco de datos con filas duplicadas eliminadas.

Como hemos visto la sintaxis, avancemos hacia los ejemplos para aprender a extraer valores únicos de la columna Pandas.

Ejemplo # 01: Obtenga valores únicos de las columnas Pandas utilizando el método único ()

Cuando se trabaja con una sola columna de DataFrame, el "Pandas.Marco de datos.Se utiliza el método único () ". Devuelve todos los componentes únicos de una columna. El método genera un marco de datos que incluye los elementos de columna distintos y sus etiquetas de índice adjuntos como salida. Creemos primero un marcado de datos, para que podamos usar la función única () para extraer valores únicos de sus columnas.


Después de importar el módulo pandas, creamos nuestro marco de datos utilizando un diccionario Pandas. Definimos las claves de nuestro diccionario como "nombre" y "cursos" y asignamos este diccionario a la variable "DIC". La variable "DIC" se pasa en el parámetro del PD.Método DataFrame () como un argumento para crear el DataFrame "DF". Podemos ver nuestro DataFrame utilizando la función print ().


Supongamos que nuestro marco de datos consiste en nombres de estudiantes y los cursos en los que están inscritos. En tal situación, es bastante difícil contar cada fila del marco de datos identificar la categoría de curso específica para determinar el número total de cursos estudiados. En el marco de datos anterior, la columna "cursos" que contienen el nombre de los cursos ('inglés', 'matemáticas', 'química', 'matemáticas', 'estadísticas', 'matemáticas', 'inglés', 'dataScience'). Más de un estudiante estudia algunos cursos. Entonces, para obtener los cursos únicos de la columna "Cursos", usaremos la función única ().


En la salida, obtenemos una variedad de elementos que contienen los cursos únicos en nuestro marco de datos. Supongamos que desea contar el número total de elementos distintos en lugar de buscar los nombres de valores únicos en las columnas del marco de datos. Para este propósito, podemos usar la función nunique (). El número total de valores distintos para cada columna se devuelve mediante el método Nunique ().


La función nunique () ha devuelto "5", lo que significa que hay un total de 5 valores únicos en la columna 'cursos' del marco de datos 'DF'.

Ejemplo # 02: Uso del método único () Obtenga valores únicos de columnas numéricas

Para crear un marcador de datos, primero importaremos el módulo pandas. Luego, crearemos nuestro marco de datos utilizando el PD.Función DataFrame ().

Como se vio anteriormente, hemos creado DataFrame al pasar un diccionario dentro de la función DataFrame (). Para visualizar el DataFrame recién creado, utilizaremos la función print ().


En este marco de datos, tenemos dos etiquetas, "edad" y "salario", con datos numéricos. En la columna "edad", tenemos las edades de los individuos como ("20", "24", "20", "22", "21", "28", "31", "25"), mientras que el La columna "Salario" almacena los salarios de los individuos ('1000', '1000', '1300', '1100', '1400', '1000', '1100', '1400')). Ahora, utilizaremos la función única () para obtener los valores distintos de las columnas de DataFrame.


Como muestra el script anterior, utilizamos la función única () para obtener valores distintos de la columna "salario". La función ha devuelto la salida en forma de una matriz ['' 1000 ',' 1300 ',' 1100 ',' 1400 '] que contiene todos los valores únicos de la columna "Salario" en el marco de datos de Data. También podemos usar la función sort () para ordenar los datos de los resultados en orden ascendente.


Para ordenar la matriz de salida (con valores únicos de la columna de salario), asignamos la matriz a una variable 'U'. La función sort () se aplica a la matriz para ordenar los valores de la matriz de salida en orden ascendente.

Ejemplo # 03: Obtenga valores únicos de múltiples columnas utilizando el método único ()

Hemos aprendido a extraer un conjunto de valores distintos de una sola columna de DataFrame. Pero en algunas situaciones. Es posible que deba encontrar valores distintos en varias columnas. En tales circunstancias, antes de usar la función única () en el objeto Serie (columna), combinaremos los valores de las columnas de las cuales queremos obtener los valores únicos. Usaremos el mismo DataFrame, que hemos creado en el Ejemplo # 2.


Supongamos que queremos obtener los valores distintos de las columnas de "edad" y "salario". Primero, fusionaremos los datos de ambas columnas utilizando el siguiente script.


En el código anterior, seleccionamos los datos de la columna 'Age' y luego utilizamos el append ('salario') para fusionar los datos de la columna 'salario' con los datos de la columna 'edad'. Después de fusionar los datos, utilizamos la función única () para obtener los valores distintos de ambas columnas.


Como se puede ver, hemos extraído con éxito los valores únicos de ambas columnas.

Ejemplo # 04: Uso de la función drop_dupplicates () para obtener valores únicos de las columnas Pandas

La función drop_dupplicates es una función incorporada de la biblioteca pandas. Se puede utilizar para eliminar los valores de repetición o duplicar los datos de la columna de DataFrame. Las filas con valores duplicados se eliminan mientras el tipo de datos del objeto o su subconjunto permanece preservado. El método drop_duplicate () es la opción más rápida para eliminar los valores duplicados cuando se trabaja con un gran grupo de datos.


Ahora, usaremos la función drop_duplicate () para eliminar las columnas que tienen valores duplicados.


Como puede ver, todas las filas se han eliminado considerando los datos duplicados en la columna "Salario". Solo se deja la primera instancia de valores duplicados en el marco de datos.

Conclusión

En este artículo, discutimos cómo obtener valores únicos de las columnas del marco de datos en Pandas. Después de pasar por este tutorial, es posible que pueda extraer valores únicos de la columna Pandas por su cuenta. Implementamos algunos ejemplos para enseñarle cómo obtener valores únicos de columnas Pandas y columnas numéricas de pandas utilizando la función única () y la función drop_duplicates ().