Pandas categóricos

Pandas categóricos
Las variables categóricas utilizadas en las estadísticas están representadas por el tipo de datos PANDAS categórico. Los datos en tiempo real generalmente contienen columnas de texto con datos repetitivos. Siempre hay algo de repetición en las características como el género, el tipo de sangre y los códigos. Se pueden tomar como ejemplos de categórico. Solo hay un número o rango fijo y limitado de valores posibles para variables categóricas. Los datos categóricos pueden tener un orden además de la longitud fija, pero no pueden ejecutar operaciones numéricas. En este tutorial, aprenderemos cómo crear categóricos en pandas y cambiar diferentes tipos de datos a categóricos.

Cuándo usar categórico?

En los siguientes escenarios, podemos usar el tipo de datos categórico:

  • Una variable de cadena con solo unos pocos valores distintos. Para guardar la memoria, la variable se puede convertir en una variable de categoría.
  • La variable de orden lógico ("uno", "dos" y "tres") y una variable con orden léxico no son las mismas. La clasificación y el mínimo/máximo empleará el orden lógico en lugar del orden léxico si el problema se convierte en una categoría y las categorías reciben un orden.
  • Otras bibliotecas de Python deben tratar las columnas como variables categóricas (por ejemplo, para usar los tipos o funciones estadísticas apropiadas).

Cómo crear pandas categóricos?

Hay una amplia gama de formas de crear categóricos en pandas. Algunas funciones y atributos para crear categorías en pandas se discutirán en los siguientes ejemplos:

Ejemplo # 1: Crear categórico usando la serie Pandas

Se puede crear un categórico en pandas usando el PD.Función Series (). Para crear una serie, primero importaremos el módulo pandas.

Hemos usado una lista de cuerdas ["ASD", "123", "def", "456"] dentro del PD.Función series () como argumento. También especificamos el parámetro "dtype" en "categoría" para almacenar los datos como categóricos. Veamos el categórico imprimiendo la variable "cadena".

Como se ve en la salida, nuestra serie se convierte en categórico especificando el dtype = 'categoría'.

Ejemplo # 2: Creación de datos de datos categóricos en pandas

Usando pandas.DataFrame (dtype = "categoría"), se pueden construir datos categóricos. Al igual que la serie, el atributo dtype de la función DataFrame () se establece en "Categoría" para crear un marcador de datos categórico. Al establecer dtype = "categoría" en el constructor de marcos de datos, todas las columnas en el marco de datos se pueden hacer categóricas durante o después de la construcción. Creemos una muestra de datos de muestra para mostrar la diferencia entre los marcos de datos ordinarios y categóricos.

Para crear nuestro DataFrame "DF", primero importamos los módulos Pandas y Numpy para usar sus características y funciones. Después de importar los módulos, hemos creado un diccionario "datos" que tiene dos claves, "Col1" y "Col2". El diccionario de "datos" se pasa a la PD.DataFrame () Función para crear el DataFrame "DF".

Es un marco de datos PANDAS ordinario con columnas que almacenan datos numéricos. Para determinar los tipos de datos de las columnas en el marco de datos "DF", se utilizará el atributo DTYPES.

El tipo de datos de las columnas 'col1' y 'col2' es "int64". Ahora, le mostraremos cómo crear un marco de datos categórico con las mismas etiquetas y valores de la columna.

Como se ve en este DataFrame, hemos especificado el dtype a 'categoría'. Verifiquemos los tipos de datos de este DataFrame:

Como se muestra, el tipo de datos de las columnas de esta marca de datos es 'categoría'. Entonces, este es un marco de datos categórico.

Ejemplo # 3: Crear categórico usando la función Astype ()

Un objeto pandas se puede convertir a un dtype en particular utilizando el "marco de datos.método astype () ". Además, el método Astype () proporciona la capacidad de cambiar cualquier columna existente apropiada a un tipo de categoría. Cuando debemos convertir el tipo de datos de una columna específica de DataFrame a otro tipo de datos, DataFrame.La función de astype () se puede usar. Primero, crearemos una muestra de datos de datos. Luego convertiremos las columnas de DataFrame en categórico.

Hemos creado nuestro marco de datos pasando el diccionario dentro del PD.DataFrame () función como argumento.

Como se ve en el "DF" de DataFrame anterior, hay tres columnas, A, B y C, valores de almacenamiento [1, 3, 5, 7], [2.1, 4.2, 8.3, 16.4], y ["John", "Tim", "Clay", "Mike"] respectivamente. Para determinar el tipo de datos de cada columna, utilizaremos el atributo dtypes.

El tipo de datos de la columna "A" es 'int64', mientras que los tipos de datos de la columna "b" y "c" son "float64" y "objeto", respectivamente. Ahora, usaremos la función Astype () para cambiar el tipo de datos de columnas específicas.

Dentro del DF.función astype (), hemos pasado el diccionario de Python que contiene las etiquetas de las columnas "A" y "C" como claves, y la "categoría" del tipo de datos se especifica como el valor para ambas etiquetas de columnas. Compruebemos si los tipos de datos se cambian a la categoría o no.

Observe que las columnas "A" y "C" se han convertido con éxito en categoría.

Ejemplo # 4: Uso de la función categórica () para crear la categórica

Podemos crear variables categóricas en pandas utilizando la función categórica (). Primero, veremos la sintaxis de la función () y luego la usaremos para crear la categórica.

Sintaxis:

pandas.Categórico (val, categorías = ninguna, ordenada = ninguno, dtype = none)

Parámetros:

Categorías: Similar a un índice. Las categorías distintivas para el categórico. Se supone que las categorías son valores distintos de los 'valores' si no se especifica.

Pedido (opcional): Si este categórico se considera un categórico ordenado. Si es cierto, la salida categórica se ordenará. Cuando se clasifica, una categórica ordenada respeta el orden del atributo.

Dtype: CategoricalDtype. Una instancia para usar para categórico.
Ahora creemos Pandas categóricos usando el PD.Función categórica (). Primero, importaremos el módulo pandas para crear nuestro categórico.

Como se puede ver, hemos creado dos categorías, 'Cat1' y 'Cat2', al pasar una lista de valores dentro de los paréntesis de la función categórica (). Notará en la salida que el "Cat1" categórico consiste en 3 categorías [1, 3, 4, 6], mientras que el "Cat2" categórico consta de 6 categorías ['A', 'D', 'G', 'J' , 'sudoeste'].

Ahora, verifiquemos la salida especificando el parámetro 'ordenado' para 'verdadero'.

Como puede observar, al especificar ordenado = true, la salida categórica ahora está ordenada [1 < 3 < 4 < 6].

Ahora, intentemos otro ejemplo cuando se especifique el parámetro "Categorías".

Dentro del PD.Función categórica (), la lista ['1', '2', '3', '2', '1' ',' 4 ',' 2 '] se pasa para convertirse en categórico, mientras que la lista [' 3 ',' 1 ',' 2 '] se especifica como el parámetro "Categorías". Imprima el "gato" categórico para ver la salida.

Como resultado, cualquier valor que no exista en la lista de categorías se considerará nan. De la lista 'Val', el valor '4' no está presente en la lista de argumentos de "categorías", por lo que se considera nan.

También puede realizar diferentes funciones con categórico como cambiar el nombre de las categorías, agregar nuevas categorías, eliminar categorías, etc.

Conclusión

En este tutorial, hemos visto esas estadísticas que las variables categóricas están representadas por un tipo de datos en pandas llamado categórico. Una variable categórica tiene un conjunto fijo y típicamente restringido de valores posibles. Después de pasar por este tutorial, puede estar familiarizado con categórico en pandas y puede crear categórico por su cuenta. Implementamos algunos ejemplos en este tutorial para enseñarle cómo crear una serie categórica, columnas Dataframes, la función Astype () y utilizando la función categórica ().