Pandas Factorize

Pandas Factorize

"Pandas" es la biblioteca de Python más poderosa para trabajar con Dataframes. Sirve a una diversidad de propósitos. Una de ellas es la función de pandas "factorize ()". Con frecuencia necesitamos convertir una variable proporcionada a números, especialmente antes de pasarla a algoritmos que solo aceptan entradas numéricas. El método pandas "factorize ()" le permite convertir fácilmente las cadenas a números. Identifica los valores distintos de la matriz y los devuelve como un número numérico. En los pandas, la función "factorize ()" transforma un objeto en una variable categórica. Esto es útil para identificar valores únicos."

La sintaxis para emplear el método Pandas "Factorize ()" se proporciona a continuación:

La sintaxis nos muestra cuatro parámetros de esta función. Describamos brevemente estos parámetros.

El parámetro "valores" implica una matriz unidimensional, como una lista. El "clasificar" El parámetro se usa para mantener la asociación, clasificar valores distintos y códigos de intercambio. Acepta un valor de bool. Se establece en falso de forma predeterminada. El "Na_sentinel" se refiere al valor que debe marcarse como "no encontrado". Si ninguno, el NAN no será eliminado del distintivo de los datos. El "Size_hint" da una pista para el hashing sizer.

Para utilizar la función "factorize ()", el único argumento obligatorio es "valores". Todas las demás características son opcionales.

Dos objetos, "Códigos" y "único", son devueltos por la función "factorize ()". El término "códigos" se refiere a un ndarray numérico que sirve como indexador para "unicionar", mientras que los valores únicos válidos se denominan "un solo".

En su artículo, vamos a explorar el concepto de factores de fabricación en la programación de Python utilizando el método Pandas "Factorize ()" con algunos de sus parámetros principalmente ejercidos.

Ejemplo # 1: Utilización del método de pandas "factorize ()"

La implementación práctica del programa Python para ejecutar el método Pandas "Factorize ()" se llevará a cabo en esta ilustración.

La herramienta que estamos utilizando aquí para la compilación de los códigos de Python es "Spyder". Esta herramienta cumple mejor con los requisitos de nuestro sistema. Hemos lanzado la herramienta. Ha aparecido la interfaz de usuario, y podemos comenzar a escribir nuestro script de Python en ella. Lo primero que hicimos en el archivo de Python fue cargar la biblioteca, que necesitamos para poder acceder a sus métodos. Para los requisitos de nuestro caso, tenemos que cargar la biblioteca de Python "Pandas". Hemos escrito el script para esta biblioteca como "importar pandas como PD". El alias "PD" funcionará para obtener los métodos de "pandas" escribiendo la abreviatura en lugar de la forma completa.

El kit de herramientas Pandas se carga en el archivo de Python; Ahora tenemos que pasar al siguiente paso. En la siguiente línea del script, hemos generado una lista de cuerdas. Creamos una variable "MyList" para almacenar el contenido de esta lista para que podamos acceder a él más tarde. Las cuerdas que hemos almacenado en esta lista son "y", "y", "x", "z", "y", "x", "z" y "z". Puede ver que esta lista tiene valores recurrentes. En total, tiene ocho valores en él. Para mostrar esta lista de cadenas en la pantalla, hemos empleado la función "print ()" de Python. Primero proporcionamos el texto "Esta es nuestra lista de cadenas:" al método "print ()" para mostrar, y la siguiente función "print ()" exhibió el contenido "mylist" en la consola Spyder.

Para compilar el script que escribimos arriba, presione el botón "Ejecutar archivo". Verá una lista presentada en el terminal con ocho valores.

Ahora para encontrar la factorización de esta lista, tenemos un método de pandas "PD.factorizar()". Este método nos devolverá dos matrices. El primero será de códigos, mientras que el segundo exhibirá los valores únicos en la lista.

Hemos creado dos variables "Cod" y "Uniq". El "Cod" almacenará los códigos generados por el "PD.Método de factorize () "para la lista proporcionada. El "UNIQ" contendrá los valores que son únicos en la lista. Hemos invocado el "PD.método factorize () "y aprobado la lista que hemos creado anteriormente," mylist "como parámetro para esta función. Esta función generará códigos para cada valor en la lista y lo almacenará en la variable "bacalao". Y extraerá los valores únicos de la lista y los colocará en la variable "UNIQ". Luego llamamos al método "print ()" para mostrar primero el texto "Los códigos para la lista proporcionada son:" y luego el contenido de la variable "bacalao". La siguiente función "print ()" se utiliza para mostrar el texto "Los únicos para la lista proporcionada son:" y luego los datos de la variable "UNIQ".

La salida generada en el terminal nos muestra dos matrices. La primera matriz tiene valores como "0", "0", "1", "2", "0", "1", "2" y "2". El método "Factorize ()" convirtió las cadenas a valores numéricos. La "y" se reemplaza por "0", "x" se reemplaza por "1" y "z" es reemplazada por "2". La segunda matriz que regresó es la matriz de valores únicos, que son "y", "x" y "z".

Ejemplo # 2: Utilización del método de pandas "factorize ()" para clasificar los valores

Esta demostración es para aprender la técnica de clasificar los valores en las matrices resultantes generadas a partir de la "PD.método factorize () ".

Hemos utilizado la lista creada anteriormente para explicar la técnica de clasificación y baraja de esta función. Aquí hemos creado dos variables, "Shuffle" y "Ordening". La variable "Shuffle" almacenará los códigos barajados de la variable "MyList", mientras que la variable de "clasificación" tendrá los valores únicos ordenados de la lista proporcionada. Hemos asignado estas variables la salida de invocar el "PD.método factorize () ".

El "PD.El método factorize () "se llama con dos parámetros. El primer parámetro es "Valores", que es el nombre de la lista "MyList" y el segundo parámetro es "ordenar". El parámetro de "ordenar" clasificará los valores únicos y luego baraja los códigos en consecuencia. Por defecto, se establece en "Falso", hemos cambiado la configuración y la establecemos en "Verdadero" para realizar la clasificación. Hemos empleado dos funciones "print ()". El primero en mostrar el texto "Los códigos barajados para la lista proporcionada son:" y luego los datos en la variable "Shuffle". El otro método "print ()" tiene que exhibir el texto "Los únicos solucionados para la lista proporcionada son:" seguido del contenido de la variable de "clasificación".

Cuando el resultado se presenta en la terminal, obtenemos nuevas matrices. La primera matriz tiene la lista de valores numéricos barajados como "1", "1", "0", "2", "1", "0", "2" y "2". Para su conveniencia, también hemos imprimido los códigos no transferidos para que pueda comprender fácilmente la diferencia. La segunda matriz ha ordenado valores únicos como "X", "Y" y "Z". Los valores únicos en la lista ahora se clasifican en orden alfabético. Puede compararlo con la matriz sin clasificar, que tiene los únicos como "Y", "X" y "Z".

Conclusión

En este artículo, nos hemos centrado en aprender la técnica de factorizar las cadenas en números. Para este propósito, hemos utilizado los pandas "PD.método factorize () ". Este enfoque es bastante útil al agrupar los datos y traducirlos en valores numéricos. Elaboramos el procedimiento para usar este método y describimos sus diferentes parámetros que se pueden ejercer cuando sea necesario. Hemos llevado a cabo la implementación práctica de los scripts de Python para comprender la aplicación de este método. Hemos presentado los códigos de muestra, así como su salida en este tutorial. Recomendamos encarecidamente el ejercicio práctico de estas técnicas que comienzan de programas básicos a complejos para lograr la mejor comprensión de las técnicas de pandas.