Índice de clasificación de pandas

Índice de clasificación de pandas
"Pandas" es uno de los paquetes del lenguaje de Python que analiza mejor los datos. Trabajar con una gran escala de datos es agitado y difícil de administrar. Como hay muchos factores que los datos pasan, uno de ellos es la "clasificación". Uno de los trabajos clave para completar es la clasificación de datos. Los pandas tienen una función para clasificar los datos en el marco de datos utilizando sus valores. La función es pandas "sort_value". Esto ayuda a clasificar millones de cantidades de datos en unos minutos. En el valor de clasificación de pandas, los datos se clasifican mediante la selección de las columnas en orden ascendente o descendente. Cubriremos todo cómo se pueden realizar los valores de clasificación de pandas. Utilizaremos la herramienta "Spyder" para la implementación del código. Tiene un entorno de lenguaje de Python.

Sintaxis

df.sort_values

El "DF" en la sintaxis es una abreviatura del "marco de datos". La sintaxis anterior clasifica la columna por el valor en DataFrame. En lugar de usar todo el DataFrame, opera con una etiqueta específica del DataFrame. Los siguientes son los métodos del valor de clasificación PANDAS que implementaremos con ejemplos:

  • Valores de orden de pandas en orden ascendente por las columnas especificadas.
  • Valores de clasificación de pandas por múltiples columnas (Caso I).
  • Valores de clasificación de pandas por múltiples columnas (Caso II).
  • Pandas clasifica valores nan al principio.

Creación de un marco de datos para la implementación de valores de clasificación de PANDAS en ejemplos

Después de abrir el software "Spyder", importe la Biblioteca Pandas como "PD". Ahora, comience a crear un marco de datos. El marco de datos es de datos de "automóviles". Tenemos los nombres de la marca: "BM", "Us", "HC" y "ZX". También tenemos los precios de esos automóviles, como "44000", "32000", "52000" y "23000" con su año de fabricación "2018", "2019", "2019" y "2020".

La salida muestra el marco de datos creado con las columnas de las marcas de automóviles, su precio y su año de fabricación.

Ejemplo 01: Valores de orden de pandas en orden ascendente por las columnas especificadas

En este ejemplo, utilizaremos la función de valor de clasificación de pandas para ordenar los valores de los datos. DataFrame aquí consiste en los modelos de automóviles como "ww", "xx", "nn" y "tt" con sus precios "45000", "22000", "33000" y "55000" y sus años de fabricación son "2018 "," 2019 "," 2020 "y" 2021 ". Los valores de clasificación de pandas funcionan en función de su selección de columna especificada. Aquí, haremos la clasificación basada en la columna "marca" como puede ver en el código. No hemos escrito el ascendente en el código porque no tiene que mencionar que, como por defecto, la función de clasificación de pandas lo realiza en orden ascendente.

DataFrame muestra la clasificación de la columna 'marca ”en orden ascendente.

Ejemplo 02: Valores de clasificación de pandas por columna seleccionada en orden descendente

En el último ejemplo, hemos visto cómo ordenar los valores en orden ascendente. No queremos que los datos se clasifiquen en Ascender siempre. A veces por demanda, lo queremos en orden descendente. Ahora, estaremos haciendo cómo ordenar los valores en orden descendente. Tenemos el marco de datos que tiene datos de automóviles, como sus marcas: "YY", "QQ", "PP" y "BB" con sus precios "38000", "45000", "22000" y "12000". Tenemos los años de fabricación y "2019", "2020", "2021" y "2020". Hemos seleccionado la misma "columna" marca "para ordenar sus datos, con los nombres en orden descendente simplemente agregando una condición" ascendente = falso ". El "en su lugar = true" en el código es una palabra clave que cambia el comportamiento predeterminado en el método pandas.

La salida muestra el DF ordenado de la marca de columna en orden descendente.

Ejemplo 03: valores de clasificación de pandas por múltiples columnas (Caso I)

Ahora, haremos un ejemplo del valor de clasificación de pandas en varias columnas. Los datos que tenemos como marcas de automóviles "LL", "KK", "HH" y "GG". Sus precios son "45000", "14000", "13000" y "56000" y los años de fabricación son "2019", "2020", "2021" y "2018". Aquí hemos seleccionado la columna "precio" y "año", ya que tenemos que hacer la clasificación de múltiples columnas. Hemos utilizado la función pandas "sort_value" con el "df" y las columnas seleccionadas para la clasificación.

Aquí, en la salida, podemos ver que la columna "precio" y "año" se clasifica con éxito.

Ejemplo 04: valores de clasificación de pandas por múltiples columnas (caso ii)

En el último ejemplo, hemos realizado la clasificación de datos en varias columnas. ¿Qué pasa si los dos años tienen el mismo "año" de fabricación?? Aquí, reconoceremos esta situación. Los datos son de autos como "xx", "bb", "ee" y "dd" con sus precios como "12000", "15000", "19000" y "17000". Los años del automóvil fabricado son "2021", "2019", "2020" y "2020". Como podemos ver, el "2020" ha aparecido dos veces en la fabricación. En esta situación, ¿qué año debería ser el primero en los datos?? Simplemente, pasará por el año si ambos son iguales. Entonces, vería su valor de precio. El que tenga el precio más bajo será el primero y el más alto irá después de eso. Según los valores de los datos asignados, funcionará si este tipo de condición ocurre. En el código, hemos seleccionado la columna "año" y "marca" para clasificarlos por valor de clasificación de pandas.

La pantalla es el valor ordenado de la marca y el año. Aquí, vemos que el año "2020" aparece dos veces; Primero con el precio "17000" y luego con el precio "19000".

Ejemplo 05: Valores de clasificación de pandas nan al principio

Importaremos el numpy como np en este caso. El Numpy se usa para los cálculos numéricos de los datos. "Nan" significa "no un número". Entonces, cuando no hay un número asignado en los datos, aparece como "nan". Haremos el ejemplo para que los valores "nan" aparezcan primero en el marco de datos. La función de clasificación de pandas se usa con "na_position" = 'primero' ", esto significa que la posición se establece como primero de los valores no disponibles o nulos en el" DF ". Hemos elegido la columna "año" para tener sus valores "nan" en la parte superior del marco de datos.

La salida muestra el valor nan primero en la columna del año.

Conclusión

El valor de clasificación de pandas es un método eficiente y muy beneficioso. Hemos cubierto todos los métodos posibles para clasificar los valores en pandas en este artículo: el orden ascendente y descendente de la columna de DataFrame seleccionada. Hemos realizado la clasificación de columnas múltiples, que hemos hecho de dos maneras: la forma normal y la situación de apariencia de año similar. Por último, hemos hecho clasificar primero los valores "nan" en el marco de datos. Cada método de valor de clasificación de pandas es digno de sí solo, ya que trabajar en una gran escala de clasificación de datos es difícil y casi imposible, esta función de los pandas ha tenido un gran éxito para la clasificación de datos de todos los sentidos de acuerdo con la necesidad.