Pandas Shuffle

Pandas Shuffle
"Cuando necesitamos reorganizar un marco de datos, el módulo Panda de Python nos ofrece varias técnicas para barajar sus filas. Los datos se barajan aleatoriamente utilizando el método "sample ()" que utiliza su parámetro "FARC = 1". Las filas de DataFrame se pueden barajar sin alterar la columna de índice utilizando "RESET_INDEX (Drop = True)". Para crear una nueva trama de datos con el restablecimiento del índice, podemos usar la función "RESET _INDEX ()". Esto es útil si el índice debe tratarse como una columna o si es necesario restablecer al valor predeterminado antes del siguiente proceso."

La sintaxis para barajarse de Pandas DataFrame

La sintaxis para barajarse de pandas dataFrame y reinicio del índice

Ejemplo 1: arrastrar las filas de DataFrame utilizando el método Sample ()

En esta ilustración, estamos utilizando la función "muestra ()" para recuperar elementos aleatorios del eje de un objeto. Podemos barajar las hileras de nuestro marco de datos utilizando la función "sample ()" para "barajar" las filas.

Entonces, comencemos con nuestro primer ejemplo. Para implementar nuestro código, estamos aquí usando la herramienta "Spyder". El primer paso es importar la biblioteca de Panda como "PD". Ahora estamos creando un marco de datos después de importar la biblioteca. El título del marco de datos en este código tenemos "estudiante". Este "estudiante" de DataFrame tiene tres columnas "Nombre", "Marcas" y "Observaciones". Hay valores almacenados en cada una de estas tres columnas. Los nombres de varios estudiantes son "Thomas", "Enna", "Ponting", "Watson" y "Emma" en la columna "Nombre". En la columna "Marcas" tenemos las marcas del estudiante "469", "202", "430", "190" y "398". La tercera columna, "Observaciones", contiene la lista de comentarios, ya sea "pasar" o "fallar".

Para generar este marco de datos, estamos utilizando "PD. marco de datos". En este momento, DataFrame se exhibe en la pantalla utilizando la función "print ()".

Ahora que hemos llegado a la sección crucial del código, tenemos que barajar las filas de nuestro marco de datos. En el arrastre, los algoritmos de mezcla de datos pueden mantener los enlaces lógicos entre las columnas mientras reorganiza los datos. Baraja datos de un conjunto de datos dentro de un atributo al azar. Aquí estamos utilizando el método "sample ()" con su parámetro "frac = 1". Este "frac = 1" se usa para barajar el orden de la fila y se usa para recuperar todos los valores del elemento del marco de datos después de barajar.

Este método de muestreo () barajará todas las filas de DataFrame, y aparecerá como una nueva espuma de DataFrame. Ahora, estamos mostrando un marco de datos una vez más después de barajar la fila usando la función "print ()".

Puede ver la salida del programa en la pantalla después de ejecutar el código haciendo clic en Ejecutar el archivo en la herramienta. En nuestra imagen de salida, se ven dos marcos de datos. El primer cuadro de datos se forma agregando columnas y valores, y el segundo marco de datos se muestra después de barajar las filas utilizando el método "sample ()" con su parámetro "frac = 1".

Si comparamos el primer y el segundo marcos de datos, es obvio que las filas en el segundo marco de datos se reorganizan. Su índice también ha sido barajado. El primer índice de DataFrame comienza en "0" y termina en "4", y el segundo índice de DataFrame se reorganiza para incluir "2", "4", "0," 3 y "1".

Ejemplo 2: arrastrar las filas del marco de datos sin hacer ningún cambio en la columna de índice

En este caso, las filas de DataFrame se están barajando, pero el índice de DataFrame no cambia. El índice de arriba de las filas también se barajó en el ejemplo anterior, como se puede ver, pero dado que estamos utilizando "RESET ÍNDICE (DOPT = True)" aquí, el índice no se reorganizará.

Comencemos primero nuestro código; Hemos importado la biblioteca de Panda como "PD", el siguiente paso es construir un marco de datos. DataFrame se conoce como "datos" en su nombre. Hay tres columnas en este DataFrame "Nombre", "Marcas" y "Asunto". Las tres columnas contienen valores en cada uno de ellos. En la columna "Nombre", tenemos algunos nombres de estudiantes "Noé", "Pitbul", "Jack", "Arthur" y "George". La segunda columna, "Marcas", contiene una lista de marcas que incluye "460", "304", "431", "192 y" 398 ", y en el sujeto de la tercera columna, tenemos" Python ",", ",", ",", ",", ",", ",", ",", ",", ",", ",", ",", ",", ",", ",", ",", ",", " Java "," OOP "," PF "y" Cálculo ". Ahora, "PD.DataFrame "se está utilizando para crear DataFrame, y para mostrar el DataFrame, estamos utilizando la función" Print () ".

Para barajar las filas de DataFrame, ahora estamos utilizando el método "Sample ()" con el parámetro FRAC = 1; Sin embargo, en este caso, también estamos utilizando "Restablecer índice (Drop = True)", que no barajará el índice, solo baraja las filas de DataFrame. El índice se puede restablecer al valor predeterminado "0", "1", "2", "3", etc. índices utilizando el método RESET_INDEX (). Si desea evitar mantener los índices anteriores en la columna "Índice" de forma predeterminada, use el argumento de caída. Ahora volvemos a mostrar el marco de datos después de arrastrar las filas utilizando la función "print ()".

Se muestran dos marcos de datos en esta imagen de salida, como se puede ver. Al usar el argumento reinicio "índice (drop = true)" con el método "sample ()", podemos ver que las filas del segundo marco de datos se barajan, pero sus índices no se cambian; Sin embargo, si observamos el ejemplo anterior, podemos ver que el índice también se ha reorganizado porque el parámetro "restablecer índice (drop = true)" no se ha utilizado.

Ejemplo 3: Cambiar el orden de la fila utilizando la permutación numpy con el método ILOC []

Usando "Permutación numpy" y la técnica "Iloc []", estamos reorganizando el marco de datos en este ejemplo. El método de "permutación" utiliza muestras aleatorias de una secuencia de permutaciones para proporcionarnos la secuencia y devuelve la secuencia. Si Z es una matriz multidimensional, se baraja con su primer índice.

Antes de ejecutar el código, debemos importar dos pandas de bibliotecas como "PD" y Numpy como "NP". El siguiente es crear un marco de datos con el nombre de "datos". En este DataFrame, tenemos dos columnas. El "auto" es el nombre de la primera columna, y el "modelo" es la segunda columna. Hay ciertos valores enumerados para estas dos columnas. En la columna "Nombre", tenemos "Suzuki", "Ford", "Toyota", "Mercedes" y "Honda" y los valores para la columna que tenemos "2011", "2008", "2019", y "2017". Este marco de datos ahora será generado por "PD.marco de datos".

Aquí, estamos utilizando la técnica "ILOC []" con el método "Permutación ()" y el parámetro de índice, lo que hace que sea muy simple barajar las hileras de DataFrame. Podemos utilizar el método "Iloc []" para seleccionar una columna o fila distintiva del conjunto de datos dado. Al utilizar los valores de índice, podemos obtener rápidamente cualquier valor específico de una columna o fila utilizando el método "ILOC []". Debido a que estamos utilizando el parámetro "Reset_index (drop = true)" aquí, el índice de DataFrame no cambiará. Entonces, usemos la función "print ()" para mostrar nuestro marco de datos después de reorganizar las filas.

Se mostraron dos conjuntos de datos en la salida, uno de los cuales fue el conjunto de datos original y el otro el conjunto de datos barajado. Aquí, podemos ver que las filas en el segundo marco de datos se han barajado y el índice no ha cambiado. El primer índice de DataFrame comienza desde "0", mientras que el segundo índice de DataFrame comienza de manera similar en "0", pero las filas se cambian.

Conclusión

En los pandas, existen numerosos métodos para reorganizar los datos en las filas y columnas de DataFrame. En este artículo, hemos utilizado algunos métodos simples para barajar las filas de DataFrame. Caminamos la fila y recuperamos todas las filas del marco de datos utilizando la función "Sample ()" con el parámetro "FARC = True y el método" Permutación "con ILOC []. "Reset_index (drop = true)" se usa cuando necesitamos cambiar las filas, pero no el índice de DataFrame. Estas estrategias de panda son simples, y creemos que al implementarlas, su tarea se administrará fácilmente.