Muestra aleatoria de pandas

Muestra aleatoria de pandas
Hay muchas bibliotecas que proporciona "Python". Cuando discutimos "Pandas", también es la biblioteca de "Python". Nos ayuda en diferentes campos como utilizamos esta biblioteca en ciencias de datos, o también podemos usar esta biblioteca "pandas" en actividades de aprendizaje automático. También ayuda en la gestión y manipulación de datos. Los "frames de datos "en" Pandas "nos permiten organizar y almacenar los datos en filas y columnas, o también podemos decir que en el formulario de la tabla. Podemos seleccionar algunas filas como datos de muestra del marco de datos. Para este propósito, hemos utilizado la función "muestra ()" de los "pandas". Esta función nos ayuda a generar cualquier fila o columna aleatoria desde el marco de datos. Podemos usar esta función para obtener solo una fila o columna como muestra, o también podemos establecer algunos números en esta función para obtener múltiples filas como muestra. Explicaremos este método "muestra aleatoria ()" y explicaremos su trabajo en detalle en este tutorial.

Sintaxis

Marco de datos.muestra (n = valor, frac = valor, reemplazar = falso/true, pesos = valor, random_state, eje)

En su parámetro "n", definimos los números de la muestra aleatoria que queremos obtener del marco de datos. Si no agregamos ningún número aquí, entonces obtendrá solo una fila aleatoria como la muestra de ese marco de datos específico. En el parámetro "FRAC", podemos definir el porcentaje de las filas que queremos obtener; Si establecemos el frac como "0.7 ", luego dará" 70%"de las filas del marco de datos. Recuerde que no podemos colocar el parámetro "FRAC" con el parámetro "N". Si definimos el parámetro "N", entonces no agregamos el parámetro "FRAC" simultáneamente. Solo usamos uno de ellos. Después de esto, tenemos el parámetro "reemplazar" en el que agregamos "verdadero" o "falso". Si lo establecemos como "verdadero", entonces puede dar la misma fila más de una vez. También podemos establecer tres parámetros más, que son "pesos", "random_state" y "eje". Ahora, estamos utilizando este método "sample ()" en el código "pandas".

Ejemplo 01

El software que estamos utilizando para generar este código "pandas" es el software "Spyder". Nuestra primera tarea al hacer este código "pandas" es importar las bibliotecas. La biblioteca que tenemos que importar es la biblioteca "pandas", que importamos con la ayuda de la palabra clave que es la palabra clave "import". También establecemos "Pandas como PD" después de escribir la "importación". La siguiente tarea es desarrollar DataFrame, y construimos "lmn_company_df" aquí. Este marco de datos se construye porque utilizamos el "PD.DataFrame () ", que ayuda a generar el marco de datos en" Pandas ".

También ingresamos algunas columnas en él, y estas columnas también contienen datos. Primero ingresamos el "lmn_person", que es la primera columna de este marco de datos. Contiene "Jasper, Milli, Hayes, Easton, Bromley, Diego y Logan". Entonces "LMN_CODE" es la siguiente columna aquí y agregamos "LMN122, LMN124, LMN125, LMN126, LMN127, LMN128 y LMN129" en esta columna. El "LMN_YEAR" es la tercera columna aquí, e insertamos "mayo de 2008, febrero de 2008, junio de 2009, abril de 2009, septiembre de 2010, junio de 2015 y julio de 2009" en ella. El "lmn_saleunit" se enumera después de "lmn_year". Contiene varias unidades de venta: "50, 44, 39, 76, 85, 90 y 53".

Ahora, mostramos este marco de datos usando "print ()":

Cuando presionamos el icono "Ejecutar" del software "Spyder", rápidamente obtenemos la salida de nuestros códigos. El resultado del código anterior se proporciona aquí, en el que solo puede ver el marco de datos que se muestra. Ahora, aplicaremos el método "sample ()" en este código para obtener la fila de muestra de este marco de datos.

Primero agregamos el nombre de DataFrame con esta función "Sample ()". Aquí, no agregamos ningún parámetro a esta función. Por lo tanto, solo dará una fila aleatoria de este marco de datos. También imprime esa fila aleatoria en el terminal porque hemos insertado esta función "muestra ()" dentro de la "print ()".

La fila que obtenemos después de aplicar esta función "muestra ()" se representa a continuación. Tenga en cuenta que selecciona la fila al azar como la muestra de ese marco de datos.

Ejemplo 02

El "lmn_company_df" está aquí y, ahora, estamos configurando el valor de "n" como el parámetro de esta función "sample ()". Cuando usamos el método "sample ()", también le agregamos "n" y establecemos "3" como el valor de "n". Esto seleccionará al azar tres filas de la muestra "LMN_Company_DF".

Aquí, el cuadro de datos completo contiene siete filas y cuatro columnas. Luego representa tres filas aleatorias, que obtenemos después de aplicar la función "sample ()" y establecer su parámetro "n" igual a "3". Devuelve filas de acuerdo con este valor "n".

Ejemplo 03

La columna "Vendor_DF" ahora está construida, y la columna "Vendor_Name" es la primera columna del "Vendor_DF". Contiene "Maverick, Julian, Felix, Jasper, Chloe, Freya, Easton, Diago y Milli". La columna "Vendor_country" viene después de esto, que contiene "Inglaterra, América, Londres, Canadá, Alemania, Francia, Argelia, Inglaterra y Alemania". Después de esto, se agrega "Vendor_address", e inserte "XYZ123, MNO890, JKL678, QWE345, RTY678, DFG456, CVB234, JHG876 y MNB543" En él.

A continuación, tenemos la columna "Project_code", que contiene "P123, P234, P345, P456, P678, P890, P098 y P765". La última columna se llama "ventas", y también contiene algunos registros de ventas, que son "80000, 50000, 75000, 40000, 55000, 85000, 97000, 80000 y 90000". Ahora, imprimimos todo el "Vendor_DF" usando "print ()". Después de mostrar el "Venfor_DF", utilizamos el método "Sample ()", y esta vez, establecemos el parámetro "FRAC" aquí y agregamos "0.5 "como su valor. Seleccionará el 50% de las filas al azar de este DataFrame y también las mostrará, ya que hemos insertado este método "sample ()" en el método "print ()".

DataFrame muestra todas las filas y columnas, y luego muestra la mitad o el 50% de las filas. Selecciona estas filas aleatoriamente y las muestra en el terminal porque establecemos el parámetro "FRAC" de la función "muestra ()" igual a "0.5 ". También puede observar en este código que no agregamos el parámetro "N" con este parámetro "FRAC".

Ejemplo 04

En este código, estamos agregando dos parámetros en el método "sample ()", y estos son "n" y "reemplazar". Primero agregamos "5", que es el valor de "n", por lo que devolverá cinco filas, y luego establecemos "falso" como el valor del parámetro "reemplazar". Cuando establecemos "falso" aquí, no volverá a dar la misma fila. Solo hace filas únicas y no duplica una fila.

Rendera cinco filas a continuación, y todas son filas únicas. Selecciona estas filas al azar de este marco de datos y las muestra en este resultado.

El valor de "n" no es mayor que el número de filas. Como puede tener en cuenta, este DataFrame contiene nueve filas. Si establecemos el valor de "n" mayor que "9", entonces devolverá un mensaje de error. Aquí, agregamos "10" como el valor de "n". En la siguiente imagen, muestra lo que sucede cuando ejecutamos este código:

Este mensaje de error se genera en el terminal porque este marcado de datos contiene solo nueve filas, y el valor de "n" es mayor que el número de filas de DataFrame.

Conclusión

Este tutorial se trata de la "muestra aleatoria de pandas". Hemos explicado este concepto en profundidad en este tutorial. Hemos explicado su sintaxis, y también hemos utilizado el método "sample ()" en nuestro código "pandas". Hemos realizado ejemplos colocando diferentes parámetros en este método "muestra ()" y hemos discutido todos los parámetros de este método "muestra ()" en detalle. Hemos mostrado cómo devuelve las filas de DataFrame como la muestra seleccionándolas al azar después de aplicar esta función "Sample ()". También discutimos el mensaje de error en este tutorial mientras utilizamos esta función y hemos explicado por qué ocurre este mensaje de error.