Estadísticas de scipy ajuste

Estadísticas de scipy ajuste
Python es un lenguaje de programación de software de alto nivel orientado a objetos que proporciona una extensa lista de paquetes que ayuda a su usuario a ejecutar programas de software de manera más eficiente. Este idioma tiene su aplicación en casi todos los campos de la vida donde se requiere automatización a través del software. Esto se debe a sus poderes matemáticos y computacionales que facilitan la implementación de diferentes conceptos para los programadores. Scipy contribuye al paquete de la biblioteca que ofrece Python. Este paquete de biblioteca ofrece sus servicios al proporcionar varias funciones incorporadas en el campo de aprendizaje automático, optimizaciones y análisis de datos. Scipy Stat Fit es la función de SciPy que utiliza el atributo estadístico o el módulo de la biblioteca Scipy y ayuda a encontrar el mejor ajuste para los conjuntos de datos. El mejor ajuste aquí especifica la distribución de los datos en un límite de decisión específico.

Procedimiento

Con la ayuda del ajuste de estadísticas de SciPy, descubriremos cómo implementar la función estadística de ajuste () para encontrar la mejor línea de ajuste o la distribución de los conjuntos de datos requeridos. Se mostrará la sintaxis de esta función y luego se explicará con la ayuda de los parámetros requeridos por esta función.

Sintaxis

$ estadísticas. norma.Fit (datos)

La línea mencionada anteriormente es la sintaxis para el ajuste STAT (). Esta función utiliza el módulo "Norma" del módulo de estadísticas del scipy. La norma es la longitud de cualquier vector o la distancia del vector que habla sobre la medida en que el vector se extiende al espacio. El "datos" es el parámetro de entrada de la función que se refiere a los datos cuya distribución o ajuste queremos calcular.

Ejemplo # 01

La función STATS Fit () calcula la distribución o dice el tipo de distribución para un conjunto de datos basado en la naturaleza de sus elementos. En otras palabras, el ajuste de las estadísticas () encuentra el mejor ajuste para los datos para los diferentes tipos de variables aleatorias. Para aquellas variables que son independientes y aleatorias, se nos da la "distribución gaussiana" que se sabe que es la distribución natural o normal para las variables en el conjunto de datos. Este ejemplo calculará la distribución gaussiana para las variables en el conjunto de datos.

Para cualquier tipo de distribución, tenemos que ver los cuatro parámetros necesarios como: el parámetro de ubicación, la forma de la distribución, la escala y el último es el umbral. Todos estos parámetros en contribución a un tipo de distribución. La distribución gaussiana tiene la mayoría de sus observaciones en su pico, que es alrededor de la media. Para implementar esto, utilizaremos "Google Collab", que es un entorno público y de código abierto que ofrece ejecutar los programas de Python con la instalación previa de todos sus paquetes. La biblioteca requerida o el paquete para este ejemplo serán estadísticas del scipy. Entonces, primero, escribiremos el comando "de las estadísticas de importación de Scipy".

El siguiente paso será generar nuevos datos para crear las variables aleatorias con la ayuda de la norma del módulo STAT como "Datos = estadísticas. norma. RVS (a, b, size = 400, random_state = 140) ", esta función toma en los dos parámetros" A "y la" B "para las variables independientes normales y el" tamaño "para distribuir estas variables en números se selecciona como "400". Ahora, usaremos los resultados de esta función y pasaremos esto al parámetro de las "estadísticas. Fit () "para encontrar la mejor distribución de ajuste para estos datos generados al azar.

En la salida de la función, nos gustaría mostrar el "parámetro de ubicación" que indica dónde se encuentran los datos en el eje X y el "parámetro de escala" que indica cuánta dispersión existe en los datos. El código para este ejemplo se adjunta a continuación.

De las estadísticas de importación escasas
a = 1
b = 1
datos = estadísticas.norma.RVS (A, B, Size = 400, Random_State = 140)
ubicación, escala = estadísticas.norma.Fit (datos)
Imprimir (ubicación)
Imprimir (escala)

La salida ha mostrado la ubicación y el parámetro de escala para la distribución como 1.08 y 0.949 respectivamente.

Ejemplo # 02

Ahora, utilizaremos la función de estadísticas Fit () para implementar otro tipo de distribución para el conjunto de datos que tiene variables aleatorias continuas en ella. Para dicho tipo de datos con variables sesgadas positivamente, utilizamos la "distribución gamma". La asimetría representa cuánto la distribución tiene asimetría. La distribución gamma tiene tres parámetros tan comunes como la distribución normal e.gramo., escala, y umbral y forma. Implementemos esta distribución. Primero, importaremos el módulo "estadísticas" de la biblioteca Scipy. Esta biblioteca se importa para que podamos usar la función "Norma" del módulo de estadísticas para generar los datos aleatorios para la distribución gamma. Por lo tanto, importe esta biblioteca escribiendo el siguiente comando "de scipy importar estadísticas".

El módulo de estadísticas también ayudará a llamar a la función Fit () para encontrar la distribución de los datos que generaremos. Ahora, después de la importación de las estadísticas, genere las variables aleatorias continuas hasta el tamaño 400 con el parámetro "A" y pase a la función Norma como "Estadísticas. gama. RVS (un tamaño = 400, Random_State = 140) ". Hasta este paso, hemos creado los datos que queremos ajustar en la distribución gamma, ya que todas las variables en estos datos son variables aleatorias continuas y solo pueden encajar en la distribución gamma. Luego, ajuste estos datos a la distribución gamma pasando estos datos al parámetro de entrada de la función ”Estadísticas. norma. ajuste (datos) ". A partir de esta distribución, descubriremos y mostraremos los parámetros de escala, umbral y forma como salida.

De las estadísticas de importación escasas
a = 1.
random_data = estadísticas.gama.RVS (A, Size = 400, Random_State = 140)
forma, escala, umbral = estadísticas.gama.Fit (Random_Data)
Imprimir (forma)
Imprimir (escala)
Imprimir (umbral)

Conclusión

El artículo analiza el concepto de encontrar el mejor ajuste o las distribuciones de mejor ajuste para los datos o variables generadas al azar, ya sea continuas o independientes. Además, el artículo analiza los parámetros necesarios para la distribución y demuestra la implementación de dos tipos de distribuciones en dos datos diferentes con la ayuda de ejemplos.