Cambio de covarianza

Cambio de covarianza
Cambiar las distribuciones de varias variables de tren a prueba se llama cambio de conjunto de datos. Esto puede conducir a varios problemas al pronosticar valores en el modelo implementado. El cambio viene en una variedad de formas. Uno de los cambios es el cambio de covarianza, que ocurre dentro de las variables independientes de los datos de trenes y pruebas. Buscaremos un cambio de conjunto de datos en detalle, incluida su explicación, causas, identificación y cambio de covariante.

¿Qué son la varianza y la covarianza??

La dispersión de datos se mide por varianza. Nos dice cómo distribuidos los datos son alrededor de un cierto número 'verdadero' o 'correcto' (tendencia central, una medida de la cual es la media de los datos. En el análisis univariado, el término varianza se utiliza para describir el comportamiento de una sola variable. La covarianza se usa en el análisis multivariado para examinar el comportamiento conjunto de dos variables. Cuando dos variables se mueven en la misma dirección, su covarianza es positiva; Es negativo cuando se mueven en direcciones opuestas.

¿Qué es el cambio de conjunto de datos??

Cuando la distribución de sus datos de tren y prueba difiere, esto se conoce como cambio de conjunto de datos. Debido a que el modelo se entrenó en una distribución y ahora se está utilizando para predecir diferentes distribuciones de datos, lo que resulta en una menor precisión en los datos de la prueba, como resultado, siempre debe probar su tren y probar distribuciones de datos y hacerlas tan similares como factibles.

Tipos de cambio de datos

  1. Cambios en las variables o características independientes del conjunto de datos: Cambio de covariable
  2. Cambios en la variable de destino o la variable dependiente en el conjunto de datos:
    Previo Cambio de probabilidad
  3. Cambio en la conexión entre la variable independiente y de destino en los conjuntos de datos: Cambio de concepto

¿Por qué ocurre el cambio de conjunto de datos??

Sesgo de selección de muestra: La variación en la distribución es atribuible al hecho de que los datos de capacitación se obtuvieron a través de un método sesgado y no representa con precisión el entorno operativo del que se obtuvieron los datos de prueba.

Entornos no estacionarios: El entorno de capacitación difiere del entorno de prueba, ya sea tiempo o espacio.

¿Qué es el cambio covariable en el aprendizaje automático??

La diferencia entre las distribuciones de conjuntos de datos de entrenamiento y prueba se conoce como cambio de covariable. Esto significa que la capacitación del conjunto de datos se realiza en un tipo de distribución, y el modelo se está utilizando para predecir los datos de alguna otra distribución. El cambio de covariable puede indicar que el modelo no puede generalizarse lo suficientemente bien. La capacidad de un modelo para aplicarse a nuevos datos utilizando características adquiridas de los datos de capacitación se conoce como generalización. Uno pensaría que vendrían de la misma distribución, pero ese casi nunca es el caso. Como resultado, debe mantener sus modelos actualizados con el conjunto de trenes más reciente. Esto generalmente es causado por cambios en el estado de variables latentes, que podrían ser temporales (incluidos los cambios en la estacionariedad de un proceso temporal), espacial o menos evidente. También es posible pensar en ello como ver una "región" inexplorada del universo de datos. Es un campo de investigación fascinante porque se puede observar de varias maneras en la naturaleza. Podemos lidiar con él en el espacio de datos por extrapolación creativa, pero esto rara vez funciona, y alternativas como reestimar las variables latentes o intentar hacer que una función de predicción sea adaptada al dominio. Se requieren circunstancias especiales, como variables de tiempo estacionarias y, ocasionalmente, datos numéricos puros, para ver si realmente hemos salido de nuestro espacio covariable original. En este escenario, podemos calcular el espacio de datos del casco convexo y ver si nuestro nuevo punto de datos cae fuera de él. Por supuesto, esto es computacionalmente costoso, por lo que rara vez se hace hasta que nuestros pronósticos sean incorrectos. Por supuesto, depende de la aplicación.

Ejemplos de cambio covariante

La detección de la deriva covariable y otros tipos de deriva del modelo es un paso clave para mejorar la precisión de la prueba del modelo. Los siguientes son algunos ejemplos de cambio de covariable en casos comunes de uso de aprendizaje automático:

Clasificación de imagen y reconocimiento facial: Es posible que un modelo haya sido entrenado en imágenes de solo unas pocas razas de perros, pero funcionará mal cuando se use para pronosticar razas que no estaban presentes en los datos de entrenamiento.

Detección y traducción del habla: Un modelo puede ser entrenado en altavoces con un acento particular. Cuando se usa con habla con dialectos o acentos nuevos, el modelo puede alcanzar un alto nivel de precisión con los datos de capacitación, pero será inexacto cuando se use con dialectos o acentos nuevos.

Cuidado de la salud: Un modelo capacitado en datos de capacitación accesible de pacientes de 20 años será menos preciso al evaluar los datos de los pacientes de 60 años o más.

Manejo del cambio de covarianza

Dejamos caer las características categorizadas como a la deriva en nuestra estrategia para tratar el cambio de conjunto de datos. Sin embargo, simplemente eliminar las características podría dar lugar a alguna pérdida de datos. Más tarde, simplemente podemos dejar caer las características menos importantes. Como resultado, se eliminan las características con un valor de deriva mayor que cierto umbral. A continuación se muestra el código que calcula y muestra la importancia de la característica para un modelo de regresión lineal.

de Sklearn.Los conjuntos de datos importar Make_Regression
de SKL
ganar.lineal_model importación lineal
de matplotlib import pyplot
X, y = make_regression (n_samples = 2000, n_feature = 15, n_informative = 5, random_state = 1)
modelo = lineArregression ()
modelo.Fit (x, y)
coef_array = modelo.coef_
Para I, V en Enumerate (coef_array):
Imprimir ('característica: %0d, puntaje: %.5f ' % (i, v))
pyplot.Bar ([x para x en rango (len (coef_array))], coef_array)
pyplot.espectáculo()

Producción

Característica: 0, Puntuación: 0.00000
Característica: 1, Puntuación: 0.00000
Característica: 2, Puntuación: 51.76768
Característica: 3, Puntuación: 0.00000
Característica: 4, Puntuación: 0.00000
Característica: 5, Puntuación: 0.00000
Característica: 6, Puntuación: 77.69109
Característica: 7, Puntuación: 0.00000
Característica: 8, Puntuación: 41.53725
Característica: 9, Puntuación: 0.00000
Característica: 10, Puntuación: 14.19662
Característica: 11, Puntuación: 80.91086
Característica: 12, Puntuación: -0.00000
Característica: 13, Puntuación: -0.00000
Característica: 14, Puntuación: -0.00000

Conclusión

Este artículo revisó muchos conceptos, razones y remedios conectados al cambio de conjunto de datos. El cambio de distribuciones de datos de la capacitación hasta la prueba de datos se llama cambio de conjunto de datos. Las diferentes condiciones de entrenamiento y prueba pueden cambiar covarianza entre las variables independientes. Después de estimar la importancia de la función, podemos utilizar la caída de características para eliminar el cambio de conjunto de datos.