¿Qué es la regresión de la cresta??
Para aumentar la precisión de la predicción, la técnica estadística conocida como regresión de cresta reduce la magnitud de las estimaciones de parámetros. Funciona especialmente bien si su conjunto de datos contiene columnas correlacionadas que intenta usar como entradas (variables independientes) en modelos de regresión, pero ninguno de sus modelos produjo resultados muy precisos. En otras palabras, la regresión de Ridge es una técnica de ajuste de modelo que se utiliza para cualquier análisis de datos multicolineales. Los datos se someten a la regularización de L2 utilizando este método.
La función de costo para la regresión de la cresta es:
Min (|| y - x (theta) ||^2 + λ || theta ||^2)¿Qué es la multicolinealidad??
El concepto de multicolinealidad se basa en la investigación estadística. Justo cuando sus variables independientes tienen un grado significativo de correlación. La colinealidad no afecta directamente la variable de respuesta; Más bien, se refiere a las interacciones entre las variables o características predictoras. Las estimaciones de los coeficientes de regresión pueden ser inexactas como resultado de la multicolinealidad. Potencialmente puede aumentar los errores estándar del coeficiente de regresión y disminuir la efectividad de cualquier prueba t. La multicolinealidad puede proporcionar resultados engañosos y valores p, aumentando la redundancia del modelo y reduciendo la efectividad y confiabilidad de la previsibilidad.
Ventajas de la regresión de la cresta
Implementación de la regresión de cresta en Sklearn
Importar requiere las siguientes bibliotecas:
de Sklearn.lineal_model import cridgeCrea el conjunto de datos usando el siguiente comando:
n_samples, n_features = 20, 4Producción:
Las características son [[-2.55298982 0.6536186 0.8644362 -0.74216502]Creando y ajustando el modelo:
modelo = Ridge (alfa = 1.0)Conclusión
Discutimos el modelo de regresión de cresta en el aprendizaje automático que se utiliza para realizar la regularización de L2 en los datos para evitar el sobreajuste. Es una versión avanzada de una regresión lineal simple. También discutimos su implementación utilizando sklearn.