Regresión logística en R

Regresión logística en R
En la ciencia de datos y las estadísticas, es un modelo de regresión si la variable dependiente da como resultado valores categóricos como True/False, Yes/No, o 0/1. Por lo general, el modelo de regresión logística es binomial. Sin embargo, se puede extender. Mide la probabilidad de la éxito o el fracaso de un evento como una variable dependiente que se basa en una ecuación matemática. Esta ecuación relaciona la variable dependiente (variable de respuesta) con las variables independientes (predictor).

Podemos decir que la regresión logística es una forma generalizada de regresión lineal, pero la diferencia principal está en el rango de valor predicho es (-∞, ∞), mientras que el rango de valor predicho en la regresión logística es (0,1). En esta publicación, aprenderemos sobre la regresión logística y cómo implementarla en el lenguaje de programación R.

Por qué usar la regresión logística

Después de comprender la relación entre independientes (variables predictoras) y dependientes (variables de respuesta), a menudo se usa la regresión lineal. Cuando la variable dependiente es categórica, es mejor elegir la regresión logística. Es uno de los modelos más simples, pero es muy útil en diferentes aplicaciones porque es fácil de interpretar y rápido en la implementación.

En la regresión logística, intentamos clasificar los datos/observación en clases distintas que muestra que la regresión logística es un algoritmo de clasificación. La regresión logística puede ser útil en diferentes aplicaciones como:

Podemos usar el registro de crédito y el saldo bancario de un cliente para predecir si el cliente es elegible para tomar el préstamo del banco o no (la variable de respuesta será "elegible" o "no elegible. Puede acceder desde la condición anterior que la variable de respuesta puede tener solo dos valores. Mientras que en la regresión lineal la variable dependiente puede tomar valores múltiples más continuos.

Regresión logística en R en Ubuntu 20.04

En R Cuando la variable de respuesta es binaria, lo mejor para predecir un valor de un evento es usar el modelo de regresión logística. Este modelo utiliza un método para encontrar la siguiente ecuación:

Log [p (x) / (1-p (x))] = β0 + β1x1 + β2x2 + ... + βpxp

XJ es la variable predictor JTH y βJ es la estimación del coeficiente para el XJ. El modelo de regresión logística utiliza una ecuación para calcular la probabilidad y genera la observación/salida del valor 1. Eso significa la salida con una probabilidad igual a 0.5 o más se considerará como valor 1. Aparte de eso, todos los valores se considerarán como 0.

P (x) = Eβ0 + β1x1 + β2x2 + ... + βpxp / (1 + Eβ0 + β1x1 + β2x2 + ... + βPXP)

El siguiente ejemplo paso a paso le enseñará cómo usar la regresión logística en R.

Paso 1: Cargue los datos para el modelo en R
Primero, tenemos que cargar un conjunto de datos predeterminado para demostrar el uso del modelo. Este conjunto de datos consta de 1000 observaciones como se muestra a continuación.

En estas columnas del conjunto de datos, el valor predeterminado muestra si un individuo es un valor predeterminado. El estudiante está mostrando si un individuo es un estudiante. El equilibrio muestra el saldo promedio de un individuo. Y el ingreso indica los ingresos de un individuo. Para construir un modelo de regresión, el estado, el saldo bancario y los ingresos se utilizarán para predecir que la probabilidad de que las personas sean incumplidas.

Paso 2: Creación de muestras de entrenamiento y prueba
Dividiremos el conjunto de datos en un conjunto de pruebas y un conjunto de capacitación para probar y entrenar el modelo.

El 70% de los datos se utilizan para el conjunto de capacitación y el 30% para el conjunto de pruebas.

Paso 3: ajuste de regresión logística
En r, para adaptarse a la regresión logística tenemos que usar una función GLM y establecer la familia en binomial.

En las probabilidades de registro, el cambio promedio se indica por los coeficientes. El valor p del estado del estudiante es 0.0843 Valor p de equilibrio es <0.0000, P-value of income is 0.4304. These values are showing how effectively each independent variable is at predicting the likelihood of default.

En R, para verificar qué tan bien se utiliza nuestro modelo logístico en Data McFadden's, se utiliza la métrica R2. Varía de 0 a 1. Si el valor está cerca de 0, indica que el modelo no está en forma. Sin embargo, valores superiores a 0.40 se consideran un modelo de ajuste. La función PR2 se puede usar para calcular el R2 de McFadden.

Como el valor anterior está por encima de 0.472, indica que nuestro modelo tiene una gran potencia predictiva, así como el modelo está en forma.

La importancia de una función también se puede calcular mediante el uso de la función Varimp. El valor más alto indica que la importancia de esa variable será mayor que otras.

Paso 4: use el modelo de regresión logística para hacer predicciones
Después de ajustar el modelo de regresión, no podemos hacer predicciones sobre si un individuo predeterminará o no en diferentes valores de saldo, ingresos y el estado del estudiante:

Como podemos ver, si el saldo es 1400, el ingreso es 2000 con el estado del estudiante "sí" que tiene un 0.02732106 Probabilidad de incumplimiento. Por otro lado, un individuo tiene los mismos parámetros pero el estado del estudiante "no" tiene un 0.0439 Probabilidad de incumplimiento.

Para calcular cada individuo en nuestro conjunto de datos, se utiliza el siguiente código.

predicho <- predict(model, test, type="response")

Paso 5: Diagnóstico del modelo de regresión logística:
En este último paso, analizaremos el rendimiento de nuestro modelo en la base de datos de prueba. Por defecto, las personas que tienen una probabilidad mayor que 0.5 se predecirá "predeterminado". Sin embargo, usando el OptimalCuToff () la función maximizará la precisión de nuestro modelo.

Como podemos ver arriba, 0.5451712 es el Corte de probabilidad óptimo. Entonces, un individuo tiene una probabilidad de 0.5451712 de ser "predeterminado" o mayor se considerará como "predeterminado". Sin embargo, un individuo tiene una probabilidad inferior a 0.5451712 se considerará "no predeterminado"

Conclusión

Después de pasar por este tutorial, debe estar familiarizado con la regresión logística en el lenguaje de programación R en Ubuntu 20.04. También podrá identificar cuándo debe usar este modelo y por qué es importante con los valores binomiales. Con la ayuda de códigos y ecuaciones, hemos implementado los cinco pasos del uso de la regresión logística en R con ejemplos para explicarlo en detalle. Estos pasos cubren todo a partir de la carga de datos hasta R, capacitar y probar el conjunto de datos, ajustar el modelo y la creación de predicciones para el diagnóstico del modelo.