Regresión logística sklearn

Regresión logística sklearn

Python es un lenguaje de programación moderno de alto nivel orientado a objetos diseñado para ayudar a los programadores a crear y escribir códigos fáciles de entender y sencillos. Es un lenguaje de programación de alto nivel simple y fácil, mejor y fácil de entender para principiantes. Sus estructuras de datos de alto nivel incorporadas, junto con la mecanografía dinámica y la unión, lo convierten en una excelente opción para el desarrollo rápido de aplicaciones. Su sintaxis simple la hace más legible, lo que finalmente reduce el costo de mantener el programa. Admite varios paquetes y módulos que enfatizan la reutilización del código y la mejora de la modularidad del programa. Su extensa biblioteca estándar y varios intérpretes están disponibles sin costo, así como en línea. La capacidad de Python del aumento de la productividad hace que los programadores se enamoren del lenguaje.

Además, la edición, la prueba y el ciclo de depuración es increíblemente rápido ya que no hay un paso de complicación involucrado. Python hace que los principios de aprendizaje automático sean fáciles de aprender y comprender. Da la vista de un pájaro de cómo atravesar un proyecto de aprendizaje automático pequeño o grande. Este artículo trata sobre qué es una regresión logística y sus clasificadores. Comencemos con los fundamentos de la regresión logística.

Definición de regresión logística

La regresión logística es un algoritmo de clasificación. Un algoritmo de análisis de regresión apropiado de la fraternidad del aprendizaje automático describe datos. Explica la relación entre múltiples variables, yo.mi., nivel de relación o intervalo variable independiente, ordinal o variable binaria dependiente nominal. La regresión logística generalmente se usa en modelos estadísticos para comprender los datos y la relación entre variables dependientes e independientes mediante la predicción de las probabilidades de variables dependientes categóricas. A medida que el número de datos aumenta rápidamente, la fuerza de la potencia informática y la mejora del algoritmo está aumentando, mejorando la importancia del aprendizaje automático y la ciencia de los datos. En todo el aprendizaje automático, la clasificación se ha convertido en el área esencial, y uno de sus métodos básicos es la regresión logística. Al final de este artículo, podrá implementar una regresión logística en varios tipos de datos. Comencemos a aplicar clases, funciones y paquetes adecuados para realizar una regresión logística en Python. Uno de los paquetes comunes de Python para la regresión logística es Sklearn. Aquí, le mostraremos un ejemplo práctico paso a paso de regresión logística Sklearn en Python para ayudarlo a comprender cómo implementar la regresión logística Sklearn en Python.

Pasos para implementar la regresión logística Sklearn en Python

Paso 1: recopilar los datos

Para comenzar con un proyecto pequeño o grande, lo primero que necesita son los datos sobre los que construirá un modelo de regresión logística. Aquí está el comando para preparar el modelo para el conjunto de datos.

Paso 2: Importar los paquetes necesarios de Python

Una vez que instala el DataPrep, el siguiente paso es importar los paquetes necesarios para implementar la regresión logística. Aquí, estamos aprendiendo sobre el paquete Sklearn, que básicamente se usa para construir el modelo de regresión logística en Python. Se deben instalar los siguientes paquetes:

importar pandas como PD
importar numpy como np
Importar matplotlib
Importar matplotlib.Pyplot como PLT
Importar Sevorn como SNS
de Sklearn.preprocesamiento de la etiqueta de etiqueta
de Sklearn.Métricos importar confusión_matrix
de Sklearn.Metrics import make_scorer, precisión_score, precision_score, record_score, f1_score, confusion_matrix, classification_report
de Sklearn.lineal_model importar logística
de Sklearn.model_selection import train_test_split
de Sklearn Import Metrics
de Sklearn.Métricas de importación precisión_score
de imblearn.over_sampling import smote

Paso 3: Cargue los datos para construir un marcado de datos

El siguiente paso es capturar el conjunto de datos, para el cual necesita el siguiente comando para usar:

DF = PD.Read_csv ("/content/drive/mydrive/covid DataSet de datos.CSV ")

De esta manera, puede importar los datos de un archivo externo; Sin embargo, alternativamente, puede definir el conjunto de datos en forma de una matriz.

Paso 4: Crear la regresión logística después de cargar los datos

El siguiente paso es desarrollar la regresión logística en Python después de que los datos se hayan puesto en una aplicación de Python. En este paso, debe establecer las variables dependientes e independientes. Así es como puede establecer la variable:

X = DF.Drop ('Covid-19', eje = 1)
y = df ['Covid-19']

La variable 'x' representa la variable independiente, y la variable 'y' representa la variable dependiente. Ahora aplique la función Train_Text_Split para establecer el tamaño de prueba y entrenamiento del conjunto de datos.

X_train, x_test, y_train, y_test = trenes_test_split (x, y, test_size = 0.20)

Paso 5: Aplicar regresión logística

Ahora aplique la regresión logística siguiendo el comando que se da a continuación:

modelo = logisticRegression ()
# Ajustar el modelo
modelo.Fit (x_train, y_train)
y_pred = modelo.Predicte (x_test)
ACC_Logreg = modelo.puntaje (x_test, y_test)*100

Paso 6: traza la matriz de confusión

La parte final es trazar la matriz de confusión que muestra la precisión en una verdadera forma positiva y falsa positiva.

confusion_mtx = confusion_matrix (y_test, y_pred)
# traza la matriz de confusión
# traza la matriz de confusión
F, Ax = PLT.subtramas (figsize = (8, 8))
SNS.HeatMap (confusion_mtx, annot = true, linewidths = 0.01, cmap = "greens", linecolor = "gris", fmt = '.1f ', ax = ax)
PLT.xlabel ("etiqueta predicha")
PLT.Ylabel ("Etiqueta verdadera")
PLT.Título ("Matriz de confusión")
PLT.espectáculo()

Para imprimir la precisión o, en otras palabras, el informe de clasificación, use el siguiente comando:

print (clasificación_report (y_test, y_pred))

Una vez que ejecute todos los comandos, obtendrá una matriz de confusión y un informe de clasificación. Eche un vistazo a la salida a continuación.

Matriz de confusión:

Verdadero positivo (TP), falso negativo (FN), verdadero negativo (TN) y falsos positivos (FP) son los cuatro valores centrales en la matriz de confusión.

Informe de clasificación:

El informe de clasificación proporciona la precisión del modelo capacitado, que se puede lograr utilizando la fórmula:

Precisión = (tp + tn) / total

Conclusión:

Este artículo nos enseñó la regresión logística y la biblioteca Sklearn en Python. Se explican los datos y el enlace entre las variables dependientes e independientes se describe mediante regresión logística. La biblioteca Sklearn en Python se usa principalmente en datos estadísticos donde se requiere predicción o probabilidad.