Matriz de confusión en Sklearn Linuxhint

Matriz de confusión en Sklearn Linuxhint
“Una biblioteca de aprendizaje automático gratuito construida en Python se llama scikit-learn. Incluye varias clasificaciones, regresión y técnicas de agrupación que podemos utilizar para hacer predicciones útiles utilizando nuestros datos. Una matriz de confusión es una estadística que determina la corrección y precisión de un modelo. Se puede usar para abordar los problemas de categorización que son binarios o de clase múltiple. Este artículo analiza la matriz de confusión y su implementación en Sklearn."

¿Qué es una matriz de confusión??

La precisión y corrección del modelo se miden utilizando la matriz de confusión. Se puede aplicar a problemas de clasificación de clase binaria o múltiple. Muchas métricas se miden utilizando las mediciones de la matriz de confusión, aunque no es una medida directa de rendimiento. Una matriz de confusión es una matriz multidimensional donde los valores predichos se representan en las filas y los valores verdaderos en las columnas. La variable objetivo en un problema de clasificación binaria tendrá dos valores, 1 o 0, denominados valores reales como Verdadero o FALSO, respectivamente. Las predicciones del modelo se denominan valores esperados.

Fuente: Explorio.AI

Verdaderos positivos (TP)

Los verdaderos positivos son el número de casos en los que el valor real de una muestra de datos coincide con el valor anticipado.

Verdaderos negativos (TN)

El verdadero negativo es una estadística que cuenta el número de casos en los que el valor real de una muestra de datos es cero, y el valor anticipado también es cero.

Falsos positivos (FP)

Los falsos positivos se refieren al número de ocurrencias en el que el valor real de una muestra de datos es 0, pero el valor predicho es 1.

Falsos negativos (fn)

Falsos negativos es una estadística que cuenta el número de ocurrencias en los que el valor real de una muestra de datos es 1, pero el valor proyectado es 0.

El rendimiento del modelo será favorable, con mayores valores de TP y TN y valores más bajos de FP y FN, basados ​​en el significado de la terminología anterior. El modelo debe ser entrenado para maximizar TP y TN mientras minimiza los valores de FP y FN. Si se debe minimizar cuál de FP y FN depende de los requisitos del problema de categorización. Mantener falsos negativos al mínimo será crucial en el campo de la medicina.

Por ejemplo, suponga que el desafío de clasificación es determinar si el paciente tiene una enfermedad significativa como el cáncer o el VIH. Tomemos, por ejemplo, si el paciente tiene cáncer, que está representado por 1, y si el paciente no tiene cáncer, que está representado por 0. En este escenario, la reducción de falsos positivos sobre falsos negativos suele ser preferible.

Es decir, si un paciente tiene cáncer (1) y el modelo predice un negativo negativo (0) - falsos - el paciente y el diagnóstico podrían estar en peligro. Como resultado, FN debe disminuir tanto como sea factible. Por otro lado, si el paciente no tiene cáncer (0) pero el modelo predice que ha tenido cáncer (1) - falsos positivos - esto tendrá menos ramificaciones porque, en la mayoría de los casos, se realizarán pruebas posteriores para enfermedades cruciales antes de que la enfermedad se confirme como positiva. Como resultado, los falsos positivos son preferibles a falsos negativos en este problema.

Beneficios de la matriz de confusión

  • Demuestra cómo cualquier modelo de clasificación puede ser perplejo al hacer predicciones.
  • La matriz de confusión indica los tipos de errores que están cometiendo su clasificador además de los errores que se están produciendo.
  • Usando este desglose, puede evitar los problemas dependiendo completamente de la precisión de la clasificación.
  • Cada columna de la matriz de confusión muestra instancias de esa clase proyectada.
  • Cada fila de la matriz de confusión se asigna a una instancia de clase real.
  • Revela no solo los errores cometidos por un clasificador sino también los errores que cometen los humanos

¿Cómo se calculan las matrices de confusión??

A continuación se alistan los pasos para calcular las matrices de confusión:

  • Debe tener un conjunto de datos de prueba o validación con los valores de resultado esperados.
  • A continuación, predice cada fila en su conjunto de datos de prueba.
  • Los siguientes son los resultados y predicciones esperados:
  1. El número de conjeturas correctas para cada clase.
  2. El número total de predicciones inexactas para cada clase está ordenado por la clase proyectada.

Implementación de la matriz de confusión en Sklearn

# Importar las etiquetas requeridas
de Sklearn.Métricos importar confusión_matrix
# Las verdaderas etiquetas del conjunto de datos dado
y_true = [1, 2, 0, 2, 1, 0]
# Las etiquetas predichas del conjunto de datos dado
y_pred = [1, 0, 1, 2, 0, 1]
# Obtenga la matriz de confusión del conjunto de datos
confusion_matrix (y_true, y_pred)

Producción

Array ([[0, 2, 0],
[1, 1, 0],
[1, 0, 1]])

Conclusión

Aprendimos sobre la matriz de confusión y su implementación en Sklearn. Sklearn es una popular biblioteca ML con sede en Python que implementa varias métricas y algoritmos. La matriz de confusión determina las métricas de precisión de los problemas de clasificación basados ​​en verdaderos positivos o verdaderos negativos o falsos positivos o falsos negativos.