¿Qué es una matriz de confusión??
La precisión y corrección del modelo se miden utilizando la matriz de confusión. Se puede aplicar a problemas de clasificación de clase binaria o múltiple. Muchas métricas se miden utilizando las mediciones de la matriz de confusión, aunque no es una medida directa de rendimiento. Una matriz de confusión es una matriz multidimensional donde los valores predichos se representan en las filas y los valores verdaderos en las columnas. La variable objetivo en un problema de clasificación binaria tendrá dos valores, 1 o 0, denominados valores reales como Verdadero o FALSO, respectivamente. Las predicciones del modelo se denominan valores esperados.
Fuente: Explorio.AI
Verdaderos positivos (TP)
Los verdaderos positivos son el número de casos en los que el valor real de una muestra de datos coincide con el valor anticipado.
Verdaderos negativos (TN)
El verdadero negativo es una estadística que cuenta el número de casos en los que el valor real de una muestra de datos es cero, y el valor anticipado también es cero.
Falsos positivos (FP)
Los falsos positivos se refieren al número de ocurrencias en el que el valor real de una muestra de datos es 0, pero el valor predicho es 1.
Falsos negativos (fn)
Falsos negativos es una estadística que cuenta el número de ocurrencias en los que el valor real de una muestra de datos es 1, pero el valor proyectado es 0.
El rendimiento del modelo será favorable, con mayores valores de TP y TN y valores más bajos de FP y FN, basados en el significado de la terminología anterior. El modelo debe ser entrenado para maximizar TP y TN mientras minimiza los valores de FP y FN. Si se debe minimizar cuál de FP y FN depende de los requisitos del problema de categorización. Mantener falsos negativos al mínimo será crucial en el campo de la medicina.
Por ejemplo, suponga que el desafío de clasificación es determinar si el paciente tiene una enfermedad significativa como el cáncer o el VIH. Tomemos, por ejemplo, si el paciente tiene cáncer, que está representado por 1, y si el paciente no tiene cáncer, que está representado por 0. En este escenario, la reducción de falsos positivos sobre falsos negativos suele ser preferible.
Es decir, si un paciente tiene cáncer (1) y el modelo predice un negativo negativo (0) - falsos - el paciente y el diagnóstico podrían estar en peligro. Como resultado, FN debe disminuir tanto como sea factible. Por otro lado, si el paciente no tiene cáncer (0) pero el modelo predice que ha tenido cáncer (1) - falsos positivos - esto tendrá menos ramificaciones porque, en la mayoría de los casos, se realizarán pruebas posteriores para enfermedades cruciales antes de que la enfermedad se confirme como positiva. Como resultado, los falsos positivos son preferibles a falsos negativos en este problema.
Beneficios de la matriz de confusión
¿Cómo se calculan las matrices de confusión??
A continuación se alistan los pasos para calcular las matrices de confusión:
Implementación de la matriz de confusión en Sklearn
# Importar las etiquetas requeridasProducción
Array ([[0, 2, 0],Conclusión
Aprendimos sobre la matriz de confusión y su implementación en Sklearn. Sklearn es una popular biblioteca ML con sede en Python que implementa varias métricas y algoritmos. La matriz de confusión determina las métricas de precisión de los problemas de clasificación basados en verdaderos positivos o verdaderos negativos o falsos positivos o falsos negativos.