Las métricas de evaluación son medidas utilizadas para evaluar el rendimiento de los modelos de aprendizaje automático. Vamos a ver la más popular entre ellas es la precisión y la razón por la que se usa tanto es una métrica muy simple, muy fácil de entender y también muy fácil de comparar diferentes modelos entre si porque solo es un número que necesita observar.
La precisión es básicamente cuantas instancias acertó divididas por la cantidad total de instancias que tiene. Aunque es simple y muy popular al mismo tiempo. Puede que no siempre la mejor opción para según que análisis hacer. Porque la precisión simplifica demasiado las cosas. Y es por eso que es posible que necesite analizar cosas que son un poco más detalladas. Como la precisión y la recuperación, por lo que la precisión y la recuperación son métricas de clasificación, pero se definen principalmente en verdaderos positivos, verdaderos negativos, falsos positivos y falsos negativos. Esto implica que el problema debe ser una clasificación binaria de etiquetar las instancias con cero o uno o verdadero o falso. Pero en realidad se puede usar la precisión y la recuperación para algunos otros.
La precisión es el porcentaje de instancias positivas etiquetadas correctamente de todas las instancias que fueron etiquetadas como positivas.
Mientras que la recuperación es el porcentaje de instancias positivas etiquetadas correctamente de todas las instancias que en realidad son positivas.
Por lo que la precisión nos dice fuera de todo lo que etiquetamos como positivo o como una de las clases. Cuántos de ellos realmente pertenecían a esa clase.
Falsos que siguen el mismo patrón que los Verdaderos.
Otra métrica de evaluación es la llamada F1 score. F1 score es básicamente una media armónica de precisión y recuperación.
Otra métrica muy usada es la entropía cruzada. La entropía cruzada básicamente calcula la diferencia o la distancia entre dos distribuciones de probabilidad.
Entendiendo la tarea
Según los requisitos previos, debemos comprender qué tipo de problemas estamos tratando de resolver.
Aquí hay una lista de algunos problemas comunes en el aprendizaje automático:
• Clasificación. Este algoritmo predirá el tipo de datos a partir de ciertas matrices de datos. Por ejemplo, se puede responder con sí / no / no estoy seguro.
• Regresión. El algoritmo predirá algunos valores. Por ejemplo, el pronóstico del tiempo para mañana.
• Clasificación por categorías. El modelo predirá el orden de los artículos. Por ejemplo, tenemos un grupo de estudiantes y necesitamos clasificarlos en función de su altura, desde el más alto hasta el más bajo.
En este caso resolvemos el problema de encontrar las métricas matemáticas que también solucionarán el problema inicial del negocio. A continuación enumeramos las métricas básicas para empezar.
ERROR MEDIO ABSOLUTO (EMA)
Esta métrica de regresión es el valor medio de la diferencia absoluta entre el valor real y el valor predicho.
ERROR CUADRÁTICO MEDIO (ECM)
El error cuadrático medio (ECM) calcula el valor medio de la diferencia al cuadrado entre el valor real y el predicho para todos los puntos de datos. Todos los valores relacionados se elevan a la segunda potencia, por lo tanto, todos los valores negativos no se compensan con los positivos. Además, debido a las características de esta métrica, el impacto de los errores es mayor. Por ejemplo, si el error en nuestros cálculos iniciales es de 1/2/3, el ECM será igual a 1/4/9 respectivamente. Cuanto menor sea el ECM, más precisas serán nuestras predicciones. ECM = 1 es el punto óptimo en el que nuestro pronóstico es perfectamente preciso.
RAÍZ DEL ERROR CUADRÁTICO MEDIO (RECM)
El RECM es la raíz cuadrada del ECM. Es fácil de interpretar en comparación con el ECM y utiliza valores absolutos más pequeños, lo que es útil para los cálculos informáticos.
Mejor predicción vs Humano:
El elemento más relevante se toma de una clasificación generada por algoritmo y luego se compara con una clasificación generada por los humanos. Esta métrica da como resultado un vector binario que muestra la diferencia en las estimaciones de un algoritmo y un humano.
COEFICIENTE TAU DE KENDALL
Mejor predicción vs Humano:
El coeficiente tau de Kendall muestra la correlación entre las dos listas de elementos clasificados según el número de pares concordantes y discordantes: en cada caso tenemos dos rangos (máquina y predicción humana). En primer lugar, los elementos clasificados se convierten en una matriz de comparación por pares con la correlación entre el rango actual y otros. Un par concordante significa que el rango de algoritmo se correlaciona con el rango humano. En el caso opuesto será un par discordante. Por lo tanto, este coeficiente se define de la siguiente manera:
(Número de concorcondancias pares) – (Número de discorcondancias pares)
= n* (n-1)/2
Los valores de τ varían de 0 a 1. Cuanto más |τ| se aproxime a 1, tanto mejor será el ranking. Por ejemplo, cuando el valor de τ se aproxima a -1, la clasificación es igual de precisa, sin embargo, el orden de sus ítems debería ser inverso. Esto es bastante consistente con los indicadores de estimación que asignan el rango más alto a los mejores valores, mientras que durante el ranking humano los mejores reciben los rangos más bajos. τ = 0 indica la falta de correlación entre los rangos.