Evaluación del Aprendizaje Supervisado

Efectividad = Aspecto más importante

Protocolo de evaluación

define como se van a tomar las muestras para evaluar el modelo

Evaluación sobre el dataset de entrenamiento

Evaluación sobre dataset de test

el modelo tiende a ser eficaz sobre los datos con los que se ha entrenado

Sirve para descartar aquellos algoritmos muy malos

selección del modelo

Bias

Varianza

Validación cruzada

dividir en conjunto de train y test

k-fold cross validation

dividir el dataset de entrenamiento en K grupos distintos

el dataset de test cada vez será uno

promediar los resultados

Ajuste de hiperparámetros

Métricas de efectividad para predicción numérica / regresión

Error cuadrático

Error valor predicho vs. valor real

Error cuadrático medio

Error de las predicciones pero dando mas peso a errores grandes

Raiz del error cuadrático medio

sensible a outliers

usar error absoluto en su lugar

Error absoluto

Coeficiente de determinación R2

mas robusto a los outliers

Error absoluto medio

no puede usarse cuando el valor de referencia es 0

determina la calidad del modelo para replicar los resultados

negativo cuando la ordenada en el origen o la pendiente están restringidas

el mejor modelo es peor que una línea horizontal

no puede detectar si los coeficientes y las predicciones tienen bias

graficar los residuales

ajuste R2

version de R2 que hace que no disminuya el valor cuando añadimos mas variables predictoras, pero da un peor valor

Métricas de efectividad para clasificación

Matriz de confusión

aciertos

celdas en las que encontramos valores ciertos, tanto positivos como negativos

fallos

celdas en las que encontramos valores falsos, falso positivo o falso negativo

métricas

accuracy

aciertos

TP + TN / Total

error rate

fallos

1 - accuracy

FP + FN / Total

Recall

aciertos sobre el numero total de ejemplos de la clase

TP / TP + FN

precision

aciertos sobre el numero de ejemplos clasificados en esa clase

TP / TP + FP

F1-score

media harmónica precisión y recall

inverso de los inversos de dichos valores

curvas PR

curvas ROC

Receiver Operating Characteristic

Recall vs Specifity

evaluar que es mas interesante, si un accuracy alto o un recall alto

specifity

True Negative Rate

TN / TN + FP

Area Bajo la Curva ROC (AUC)

Interesante cuando una clase nos importa mas que la otra