Evaluación del Aprendizaje Supervisado
Efectividad = Aspecto más importante
Protocolo de evaluación
define como se van a tomar las muestras para evaluar el modelo
Evaluación sobre el dataset de entrenamiento
Evaluación sobre dataset de test
el modelo tiende a ser eficaz sobre los datos con los que se ha entrenado
Sirve para descartar aquellos algoritmos muy malos
selección del modelo
Bias
Varianza
Validación cruzada
dividir en conjunto de train y test
k-fold cross validation
dividir el dataset de entrenamiento en K grupos distintos
el dataset de test cada vez será uno
promediar los resultados
Ajuste de hiperparámetros
Métricas de efectividad para predicción numérica / regresión
Error cuadrático
Error valor predicho vs. valor real
Error cuadrático medio
Error de las predicciones pero dando mas peso a errores grandes
Raiz del error cuadrático medio
sensible a outliers
usar error absoluto en su lugar
Error absoluto
Coeficiente de determinación R2
mas robusto a los outliers
Error absoluto medio
no puede usarse cuando el valor de referencia es 0
determina la calidad del modelo para replicar los resultados
negativo cuando la ordenada en el origen o la pendiente están restringidas
el mejor modelo es peor que una línea horizontal
no puede detectar si los coeficientes y las predicciones tienen bias
graficar los residuales
ajuste R2
version de R2 que hace que no disminuya el valor cuando añadimos mas variables predictoras, pero da un peor valor
Métricas de efectividad para clasificación
Matriz de confusión
aciertos
celdas en las que encontramos valores ciertos, tanto positivos como negativos
fallos
celdas en las que encontramos valores falsos, falso positivo o falso negativo
métricas
accuracy
aciertos
TP + TN / Total
error rate
fallos
1 - accuracy
FP + FN / Total
Recall
aciertos sobre el numero total de ejemplos de la clase
TP / TP + FN
precision
aciertos sobre el numero de ejemplos clasificados en esa clase
TP / TP + FP
F1-score
media harmónica precisión y recall
inverso de los inversos de dichos valores
curvas PR
curvas ROC
Receiver Operating Characteristic
Recall vs Specifity
evaluar que es mas interesante, si un accuracy alto o un recall alto
specifity
True Negative Rate
TN / TN + FP
Area Bajo la Curva ROC (AUC)
Interesante cuando una clase nos importa mas que la otra