Data Mining

Prediction error E(MSEte)

Irriducibile

Riducibile

Bias^2 (f^)

Varianza(f^)

Trade off

Linear model: σ^2 p/n

Ottimismo

OPT = E(MSEte) - E(MSEtr)

Fixed X

OPT = 2/n sum(cov(yi, f^(xi)))

Linear: 2σ^2 p/n

Mallow Cp

Stima σ^2

Stima errore di previsione

Cp = MSEtr + 2σ^2 p/n

Random X linear

OPTr = OPTf + σ^2 p/n (p+1/(n-p-1))

RCp = RSS(n-1) /((n-p)(n-p-1))

Criteri informativi

AIC

BIC

CV

LOOCV

Linear: 1/n sum(yi-f^(xi)/(1-hii))^2

Bias var trade off

LOOCV high var

KNN

Prev: media dei k vicini

Fixed X

Err^= MSEtr + 2σ^2 / k

Var (f^) = σ^2 / k

K folds

EDA

Visualizzare

Transformare

Feature Selection

Feature engineering

Forme penalizzate/vincolate

Ridge regression

Metodo con restrizioni

OLS imposs con n < p

min_[β app R^p] {||y - Xβ||^2_2 + λ||β||_2}

λ in (0, inf)

Parametro di tuning

Controlla il peso della penalità

= 0 allora β(λ) = β^

= inf allora β(λ) = 0p

Fa affondare le stime di β verso 0

β^(λ) = (X'X + λIp)^-1 X'Y

Standardizzare prima

CV per trovare λ

Problema di ottimizz convesso

Minimo locale = minimo golbale

Lasso

min_[β app R^p] {||y - Xβ||^2_2 + λ||β||_1}

Prob di ott conv

β^(λ) sparso

CV per trovare λ

Best subset selection

min_[β app R^p] {||y - Xβ||^2_2 + λ||β||_0}

Problema non conv

(p su k) possibilità

Selection

Backward stepwise

Greedy

Deve essere n>p

Forward stepwise

Greedy

Forward with stopping rule

Bagging

Bootstrap

With replacement

1/3 OOB per ogni estrazione

Fitta un albero per ogni campione bootstrap

Previsione

Media per regr

Moda per class

Random Forest

Bagging + selezione variabili

ad ogni nodo selezione m var

m

sqrt(p) per class

p/3 per regr

p per bagging

Decorrela gli alberi

Variable importance

Permutare dati OOB

Diminuzione impurità per ogni var

Class Imbalance

ROC

Sens e spec per ogni cutoff

Varia cutoff classificazione

AUC

Robusto

Sampling

All'interno della CV

Up

Down

Boosting

Fitta un weak learner

Continuo a fittarlo pesando di più oss mal class

L2

1: fitta albero

2: aggiorno f^ aggiung albero

3: aggio i residui

4: ripeto B volte

Output: f^(x) = ymed + sum [λf^_b (x)]

Tuning parameters

B num alberi

λ par shrinkahe

d numero di split

Adaboost

1: persi oss wi = 1/n

2: rifitto B alberi agg i pesi

3: output C^(X) = sign(sum [α^b C^_b(X)])

Gradient Boosting

Fz di perdita

1: approx gradiente negativo per ogni albero

2: aggior la previsione

3: output sequenza di alberi

più comput esigente risp a RF

Può essere meglio di RF

Piecewise Polynomial

1: divide i dati in k punti(Knots)

2: fitta un polinomio di grado d in ogni segmento

Splines

f() continua nei knots

f() ha derivate continue nei knots

truncated power basis

Natural cubic

f() cubica nei segmenti interni

f() lineare ai 2 estremi

Teorema Green e Silverman: la migliore

Smoothing

min_[β app R^p] {||y - Nβ||^2_2 + λβΩβ}

β^(λ) = (Ν'Ν + λΩ)^-1 Ν'Y

Model ensemble

L modelli

OLS sulle previsioni