Please enable JavaScript.
Coggle requires JavaScript to display documents.
Data Mining - Coggle Diagram
Data Mining
Boosting
Fitta un weak learner
Continuo a fittarlo pesando di più oss mal class
L2
1: fitta albero
2: aggiorno f^ aggiung albero
3: aggio i residui
4: ripeto B volte
Output: f^(x) = ymed + sum [λf^_b (x)]
Tuning parameters
B num alberi
λ par shrinkahe
d numero di split
Adaboost
1: persi oss wi = 1/n
2: rifitto B alberi agg i pesi
3: output C^(X) = sign(sum [α^b C^_b(X)])
Gradient Boosting
Fz di perdita
1: approx gradiente negativo per ogni albero
2: aggior la previsione
3: output sequenza di alberi
più comput esigente risp a RF
Può essere meglio di RF
Bagging
Bootstrap
With replacement
1/3 OOB per ogni estrazione
Fitta un albero per ogni campione bootstrap
Previsione
Media per regr
Moda per class
Random Forest
Bagging + selezione variabili
ad ogni nodo selezione m var
m
sqrt(p) per class
p/3 per regr
p per bagging
Decorrela gli alberi
Variable importance
Permutare dati OOB
Diminuzione impurità per ogni var
EDA
Visualizzare
Transformare
Feature Selection
Feature engineering
Forme penalizzate/vincolate
Ridge regression
Metodo con restrizioni
min_[β app R^p] {||y - Xβ||^2_2 + λ||β||_2}
λ in (0, inf)
Parametro di tuning
Controlla il peso della penalità
= 0 allora β(λ) = β^
= inf allora β(λ) = 0p
Fa affondare le stime di β verso 0
β^(λ) = (X'X + λIp)^-1 X'Y
Standardizzare prima
CV per trovare λ
Problema di ottimizz convesso
Minimo locale = minimo golbale
OLS imposs con n < p
Lasso
min_[β app R^p] {||y - Xβ||^2_2 + λ||β||_1}
Prob di ott conv
β^(λ) sparso
CV per trovare λ
Best subset selection
min_[β app R^p] {||y - Xβ||^2_2 + λ||β||_0}
Problema non conv
(p su k) possibilità
Selection
Backward stepwise
Greedy
Deve essere n>p
Forward stepwise
Greedy
Forward with stopping rule
Ottimismo
OPT = E(MSEte) - E(MSEtr)
Fixed X
OPT = 2/n sum(cov(yi, f^(xi)))
Linear: 2σ^2 p/n
Mallow Cp
Stima σ^2
Stima errore di previsione
Cp = MSEtr + 2σ^2 p/n
Random X linear
OPTr = OPTf + σ^2 p/n (p+1/(n-p-1))
RCp = RSS(n-1) /((n-p)(n-p-1))
Piecewise Polynomial
1: divide i dati in k punti(Knots)
2: fitta un polinomio di grado d in ogni segmento
Splines
f() continua nei knots
f() ha derivate continue nei knots
truncated power basis
Natural cubic
f() cubica nei segmenti interni
f() lineare ai 2 estremi
Teorema Green e Silverman: la migliore
Smoothing
min_[β app R^p] {||y - Nβ||^2_2 + λβΩβ}
β^(λ) = (Ν'Ν + λΩ)^-1 Ν'Y
Prediction error E(MSEte)
Irriducibile
Riducibile
Bias^2 (f^)
Varianza(f^)
Linear model: σ^2 p/n
Trade off
Criteri informativi
AIC
BIC
CV
LOOCV
Linear: 1/n sum(yi-f^(xi)/(1-hii))^2
Bias var trade off
LOOCV high var
K folds
KNN
Prev: media dei k vicini
Fixed X
Err^= MSEtr + 2σ^2 / k
Var (f^) = σ^2 / k
Class Imbalance
ROC
Sens e spec per ogni cutoff
Varia cutoff classificazione
AUC
Robusto
Sampling
All'interno della CV
Up
Down
Model ensemble
L modelli
OLS sulle previsioni