PRIORS & MAP ESTIMATE

Bayes Regressor

Regression task

P^ (s)= P^ (y|x) P^ (x)

classify new point

yb= E_(P^ (y|x)) [y]

SE CONOSCI P^
NO NEED OF LEARNING

BAYES ERROR

E[(yb-y)^2]=E_P^(x) [V(y)]

errore più basso possibile

Parametric Model

P^ (D|theta) = TT P^(si|Theta)

stimare distribuzione dati

MLE

theta^ = argmax P(D|Theta)

Distribuzione a Posteriori

P(Theta |Dtr)

proporzionale a
P(Dtr|Theta) P(Theta)

la prima è la distribuzione di Verosomiglianza

la seconda è la distribuzione a priori

MAP

theta ° =argmax P(Theta|Dtr)

come problema con penalizzazione

RIDGE
J(w)= norma 2 w

LASSO
J(w)= norma 1 w

Gold Equation

Generalization= Data + Knowledge

la conoscenza non deve essere 'inferred' dai dati

con MLE abbiamo Theta fissato,
con MAP abbiamo un'intera distribuzione su tutti i possibili modelli

Bayesian Learning

P(x|Dtr)=integrale(P(x|Theta)P(Theta|DTr)dTheta

considero tutti i punti e faccio la media

NON DIPENDE PIU' DA THETA

consideriamo distribuzione parametri

E' INFATTIBILE

Variational Approach

approssimare a posteriori usando un altra distribuzione

Sampling

Approssimare a posteriori campionando