minimi quadrati
Premessa
Data A matrice composta da Vi vettori
- Il sottospazio V è un immagine di A
- Il sottospazio ortogonale V⊥ è il nucleo della matrice trasposta di A
Dato V spazio vettoriale e una sua base
Sappiamo che
- l'insieme degli attributi è dato dalla legge di combinazione \(\oplus\) tra lo spazio e il suo ortogonale.
- ricordiamo che la somma della della cardinalità dello spazio e del suo ortogonale, ha come risultato la dimensione dell'insieme considerato.
Concludiamo che
- l'insieme considerato è la somma esclusiva tra l'immagine della matrice e il nucleo della trasposta
- la cardinalità dell'insieme considerato è la dimensione dell'immagine di A è la dimensione del nucleo della trasposta
Vettore residuo
Sistema lineare di m equazioni in n incognite.
Per vettore residuo s'intende il vettore dato dall'equazione
\(r(x) = b-Ax\)
x è soluzione del sistema solo il vettore residuo e la sua relativa norma sono nulli.
Equazioni a disposizione maggiore delle incognite? Sistema sovradimensionato
\(\Downarrow\)
\(rank(A) \neq rank([A,b])\implies \) sistema non compatibile
Potrà mai esistere un vettore \(x^*\) che minimizza la norma del vettore residuo?
problema lineare
Dobbiamo determinare \(x^* \ni' ||b-Ax^*||_2 = \underset{x \in \mathbb{R}^n}{min} ||b-Ax||_2\)
SISTEMA NORMALE
Se A ha il massimo rango disponibile, ci sara un'unica soluzione \(x^*\), ottenibile grazie al sistema
\(A^TAx = A^Tb\)
OSSERVAZIONE
matrice dei coefficienti \(A^TA\) simmetrica e positiva
CONSEGUENZE
- \(det(A^TA \neq 0 \implies\) unica soluzione
- \(A^T A\) compatibile con fatt. Cholesky
DIMOSTRAZIONE
- Dato che l'insieme delle m equazioni è uguale alla somma esclusiva tra l'immagine di A e il nucleo della sua trasposta, si può effettuare la decomposizione di b
\(b = b_1+b_2 \ \big{|} \ b_1 \in Im(A), b_2 \in ker(A^T)\)
- Considero il vettore residuo \(r(x) = b-Ax = b_1 - Ax + b_2\), ponendo \(y = b_1 -Ax\). Osserviamo che y fa parte dell'immagine di A.
- Calcolando la norma 2 del vettore residuo
\(||r(x))||_2^2 = r^T \cdot r = ||y||_2^2 + ||b_2||_2^2\) - minimo valore ottenibile in corrispondenza dproprio di \(x^*\)
Limite dell'interpolazione polinomiale
Dati n+1 piani del paino, con i nodi \(x_i\) distinti. Sappiamo che esiste / è unico il polinomio che interpola i dati.
Esso, però , può non è appropriato, in base ad alcune condizioni
numero dati elevato
ordinate \(y_i\) affette da errore
oscillazioni tra un nodo e l'altro, in particolare verso gli estremi (fenomeno di Runge)
spesso è mal condizionato
soprattutto quando è per via empirica.
Non ci possiamo aspettare che polinomio passi esattamente per quei punti
Polinomio di migliore approssimazione
m+1 punti del piano con \(x_i\) nodi distinti.
\(\mathcal{P}_n\) spazio vettoriale dei polinomi, \(p_n \in \mathcal{P}_n\) base delle potenze.
Imponendo le condizioni di interpolazione (supponendo incognite < punti) otteniamo il sistema
MATRICE DI VANDERMONDE
matrice (m+1) x (n+1). Si dimostra che se i nodi sono distinti, allora \(rank(A) = n+1 \).
La soluzione dalla minimizzazione della norma 2 del residuo \(||b-Ax||_2\) si chiama polinomio di migliore approssimazione nel senso dei minimi quadrati
La soluzione, in questo caso è \(\sqrt{\sum_{i=0}^m \left(p_n(x_i)-y_i\right)^2}\).
Se ci aggiungiamo l'inverso della differenza tra il numero di dati e il numero di coefficienti, abbiamo trovato lo scarto quadratico medio / deviazione standard
\(\sqrt{\frac{1}{m-n}\sum_{i=0}^m \left(p_n(x_i)-y_i\right)^2}\)
RETTA DI REGRESSIONE LINEARE
Retta che meglio approssima, nel senso dei minimi, i dati \((x_i,y_i)\) prende il nome di retta di regressione lineare
Essendo il polinomio \(p_1(x) = a_0x + a_1\), possiamo ottenere un sistema in m+1 equazioni nelle due incognite, imponendo le condizioni di interpolazione.
sistema normale \(A^T Ax = A^Tb\) sarà
per determinare le soluzioni del sistema dobbiamo itrodurre le quantità:
- valor medio di \(x_i\) \( \overline{x} = \frac{1}{m+1} \sum_{i=0}{m} x_i\)
- valor medio di \(y_i\) \( \overline{y} = \frac{1}{m+1} \sum_{i=0}{m} y_i\)
- varianza di x \(\frac{1}{m+1} \sum_{i=0}{m} (x_i- \overline{x})^2\)
- covarianza \(\frac{1}{m+1} \sum_{i=0}{m} (x_i- \overline{x})(y_i- \overline{y}\)
indice di determinazione
norma misura l'indice di adattamento del polinomio.
Quanto più piccola è la norma del residuo, meglio il polinomio si adatterà ai dati.
per misurare la bontà di adattamento, però sarebbe meglio usare l'indice di adattamento, che esprime la misura in percentuale.
DEVIANZA DI X
\(dev(x) = \sum_{i=0}^0 (x_i - \overline{x})^2\)
- Poniamo A matrice dello spazio vettoriale di rango n+1
- Poniamo b vettore delle ordinate dei dati
- Poniamo \(b^* = Ax^*\) vettore le cui componenti sono i valori del polinomio nei nodi
Se poniamo \(e = [1,1,\dots]^T varrano le proprietà:
- \(e^T r(x^*)=0\)
- \(\overline{y} = \overline{y}^* \)
- \(\overline{y} = \frac{1}{m+1} \sum_{i=0}^m y_i\) media valori reali
- \(\overline{y} = \frac{1}{m+1} \sum_{i=0}^m b_i^* = \frac{1}{m+1} \sum_{i=0}^m p^*_n (x_i)\) media valori teorici
PROPOSIZIONE
La devianza del vettore delle ordinate dei dati è riscrivibile come la somma delle componenti indipendenti della variabilità intrinseca al modello e quella residuale
\(dev(b) = dev(b^*) + dev\left(r(x^*)\right)\)
Rapporto tra devianza del polinomio di migliore approssimazione e quella totale si chiama indice di determinazione
\(R^2 = \frac{dev(b^*)}{dev(b)} = 1 - \frac{dev(r(x^*))}{dev(b)}\)
si deducono le proprietà:
- \( 0 \le R^2 \le 1\), cioè R esprime la bontà d'adattamento del modello rispetto i dati empirici
- \(R^2 = 1 - \frac{||r||^2_2}{dev(y)}\) , relazione tra indice e norma 2 del residuo