minimi quadrati

Rapporto tra devianza del polinomio di migliore approssimazione e quella totale si chiama indice di determinazione

$R^2 = \frac{dev(b^*)}{dev(b)} = 1 - \frac{dev(r(x^*))}{dev(b)}$

Premessa

Data A matrice composta da $V_i$ vettori

Il sottospazio V è un immagine di A
Il sottospazio ortogonale $V^{\perp}$ è il nucleo della matrice trasposta di A

Dato V spazio vettoriale e una sua base

Sappiamo che

l'insieme degli attributi è dato dalla legge di combinazione $\oplus$ tra lo spazio e il suo ortogonale.
ricordiamo che la somma della della cardinalità dello spazio e del suo ortogonale, ha come risultato la dimensione dell'insieme considerato.

Concludiamo che

l'insieme considerato è la somma esclusiva tra l'immagine della matrice e il nucleo della trasposta
la cardinalità dell'insieme considerato è la dimensione dell'immagine di A è la dimensione del nucleo della trasposta

Vettore residuo

Sistema lineare di m equazioni in n incognite.

Per vettore residuo s'intende il vettore dato dall'equazione

$r(x) = b-Ax$

x è soluzione del sistema solo il vettore residuo e la sua relativa norma sono nulli.

Equazioni a disposizione maggiore delle incognite? Sistema sovradimensionato
$\Downarrow$
$rank(A) \neq rank([A,b])\implies $ sistema non compatibile

Potrà mai esistere un vettore $x^*$ che minimizza la norma del vettore residuo?

problema lineare

Dobbiamo determinare $x^* \ni' ||b-Ax^*||_2 = \underset{x \in \mathbb{R}^n}{min} ||b-Ax||_2$

SISTEMA NORMALE
Se A ha il massimo rango disponibile, ci sara un'unica soluzione $x^*$, ottenibile grazie al sistema

$A^TAx = A^Tb$

OSSERVAZIONE
matrice dei coefficienti $A^TA$ simmetrica e positiva
CONSEGUENZE

$det(A^TA \neq 0 \implies$ unica soluzione
$A^T A$ compatibile con fatt. Cholesky

DIMOSTRAZIONE

Dato che l'insieme delle m equazioni è uguale alla somma esclusiva tra l'immagine di A e il nucleo della sua trasposta, si può effettuare la decomposizione di b

$b = b_1+b_2 \ \big{|} \ b_1 \in Im(A), b_2 \in ker(A^T)$

Considero il vettore residuo $r(x) = b-Ax = b_1 - Ax + b_2$, ponendo $y = b_1 -Ax$. Osserviamo che y fa parte dell'immagine di A.
Calcolando la norma 2 del vettore residuo
$||r(x))||_2^2 = r^T \cdot r = ||y||_2^2 + ||b_2||_2^2$
minimo valore ottenibile in corrispondenza dproprio di $x^*$

Limite dell'interpolazione polinomiale

Dati n+1 piani del paino, con i nodi $x_i$ distinti. Sappiamo che esiste / è unico il polinomio che interpola i dati.

Esso, però , può non è appropriato, in base ad alcune condizioni

numero dati elevato

ordinate $y_i$ affette da errore

oscillazioni tra un nodo e l'altro, in particolare verso gli estremi (fenomeno di Runge)
spesso è mal condizionato

soprattutto quando è per via empirica.

Non ci possiamo aspettare che polinomio passi esattamente per quei punti

Polinomio di migliore approssimazione

m+1 punti del piano con $x_i$ nodi distinti.
$\mathcal{P}_n$ spazio vettoriale dei polinomi, $p_n \in \mathcal{P}_n$ base delle potenze.
Imponendo le condizioni di interpolazione (supponendo incognite < punti) otteniamo il sistema

MATRICE DI VANDERMONDE

matrice (m+1) x (n+1). Si dimostra che se i nodi sono distinti, allora $rank(A) = n+1 $.

La soluzione dalla minimizzazione della norma 2 del residuo $||b-Ax||_2$ si chiama polinomio di migliore approssimazione nel senso dei minimi quadrati

La soluzione, in questo caso è $\sqrt{\sum_{i=0}^m \left(p_n(x_i)-y_i\right)^2}$.

Se ci aggiungiamo l'inverso della differenza tra il numero di dati e il numero di coefficienti, abbiamo trovato lo scarto quadratico medio / deviazione standard

$\sqrt{\frac{1}{m-n}\sum_{i=0}^m \left(p_n(x_i)-y_i\right)^2}$

RETTA DI REGRESSIONE LINEARE

Retta che meglio approssima, nel senso dei minimi, i dati $(x_i,y_i)$ prende il nome di retta di regressione lineare

Essendo il polinomio $p_1(x) = a_0x + a_1$, possiamo ottenere un sistema in m+1 equazioni nelle due incognite, imponendo le condizioni di interpolazione.

sistema normale $A^T Ax = A^Tb$ sarà

per determinare le soluzioni del sistema dobbiamo itrodurre le quantità:

valor medio di $x_i$ $ \overline{x} = \frac{1}{m+1} \sum_{i=0}{m} x_i$
valor medio di $y_i$ $ \overline{y} = \frac{1}{m+1} \sum_{i=0}{m} y_i$
varianza di x $\frac{1}{m+1} \sum_{i=0}{m} (x_i- \overline{x})^2$
covarianza $\frac{1}{m+1} \sum_{i=0}{m} (x_i- \overline{x})(y_i- \overline{y}$

indice di determinazione

norma misura l'indice di adattamento del polinomio.

Quanto più piccola è la norma del residuo, meglio il polinomio si adatterà ai dati.

per misurare la bontà di adattamento, però sarebbe meglio usare l'indice di adattamento, che esprime la misura in percentuale.

DEVIANZA DI X

$dev(x) = \sum_{i=0}^0 (x_i - \overline{x})^2$

Poniamo A matrice dello spazio vettoriale di rango n+1
Poniamo b vettore delle ordinate dei dati
Poniamo $b^* = Ax^*$ vettore le cui componenti sono i valori del polinomio nei nodi

Se poniamo \(e = [1,1,\dots]^T varrano le proprietà:

$e^T r(x^*)=0$
$\overline{y} = \overline{y}^* $
- $\overline{y} = \frac{1}{m+1} \sum_{i=0}^m y_i$ media valori reali
- $\overline{y} = \frac{1}{m+1} \sum_{i=0}^m b_i^* = \frac{1}{m+1} \sum_{i=0}^m p^*_n (x_i)$ media valori teorici

PROPOSIZIONE

La devianza del vettore delle ordinate dei dati è riscrivibile come la somma delle componenti indipendenti della variabilità intrinseca al modello e quella residuale

$dev(b) = dev(b^*) + dev\left(r(x^*)\right)$

Rapporto tra devianza del polinomio di migliore approssimazione e quella totale si chiama indice di determinazione

$R^2 = \frac{dev(b^*)}{dev(b)} = 1 - \frac{dev(r(x^*))}{dev(b)}$

si deducono le proprietà:

$ 0 \le R^2 \le 1$, cioè R esprime la bontà d'adattamento del modello rispetto i dati empirici
$R^2 = 1 - \frac{||r||^2_2}{dev(y)}$ , relazione tra indice e norma 2 del residuo