Please enable JavaScript.
Coggle requires JavaScript to display documents.
lez. 36 - La regressione semplice: teoria - Coggle Diagram
lez. 36 - La regressione semplice: teoria
Introduzione alla regressione
quando parliamo di relazione tra due variabili
intendiamo che al modificarsi di una, ci sono variazioni anche nell'altra
con correlazione, entriamo in una fase più analitica
riconosciamo che le due variabili sono collegate
misurare la forza e la direzione di questa relazione
con il coefficiente di correlazione
possiamo esprimere numericamente quanto la variazione di una variabile sia associata alla variazione dell’altra
questo passaggio ci consente una valutazione quantitativa
Con la predizione possiamo utilizzare l’informazione di una per prevedere il valore dell’altra
si parla di
variabile dipendente (VD)
La variabile dipendente
rappresenta il fenomeno che vogliamo spiegare o prevedere
variabile indipendente (VI)
è il fattore
che noi siamo in grado di influenzare
Se conosciamo il valore della VI, possiamo stimare il probabile valore della VD
è l'evoluzione di questo percorso
definisce una relazione
matematica specifica tra le variabili
unisce la capacità descrittiva della correlazione a
un modello matematico che consente previsioni concrete
fornendo uno strumento potente sia per la ricerca
scientifica sia per le applicazioni pratiche.
tecnica che permette di modellare la relazione tra due o più variabili, con l'obiettivo di
spiegare o prevedere i valori di una variabile a partire da quelli di una o più altre variabili.
quando si parla di regressione semplice o regressione bivariata, ci si riferisce a un modello che coinvolge solo due variabili:
variabile indipendente (VI)
variabile dipendente (VD)
regressione semplice si differenzia dalla regressione multipla, nella quale il modello considera contemporaneamente più variabili indipendenti
ESEMPIO
dati fittizi ispirati a quelli riportati da Gallucci, Berlingeri e Leone nel loro testo del 2017, intitolato Modelli statistici per le scienze sociali (Pearson Education)
due variabili molto semplici e intuitive:
variabile indipendente rappresenta il numero di birre consumate
la variabile dipendente corrisponde al numero di sorrisi osservati
L'idea
esplorare se e in che misura la quantità di birre bevute possa influenzare o prevedere il numero di sorrisi, assumendo che un maggiore consumo possa portare a un aumento dell’allegria espressa con il sorriso.
regressione è formata da
dove ŷi è la stima del valore atteso.
a è definita come intercetta, o coefficiente costante, ed è il valore che assume la variabile dipendente (VD) y quando la variabile indipendente (VI) x è fissata al valore 0.
ŷi = a + byx · xi
byx è il coefficiente angolare (o di regressione) e ci dice di quanto varia la VD y al variare di una unità della VI
Intercetta e pendenza
Intercetta (coefficiente costante, a)
stima il valore della VD quando la VI = 0
Significato
rappresenta il valore previsto della variabile dipendente
è espressa nella stessa unità di misura della VD
non misura la forza della relazione tra le variabili
Carattere condizionato
dipende dal punto zero scelto per la scala della VI
se cambia la scala della VI, cambia anche l’intercetta
la relazione complessiva tra le variabili rimane invariata
Proprietà di varianza di scala
aggiungere una costante alla VI modifica l’intercetta
la retta intercetta l’asse della VD in un punto diverso
la pendenza non cambia
Interpretazione matematica
equazione: y = a + bx
se X = 0, allora bx = 0
quindi y = a
Pendenza (coefficiente di regressione, b)
indica quanto cambia la VD per un aumento di una unità della VI
Significato
misura la relazione quantitativa tra VI e VD
esprime una variazione media attesa della VD
non fornisce un valore assoluto della VD
Direzione della relazione
coefficiente positivo → all’aumentare della VI aumenta la VD
coefficiente negativo → all’aumentare della VI diminuisce la VD
ESEMPIO
VI = numero di birre bevute
VD = numero di sorrisi
il coefficiente indica quanti sorrisi cambiano per ogni birra in più
Interpretazione come effetto medio
descrive una tendenza generale
non rappresenta ogni singola osservazione
alcune osservazioni possono discostarsi dalla previsione
Unità di misura
è espresso come unità della VD per ogni unità della VI
esempio: centimetri per secondo
indica la variazione media della VD per un incremento unitario della VI
Carattere non condizionato
mantiene lo stesso significato in ogni punto della scala della VI
non dipende dal valore iniziale della VI
Invarianza di scala
aggiungere o sottrarre una costante alla VI non modifica il coefficiente
cambia l’intercetta ma non la pendenza
la pendenza dipende dalle variazioni relative tra le variabili
Possibili combinazioni tra le due
CASO 2
intercetta=0
coefficiente positivo
CASO 3
intercetta = 0
coefficiente = 0
CASO 1
intercetta positiva
coefficiente = 0
CASO 4
intercetta positiva
coefficiente positivo
Limiti del coefficiente di regressione
Confronto fra studi diversi
scale di misura diverse rendono difficile il confronto
un’unità della VI può avere significati differenti
i coefficienti non sono direttamente comparabili
Confronto fra relazioni diverse
esempio: stress-sorrisi vs stress-sonno
scale differenti influenzano il valore del coefficiente
il coefficiente non misura direttamente la forza della relazione
Soluzione
per confrontare relazioni diverse si utilizza il coefficiente Beta standardizzato.
Il coefficiente beta
Perché nasce il coefficiente β
Il coefficiente di regressione non standardizzato (b) non è sempre facile da interpretare
Le variabili possono essere misurate in unità poco intuitive (es. punteggi di questionari psicometrici)
"Un'unità di variazione" non ha sempre un significato pratico chiaro
Non è possibile confrontare direttamente studi diversi che usano scale differenti
Esempio: relazione stress→sorrisi vs. relazione stress→ore di sonno — le scale sono diverse, quindi i b non sono comparabili
La soluzione: standardizzare le variabili
Si trasformano sia la VI sia la VD in punteggi z (z-score)
Formula: z = (xi − x̄) / SDx
Si sottrae la media e si divide per la deviazione standard
Questo elimina l'influenza delle unità di misura originali
La stessa trasformazione viene applicata a entrambe le variabili (VI e VD)
Cosa si fa dopo la standardizzazione
Si esegue la regressione lineare sugli z-score invece che sui valori grezzi
Il coefficiente di regressione ottenuto da questa regressione è direttamente il coefficiente β (βyx)
βyx indica di quante deviazioni standard cambia in media la VD quando la VI aumenta di una deviazione standard
Proprietà del coefficiente
L'intercetta nel modello standardizzato è sempre uguale a zero
Motivo: i dati sono centrati rispetto alla loro media, quindi quando la VI vale 0 (cioè è al suo valor medio), anche la VD prevista è al suo valor medio standardizzato, cioè 0
Quindi l'unico parametro rilevante nell'equazione standardizzata è proprio β
I risultati sono confrontabili tra studi diversi e tra variabili diverse all'interno dello stesso studio
Non dipendono più dalle unità originarie di misura
Relazione tra β e correlazione nella regressione semplice
Nella regressione semplice (una sola VI), il coefficiente β coincide esattamente con il coefficiente di correlazione r di Pearson tra VI e VD
Esempio dai dati birre–sorrisi: r = 0.898, β = 0.90 (coincidono)
Questa equivalenza vale solo nella regressione semplice, non in quella multipla
L'errore del modello
Il punto di partenza: la retta non è mai perfetta
La retta di regressione è una sintesi matematica della relazione tra VI e VD
Le osservazioni reali raramente cadono esattamente sulla retta
La distanza verticale tra ciascun punto osservato e il valore previsto dalla retta si chiama errore o residuo (ei)
Rappresenta la parte di variabilità della VD che il modello non riesce a spiegare
Può dipendere da fattori non inclusi nell'analisi, da variabilità casuale, da errori di misurazione
L'equazione completa del modello con l'errore
yi = a + byx · xi + ei
Il termine ei è proprio il residuo, cioè lo scarto tra valore osservato e valore previsto
Come si misura l'errore complessivo: la SQe
Si calcola la Somma dei Quadrati degli Errori (SQe)
Formula: SQe = Σ(yi − ŷi)²
Si eleva al quadrato ogni residuo per evitare che i segni si cancellino
Il valore di SQe da solo non è immediatamente interpretabile
Dipende dall'unità di misura della VD e dal numero di osservazioni
Per capire se il modello è utile, va confrontato con un errore di riferimento
L'errore di riferimento: la media come modello nullo
Se non si usa la regressione, la previsione migliore è semplicemente la media dei valori osservati della VD
L'errore associato a questo modello nullo si chiama Devianza totale di Y (SQy)
Formula: SQy = Σ(yi − ȳ)²
Misura la variabilità complessiva dei dati rispetto alla loro media
Quanto spiega il modello? La riduzione dell'errore
La bontà del modello di regressione si esprime come differenza tra SQy e SQe
(SQy − SQe) = quota di variabilità della VD spiegata dalla VI grazie alla regressione
Più questa differenza è grande, più il modello è utile rispetto al non usare nulla
Il coefficiente di determinazione R²
R² = (SQy − SQe) / SQy
Varia tra 0 e 1
R² vicino a 1 → il modello spiega gran parte della variabilità della VD
R² vicino a 0 → la VI fornisce poche informazioni utili per prevedere la VD
Viene definito "proporzione di varianza spiegata"
Rappresenta la varianza "condivisa" tra VI e VD
Il complemento (1 − R²) si chiama coefficiente di alienazione
È la quota di varianza che il modello non riesce a spiegare
Il Metodo dei Minimi Quadrati Ordinari (OLS)
Come si trovano i migliori coefficienti a e byx?
Si usa il metodo dei Minimi Quadrati Ordinari (Ordinary Least Squares, OLS)
Tra tutte le possibili rette, si sceglie quella che minimizza la SQe
Cioè quella che riduce al minimo la somma dei quadrati delle distanze verticali tra punti osservati e retta
Il coefficiente byx ottimale è dunque quello che rende SQe il più piccola possibile
È la base della maggior parte delle analisi di regressione lineare