Please enable JavaScript.
Coggle requires JavaScript to display documents.
Lez. 43 - Regressione multipla, introduzione e coefficienti - Coggle…
Lez. 43 - Regressione multipla, introduzione e coefficienti
Diverse variabili indipendenti
Da dove nasce la regressione multipla
Nella regressione semplice (o bivariata) l'obiettivo è stimare e descrivere il legame tra una sola variabile indipendente e una variabile dipendente, capendo se esiste una relazione significativa, quale sia la sua direzione e intensità, e quanto sia affidabile grazie agli strumenti dell'inferenza statistica
La regressione multipla nasce dall'esigenza di descrivere fenomeni che nella realtà non dipendono da un solo fattore, ma dall'interazione di più variabili contemporaneamente
Tutte le variabili indipendenti ritenute rilevanti vengono inserite nello stesso modello, così da stimare il contributo specifico di ciascuna nel predire la variabile dipendente
Questo consente di valutare l'effetto di ciascun predittore controllando al tempo stesso l'influenza degli altri, ottenendo una rappresentazione più realistica della complessità dei dati
Esempio concreto: l'attenzione sostenuta di uno studente durante una lezione potrebbe dipendere dall'ora del giorno, dalle ore di sonno, dalla distanza dal pranzo, dal lavoro che svolge, dalla vicinanza di altri esami, e così via — nessuno di questi fattori da solo basta a spiegare il fenomeno
I tre tipi di regressione: come si distinguono
La regressione semplice (bivariata) considera una sola variabile indipendente e una dipendente
La regressione multipla include più variabili indipendenti che concorrono a spiegare la stessa variabile dipendente
La regressione multivariata rappresenta un ulteriore livello di complessità, perché permette di analizzare contemporaneamente più variabili dipendenti da una o più indipendenti
Perché non basta fare più regressioni semplici separate
Se ci si limita a condurre più regressioni semplici o a osservare le correlazioni bivariate, si ottiene una visione frammentata e parziale: ciascun modello considera solo una variabile indipendente alla volta
In questo modo viene trascurato il contributo simultaneo e combinato delle diverse variabili predittive, che invece la regressione multipla riesce ad analizzare e quantificare in modo appropriato
Come cambia la rappresentazione grafica
Con una sola variabile indipendente, lo scatterplot mostra punti su un piano bidimensionale e la relazione è rappresentata da una retta
Con due variabili indipendenti lo spazio si estende in tre dimensioni e la retta si trasforma in un piano
Con più variabili si entra in spazi di dimensioni superiori, non più rappresentabili visivamente
Equazione di regressione
La struttura dell'equazione di regressione multipla
L'equazione di regressione multipla estende quella semplice: oltre all'intercetta (a), include un coefficiente per ciascuna variabile indipendente presente nel modello
Ogni coefficiente indica quanto varia la variabile dipendente per ogni unità di variazione del predittore corrispondente, mantenendo costanti tutti gli altri predittori
Questi coefficienti vengono chiamati effetti parziali o coefficienti parziali, proprio perché riflettono l'influenza di un singolo predittore sulla variabile dipendente al netto degli altri fattori inclusi nel modello
Come si legge e come si interpreta un coefficiente parziale
Il coefficiente b_yx.w si legge come: "la predizione di y basandosi su x in un modello in cui è incluso anche w"
Si interpreta come: il cambiamento atteso nella variabile dipendente y per ogni unità in più della variabile indipendente x, tenendo costanti le altre variabili indipendenti
Questo concetto può essere espresso in diversi modi equivalenti, tutti corretti:
l'effetto di x su y è calcolato al netto dell'effetto di w
l'effetto di x su y è calcolato come se w fosse costante
l'effetto di x su y è calcolato dopo aver rimosso l'effetto di w
l'effetto di x su y è calcolato dopo aver parzializzato w
l'effetto di x su y è calcolato dopo aver covariato w
Applicazione all'esempio concreto (studenti e voto di Psicometria)
Nel modello con due predittori — ore di studio e numero di appelli sostenuti — ciascun coefficiente ha un significato geometrico preciso
Il coefficiente associato alle ore di studio rappresenta il coefficiente angolare del piano di regressione rispetto all'asse delle ore di studio
Il coefficiente associato agli appelli rappresenta il coefficiente angolare del piano rispetto all'asse degli appelli
Ogni coefficiente descrive quindi l'inclinazione del piano in una direzione specifica, isolando il contributo di quella variabile
Calcolo dei coefficienti
I coefficienti non standardizzati e standardizzati (Beta)
I coefficienti di regressione multipla possono essere espressi in due forme: non standardizzata e standardizzata
I coefficienti non standardizzati (b) indicano il cambiamento nella variabile dipendente per ogni unità di variazione del predittore, nelle unità di misura originali delle variabili
I coefficienti standardizzati Beta (β) si ottengono eseguendo il modello dopo aver trasformato tutte le variabili in punteggi z (standardizzazione rispetto a media e deviazione standard)
Ogni coefficiente Beta indica quanto varia, in deviazioni standard, la variabile dipendente quando la variabile indipendente considerata aumenta di una deviazione standard, mantenendo costanti gli altri predittori
Il grande vantaggio è che i Beta rendono confrontabili tra loro i diversi predittori, indipendentemente dalle unità di misura originali: si può così capire quale predittore ha l'impatto relativo maggiore
L'intercetta nella regressione multipla
L'intercetta mantiene lo stesso significato concettuale della regressione semplice, ma si estende al contesto multiplo
Nella regressione semplice indica il punto in cui la retta incontra l'asse y quando il predittore vale zero
Nella regressione multipla rappresenta il valore atteso della variabile dipendente quando tutte le variabili indipendenti assumono simultaneamente il valore zero — ovvero il punto di partenza della superficie di regressione
Come si calcolano i coefficienti
Il calcolo si basa sempre sulla stima dei minimi quadrati: si trovano i coefficienti che minimizzano la somma dei quadrati degli scostamenti tra i valori osservati e quelli previsti dal modello
Dal punto di vista algebrico la derivazione è complessa, soprattutto con più predittori, a causa delle interazioni e delle covarianze tra le variabili indipendenti
Per semplificare l'interpretazione si parte spesso dai coefficienti standardizzati
Esiste un'analogia utile con la correlazione semiparziale: così come quest'ultima misura l'influenza unica di un predittore sulla variabile dipendente controllando gli altri, anche i Beta indicano l'effetto parziale di ciascun predittore all'interno del modello multiplo
Proporzione di varianza spiegata
Il coefficiente di determinazione R²
L'R² (coefficiente di determinazione), detto anche proporzione di varianza spiegata, indica la quota di variabilità della variabile dipendente che viene spiegata complessivamente da tutti i predittori inclusi nel modello
In altre parole, indica quanto il modello è efficace nel riprodurre i dati osservati
Il suo complementare, 1 − R², detto coefficiente di alienazione, misura invece la proporzione di variabilità che il modello non riesce a spiegare, ovvero ciò che rimane attribuibile a fattori non inclusi nel modello o al caso
Come si scompone R² nella regressione multipla
Nella regressione multipla il significato di R² è analogo a quello della regressione semplice, ma la varianza spiegata deriva dalla somma di tutte le componenti di varianza condivise tra le variabili indipendenti e la dipendente
Queste componenti possono essere rappresentate concettualmente come aree di sovrapposizione:
a: varianza spiegata esclusivamente dal predittore X
b: varianza spiegata esclusivamente dal predittore W (contributo unico della nuova variabile aggiunta)
c: varianza spiegata da entrambi i predittori in comune (sovrapposizione o condivisione di effetto tra i predittori)
e: varianza della dipendente non spiegata da nessun predittore
L'R² complessivo è dato dalla somma (a + b + c) divisa per la varianza totale della dipendente (a + b + c + e)
Il coefficiente di correlazione semiparziale al quadrato
Il coefficiente semiparziale al quadrato misura la quota di variabilità della variabile dipendente spiegata in modo esclusivo da una singola variabile indipendente, controllando l'effetto degli altri predittori
In termini matematici corrisponde a: a / (a + b + c + e)
Può essere interpretato come l'incremento di R² che si ottiene aggiungendo quella specifica variabile indipendente al modello
Attenzione: i coefficienti semiparziali non vanno sommati
Un errore concettuale frequente consiste nel sommare i coefficienti semiparziali tra loro per stimare la varianza totale spiegata
Questa procedura è concettualmente errata perché trascura la componente di varianza condivisa tra i predittori (la componente c), portando a una stima incompleta o fuorviante dell'effetto complessivo
Una strategia corretta per comprendere il contributo relativo di un predittore consiste nel partire da una regressione bivariata (che stima la componente a + c) e poi aggiungere il contributo di b — ma questa strategia è applicabile solo con due predittori e rappresenta un caso limite