Please enable JavaScript.
Coggle requires JavaScript to display documents.
Lez. 45 - Gli assunti della regressione e del modello lineare generale -…
Lez. 45 - Gli assunti della regressione e del modello lineare generale
Introduzione
Il modello lineare generale (GLM): cos'è e cosa accomuna
Il modello lineare generale (GLM) rappresenta la struttura statistica di base che accomuna molte procedure di analisi apparentemente diverse tra loro, dalla regressione all'analisi della varianza
Tutte queste tecniche condividono la stessa logica matematica: la scomposizione della varianza e la stima dei parametri tramite il metodo dei minimi quadrati
La regressione semplice, la regressione multipla e la regressione multivariata non sono metodi isolati, ma varianti dello stesso modello
Lo stesso vale per l'ANOVA nelle sue diverse forme: a una via, fattoriale, per misure ripetute, ANCOVA, mixed ANOVA, MANOVA — tutte si fondano sugli stessi principi del GLM
A cosa servono le assunzioni e perché vanno verificate
Le assunzioni del GLM hanno la funzione di garantire che le stime prodotte siano attendibili e valide
Ogni modello statistico si basa su un insieme limitato di osservazioni e cerca di generalizzare i risultati a una realtà più ampia
perché questa estrapolazione sia possibile, è necessario che i dati siano una rappresentazione adeguata del fenomeno e che il modello descriva fedelmente le relazioni tra le variabili
In assenza di queste condizioni, i risultati rischiano di essere distorti o non generalizzabili
È fondamentale distinguere tra il modello osservato — quello che costruiamo a partire dal campione
— e il modello generatore dei dati, ovvero la struttura sottostante che descrive i legami reali tra le variabili nella popolazione
Verificare le assunzioni significa capire se le condizioni necessarie perché le stime siano corrette e interpretabili sono effettivamente rispettate
I dati mancanti: non un assunto formale, ma un problema reale
I dati mancanti non rientrano formalmente tra le assunzioni del GLM, ma rappresentano un aspetto cruciale da considerare in qualunque ricerca
Negli studi sperimentali, dove le condizioni sono rigidamente controllate, ci si aspetta di lavorare con dataset quasi completi
Negli studi sociali o psicologici invece è molto più frequente che i partecipanti lascino in bianco alcune risposte, magari perché la domanda è complessa, poco chiara o percepita come scomoda
In questi casi il dato mancante non è mai neutrale: può avere un significato importante legato al comportamento stesso del rispondente, e il modo in cui viene gestito può influenzare in maniera sostanziale le conclusioni dell'analisi
Residui
Cosa sono i residui e cosa rappresentano
La retta di regressione è una sintesi matematica della relazione tra variabile indipendente e dipendente, ma le osservazioni raramente si collocano esattamente sulla retta
Le deviazioni dei punti osservati rispetto ai valori previsti dal modello si chiamano errori o residui
Rappresentano la parte di variabilità della variabile dipendente che il modello non riesce a spiegare, e possono dipendere da fattori non inclusi nell'analisi, da variabilità casuale o da errori di misurazione
L'R² misura la proporzione di varianza della variabile dipendente spiegata dal modello: vicino a 1 indica un modello molto efficace, vicino a 0 indica che il predittore fornisce poche informazioni utili
il suo complemento (1 − R²), detto coefficiente di alienazione, rappresenta la quota di varianza non spiegata
Indipendenza dei residui: cos'è e quando viene violata
L'indipendenza dei residui è un'assunzione fondamentale del GLM: se i punteggi della variabile dipendente sono indipendenti tra loro, lo saranno anche i residui derivati da essi
Significa che l'errore di stima di un soggetto non deve essere influenzato dall'errore di stima di un altro soggetto
Questa condizione è essenziale per garantire che le stime dei coefficienti siano corrette e che le statistiche inferenziali (t e F) abbiano un'interpretazione valida
L'assunzione viene violata nei disegni a misure ripetute, in cui lo stesso soggetto fornisce più punteggi in condizioni diverse, e negli studi longitudinali, in cui gli stessi partecipanti vengono misurati più volte nel tempo
Per gestire correttamente queste situazioni si adottano approcci specifici come i disegni a misure ripetute o si ricorre a modelli multilivello (modelli lineari misti), che tengono conto della struttura gerarchica dei dati
Normalità dei residui: cosa significa davvero
La normalità dei residui è uno degli aspetti più cruciali del GLM, anche se spesso viene confusa con la normalità delle variabili osservate — ma sono due cose diverse
L'idea fondamentale è che, se il modello è ben specificato, ciò che rimane nei residui deve rappresentare solo rumore casuale, privo di schemi sistematici: i residui dovrebbero distribuirsi in modo casuale intorno allo zero
Per verificare questa condizione si utilizzano i Q-Q plot (quantile-quantile): sull'asse X vengono riportati i quantili teorici della distribuzione normale, sull'asse Y i quantili osservati dei residui; se i punti aderiscono alla diagonale, l'assunzione è rispettata
Relazioni fra variabili
Gli outlier: cosa sono e come si distinguono
Un outlier in statistica è un'osservazione che si discosta in modo marcato dagli altri valori del dataset, apparendo anomala o aberrante
Specifiche del modello