Please enable JavaScript.
Coggle requires JavaScript to display documents.
Lez. 42 - Altre correlazioni - Coggle Diagram
Lez. 42 - Altre correlazioni
Le diverse correlazioni
Cos'è la correlazione lineare e a cosa serve
La correlazione lineare è una misura statistica che quantifica la relazione tra due variabili quantitative, indicando se e quanto i cambiamenti in una variabile si associano a cambiamenti nell'altra
Un esempio classico è la relazione tra età e altezza nei bambini: all'aumentare dell'età, tende ad aumentare anche l'altezza
È fondamentale ricordare però che correlazione non significa causalità: il fatto che due variabili siano correlate non implica che una causi l'altra
Quando la correlazione non funziona o va usata con cautela
La correlazione non è sempre lineare: esistono relazioni tra variabili che seguono andamenti curvilinei o di altra forma, che un semplice coefficiente non riesce a descrivere adeguatamente
La correlazione è pensata per variabili quantitative: con variabili categoriche non funziona correttamente, e al suo posto si usano analisi basate su statistiche di frequenza
La correlazione può essere spuria, cioè apparire non perché le due variabili siano davvero legate, ma perché una terza variabile nascosta le influenza entrambe
Può anche verificarsi per puro caso, soprattutto quando si analizzano molti dati senza le dovute precauzioni statistiche
La correlazione di Pearson e la questione della normalità
È lo strumento più usato per variabili quantitative continue, e misura la forza e la direzione della relazione lineare
Se la relazione non è lineare, anche con dati perfettamente normali, Pearson rischia di sottostimare o distorcere l'associazione reale
Quando però si vuole testare la significatività statistica, si usa il test t di Student, che richiede l'assunzione di normalità bivariata
Se questa condizione non è rispettata, il coefficiente si può comunque calcolare, ma la significatività è meno affidabile nei campioni piccoli
Con campioni grandi, il Teorema del Limite Centrale riduce l'impatto della non normalità, rendendo i risultati comunque interpretabili
La normalità delle variabili non è un requisito obbligatorio per il calcolo del coefficiente: ciò che conta davvero è che la relazione tra le variabili sia di tipo lineare
Casi in cui Pearson non è lo strumento giusto
Relazioni monotone: le variabili si muovono nella stessa direzione o in direzioni opposte, ma non lungo una retta → in questo caso è più adeguata la correlazione di Spearman
Distribuzione bimodale: i dati tendono a raggrupparsi in due insiemi distinti → il coefficiente rischia di nascondere la reale relazione, e l'interpretazione deve essere cauta
Panoramica dei tipi di correlazione e quando usarli
In statistica i dati non sempre rispettano gli stessi presupposti: possono avere distribuzioni non normali, essere su scala ordinale, oppure essere variabili dicotomiche — in tutti questi casi si usano coefficienti specifici
Pearson: entrambe le variabili continue → misura la relazione lineare → esempio: altezza e peso
Spearman: variabili ordinali o continue con relazione monotona → misura la relazione monotona → esempio: questionario QoL e test cognitivi
Punto-biseriale: una variabile dicotomica e una continua → misura quanto la variabile continua differisce tra i due gruppi → esempio: sesso e punteggio a un test cognitivo
Phi (Φ): entrambe le variabili dicotomiche → misura la correlazione tra due variabili a due valori → esempio: presenza/assenza di sintomo e esito positivo/negativo di un test
ICC: misure ripetute sulla stessa unità → valuta la consistenza o affidabilità tra osservazioni multiple → esempio: due psicologi che valutano lo stesso comportamento
Correlazione di Spearman
Cos'è e come funziona
Il coefficiente di correlazione a ranghi di Spearman (simbolo: ρ, rho) valuta la relazione tra due variabili non sui valori assoluti, ma sull'ordinamento che questi assumono
A differenza di Pearson, che cattura relazioni lineari, Spearman coglie legami monotoni: situazioni in cui all'aumentare di una variabile corrisponde sempre un aumento o una diminuzione dell'altra, indipendentemente dalla forma della curva
È particolarmente utile quando i dati violano la normalità o quando si lavora con scale ordinali
Quando usare Spearman invece di Pearson
Quando i dati presentano una distribuzione fortemente non normale, con asimmetrie marcate, code pronunciate o altre deviazioni dalla gaussiana
Quando la relazione non è lineare ma si sospetta comunque un andamento monotono
Quando almeno una delle variabili è misurata su scala ordinale, cioè basata su ranghi o classificazioni piuttosto che su misure quantitative continue
Come si calcola
Formalmente, Spearman è una variante di Pearson applicata non ai valori grezzi, ma ai ranghi delle osservazioni, riducendo così l'influenza di distribuzioni anomale e valori estremi
In alternativa, esiste una formula che calcola il coefficiente a partire dalle differenze tra i ranghi (Di) assegnati alle due variabili per ogni osservazione, misurando direttamente quanto i due ordinamenti coincidono o divergono
Il test di significatività
Anche Spearman può essere sottoposto a test inferenziale per verificare se la correlazione è diversa da zero nella popolazione
Si usa la statistica t, esattamente come per Pearson: si confronta il valore con la distribuzione della t di Student e si decide se rifiutare l'ipotesi nulla di assenza di correlazione
L'alternativa: Kendall's tau (τ)
È un'altra alternativa per variabili ordinali, basata sulle concordanze e discordanze tra coppie di osservazioni
È particolarmente robusta nei campioni di piccole dimensioni: da preferire a Spearman quando n < 10
Correlazione punto biseriale
Cos'è e quando si usa
La correlazione punto-biseriale (simbolo: rpb) è il coefficiente da usare quando una delle due variabili è dicotomica, cioè assume soltanto due valori possibili
La dicotomia può essere naturale: il genere biologico, l'esito vero/falso di un test
Oppure può essere artificiale: si prende una variabile continua e la si divide in due categorie
Questa operazione non è consigliabile, perché comporta una perdita di informazione e riduce la potenza statistica
Quando si procede comunque, la nuova variabile viene interpretata come se riflettesse un continuum sottostante, di cui la divisione in due gruppi è solo una semplificazione
Come si calcola
La formula si basa sulla differenza tra le medie dei due gruppi (M₁ e M₀), pesata dalla deviazione standard totale della variabile continua e dalla distribuzione dei casi nei due gruppi (n₁ e n₀)
In jamovi si sfrutta direttamente la correlazione di Pearson, trattando la variabile dicotomica come numerica, ma solo se codificata con i valori 0 e 1
Se la variabile è codificata con etichette testuali, va ricodificata prima di procedere
La direzione della correlazione
Il segno del coefficiente dipende da quale categoria viene codificata come 1 e quale come 0
Se il gruppo con la media più alta sulla variabile continua è codificato come 1, la correlazione sarà positiva
Se quel gruppo è codificato come 0, la correlazione sarà negativa
In sintesi: M₁ > M₀ → rpb positivo; M₁ < M₀ → rpb negativo
Coefficiente phi
Cos'è e quando si usa
Il coefficiente phi è l'indice da usare quando entrambe le variabili sono dicotomiche, cioè assumono solo due valori ciascuna
Si basa sulle tabelle di contingenza 2×2, che organizzano le frequenze congiunte delle due variabili
Non è un test inferenziale, ma un indice di effetto: non verifica se l'associazione esiste, ma indica quanto è forte
Si affianca al chi-quadrato, che invece verifica la significatività statistica: phi e chi-quadrato forniscono informazioni complementari
Permette di confrontare l'intensità del legame tra diverse coppie di variabili dicotomiche
I tipi di associazione nelle tabelle 2×2
Associazione positiva: la maggior parte dei dati si concentra sulle celle della diagonale principale (combinazioni 0-0 e 1-1) → un valore alto in una variabile tende a corrispondere a un valore alto nell'altra
Associazione negativa: la maggior parte dei dati si trova nelle celle della diagonale opposta (combinazioni 0-1 e 1-0) → un valore alto in una variabile tende a corrispondere a un valore basso nell'altra
Come si calcola
La formula considera le frequenze delle quattro celle (A, B, C, D) della tabella 2×2: misura la differenza tra il prodotto delle celle sulla diagonale principale (A×D) e quello sulla diagonale opposta (B×C), normalizzata rispetto alle somme marginali
Questa normalizzazione produce un indice standardizzato che varia tra -1 e +1, rappresentando intensità e direzione dell'associazione
In alternativa, phi può essere ricavato anche dal valore del chi-quadrato, stabilendo un collegamento diretto tra test inferenziale e misura dell'effetto
Mentre il chi-quadrato verifica l'esistenza dell'associazione, phi ne misura la forza: quantifica quanto le osservazioni sono concentrate lungo le diagonali rispetto a quanto ci si aspetterebbe per caso
Come interpretare i valori di phi
φ ≈ 0.10 → effetto piccolo
φ ≈ 0.30 → effetto medio
φ ≈ 0.50 → effetto grande