Please enable JavaScript.
Coggle requires JavaScript to display documents.
TRATTAMENTI PRELIMINARI DEI DATI: NORMALITA’ E OUTLIER - Coggle Diagram
- TRATTAMENTI PRELIMINARI DEI DATI: NORMALITA’ E OUTLIER
La distribuzione normale
-
-
diverse distribuzioni normali due parametri: media e deviazione standard. Tutte le distribuzioni normali sono ricondotte ad un’unica distribuzione NORMALE STANDARDIZZATA, tramite procedure di calcolo dei punteggi standardizzati z. Questa distribuzione è nota e i suoi valori sono tabulati.
La curtosi è lo spessore delle code di distribuzione, il grado di appiattimento di una distribuzione. Curtosi negativa curva schiacciata, distribuzione platicurtica, positiva più appuntita, distribuzione leptocurtica.
Asimmetria negativa: valori alti maggior frequenza: implica che la media sarà inferiore rispetto alla mediana.
Asimmetria positiva: valori bassi hanno frequenza maggiore, la media sarà superiore alla mediana.
-
OUTLIER CASI ANOMALI
-
-
Whiker-and-box plot per individuare gli outlier inivariati, racchiudono le osservazioni che si posizionano attorno alla mediana in scatole, i casi che si trovano lontano dai bordi della scatola rappresentano gli outlier, lontano dal quartile superiore ed inferiore.
Correlazioni bivariate tra 2 variabili lo scatterplot può evidenziare i casi anomali casi isolati dal resto dei soggetti e la loro eliminazione produce un aumento della correlazione osservata.
A livello statistico i casi anomali sono individuati standardizzando i punteggi relativi alla variabile trasformandoli in punti z e calcolando la distribuzione delle frequenze. Vanno considerati valori anomali quei punteggi che corrispondono a punti z maggiori di 3 in valore assoluto.
I valori anomali possono influenzare: media, deviazione standard e indici di correlazione tra le variabili.
Se ci sono dubbi è sempre utile verificare come eliminare questi valori andranno a influenzare il risultato. Solitamente si elimina se produce variazioni considerevoli può eliminarli in maniera definitiva e citare questa situazione nell’articolo.
Se ci sono casi anomali che influenzano i risultati si utilizzano degli stimatori di parametri. La mediana è più affidabile rispetto alla media in questi casi. Utilizzare statistiche robuste come la media trimmed che viene calcolata eliminando il 5% dei casi con punteggi più alti e più bassi.