Please enable JavaScript.
Coggle requires JavaScript to display documents.
Tilastolliset ääriarvot - Coggle Diagram
Tilastolliset ääriarvot
Taustatietoa
tilastolliset ääriarvot ovat sellaisia havaintoja, jotka poikkeavat merkittävästi muista jakauman arvoista
syynä ääriarvoille voi olla esimerkiksi tekninen virhe, virheellinen litteraatio tai koehenkilön syystä tai toisesta johtuva kyvyttömyys suorittaa pyydettyä toimenpidettä (huono olo, tylsyys, huonot ohjeet tms.)
yksi tapa vähentää ääriarvojen vaikutusta on käyttää pelkästään ei-parametrisia tilastollisia menetelmiä
usein kuitenkin melko epäkäytännöllisiä niiden heikkouden, sekä huonon saatavuuden ja ymmärrettävyyden takia
monesti ääriarvot poistetaan manuaalisesti, mikä kuitenkin altistaa virheelle tai aineiston vääristymiselle
-
otosjakauman ollessa tuntematon, tutkijat käyttävät usein heuristisia keinoja kuten määrittämällä oliko havainto enemmän kuin yhden keskihajonnan päässä keskiarvosta
tavoite:
1) määritellä tällä hetkellä saatavilla olevat keinot tunnistaa ääriarvot
2) käyttää simulaatioita selvittääkseen kuinka hyvin kukin metodi sopii psykofyysiseen kontekstiin
Eri metodit
SD:
xi on ääriarvo, jos se sijaitsee enemmän kuin lambda kertaa keskihajonta keskiarvosta
-
olettaa symmetriaa ja normaallisuutta, mitä psykometrinen data harvoin on
-
GMM:
xi on ääriarvo, jos se sijaitsee enemmän kuin lambda kertaa keskihajonta GMM pääkomponentin keskiarvosta
SD:n kanssa identtinen, mutta tämä sisältää sekundaarisen Gaussilaisen komponentin ääriarvojen kiinni saamikseksi
-
-
rSD:
sama kuin tavallinen SD, mutta toistetaan rekursiivisesti kunnes uusia ääriarvoja ei enää tunnisteta
-
-
IQR:
-
-
prctile:
-
-
-
-
jos lambda määritetään väärin, saattaa oikeaa dataa poistua tai ääriarvoja jäädä dataan
Tukey:
xi on ääriarvo jos se sijaitsee enemmän kuin lambda kertaa kvartaalivälin 25. tai 75. persentiilistä
-
yhdistettynä ala- ja yläkvartiilien 'aitoihin', jotka tarjoavat herkkyyttä epäsymmetrisyydelle
MADn:
xi on ääriarvo jos se sijaitsee kauempana mediaanista kuin lambda kertaa MAD jokaisesta mediaanin pisteestä
käyttää kvartaalivälin sijaan mediaanin absoluuttista etäisyyttä (MAD) ja on siten myös luotettavampi sillä sen breakdown point on 50 % kun IQR:n on 25 %
-
Sn:
xi on ääriarvo, jos mediaanietäisyys xi:n ja kaikkien muiden pisteiden välillä on suurempi kuin lambda kertaa MAD etäisyys kaikista muista pisteistä
-
eroaa MAD:ista siten että Sn sisältää kaikkien havaintopisteiden tyypillisen etäisyyden sen sijaan että mittaisi kuinka kaukana kukin piste on jostain keskiarvosta
-
-
Metodien vertailua
jokaista käytettiin satunnaisessa havaintojoukossa, jotka etukäteen määritettiin hyviksi tai huonoiksi
poikkeavien havaintojen (non-comp.) psykometriset funktiot osoittivat tyypillisesti kohonneita kynnysarvoja, jyrkkiä rinteitä ja virhepiikkejä (eli enemmän ääriarvoja)
noudattavien havaintojen (compliant) funktiot sisälsi matalemmat kynnysarvot jne. ja koostui "hyvästä" datasta
simulaatioita toistettiin eri kokoisilla otoksilla (n=8, 32, 128) ja poikkeavien havaintojen määrällä (0-50%)
eli esim, jos n = 32 niin poik.hav = 0-16
-
-
Tulokset ja Pohdinta
-
-
-
MAD ja Sn yhtä herkkiä kuin muut kun poikkeavia havaintoja oli vähemmän kuin 20 %, mutta olivat luotettavampia kuin iqr-keinot
-
-
-
-
pienen otoksen kanssa prctile ja rSD toimimattomia, kun taas MADn ja Sn melko luotettavia
-
Päätelmät
Sn on paras, mutta muut heuristiset eivät usein olleet sitä parempia
-
-
ääriarvojen poistaminen ei ole hyvä keino toimia sillä todellinen ja mielenkiintoinen data saattaa jäädä huomaamatta -> väärät johtopäätökset
-
-