Please enable JavaScript.
Coggle requires JavaScript to display documents.
H 16 - Betrouwbaaheid - Coggle Diagram
H 16 - Betrouwbaaheid
Betrouwbaarheid binnen klassieke testtheorie
Interne consistentie
Foutenbron: testconstructie
Maten
Split-halfbetrouwbaarheid: Spearman-Brown formule (test in 2 delen --> BH voll test > BH beide helften)
Dichotome items: Kuder-Richardson 20
Likertshalen: Cronbach's alfa (som itemvarianties/testvariantie - hvh hangen items onderling samen? Zegt niks over of je wel maar 1 dimensie meet, enkel mate v samenhang)
Verhogen door meer (goede) items toe te voegen
= 1 afname, samenhang tss items binnen schaal - evalueren homogeniteit (woordkennis heeft hoge homogeniteit nodig vs IQ lager)
InterbeoordelaarsBH :male-scientist::skin-tone-2: :male-scientist::skin-tone-4:
Foutenbron: scoring en interpretatie
Maten: Cohen's kappa, Pearsoncorrelatie, intraklasse correlatie
= overeenkomst tss beoordeelaars van zelfde antwoord
Parallelle vormen/ Alternatieve vormen BH
Foutenbron: testconstructie en testafname
Maat: Pearsoncorrelatie
= 1 of 2 afnames met gelijkende testen
Parallell = zelfde gemiddelden, SD en corr met ware score; sterkst gelijkend met andere test
Alternatieve vorm = enkel gelijk qua inhoud en itemmoeilijkheid
BH ifv aard vd test (welke test gebruiken?)
Trekken vs toestanden (bv PH, IQ vs gemoed, laatste moet lage test-hertestBH hebben)
Snelheids- vs krachttests (power) (bij snelheidstest zoals P-body intelligentietest, geen interne consistentie te berekenen!, nt iedereen lost alle items op)
Homogeniteit vs heterogeniteit test (bv woordkennis vs IQ-test)
Criteriumbepaalde tests (bv cut-off bij geneeskunde-ingangsexamen)
Test-hertestbetrouwbaarheid
= 2 afnames, zelfde persoon, afhv lengte testinterval (wnr te lang test je gn BH meer)
BH stabiele kenmerken testen
Foutenbron: testafname (welke fouten brengen we in kaart? Alles rond context, persoon, testleider)
Maat: Pearsoncorrelatie (stabiliteitscoëfficiënt)
BH kwesties
Variabiliteit BH => beperking v bereik zorgt voor lagere correlaties tov hele populatie --> BH test bekijken voor hele populatie, per categorie (beperkt bereik) zal je BH lager liggen
Regressie nh gemiddelde --> BI is beter dan 1 score, zal dichter bij ware score liggen --> schatten ware score zal bij erg hoge of lage scores meer nr gemiddelde liggen
Basisprincipes KTT
We weten T nooit, we kunnen E (SE, standaardmeetfout) wel schatten
Assumpties
Verwachte meetfout = 0 (gemiddelde vd residuen = 0)
Correlatie tss fouten = 0 (corr residuen = 0)
Correlatie tss ware score en fout = 0 (random toevalseffect; niet minder toevalsfouten bij hoge scores bv)
= geobserveerde testscore (X) = som ware testscore (T) + meetfout (E) --> lineaire combinatie, eenv formule
Gevolg
A. Variantie (X) = variantie (T) + variantie (E), de 2x cov valt weg door assumpties
B. Correlatie tss 2 scores v 1 persoon = variantie (T) / variantie (X) --> hoe hoger de corr, hoe kleiner de E
C. SE meten: hoe groot is variabiliteit vd fouten (groepsniveau)
Grootte BHcoëffieciënten - COTAN
Hoe hoog moet je BH zijn? Vuistregels
Individueel niveau - minder belangrijk
voldoende = 0.7-0.8 ; goed = 0.8
Individueel niveau - belangrijke beslissingen
voldoende = 0.8-0.9 ; goed = > 0.9
Groepsniveau - experimenteel gebruik
voldoende = 0.6-0.7 ; goed = 0.7
Oorzaken onbetrouwbaarheid
Testafname = testcontext, geteste persoon, testleider
Testscoring en -interpretatie
Testconstructie = SP van inhoud, G, processen
Geeft over- of onderschatting
Keuze tss klassieke en moderne testtheorie
Kritiek KTT
Schatting BH gevoelig voor homogeniteit SP (vnl bovenkant, grotere SE)
Regressie nh gemiddelde (ook voor MTT probleem)
Somscore ipv gewogen somscore (gaat ervan uit dat alle items zelfde discriminatiewaarde hebben)
Noodzaak normering (score op zich zegt niks)
Measurement by fiat = intervalniveau verondersteld, maar niet aangetoond
Prestaties alleen interpreteren binnen test (evaluatie kan je niet met zelfde test doen, 1e vs 6e lj)
SFM gelijk voor ieder V-niveau (terwijl dit fout is, hoger ad uiteinden, waardoor daar lagere BH)
Voordeel MTT
Score op zich al relevant (want + discriminatiewaarde items), maar wel normering nodig bij positionering individu id groep
Valideren interne structuur = unidimensionaliteit w getoetst (gn assumpties, itemsspec hypothesen en toetsen)
Spec SMF per V-niveau --> Geen probleem met homogeniteit SP (want meet BH per V-niveau)
Equivaleren = een procedure om scores van verschillende toetsen op dezelfde schaal te brengen
Bestuderen itemvertekening mogelijk
Voordeel KTT
Eenvoudig (lineair verband)
Gekend
Kritiek MTT
Zelden hogere test-criteriumcorrelatie voor MTT dan voor KTT (weinig verschil in praktijk voor predictieve waarde, zelfde besluiten)
Mathematisch complex
Generaliseerbaarheidstheorie
Doel: alle facetten identificeren die mogelijk meetfouten geven en ze samen onderzoeken
< KTT: bekijkt alle BH facetten apart
= voor zoveel mogelijk verschillende bronnen BH in exp design plaatsen (ANOVA-variantieanalyse) + per bron variantie gaan schatten
Bv. Wetenschapsprestatietest fysica: variabiliteitsbronnen --> personen, testitems, 2 testafnames, hoofdeffecten (betere items, betere personen, THT-BH test 2 beter bv), interactie-effecten tss alle bronnen
3-wegsinteractie kan je niet onderscheiden vd toevalsfout
Variantie per component + voor hvh verklaart elke variantie?
Persoonsvariantie zo hoog mogelijk, itemvar beetje, THT-BHvar zo laag mogelijk
Interacties: pxi en pxo nt te groot, ixo zo laag mog
Betrouwbaarheid en validiteit
BH als psychometrisch en -diagnotisch begrip
Herhaalbaarheid meetresultaat
Systematische vs toevalsfouten
SMF = SD vd meetfouten
BH als alledaags begrip
Gewaardeerd persoonskenm, onderscheidend bij mensen
Lijkt meer op betekenis validiteit
Samenhang BH en validiteit
BH als bovengrens validiteit = BH is noodzakelijke voorwaarde om validiteit te kunnen beginnen meten. Bij 0 BH, zal je nooit valide verband vinden. Bij BH 0.9, kan je nooit 100% ware score vinden.
Correctie voor attentuatie = theoretisch verband tss 2 factoren beter inschatten door te corrigeren voor de onBH vd 2 testen
NIET toepassen bij test id praktijk
Betrouwbaarheid binnen moderne testtheorie
Basisprincipes (PL = aantal parameters)
1 PL = +moeilijkheidsgraad item :sunny:
Hoofdvraag: Latente trek of V die je wil toetsen --> + 1 extra bron v variabiliteit :sunny:
Bij dichotome items
Probabilistisch verband: hoe meer V, hoe meer items je kan oplossen (witruimte tss grafieken)
Hoe moeilijkheidsgraad definieren? Via Rasch-model (nodige V om in 50% vd gevallen item correct op te lossen)
2PL = +discriminatiewaarde :rain_cloud:
Hoofdvraag (V) + moeilijkheidsgraad items + discriminatiewaarde
Discriminatiewaarde = steilheid vd curve, hoe hoger, hoe beter item erin slaagt hoge/lage V de onderscheiden --> V hoger dan nodig voor item = zeer hoge kans om correct op te lossen evv
Discriminatiegraad = blauwe vs zwarte curve // Moeilijkheidsgraad = zwarte vs groene curve
3PL = + toevalgraad item :zap:
Toevalsgraad item = je geeft per toeval het juiste antwoord
Hoofdvraag (V) + moeilijkheidsgraad + discriminatiewaarde + toevalsgraad items
Extra parameters (3)
2PL
IIF + TIF wnr + discriminatiewaarde
SFM: spec per scoreniveau berekenen (op V-niveau ve persoon)
3PL
= de 3 bijkomende parameters + de 3 basisparameters
1PL
IIF
IIF = hvh info we over V verkrijgen door correct beantwoorden vh item (per V-niveau)
Zeer laag/hoog op V-niveau --> weinig extra info (geen/altijd kans om item juist op te lossen) --> extreem laag, zeer laag en laag kan je bv nt onderscheiden (want alledrie fout oplossen item)
Meeste extra info bij V rond 50%
TIF
TIF = som IFFs alle items
Meest info ih midden vd V, waarvoor test bedoeld is, weinig info ad uiteinden --> Minder betrouwbaar meten ad uiteinden vd testscores! (zien we niet bij KTT)
SFM
SFM = meetfout voor bepaald V-niveau bij bepaald item (dus op IIF grafiek)
Grootst ad uiteinden en laagst ih midden
Parameters
Testinformatiefunctie (TIF)
Standaardfout meting (SFM)
Iteminformatiefunctie (IIF)
Via parametrische logistische regressie; gn assumpties, maar hypothese maken + in mathematisch model gieten en toetsen
Meetprecisie op individuele niveau
BI van verschilscores
--> moeten op zelfde schaal gemeten w!
--> Lagere BH voor verschilscores dan voor aparte metingen
Voorzichtig wnr je geen verschil vindt, als je iets vindt, zal het wel zo zijn
BI ve score verschilt, minder BH ad uiteinden
Betrouwbaarheidsinterval (obv SE en vaak 95% interval)
Onderscheid systematische en toevalsfouten :red_cross:
Systemiatische meetfouten
Construct irrelevante surplus
Validiteitsprobleem
Toevalsfouten
Niet eigen aan (gestandaardiseerde context v) meting
Betrouwbaarheidsproblemen