KTT (Buch)
Reliabilitätstheorie (Messgenauigkeit)
Grundlegende Annahme: Tests sind fehlerbehaftet
Abweichung zw. beobachtetem Wert und wahrem Wert kommt durch Messfehler zustande
Annahme: Messfehler variiert von Messung zu Messung
KTT kann Reliabilität eines Tests berechnen und den Bereich bestimmen, in dem der wahre Wert einer Person (mit frei wählbarer Sicherheitsw´keit) liegt
Zusatzannahmen:
- Messfehler der Items sind unkorreliert.
- Messfehler der Personen sind unkorreliert.
Axiome
Grundannahmen (Axiome) a priori (nicht empirisch):
Voraussetzung: Testwerte variieren angemessen, Varianz ist nicht null und nicht unendlich; Verhältnis: Xi = Ti + Ei
- Der wahre Wert (true score, T) einer Person v im Item i entspricht dem Erwartungswert des Messwertes (X).
- Der Messwert setzt sich aus wahrem Wert und einem zufälligem Fehler (error, ε) zusammen.
- Wahrer Wert und Messfehler sind unkorreliert.
Ableitungen aus Axiomen
Reliabilität
ist der Anteil (Verhältnis) der Varianz der wahren Werte (T) an (zur) der Varianz der beobachteten Werte (X).
Bsp: Rel .8 bedeutet, dass die beobachtete Varianz der Testwerte zu 80% auf Unterschiede zwischen den wahren Werten der Testperson zurückzuführen ist und 20% auf Fehlervarianz
da Var (T) unbekannt: Schätzung der Varianz durch Zerlegung der Kovarianz zweier identischer Tests --> Rel = Corr (Xt, Xt´)
1: Retest-Reliabilität
Ein und derselbe Test wird ein und derselben Stichprobe von Probanden zweimal dargeboten
Test wird mit sich selbst korreliert
Festlegung des optimalen Zeitintervalls: bei stabilen Merkmalen (Intelligenz) lange Testabstände zur Vermeidung von Erinnerungs- und Übungseffekten; schnelle Testwiederholung bei instabilen Merkmalen (Emotionen), damit sich die wahren Werte der Testperson nicht verändern
2: Paralleltestreliabilität
Vorgabe paralleler Tests an ein und dieselbe Gruppe von Personen
wird nicht durch Merkmalsveränderungen beeinflusst, die alle Testpersonen betreffen. Mittelwertsunterschiedezwischen erster und zweiter Messung haben keine Auswirkung auf die Höhe der Korrelation (da Mittelwertsunterschiede gleichermaßen verschoben werden).
zu beachten: Zeitintervalle (groß -> niedrigere Werte) und Stabilität des Merkmals (tendenziell instabil (= große Variation) -> niedrigere Retest-Rel durch lange Zeitintervalle; niedriger Wert dann evtl. nicht Rel, sondern Variation des Merkmals -> r(tt) dann ungeeignet
es wird an 2 Zeitpunkten gemessen, Aufwand erheblich, da 2 Tests konstruiert werden müssen
Rel des Tests ergibt sich aus Korrelation der beiden Tests
Pseudo-Paralleltest, wenn nur die Reihenfolge geändert wird
Nutzen: Gruppentestungen; Veränderungsmessungen zur Wirksamkeit von Interventionen
Voraussetzung: dieselben Probanden müssen 2x zum Testen kommen
Voraussetzung: dieselben Probanden müssen 2x zum Testen kommen
3: Split-Half-Reliabilität
Der Test wird nach der Durchführung in zwei möglichst äquivalente Hälften aufgeteilt. So erhält man für jenen Probanden zwei Testwerte.
Techniken für die Halbierung:
Odd-even-Methode: Aufteilung nach gerader und ungerader Nummer der Items (gut, wenn Aufgaben im Test nach Schwierigkeit geordnet sind oder gar keine Ordnung aufweisen (Persönl.tests))
Aufteilung in 1. und 2. Testhälfte: nur, wenn beide Hälften vergleichbar sind. nicht, wenn zeitbegrenzt oder nach Schwierigkeit geordnet
Halbierung auf Basis von Itemkennwerten: erst werden Schwierigkeit und Trennschärfe der Items ermittelt, darauf basierend Itempaare gebildet
Wenn der Test die Schnelligkeit erfasst, wird Test vor Durchführung in zwei Hälften aufgeteilt (Bearbeitungszeit halbiert sich), zwei quasi parallele Tests
Spearman-Brown-Formel
da die Reliabilität mit Anzahl der Items zunimmt, schätzt die Formel, wie hoch die Reliabilität des Tests mit der doppelten Itemzahl wäre
4: Interne Konsistenz
Test in so viele Teile zerlegen, wie Items vorhanden
Cronbachs Alpha
die ermittelten Korrelationen (der Testteile) auf die jeweilige Länge der Skala hochrechnen
je größer die Zusammenhänge (Kovarianzen) zw den Items, desto größer wird Alpha (max 1)
Alpha abhängig von Anzahl der Items (da mehr Itemvarianzen in den Summenwert im Zähler eingehen)
!
Je höher die Items interkorrelieren, desto höher fällt Alpha aus, aber: hohes Alpha spricht nicht für Homogenität des Tests, da Alpha abhängig von weiteren Faktoren und: es wird nicht immer eine hohe Iteminterkorrelation bzw. hohes Alpha angestrebt, da Homogenität des Konstrukts zu beachten ist. Heterogene Konstrukte (= relativ unabhängige Komponenten) verlangen zwangsläufig nach Operatinalisierung durch entsprechend niedrig korrelierende Items
Je mehr Items im Test, desto höher Alpha
hohes Alpha auch möglich bei heterogenem Konstrukt mit niedrig korrelierenden Items
kurzer Test mit hohem Alpha -> Items meist redundand (= gleiche Fragen)
Alpha hoch, wenn in einem Test immer alle Items (bis zu einem best. Punkt) gelöst werden. Alpha dann nicht sinnvoll als Schätzer für Rel
Alpha ist (wie alle Reliabilitätskoeffizienten) stichprobenabhängig (heterogene Stichproben = höhere Varianz der Testwerte = höheres Alpha)
gilt alles auch für Split-Half-Rel
Relschätzung mit Cronbachs Alpha nicht exakt gleich mit Split Half, da Testhalbierung nur eine von vielen Aufteilungen liefert. bei allen möglichen Testhalbierungen wären Split-Half-Rel-koeffizienten um einen Mittelwert verteilen. Dieser wäre identisch mit Cronbachs Alpha
click to edit
Standardmessfehler
gibt an, wie stark die Messfehler um die wahren Werte der Person(en) streuen
wie groß Standardmessfehler bei einzelner Messung ist, kann man nicht berechnen, Formel: wie stark der Messfehler bei vielen wiederholten Messungen um wahren Wert streuen würden
Rel = 1 -> Se = 0 Fehlerwerte streuen nicht, alle Unterschiede auf wahre Werte zw. den Personen zurückzu führen
Rel = 0 -> Se = Maximal (=Standardabweichung) alle Werte sind Messfehler
je reliabler der Test, desto kleiner der Standardmessfehler
praktischer Nutzen
bei Normierung eines Tests entsprechen +/-1 SD 68,2% um den wahren Wert
Bsp.: bei errechnetem Messfehler von 2 Punkten um einen Normwert von 110 (IQ) hat die Person mit 68% W´keit einen wahren Wert von 108, 109, 110, 111 oder 112
KI
da 68% unüblich -> Ki um wahren Wert mit Sicherheitsw´keiten von 99, 95, 90 %
z-Wert
z = 1,96 heisst, dass man in NV 1,96 Standardabweichungen nach links und nach rechts gehen kann. es bleiben 2,5% an jedem Ende (Unsicherheit)
Das KI gibt den Bereich an, in dem der wahre Testwert einer Person bei einer zuvor festgelegten Sicherheits- bzw. Irrtumsw´keit liegt.
click to edit
Kritische Differenzen
zwei Testwerte einer Person unterscheiden sich, Unterschied könnte auch auf Messfehler zurüchzuführen sein --> wie groß muss Differenz sein, damit sich Unterschied nicht mehr durch Messfehler erklären lässt?
vorausgesetzt gleiche Streuung
Ist die empirische Differenz (der Testwerte) größer als die kritische D. kann von einem bedeutsamen Unterschied ausgegangen werden
Anzahl der Vergleiche soltte gering gehalten weden, da Gefahr besteht, fälschlicherweise sign. Effekte zu bekommen; lieber hypothesengeleitet (gerichtet); je mehr Vergleiche angestellt werden, desto kleiner muss Irtumsw´keit gewählt werden
click to edit
Minderungskorrekturen
doppelte M.
Die doppelte Minderungskorrektur liefert eine Schätzung für die Korrelation der wahren Werte zweier Variablen, wenn deren Reliabilitätskoeffizienten bekannt sind. Damit wird gleichsam die »Minderung« korrigiert, welcher Korrelationskoeffizienten unterliegen, wenn die miteinander korrelierten Messwerte fehlerbehaftet sind.
einfache M.
Messgenauigkeit einer Variable wird korrigiert
Wenn Messwerte fehlerbehaftet sind, wirkt sich dies min- dernd auf die Höhe der Korrelation mit einer anderen Variablen aus.
Den Axiomen der KTT zufolge korrelieren die Messfehler zweier Tests nicht. Die Korrelation muss also umso niedriger ausfallen, je größer der Anteil der Messfehler an den beobachteten Werten ist oder je niedriger die Reliabilität der Tests ist.
Die einfache Minderungskorrektur liefert eine Schätzung für die Korrelation eines Tests mit einem Kriterium unter der Annahme, dass das Kriterium messfehler- frei erfasst wird. Damit wird gleichsam die »Minderung« korrigiert, die durch die fehlerbehaftete Messung des Kriteriums entsteht.
Die einfache Minderungskorrektur kann alternativ auch auf den Test angewandt werden (rcorr Test). Dazu wird in der Formel Relc durch RelTest ersetzt.
Prognose
mittels Regressionsrechnung
Regresionsgerade
Voraussetzung: normalverteilte und intervallskalierte Variablen sowie linearer Zusammenhang zwischen den Variablen
Standardschätzfehler
wie genau ist die Vorhersage? da auch Messwerte in der Regressionsgleichung fehlerbehaftet sein könnenda auch Messwerte in der Regressionsgleichung fehlerbehaftet sein können
Kriteriumswerte streuen mehr oder weniger stark um Regressionsgerade. Diese Streuung der wahren Kriteriumswerte um die vorhergesagten wird im S. ausgedrückt.
S. umso kleiner, je geringer die STreuung um Kriteriumswert.
S. abhängig von Korrelation zwischen Prädiktor und Kriterium (beeinflusst durch dessen Rel.) Je höher Korr, desto kleiner S.
KI
um wahren Kriteriumswert
es geht hier nur um Messfehler