KTT (Buch)

Reliabilitätstheorie (Messgenauigkeit)

Grundlegende Annahme: Tests sind fehlerbehaftet

Abweichung zw. beobachtetem Wert und wahrem Wert kommt durch Messfehler zustande

Annahme: Messfehler variiert von Messung zu Messung

KTT kann Reliabilität eines Tests berechnen und den Bereich bestimmen, in dem der wahre Wert einer Person (mit frei wählbarer Sicherheitsw´keit) liegt

Zusatzannahmen:

  1. Messfehler der Items sind unkorreliert.
  1. Messfehler der Personen sind unkorreliert.

Axiome

Grundannahmen (Axiome) a priori (nicht empirisch):

Voraussetzung: Testwerte variieren angemessen, Varianz ist nicht null und nicht unendlich; Verhältnis: Xi = Ti + Ei

  1. Der wahre Wert (true score, T) einer Person v im Item i entspricht dem Erwartungswert des Messwertes (X).
  1. Der Messwert setzt sich aus wahrem Wert und einem zufälligem Fehler (error, ε) zusammen.
  1. Wahrer Wert und Messfehler sind unkorreliert.

Ableitungen aus Axiomen

Reliabilität

ist der Anteil (Verhältnis) der Varianz der wahren Werte (T) an (zur) der Varianz der beobachteten Werte (X). Bildschirmfoto 2019-05-02 um 11.21.44

Bsp: Rel .8 bedeutet, dass die beobachtete Varianz der Testwerte zu 80% auf Unterschiede zwischen den wahren Werten der Testperson zurückzuführen ist und 20% auf Fehlervarianz

da Var (T) unbekannt: Schätzung der Varianz durch Zerlegung der Kovarianz zweier identischer Tests --> Bildschirmfoto 2019-05-02 um 11.23.01 Rel = Corr (Xt, Xt´)

1: Retest-Reliabilität

Ein und derselbe Test wird ein und derselben Stichprobe von Probanden zweimal dargeboten

Test wird mit sich selbst korreliert

Festlegung des optimalen Zeitintervalls: bei stabilen Merkmalen (Intelligenz) lange Testabstände zur Vermeidung von Erinnerungs- und Übungseffekten; schnelle Testwiederholung bei instabilen Merkmalen (Emotionen), damit sich die wahren Werte der Testperson nicht verändern

2: Paralleltestreliabilität

Vorgabe paralleler Tests an ein und dieselbe Gruppe von Personen

wird nicht durch Merkmalsveränderungen beeinflusst, die alle Testpersonen betreffen. Mittelwertsunterschiedezwischen erster und zweiter Messung haben keine Auswirkung auf die Höhe der Korrelation (da Mittelwertsunterschiede gleichermaßen verschoben werden).

zu beachten: Zeitintervalle (groß -> niedrigere Werte) und Stabilität des Merkmals (tendenziell instabil (= große Variation) -> niedrigere Retest-Rel durch lange Zeitintervalle; niedriger Wert dann evtl. nicht Rel, sondern Variation des Merkmals -> r(tt) dann ungeeignet

es wird an 2 Zeitpunkten gemessen, Aufwand erheblich, da 2 Tests konstruiert werden müssen

Rel des Tests ergibt sich aus Korrelation der beiden Tests

Pseudo-Paralleltest, wenn nur die Reihenfolge geändert wird

Nutzen: Gruppentestungen; Veränderungsmessungen zur Wirksamkeit von Interventionen

Voraussetzung: dieselben Probanden müssen 2x zum Testen kommen

Voraussetzung: dieselben Probanden müssen 2x zum Testen kommen

3: Split-Half-Reliabilität

Der Test wird nach der Durchführung in zwei möglichst äquivalente Hälften aufgeteilt. So erhält man für jenen Probanden zwei Testwerte.

Techniken für die Halbierung:

Odd-even-Methode: Aufteilung nach gerader und ungerader Nummer der Items (gut, wenn Aufgaben im Test nach Schwierigkeit geordnet sind oder gar keine Ordnung aufweisen (Persönl.tests))

Aufteilung in 1. und 2. Testhälfte: nur, wenn beide Hälften vergleichbar sind. nicht, wenn zeitbegrenzt oder nach Schwierigkeit geordnet

Halbierung auf Basis von Itemkennwerten: erst werden Schwierigkeit und Trennschärfe der Items ermittelt, darauf basierend Itempaare gebildet

Wenn der Test die Schnelligkeit erfasst, wird Test vor Durchführung in zwei Hälften aufgeteilt (Bearbeitungszeit halbiert sich), zwei quasi parallele Tests

Spearman-Brown-Formel

da die Reliabilität mit Anzahl der Items zunimmt, schätzt die Formel, wie hoch die Reliabilität des Tests mit der doppelten Itemzahl wäre

Bildschirmfoto 2019-05-02 um 11.19.01

4: Interne Konsistenz

Test in so viele Teile zerlegen, wie Items vorhanden

Cronbachs Alpha

die ermittelten Korrelationen (der Testteile) auf die jeweilige Länge der Skala hochrechnen

Bildschirmfoto 2019-05-02 um 16.34.23

je größer die Zusammenhänge (Kovarianzen) zw den Items, desto größer wird Alpha (max 1)

Alpha abhängig von Anzahl der Items (da mehr Itemvarianzen in den Summenwert im Zähler eingehen)

!

Je höher die Items interkorrelieren, desto höher fällt Alpha aus, aber: hohes Alpha spricht nicht für Homogenität des Tests, da Alpha abhängig von weiteren Faktoren und: es wird nicht immer eine hohe Iteminterkorrelation bzw. hohes Alpha angestrebt, da Homogenität des Konstrukts zu beachten ist. Heterogene Konstrukte (= relativ unabhängige Komponenten) verlangen zwangsläufig nach Operatinalisierung durch entsprechend niedrig korrelierende Items

Je mehr Items im Test, desto höher Alpha

hohes Alpha auch möglich bei heterogenem Konstrukt mit niedrig korrelierenden Items

kurzer Test mit hohem Alpha -> Items meist redundand (= gleiche Fragen)

Alpha hoch, wenn in einem Test immer alle Items (bis zu einem best. Punkt) gelöst werden. Alpha dann nicht sinnvoll als Schätzer für Rel

Alpha ist (wie alle Reliabilitätskoeffizienten) stichprobenabhängig (heterogene Stichproben = höhere Varianz der Testwerte = höheres Alpha)

gilt alles auch für Split-Half-Rel

Relschätzung mit Cronbachs Alpha nicht exakt gleich mit Split Half, da Testhalbierung nur eine von vielen Aufteilungen liefert. bei allen möglichen Testhalbierungen wären Split-Half-Rel-koeffizienten um einen Mittelwert verteilen. Dieser wäre identisch mit Cronbachs Alpha

click to edit

Standardmessfehler

gibt an, wie stark die Messfehler um die wahren Werte der Person(en) streuen

Bildschirmfoto 2019-05-07 um 15.00.29

wie groß Standardmessfehler bei einzelner Messung ist, kann man nicht berechnen, Formel: wie stark der Messfehler bei vielen wiederholten Messungen um wahren Wert streuen würden

Rel = 1 -> Se = 0 Fehlerwerte streuen nicht, alle Unterschiede auf wahre Werte zw. den Personen zurückzu führen

Rel = 0 -> Se = Maximal (=Standardabweichung) alle Werte sind Messfehler

je reliabler der Test, desto kleiner der Standardmessfehler

praktischer Nutzen

bei Normierung eines Tests entsprechen +/-1 SD 68,2% um den wahren Wert

Bsp.: bei errechnetem Messfehler von 2 Punkten um einen Normwert von 110 (IQ) hat die Person mit 68% W´keit einen wahren Wert von 108, 109, 110, 111 oder 112

KI

da 68% unüblich -> Ki um wahren Wert mit Sicherheitsw´keiten von 99, 95, 90 %

Bildschirmfoto 2019-05-07 um 15.40.12 Bildschirmfoto 2019-05-07 um 15.40.45

z-Wert

z = 1,96 heisst, dass man in NV 1,96 Standardabweichungen nach links und nach rechts gehen kann. es bleiben 2,5% an jedem Ende (Unsicherheit)

Das KI gibt den Bereich an, in dem der wahre Testwert einer Person bei einer zuvor festgelegten Sicherheits- bzw. Irrtumsw´keit liegt.

click to edit

Kritische Differenzen

zwei Testwerte einer Person unterscheiden sich, Unterschied könnte auch auf Messfehler zurüchzuführen sein --> wie groß muss Differenz sein, damit sich Unterschied nicht mehr durch Messfehler erklären lässt?

Bildschirmfoto 2019-05-07 um 16.24.23 vorausgesetzt gleiche Streuung

Ist die empirische Differenz (der Testwerte) größer als die kritische D. kann von einem bedeutsamen Unterschied ausgegangen werden

Anzahl der Vergleiche soltte gering gehalten weden, da Gefahr besteht, fälschlicherweise sign. Effekte zu bekommen; lieber hypothesengeleitet (gerichtet); je mehr Vergleiche angestellt werden, desto kleiner muss Irtumsw´keit gewählt werden

click to edit

Minderungskorrekturen

doppelte M.

Die doppelte Minderungskorrektur liefert eine Schätzung für die Korrelation der wahren Werte zweier Variablen, wenn deren Reliabilitätskoeffizienten bekannt sind. Damit wird gleichsam die »Minderung« korrigiert, welcher Korrelationskoeffizienten unterliegen, wenn die miteinander korrelierten Messwerte fehlerbehaftet sind.

Bildschirmfoto 2019-05-20 um 20.58.04

einfache M.

Messgenauigkeit einer Variable wird korrigiert

Wenn Messwerte fehlerbehaftet sind, wirkt sich dies min- dernd auf die Höhe der Korrelation mit einer anderen Variablen aus.

Den Axiomen der KTT zufolge korrelieren die Messfehler zweier Tests nicht. Die Korrelation muss also umso niedriger ausfallen, je größer der Anteil der Messfehler an den beobachteten Werten ist oder je niedriger die Reliabilität der Tests ist.

Die einfache Minderungskorrektur liefert eine Schätzung für die Korrelation eines Tests mit einem Kriterium unter der Annahme, dass das Kriterium messfehler- frei erfasst wird. Damit wird gleichsam die »Minderung« korrigiert, die durch die fehlerbehaftete Messung des Kriteriums entsteht.
Die einfache Minderungskorrektur kann alternativ auch auf den Test angewandt werden (rcorr Test). Dazu wird in der Formel Relc durch RelTest ersetzt.

Prognose

mittels Regressionsrechnung

Regresionsgerade

Bildschirmfoto 2019-05-21 um 13.31.03

Voraussetzung: normalverteilte und intervallskalierte Variablen sowie linearer Zusammenhang zwischen den Variablen

Standardschätzfehler

wie genau ist die Vorhersage? da auch Messwerte in der Regressionsgleichung fehlerbehaftet sein könnenda auch Messwerte in der Regressionsgleichung fehlerbehaftet sein können

Bildschirmfoto 2019-05-21 um 13.40.12

Kriteriumswerte streuen mehr oder weniger stark um Regressionsgerade. Diese Streuung der wahren Kriteriumswerte um die vorhergesagten wird im S. ausgedrückt.

S. umso kleiner, je geringer die STreuung um Kriteriumswert.

S. abhängig von Korrelation zwischen Prädiktor und Kriterium (beeinflusst durch dessen Rel.) Je höher Korr, desto kleiner S.

KI

um wahren Kriteriumswert

es geht hier nur um Messfehler

Bildschirmfoto 2019-05-21 um 13.51.08