VL 7: Grenzen der KTT und Item-Response-Theorie

KTT kann

Rel (Cronbach´s Alpha)

Standardmessfehler

KI für wahren Wert

Kritische Differenz

Grenzen der KTT

Axiome empirisch nicht prüfbar

Parameter (z.B. Rel) stichprobenabhängig

Skalenniveau nicht prüfbar

Homogenität der Items nicht prüfbar

IRT Grundannahmen

  1. Unterscheidung von manifesten und latenten Variablen
  1. Manifestes Antwortverhalten (Item responses) formal modelliert
  1. Itemhomogenität: Antwortverhalten auf Items nur von latenter Variable beeinflusst (-> lokale stochastische Unabhängigkeit)

lokale stochastische Unabhängigkeit: Multiplikations-Theorem -> identische Ausprägung in latenter Variable Ksi für eine Person

latente Variable

click to edit

click to edit

qualitativ (Rot-Grün) -> Latent-Class-Analyse

quantitativ -> Latent-Trait-Modelle

Itemcharakteristische Funktion (IC-Funktionen)

deterministisch

Skalogramm-Modell

probabilistisch

polytom, z.B. Rating 0-5

dichotom (Rasch-Modell), z.B. ja/nein

IRT

Geraden (lineare Funktion) als IC-Funktionen (asymptotisch an den Enden) als sinnvolle Verbindung des latenten Merkmals mit Antwortverhalten

Rasch-Modell: IC-Funktion

Spezifische Objektivität der Vergleiche: IC-Funktionen aller Items weisen die gleiche Form auf; Items parallel verschoben entlang der latenten Variable (Ksi), deshalb kann der Schwierigkeitsunterschied zweier Items unabhängig von Personen mit hohen oder niedrigen Merkmalsausprägungen (Ksi) ermittelt werden. Umgekehrt sind auch Vergleiche zwischen Personen spezifisch objektiv. Unterschiede können unabhängig von verwendeten Items festgestellt werden.

Modellgleichung

Parameterschätzung

Likelihoodfunktion: iterative Maximierung von L zur Schätzung von Ksi und Sigma

Intervallskalenniveau: Normierung der Itemschwierigkeit, Konvention: Summe der Itemschwierigkeiten soll Null sein (= mittlere Schwierigkeit)

"erschöpfende Statistiken" Randsummen ausreichend, um Ksi und Sigma über L zu schätzen (Zeilensummenscores für Personenparameter und Spaltensummenscores für Itemschwierigkeitsparameter)

=> Lösungsmuster bei gegebenen Summenscore (r(v)) unerheblich

=> keine Gewichtung der einzelnen Items

Rasch-Modell: Globale Modellkontrollen

Grafischer Test: wenn Sigma unabhängig sollten bei Gruppierungen der Stichprobe dieselben Sigmas rauskommen

Likelihood-Quotiiententests, Pearson-Chi(quadrat)-Test (nicht signifikant -> Modell passt)

Informationstheoretische Maße (Akaike´s / Bayes Information Criterion, AIC / BIC)

Testoptimierung

Person-Fit Indices: bei gegebenen Personensummenscore ist nur ein bestimmtes Antwortmuster der Items möglich -> Identifizierung von Personen mit abweichendem Muster

Item-Fit Indices: bei gegebnene Itemsummenscore ist nur bestimmtes Antwortmuster der Personen möglich _> Identifizierung von Items mit geringer Trennschärfe

Iteminformation und Messgenauigkeit

Iteminformation: Ein Item liefert nicht gleich viele Infos über eine Person; maximale Information aus Item über Person bei Lösungsschwierigkeit = 50% (dann Personenparameter und Itemparameter identisch)

Formel Iteminformation:

Formel Testinformation:

KI (Fehlervarianzmaß):

Messgnauigkeit und adaptives Testen: adaptive Annäherung an ausreichend genaue Schätzung der Personenparameter und möglichst schmalem KI => optimale Testökologie (geht aufgrund der spezifischen Objektivität der Vergleiche, wenn Modell gilt)