Please enable JavaScript.
Coggle requires JavaScript to display documents.
Beurteilung der Testgüte 1 (Validität: Misst der Test, was er messen soll?…
Beurteilung der Testgüte 1
Reliabilität
Arten von Reliabilität
Paralleltest
Vorteil: keine zwei Messzeitpunkte nötig, keine Erinnerungseffekte
Nachteil: hohe Anforderungen (gleicher Mittelwert und Streuung), sehr aufwendig
Parallelversion zu Test erstellen und diesen an der gleichen Stichprobe durchführen
Pseudo-Paralleltest: andere Reihenfolge
Retest
Vorteil: wenig aufwendig
Nachteile: Erinnerungseffekte, Veränderung der wahren Werte, zwei Messzeitpunkte notwendig
gleicher Test zweimal an der gleichen Stichprobe
je stabiler das Merkmal, desto größer sollte das Regest-Intervall gewählt werden, um Erinnerungseffekten vorzubeugen
Split-Half
Teilung in zwei Hälften, diese miteinander korrelieren
nach Spearman-Brown korrigieren: da sonst Unterschätzung der Reliabilität aufgrund der Skalenlänge
Unterschätzung der Reliabilität bei heterogenen Items
interne Konsistenz
Test wird in so viele Teile geteilt, wie er Items hat
berechnet durch Cronbachs Alpha
groß, wenn kleine Varianzen
sollte nicht zu hoch sein (gleiches Problem wie Trennschärfe, Kompromiss mit Validität)
bei mehr Items ist auch Alpha größer
Annahmen
essentielle Tau-Äquivalenz (Items sind ähnlich, dürfen andere Fehlervarianzen haben und die wahren Werte dürfen sich um eine additive Konstante unterscheiden) --> wenn verletzt, Unterschätzung der Rel., nicht so schlimm
Unkorreliertheit der Fehler
Unterschätzung der Reliabilität bei heterogenen Items
Definition:
Messgenauigkeit
Anteil der Varianz der wahren Werte an Varianz der beobachtbaren Werte
Korrelation eines Tests mit sich selbst
Höhe der Reliabilität
größer bei heterogener Stichprobe bzw. hoher Testwertevarianz
genauer bei großer Stichprobengröße
je höher, desto genauer lässt sich der wahre Wert vorhersagen
je kleiner das Retest-Intervall, desto höher sollte die Reliabilität sein
bei Persönlichkeitstest um .79, bei Intelligenztest deutlich höher
Validität: Misst der Test, was er messen soll? Gültigkeit von Schlussfolgerungen
Inhaltsvalidität: Sind die Items repräsentativ für das Merkmal?
Itemuniversum: alle möglichen Items
Experten befragen, Merkmal gut kennen, manchmal per Konstrukt definiert (z.B. DSM-Diagnose)
wichtig bei Repräsentationsschlüssen
wichtig: genaues Vorgehen der Atemauswahl beschreiben
Vorsicht: kann gegen die interne Konsistenz streben
Kriteriumsvalidität: Lassen sich aus dem Test Vorhersagen über das Verhalten machen?
Kriterium: konkret, direkt messbar
Wahl muss begründet werden
sollte mit dem Konstrukt zusammenhängen
Berechnung durch
Korrelationen (meistens)
Mittelwertsunterschiede
Cohens D
Übereinstimmungsvalidität: Kriterium und Prädiktor gleichzeitig erhoben
Vorhersagevalidität: Prädiktor vor Kriterium erhoben
inkrementelle Validität: Validitätszuwachs zu einem anderen Prädiktor durch diesen Prädiktor
Konstruktvalidität: Misst der Test das gewünschte Konstrukt?
nomologisches Netzwerk: Übereinstimmung von Zusammenhängen in der Theorie und der Beobachtung
empirische Belegmöglichkeiten
Korrelation mit anderen Tests oder Faktorladungen
Kriteriumskorrelationen/Gruppenunterschiede
interne Struktur:
faktorielle Validität
(Anzahl und Zusammenhänge der Faktoren entsprechend der Theorie?)
Stabilität über die Zeit
Veränderung durch Intervention
besonderer Antwortprozess (z.B. Tendenz zur Mitte bei Neurotizismus)
Multi-Trait-Multi-Method-Analyse: Korrelationen von je zwei Merkmalen, die je mit zwei Methoden gemessen wurden
Retest-Rel: gleiches Merkmal, gleiche Methode korreliert
konvergente Validität
: gleiches Merkmal, andere Methode korreliert
divergente/diskriminante
Validität: anderes Merkmal, gleiche Methode korreliert
Augenscheinvalidität: Ist der Test für Laien plausibel? --> unwichtig
Höhe beeinflusst durch
Reliabilität von Test und Kriterium: je höher, desto höhere Validität ist überhaupt möglich
Größe der Stichprobe: beeinflusst Genauigkeit der Reliabilitätsschätzung
Symmetrie zwischen Prädiktor und Kriterium (möglichst hoch): gleicher Inhalt und Abstraktionsniveau
totale Asymmetrie: keine inhaltlichen Gemeinsamkeiten --> unplausibel
partielle Asymmetrie: inhaltliche Überschneidungen, aber anderes Absatraktionsniveau
hybride Asymmetrie: gleiches Abstraktionsniveau, aber unterschiedliche inhaltliche Zusammensetzung
Konfundierung mit einem anderen Merkmal
Konfundierung mit anderem Konstrukt: Überschneidungen (möglichst niedrig)
Repräsentativität der Stichprobe: bei Missachtung der Streuung kann es zu Über- oder Unterschätzungen kommen
Wahl des Kriteriums
gemeinsame Methodenvarianz: ähnliche Methoden erhöhen die Validität
alternative Definition nach Borsboom: eine Messung eines Merkmals ist valide (und auch nur dann), wenn...
...das Merkmal wirklich existiert
...Änderungen im Merkmal für Änderungen in den Messergebnissen sorgen
meist geringer als Rel., sollte so um .5 liegen
Vergleichbar mit der Wirksamkeit eines Medikaments
nur bezogen auf bestimmte Fragestellung/Krankheit
höchste Validität/Wirksamkeit immer vorzuziehen
muss empirisch belegt werden
auch Nebenwirkungen möglich, Kosten-Nutzen-Abwägung
auch weitere Kriterien wichtig, aber meist zweitrangig