Statistik
Univariante Statistik
Maße der zentralen Tendenz
Häufigkeitsverteilung
Beschreibung einer einzigen Variable
Bivariante Statistik
Absolute Häufigkeiten
Relative Häufigkeiten
Anzahl der Untersuchungseinheiten mit einer bestimmten Merkmalsausprägung
Anzahl der Untersuchungseinheiten mit einer bestimmten Merkmalsausprägung, relativiert an der Gesamtzahl der Untersuchungseinheiten
Graphische Darstellung
Kategoriale Variablen
Balkendiagramm
Kreisdiagramm
Metrische Variablen
Histogramm
Stamm-Blatt-Diagramm
Balken repräsentiert jeweils eine einzige Ausprägung
Abstand zwischen Balken vorhanden, weil Ausprägungen nicht direkt auf einander folgen
Ungeeignet für viele Ausprägungen
Balken repräsentieren jeweils eine Gruppe (Klasse) von Ausprägungen
Abstände zwischen Balken vorhanden, weil Ausprägungen direkt aufeinander folgen
Einzelne Werte direkt ablesbar
Maße für die Streuung
Maße für die Schiefe
Maße für die Wölbung einer Verteilung
Mittelwert (M)
Summe aller Werte geteilt durch die Anzahl aller Werte (=Stichprobengröße N)
Nur sinnvoll interpretierbar bei metrischen Variablen
Sensitiv gegenüber jeder einzelnen Wert
Abweichung aller Werte in der Summe gleich Null
Median (Med)
Wert, über dem bzw. unter dem 50% aller nach Größe geordneten Werte liegen = Der mittlere Wert einer Rangreihe / Der Mittelwert der zwei mittleren Werte einer Rangreihe (bei gerade Stichprobenanzahl)
Ungerade Stichprobenanzahl: x(N+1)/2
Gerade Stichprobenanzahl: (xN/2 + xN/2 +1) / 2
Sinnvoll interpretierbar bei metrischen und ordinalskalierten Variablen
Robust gegenüber extremen Werten
Modalwert (mod)
Wert, der am häufigsten vorkommt
Auch bestimmbar bei nominalskalierten Variablen
Kann mehrere Ausprägungen sein
Spannweite (dr)
Differenz zwischen größten (max) und kleinsten (min) Wert
dr=max-min
Häufig unterschätzung der Spannweite, die tatsächlich in der Population herrscht, aus der die Stichprobe stammt
Berichten, wenn es wichtig ist zu zeigen, dass (fast) alle Ausprägungen einer Variablen unter den Unterscuhungseinheiten vorkommen
Interquartilabstand (dQ)
Differenz zwischen den oberen und den unteren Quartil
dQ = x.75 - x.25
Berichten, wenn Größe der Streuung im mittleren Bereich von Interesse ist
Zuerst: Werte nach Größe einordnen
Variation (QS)
Summe der Abweichungsquadrate ; Quadrierte Abweichung aller Werte vom Mittelwert
Von jedem Einzelwert wird Mittelwert substrahiert (Abweichung)
Abweichung wird jeweils quadriert (Abweichungsquadrate)
Alle quadrierten Abweichungen werden aufaddiert (Summe)
Varianz (s2)
Summe der Abweichungsquadrate dividiert durch Anzahl aller Werte (N) ; Durschnittliche Abweichung aller Werte vom Mittelwert
Interpretation schwierig, da durch quadrieren nicht dieselbe Einheit wie die Einheit der Variablen
Standardabweichung (s)
Wurzel der Varianz
Neben Mittelwert standardmäßig berichtet
Rechtschiefe Verteilung
Positive Schiefe
REMOMEMI
Linksschiefe Verteilung
Negative Schiefe
LIMIMEMO
Schiefekoeffizient (gm)
Für metrische Variablen
Je weiter von Null weg (entweder - oder +), desto schiefer die Verteilung
In der Regel nicht berichtet
Wenn Normalverteilung nicht gegeben, kann die Schiefe der Verteilung berichtet werden
Standardisierung von Werten
Kriterialer Vegleich
Vergleich mit einem vorher festgelegtem Kriterium
Individueller Vergleich
Vergleich mit einem vorherigen Wert derselben Person
Sozialer Vergleich
Vergleich mit Werten von anderen Personen
Z-Transformationen
Transformation einer Variablen, so dass relative Lage von Wert direkt interpretierbar ist
z = (xi - M) / s
Wie viele Standardabweichungen liegt der Wert über/unter dem Mittelwert?
Mittelwert Mz=0
Standardabweichung sz=1
z-Werte über 0 = Überdurschschnittliche Werte
z-Werte unter 0 = Unterdurchschnittlihe Werte
Vergleichbarkeit unterschiedlicher Variablen durch herstellung derselben Einheit = standardabweichung s
Abhängigkeit von Verteilung: Derselbe Wert bedeutet unterschiedliche Sachen in unterschiedlichen Populationen
Normalverteilung
Unimodal
Symmetrisch
Festgelegt durch: Mittelwert, Streuung
z-Transformierte Normalverteilung
Herstellung der Standardnormalverteilung durch z-Transformation der ursprünglichen Werte
Mittelwert Mz = 0
Standardabweichung sz = 1
Prozentualer Anteil von Werten in bestimmten Intervallen immer gleich
-1 bis +1: 68,23% aller Werte
-2 bis +2: 95,44% aller Werte
Ausreißer
Werte, die mehr als 1,5 Interquartilabstände vom oberen oder unteren Quartil liegen
Extremwerte
Werte, die mehr als 3 Interquartilabstände vom oberen oder unteren Quartil liegen
Gemeinsame Betrachtung zweier Variablen anhand von Tabellen, Diagrammen und statistischen Maßen
Graphische Darstellungen
Kategoriale Variablen
Gruppierte Balkendiagramme
Gestapelte Balkendiagramme
Metrische Variablen
Streudiagramme
x-Achse: Abzisse (unabhängige Variable)
y-Achse: Ordinate (abhängige Variable)
Auf y-Achse können die absoluten Häufigkeiten abgetragen werden
Auf y-Achse sollten die bedingten Häufigkeiten abgetragen werden, damit sich alle Balken bis zur selben Höhe stapeln
Keine Darstellung von Häufigkeiten, sondern einzelnen Punkten, die Messwertpaare der Unterscuhungseinheiten darstellen
Zusammenhangsmaße
Metrische Variablen
Kovarianz (sxy)
Korrelation (r)
Unstandardisiertes Zusammenhangsmaß zur Beschreibung von linearen Zusammenhängen zwischen zwei Variablen
Häufig liegen Wertepaare nicht genau auf einem Geraden, aber dennoch so, dass man eine Gerade durch die Punktewolke ziehen kann
Positive Kovarianz
Überdurchschnittliche (/unterdurchschnittliche) x-Werte gehen mit überdurchschnittlichen (/unterdurchschnittlichen) y-Werten einher
Negative Kovarianz
Überdurchschnittliche (/unterdurchschnittliche) x-Werte gehen mit unterdurchschnittlichen (/überdurchschnittlichen) y-Werten einher
Keine Kovarianz
Überdurchschnittliche (/unterdurchschnittliche) x-Werte gehen mit über- und unterdurchschnittlichen y-Werten einher
Produkt wird positiv
Produkt wird negativ
Unstandardisiert, weil abhängig von Maßeinheit
Standardisiertes Zusammenhangsmaß zur Beschreibung von linearen Zusammenhängen zwischen zwei Variablen
Kovarianz wird durch Produkt der Standardabweichungen dividiert
r = (sxy) / sx*sy
r liegt zwischen -1 und +1
Invariant gegenüber Maßeinheitsänderungen
+1 / -1 = perfekter positiver/negativer Zusammenhang
0= kein Zusammenhang
Metrische VAriablen in dichotome Variablen verwandelt
Darstellung der Korrelation in Form einer 4-Felder-Tafel
Hohe Korrelation
Richtige Zuordnung der Stufen der einen Variablen zu den Stufen der anderen Variablen
Keine Korrelation
Gleich viele Personen der einen Stufe der Variablen sind den beiden Stufen der anderen Variablen zugeordnet
Bestimmung der Korrelationskoeffizienten durch Betrachtung der Abweichung von Fehlerquote
r = (.50 - tatsächliche Abweichung) / .50
r = I0.1I =schwacher Zusammenhang
r= I0.3I = mittlerer Zusammenhang
r= I0.5I starker Zusammenhang
Zusammenhang darf nicht kausal interpretiert werden
Kategoriale Variablen
Ordinalskalierte Variablen
Nominalskalierte Variablen
Variablen mit unterschiedlichen Skala
Spearmans ρ (rho) (rs)
γ (gamma)
τb (tau)
Bildung von Rängen
xi -> rg(xi)
-1≤ rs ≤ +1
Geeignet für monotone nicht-lineare Zusammenhänge
Konkordanz C
Dikordanz D
Rangbindung Tx
Doppelte Rangbindung Txy
Anzahl parweiser Vergleiche S= N (N-1) /2
(C-D) / (C+D)
Anzahl der Vergleich mit Rangbindung T
(C-D) / √(C+D+Tx) * √(C+D+Ty)
Positiver Wert bei gleichsinnigen Zusammenhang, negativer Wert bei gegensinnigem Zusammenhang #
Zusammenhänge zwischen nominalskalierten Variablen über Häufigkeitsverteilungn in Kontingenztabelle untersuchbar
Unabhängigkeit
Identische Häufigkeitsverteilungn
Abhängigkeit
Nicht-identische Häufigkeitsverteilungen
Überprüfung des Zusammenhangs
Vergleich der empirisch gefundenen Häufigkeitsverteilung mit einer Häufigkeitsverteilung, die bei Unabhängigkeit gilt
χ2 (Chi)
Kann nur positive Werte annehmen
Je größer der Wert, desto größer der Zusammenhang
0=Kein Zusammenhang
Richtung des Zusammenhang (positiv/negativ) nicht angegeben
Maximalwert: N*k
k = min(r-1, c-1); r=anzahl von rows (zeile), c= anzahl von columns (spalten)
Cramers V
Standardisierung von χ2 durch Relativierung an Maximalwert
V= √ χ2 / (N*min(r-1, c-1))
φ (phi)
Bei 2x2-Tabellen V=φ
η2
Zusammenhang zwischen nominalskalierte und metrische Variable
Beruht auf Prinzip der Varianzzerlegung
rpbis
Bei dichotomen nominalskalierten Variablen rpbis=η2
Regressionsanalyse
Erhebung von metrischen Variablen x & y
Vorhersage über Variable y aufgrund von Variable x treffen
Kriterium ^yi
Variable y, über die Vorhersage getroffen wird (~abhängige Variable)
Prädiktor ^xi
Variable x, auf deren Grundlage Vorhersagen getroffen wird (=unabhängige Variable)
Daten in Streudiagramm mit x-y -Wertepaaren darstellbar
Regressionsgerade erlaubt Zusammenhänge
Steigung des Prädiktors b
Y-Achsenabschnitt a
^yi = b * xi + a
Residuum (=Differenz zwischen beobachteten und vorhergesagten y-Werten) ei = yi - ^yi
Bestimmung der Regressionsgeraden
Voraussetzungen #
Möglichst eindeutig bestimmbar (nicht mehrere Regressionsgeraden)
Möglichst genaue Vorhersage der Kriteriumswerte (=möglichst geringe Vorhersagefehler)
Regressionsgerade geht durch Mittelwerte von x und y
Modellgüte
Je besser die Vorhersage, desto besser das Regressionsmodell -> Modellgüte
Gesamtvariation SST
∑(yi - ´yi)2
Variation der Fehler SSE
∑(yi - ^yi)2
Variation der Regressionswerte SSR
∑(^yi - 'y)2
Determinationskoeffizient und Standardschätzfehler
Je mehr empirische y-Werte auf der Regressionsgerade liegen und damit den vorhergesagten ^y-Werten entsprechen, desto
höher ist der Determinationskoeffizient (=Anteil erklärter Varianz)
geringer ist der Standardschätzfehler
Korrekte Spezifikation
Linearität
Ausreißer
Einflussreiche Beobachtungen
Homoskedastizität
Normalverteilung
Alle relevanten Variablen in Regressionsanalyse aufgenommen -> maximale Varianzaufklärung
Underfitting
Relevante Variablen mit vorhersagewerte werden nicht aufgenommen
Overfitting
Irrelevante Variablen ohne Vorhersagewert werden aufgenommen
Höhere Werte des Prädiktors gehen mit höheren (/niedrigeren) Werten des Kriteriums einher
Bei Kriterium: Betrachtung der Residuen
Nicht mehr als 5% er Werte sollten ein standardisiertes Residuum von über +2 bzw. unter -2 aufweisen
Größe der Residuen ist unabhängig von Größe des Prädiktors