Statistik

Univariante Statistik

Maße der zentralen Tendenz

Häufigkeitsverteilung

Beschreibung einer einzigen Variable

Bivariante Statistik

Absolute Häufigkeiten

Relative Häufigkeiten

Anzahl der Untersuchungseinheiten mit einer bestimmten Merkmalsausprägung

Anzahl der Untersuchungseinheiten mit einer bestimmten Merkmalsausprägung, relativiert an der Gesamtzahl der Untersuchungseinheiten

Graphische Darstellung

Kategoriale Variablen

Balkendiagramm

Kreisdiagramm

Metrische Variablen

Histogramm

Stamm-Blatt-Diagramm

Balken repräsentiert jeweils eine einzige Ausprägung

Abstand zwischen Balken vorhanden, weil Ausprägungen nicht direkt auf einander folgen

Ungeeignet für viele Ausprägungen

Balken repräsentieren jeweils eine Gruppe (Klasse) von Ausprägungen

Abstände zwischen Balken vorhanden, weil Ausprägungen direkt aufeinander folgen

Einzelne Werte direkt ablesbar

Maße für die Streuung

Maße für die Schiefe

Maße für die Wölbung einer Verteilung

Mittelwert (M)

Summe aller Werte geteilt durch die Anzahl aller Werte (=Stichprobengröße N)

Nur sinnvoll interpretierbar bei metrischen Variablen

Sensitiv gegenüber jeder einzelnen Wert

Abweichung aller Werte in der Summe gleich Null

Median (Med)

Wert, über dem bzw. unter dem 50% aller nach Größe geordneten Werte liegen = Der mittlere Wert einer Rangreihe / Der Mittelwert der zwei mittleren Werte einer Rangreihe (bei gerade Stichprobenanzahl)

Ungerade Stichprobenanzahl: x(N+1)/2

Gerade Stichprobenanzahl: (xN/2 + xN/2 +1) / 2

Sinnvoll interpretierbar bei metrischen und ordinalskalierten Variablen

Robust gegenüber extremen Werten

Modalwert (mod)

Wert, der am häufigsten vorkommt

Auch bestimmbar bei nominalskalierten Variablen

Kann mehrere Ausprägungen sein

Spannweite (dr)

Differenz zwischen größten (max) und kleinsten (min) Wert

dr=max-min

Häufig unterschätzung der Spannweite, die tatsächlich in der Population herrscht, aus der die Stichprobe stammt

Berichten, wenn es wichtig ist zu zeigen, dass (fast) alle Ausprägungen einer Variablen unter den Unterscuhungseinheiten vorkommen

Interquartilabstand (dQ)

Differenz zwischen den oberen und den unteren Quartil

dQ = x.75 - x.25

Berichten, wenn Größe der Streuung im mittleren Bereich von Interesse ist

Zuerst: Werte nach Größe einordnen

Variation (QS)

Summe der Abweichungsquadrate ; Quadrierte Abweichung aller Werte vom Mittelwert

Von jedem Einzelwert wird Mittelwert substrahiert (Abweichung)

Abweichung wird jeweils quadriert (Abweichungsquadrate)

Alle quadrierten Abweichungen werden aufaddiert (Summe)

Varianz (s2)

Summe der Abweichungsquadrate dividiert durch Anzahl aller Werte (N) ; Durschnittliche Abweichung aller Werte vom Mittelwert

Interpretation schwierig, da durch quadrieren nicht dieselbe Einheit wie die Einheit der Variablen

Standardabweichung (s)

Wurzel der Varianz

Neben Mittelwert standardmäßig berichtet

Werden in der Regel nicht berichtet # #

Je größer die Streuung, desto größer der Wert # #

Rechtschiefe Verteilung

Positive Schiefe

REMOMEMI

Linksschiefe Verteilung

Negative Schiefe

LIMIMEMO

Schiefekoeffizient (gm)

Für metrische Variablen

Je weiter von Null weg (entweder - oder +), desto schiefer die Verteilung

In der Regel nicht berichtet

Wenn Normalverteilung nicht gegeben, kann die Schiefe der Verteilung berichtet werden

Standardisierung von Werten

Kriterialer Vegleich

Vergleich mit einem vorher festgelegtem Kriterium

Individueller Vergleich

Vergleich mit einem vorherigen Wert derselben Person

Sozialer Vergleich

Vergleich mit Werten von anderen Personen

Z-Transformationen

Transformation einer Variablen, so dass relative Lage von Wert direkt interpretierbar ist

z = (xi - M) / s

Wie viele Standardabweichungen liegt der Wert über/unter dem Mittelwert?

Mittelwert Mz=0

Standardabweichung sz=1

z-Werte über 0 = Überdurschschnittliche Werte

z-Werte unter 0 = Unterdurchschnittlihe Werte

Vergleichbarkeit unterschiedlicher Variablen durch herstellung derselben Einheit = standardabweichung s

Abhängigkeit von Verteilung: Derselbe Wert bedeutet unterschiedliche Sachen in unterschiedlichen Populationen

Normalverteilung

Unimodal

Symmetrisch

Festgelegt durch: Mittelwert, Streuung

z-Transformierte Normalverteilung

Herstellung der Standardnormalverteilung durch z-Transformation der ursprünglichen Werte

Mittelwert Mz = 0

Standardabweichung sz = 1

Prozentualer Anteil von Werten in bestimmten Intervallen immer gleich

-1 bis +1: 68,23% aller Werte

-2 bis +2: 95,44% aller Werte

Ausreißer

Werte, die mehr als 1,5 Interquartilabstände vom oberen oder unteren Quartil liegen

Extremwerte

Werte, die mehr als 3 Interquartilabstände vom oberen oder unteren Quartil liegen

Gemeinsame Betrachtung zweier Variablen anhand von Tabellen, Diagrammen und statistischen Maßen

Graphische Darstellungen

Kategoriale Variablen

Gruppierte Balkendiagramme

Gestapelte Balkendiagramme

Metrische Variablen

Streudiagramme

x-Achse: Abzisse (unabhängige Variable)

y-Achse: Ordinate (abhängige Variable)

Auf y-Achse können die absoluten Häufigkeiten abgetragen werden

Auf y-Achse sollten die bedingten Häufigkeiten abgetragen werden, damit sich alle Balken bis zur selben Höhe stapeln

Keine Darstellung von Häufigkeiten, sondern einzelnen Punkten, die Messwertpaare der Unterscuhungseinheiten darstellen

Zusammenhangsmaße

Metrische Variablen

Kovarianz (sxy)

Korrelation (r)

Unstandardisiertes Zusammenhangsmaß zur Beschreibung von linearen Zusammenhängen zwischen zwei Variablen

Häufig liegen Wertepaare nicht genau auf einem Geraden, aber dennoch so, dass man eine Gerade durch die Punktewolke ziehen kann

Positive Kovarianz

Überdurchschnittliche (/unterdurchschnittliche) x-Werte gehen mit überdurchschnittlichen (/unterdurchschnittlichen) y-Werten einher

Negative Kovarianz

Überdurchschnittliche (/unterdurchschnittliche) x-Werte gehen mit unterdurchschnittlichen (/überdurchschnittlichen) y-Werten einher

Keine Kovarianz

Überdurchschnittliche (/unterdurchschnittliche) x-Werte gehen mit über- und unterdurchschnittlichen y-Werten einher

Produkt wird positiv

Produkt wird negativ

Unstandardisiert, weil abhängig von Maßeinheit

Standardisiertes Zusammenhangsmaß zur Beschreibung von linearen Zusammenhängen zwischen zwei Variablen

Kovarianz wird durch Produkt der Standardabweichungen dividiert

r = (sxy) / sx*sy

r liegt zwischen -1 und +1

Invariant gegenüber Maßeinheitsänderungen

+1 / -1 = perfekter positiver/negativer Zusammenhang

0= kein Zusammenhang

Metrische VAriablen in dichotome Variablen verwandelt

Darstellung der Korrelation in Form einer 4-Felder-Tafel

Hohe Korrelation

Richtige Zuordnung der Stufen der einen Variablen zu den Stufen der anderen Variablen

Keine Korrelation

Gleich viele Personen der einen Stufe der Variablen sind den beiden Stufen der anderen Variablen zugeordnet

Bestimmung der Korrelationskoeffizienten durch Betrachtung der Abweichung von Fehlerquote

r = (.50 - tatsächliche Abweichung) / .50

r = I0.1I =schwacher Zusammenhang

r= I0.3I = mittlerer Zusammenhang

r= I0.5I starker Zusammenhang

Zusammenhang darf nicht kausal interpretiert werden

Kategoriale Variablen

Ordinalskalierte Variablen

Nominalskalierte Variablen

Variablen mit unterschiedlichen Skala

Spearmans ρ (rho) (rs)

γ (gamma)

τb (tau)

Bildung von Rängen

xi -> rg(xi)

-1≤ rs ≤ +1

Invariant gegenüber Transformationen # #

Robust gegenüber Ausreißern # #

Geeignet für monotone nicht-lineare Zusammenhänge

Konkordanz C

Dikordanz D

Rangbindung Tx

Doppelte Rangbindung Txy

Anzahl parweiser Vergleiche S= N (N-1) /2

(C-D) / (C+D)

Anzahl der Vergleich mit Rangbindung T

(C-D) / √(C+D+Tx) * √(C+D+Ty)

Positiver Wert bei gleichsinnigen Zusammenhang, negativer Wert bei gegensinnigem Zusammenhang #

Zusammenhänge zwischen nominalskalierten Variablen über Häufigkeitsverteilungn in Kontingenztabelle untersuchbar

Unabhängigkeit

Identische Häufigkeitsverteilungn

Abhängigkeit

Nicht-identische Häufigkeitsverteilungen

Überprüfung des Zusammenhangs

Vergleich der empirisch gefundenen Häufigkeitsverteilung mit einer Häufigkeitsverteilung, die bei Unabhängigkeit gilt

χ2 (Chi)

Kann nur positive Werte annehmen

Je größer der Wert, desto größer der Zusammenhang

0=Kein Zusammenhang

Richtung des Zusammenhang (positiv/negativ) nicht angegeben

Maximalwert: N*k

k = min(r-1, c-1); r=anzahl von rows (zeile), c= anzahl von columns (spalten)

Cramers V

Standardisierung von χ2 durch Relativierung an Maximalwert

V= √ χ2 / (N*min(r-1, c-1))

φ (phi)

Bei 2x2-Tabellen V=φ

η2

Zusammenhang zwischen nominalskalierte und metrische Variable

Beruht auf Prinzip der Varianzzerlegung

rpbis

Bei dichotomen nominalskalierten Variablen rpbis=η2

Regressionsanalyse

Erhebung von metrischen Variablen x & y

Vorhersage über Variable y aufgrund von Variable x treffen

Kriterium ^yi

Variable y, über die Vorhersage getroffen wird (~abhängige Variable)

Prädiktor ^xi

Variable x, auf deren Grundlage Vorhersagen getroffen wird (=unabhängige Variable)

Daten in Streudiagramm mit x-y -Wertepaaren darstellbar

Regressionsgerade erlaubt Zusammenhänge

Steigung des Prädiktors b

Y-Achsenabschnitt a

Regressionskoeffizienten # #

^yi = b * xi + a

Residuum (=Differenz zwischen beobachteten und vorhergesagten y-Werten) ei = yi - ^yi

Bestimmung der Regressionsgeraden

Voraussetzungen #

Möglichst eindeutig bestimmbar (nicht mehrere Regressionsgeraden)

Möglichst genaue Vorhersage der Kriteriumswerte (=möglichst geringe Vorhersagefehler)

Regressionsgerade geht durch Mittelwerte von x und y

Modellgüte

Je besser die Vorhersage, desto besser das Regressionsmodell -> Modellgüte

Gesamtvariation SST

∑(yi - ´yi)2

Variation der Fehler SSE

∑(yi - ^yi)2

Variation der Regressionswerte SSR

∑(^yi - 'y)2

Determinationskoeffizient und Standardschätzfehler

Je mehr empirische y-Werte auf der Regressionsgerade liegen und damit den vorhergesagten ^y-Werten entsprechen, desto

höher ist der Determinationskoeffizient (=Anteil erklärter Varianz)

geringer ist der Standardschätzfehler

Korrekte Spezifikation

Linearität

Ausreißer

Einflussreiche Beobachtungen

Homoskedastizität

Normalverteilung

Alle relevanten Variablen in Regressionsanalyse aufgenommen -> maximale Varianzaufklärung

Underfitting

Relevante Variablen mit vorhersagewerte werden nicht aufgenommen

Overfitting

Irrelevante Variablen ohne Vorhersagewert werden aufgenommen

Höhere Werte des Prädiktors gehen mit höheren (/niedrigeren) Werten des Kriteriums einher

Bei Kriterium: Betrachtung der Residuen

Nicht mehr als 5% er Werte sollten ein standardisiertes Residuum von über +2 bzw. unter -2 aufweisen

Größe der Residuen ist unabhängig von Größe des Prädiktors