Please enable JavaScript.
Coggle requires JavaScript to display documents.
Fortgeschrittene Statistik Politik, Woche 5 R, Woche 6 R, Woche 7 R, Woche…
-
Woche 5 R
-
-
Zusammenfassung
Polynome
-
-
Wann quadrieren? Theoretisch nicht linearen Zusammenhang begründen oder empirisch durch ein
Streudiagram (nicht monoton, z.B. u-förmig)
-
Die Parameter müssen linear sein, nicht jedoch die Variablen. Diese können wir transformieren
-
Logarithmus
Monotone, nicht lineare Zusammenhänge können manchmal mit einem Logarithmus abgebildet werden
-
-
Linear
-
Wenn x sich um eine Einheit erhöht, erhöht sich y um beta1 Einheiten
Double-log
-
Wenn sich x um einen Prozent erhöht, erhöht sich y um beta1 Prozent (Elastizität)
Semilog (lin-log)
-
Wenn x sich um einen Prozent erhöht, erhöht sich y um beta1 / 100 Einheiten
Semilog (log-in)
-
Wenn sich x um eine Einheit erhöht, erhöht sich y um (rund) 100 * beta 1 Prozent
Kategorielle Variablen
-
kategorielle Variablen: R macht n-1 Dummy-Variablen. Die Basiskategorie ist Teil des Konstante “(Intercept)”.
Variable muss factor oder character sein, wenn sie numerisch ist, wird sie als kontinueirlich angesehen (z.B. wichtig bei Stata-Datei (as_factor()))
F-Statistik: MSR / MSE. Testet auf R2 = 0 in der Population. Testet, ob min, ein β ungleich 0 ist. Auch
hier gibt es einen t- und p-Wert, mit dem wir sehen können, ob ein Faktor signifikant ist.
-
-
-
-
Woche 7 R
-
-
Zusammenfassung
-
Einfluss
-
Multivariate Ausreisse: |extern/intern studentisierte Residuen| > 3 [intern: Residuen durch
Standardabweichung aller Residuen, rstandard(model); extern: Standardabweichung ohne das i-te Residuum, rstudent(model)]
-
-
Normalität
-
QQ-Plot: Überprüfung, ob die standardisierten Residuen ungefähr standard-normalverteil sind (plotten
auf die entsprechenden Quantile (n+1) der Standardnormalverteilung), kleine Abweichungen sind unproblematisch
Heteroskedastizität
Nur eindeutig bei sehr grossen Stichproben, sonst Residuenplot anschauen (ist es etwa 10 oder mehr
Mal grösser)
Ursachen:
-
-
Spezifische Zusammenhänge zwischen UV und AV, z.B. wird die Ausgabenvarianz bei hohen
Einkommen höher sein als bei tiefen
-
Error-Learning: Steht die x-Achse für Lernprozesse, werden gegen Ende weniger Fehler gemacht
als am Anfang, dadurch gibt es auch eine geringere Fehlervarianz
-
Auswirkungen: bleibt erwartungstreu und konistent, aber nicht mehr effizient; Falsche Standardfehler
Goldfeld-Quandt-Test: Bei theoretischer Vermutung drei Gruppen bilden und 1. mit 3. vergleichen
(lmtest::gqtest(model, ordered.by=var))
Preusch-Pagan-Test: Testet, ob die Quadrate der OLS-Residuen mit keiner der UVs korrelieren, was
bei Homoskedastizität der Fall ist
-
-
WLS: Fehlervarianz muss bekannt sein, wenn das der Fall ist: Die Werte der AV und UV werden durch
die bekannten Standardabweichungen der einzelnen i dividiert, dadurch wird sie homoskedastisch
-
Woche 10 R
-
Zusammenfassung
-
-
ICC
anova = lme4::lmer(lr_self ~ 1 + (1 | canton),
data = schlegel::selects2015)
-
-
-
-
Woche 2 R
Zusamenfassung
-
-
-
-
-
Hypothesen testen
-
Wir können eine Hypothese nicht bestätigen, nur verwerfen. Ziel: Nullhypothese verwerfen
-
α-Wert: Signifikanz-Level: Wahrscheinlichkeit, die Nullhypothese zu verwerfen, obwohl sie wahr ist;
in der Regel 0.05, immer häufiger auch 0.005; 95%-Konfidenzinterval: bei 100 Stichproben liegt der beta-Wert 95 in diesem Bereich; β + / − 1.96 · s.e.(β)
-
p-Wert: Wahrscheinlichkeit ein Testresultat zu erhalten, dass min. so extrem ist als das beobachtete
Resultat unter der Annahme, dass die Nullhypothese korrekt ist. Sehr kleiner p-Wert sagt, dass die Beobachtungen die Nullhypothese nicht stützen
p-Wert unter α-Wert => Nullhypothese kann verworfen werden => Alternativhypothese ist statistisch
signifikant, d.h. überzufällig (nicht gleichbedeutend mit relevant, der Effekt kann auch sehr klein sein)
R
-
-
-
-
Hypothesen testen
Alpha Wert von 0,05 (0,025 auf beiden Seiten
-
-
-
-
-
-
Woche 4 R
-
Zusammenfassung
-
Genestete Modelle
Kommen alle Variablen eines Modells auch im anderen Modell vor, so ist dieses im anderen vollen
Modell genestet.
Informationskriterium
-
AIC: −2l + 2k; BIC: −2l + k · ln(n) [-2l ist die Anpassungsgüte; 2k, k · ln(n) die Sparsamkeit]
-
-
-
-
Woche 11 R
-
Zusammenfassung
Autokorrelation
Autoregressiver Prozess der ersten Ordnung (jeder Fehlerterm korreliert mit dem demjenigen der Vorperiode):
-
Autokorrelation: eine Annahme von OLS (die Fehlerterme korrelieren nicht miteinader) ist bei Zeitreihendaten
verletzt (Auswirkung: nicht mehr effizient, aber immer noch erwartungstreu und konsistent; Problem für Hypothesentests)
k-ten Ordnung (statt nur mit der Vorperiode, mit den k-Vorperioden)
Stationsaritätsannahme (ρ ∈ (−1, 1) bedeutet ρ liegt zwischen -1 und 1 exklusive -1 und 1): stellt sicher,
dass die Auswirkungen mit der Zeit abnehmen. Wäre die Annahme verletzt, würden die Fehlerterme im Zeitverlauf immer grösser was für die meisten Fälle nicht beobachtet wird
Wie Autokorrelation feststellen? 1) Testen ob Unterspezifikation? (Gravierenden, da nicht erwartungstreu,
bei Unterspezifikation würde auch Autokorrelation festgestellt) 2) Durbin-Watson-Test (Testet ob das ρ beim autoregressiven Prozess 0 ist)
- d nahe bei 2 => keine Autokorrelation (in R: lmtest::dwtest(model)) - Beheben: sandwich::NeweyWest(model)
(gibt eine korrigierte Varianz-Covarianzmatrix zurück)
Autoregression
Autokorrelation ist wahrscheinlich, wenn die Reihenfolge der Beobachtungen relevant ist, wie das bei
Zeitreihendaten der Regelfall ist. Ein Fehler eines Zeitpunkts t hängt in der Regel mit demjenigen des vorgehenden t-1 zusammen.
Ein Börsencrash hat nicht nur einen Einfluss auf diesen Tag, sondern auch auf die Folgetage, wobei
der Einfluss mit der Zeit abnimmt
-
Dynamische Modelle: zusätzlich Vorperioden im Modell (yt = β0 + β1xt + β2x(t−1) + β3*x(t−2) + ... + ϵt)
[Wie viele Zeitperioden: Theorie]
-
Lösung: statt die Vorperioden der unabhängigen (x), diejenigen der abhängigen Variable (y) nehmen:
Autoregressives Modell der k-ten Stufe (ARk). Beispiel für AR2:
-
-
Autokorrelation
Falls verletzt, könnte man folgendermassen korrigieren
Woche 12 R
-
Zusammenfassung
-
Panel
Paneldaten erlauben individuelle Trendaussagen, da wir mehrere Messpunkte von einem Individuum
haben
Paneldaten erhalten
-
Zeitvariante abhängige Variable (z.B. Einkommen, Ausbildung (vor allem bei jungen))
-
Zeitinvariante unabhängige Variable (z.B. Herkunft, häufig Geschlecht)
-
-
-
-
-
Tritt Problem 2 nicht auf => Pooling oder Random Effects Panel, sonst Fixed Effects oder First
Difference Modell.
-
yit = β0+βxit+αi+ϵityit−1 = (β0+δ0)+β1xit−1+αi+ϵit−1Δyit = yit−yit−1 = δ0+Δxitβ+Δϵit, t = 2, ..., T siehe Dok.
Probleme
wenn die Variablen kaum variieren, kann man es nicht schätzen, da die Differenz (Δ) 0 (oder fast
0 ist)
-
Bei Fixed Effects eliminieren wir die zeitinvariante Komponenten des Fehlerterms durch Substraktion
des Mittelwerts
-
Da alpha i Zeitinvariant ist, ist der Mittelwert identisch und dadruch fällt es raus, ebenso der Achsenabschnitt
(β0).
-
Alterantive: LSDV (Least Square Dummy Variablen), da nimmt man für jedes Indiviuum eine Dummy
Variable rein mit identischen Resulateten (häufig sind es aber zu viele Individuen, deshalb eher unüblich)
-
Random Effects Modell: Schätzung der zeitinvarianten Kompotente des Fehlerterms wie bei einem
Multilevel Random Intercept Modell
Random Effects Modell ist zu bevorzugen, ausser wenn wir Endogenität haben, dann ist es inkonsistent
und die Schätzer verzerrt. Wenn die Varinaz der Werte eines Invididuums (within-Varianz) sehr viel kleiner ist als die Varianz zwischen dern Indiviuun (between-Varianz), funktioniert des Fixed Effects
Modell nicht gut
plm() in R schätzen
-
andere: “random”, “fd”, “between”, “pooling”
model = plm(lr_self ~ sex + edyear + political_interest, data = df_shp,
index = c("idpers", "year"), model = "within")
-
-
-
-
Woche 8
Zusammenfassung
Spezifikationsfehler
Überspezifikation: Regression enthält unabhängige Variablen, die keinen Einfluss auf die abhängige
Variable haben => diese βs haben einen Wert von 0, Exogentitäsannahme nicht verletzt, aber nicht mehr effizient (schlechteres adj. R2). Lösung: Überschüssige Variablen entfernen
Unterspezifikation: Fehlen von unabhängigen Variablen, die einen Einfluss auf die abhängige Variable
haben => wenn eine unabhängige Variable mit der fehlenden Variable korreliert, korreliert sie mit dem Fehlerterm => Exogenitätsannahme verletzt => Endogenität => β(s) enthalten indirekte
Effekte, d.h. der Schätzer ist nicht mehr erwartungstreu. Oder anders: x1 bekommt Kredit für x2, weil diesem nicht erlaubt wurde, teil des Modells zu sein
-
Wie lösen? Fehlende Variable ins Modell aufnehmen, wenn sie vorhanden ist. Sonst Proxivariable
nehmen, sofern diese vorhanden. 2SLS / Instrumenten-Varialen-Schätzung (sofern Instrument gefunden)
-
das Problem kann auch von Messfehlern der unabhängigen Variable kommen, nicht aber der abhängigen
(die nur auf die Varianz)
Experimente
-
Gruppen müssen genug gross sein, sonst hat das Experiment zu wenig Power. [Power: Die Wahrscheinlichkeit
uns bei Gültigkeit der Alternativen Hypothese wirklich für diese anstatt für die Nullhypothese zu entscheiden] Bei zu tiefem Power findet man unter umständen keinen Effekt, obwohl dieser in der
Realität vorhanden ist.
-
-
-