Fortgeschrittene Statistik Politik
Woche 2 R
R
Einführungsbeispiel
lineare Regressionslinie hinzufügen
Daten einlesen und filtern
OLS Schätzer
Varianz
beta1
Kovarianz
beta0
Remove missings
Lineare Regression schätzen
Standardabweichung von beta0
Standardabweichung von beta1
s^2
Mit der Funktion lm
Calculate Residuals
Lineare Regression schätzen und interpretieren
Mit Gewicht
Hypothesen testen
Alpha Wert von 0,05 (0,025 auf beiden Seiten
get Betas
get Standardabweichung
95% Konfidenzintervall
Konfidenzintervall direkt berechnen
Woche 3 R: Multivariate Regression
R
Schätze Tabelle
Word
Multivariate Regression von Hand
beta1 schätzen
beta2 schätzen
NA's entfernen um von Hand rechnen zu können
Multivariate Regression
Variablenwichtigkeit
maximale Änderung
Dispersion Importance ( Standarditisierte Koeffizienten)
Level importance (Durchschnittlicher Effekt)
Anteil am R^2
Woche 4 R
Determinationskoeffizient R^2
angepasstes R^2 berechnen
root mean squared error berechnen
R^2 berechnen
alles in Modelloutput ablesen
Varianzanalyse
AIC / BIC
Woche 5 R
Quadratisches Modell
Discrete Change
von 1 bis 2
eine Funktion für unseren Fall schreiben
andere discrete changes
marginale Effekte von swanzahl (Steigung)
bei 2
bei 1
bei 4
bei 9
with a function
Logarithmus
Graph
Modelle
Kategorielle Variablen
Binäre Variable
Modell
Graphische Darstellung
Diskrete Variable
Modell
Unterschied zwischen Variablen
Oder Basiskategorie in Modell ändern
Woche 6 R
Interaktion
Graphische Darstellung
Hypothesen testen
Initiative aus der Reihe der SVP
Beispiel mit kontinuierlichen Variablen
Woche 7 R
Multikollinearität
Pearson's R
Variance inflation factor
Einfluss
Grafik erstellen
Hebelwirkung berechnen
Ausreisser identifizieren
intern studentisierte Residuen
extern studentisierte Residuen
Normalverteilung
Heteroskedastizität
Streudiagramm
Goldfeld-Quandt-Test
Breusch-Pagan-Test
Robuste Standardfehler nach Huber-White
Woche 8
Spezifikationsfehler
RESET Test
RESET zeigt keine Spezifikationsfehler an
Woche 10 R
Fixed Effect Modell
alternatives Modell ohne globalen Achsenabschnitt
Interclass Correlation (ICC)
Ein Random Intercept Modell rechnen
durchschnittliche Effekte (Kantonsunabhängig)
alpha_j anzeigen
graphische Interpretation
Vorausgesagte Werte für X
Woche 11 R
Autokorrelation
Falls verletzt, könnte man folgendermassen korrigieren
Autoregressives Modell
Daten vorbereiten
Modell schätzen
AR 1
AR 2
mit X
Woche 12 R
Kummulierte Querschnittsdaten
Panel Regression
first diference
fixed effects
Pooling
random effects
between-Modell
random Effekte konsistent?
random Effekte nötig oder reicht pooling?
serielle Korrelation
Woche 13 R
Estimating a binary model
logit
probit
Interpretation
odds ratio
predicted probability
discrete change
Konfidenzintervall hinzufügen (simulieren / bootstrap)
1000 (oder mehr) Betas auf der Multivariaten Normalverteilung ziehen
Methode 2: bootstrap
using a package
Streudiagram
Latex
Zusamenfassung
Woche 1: Modelle und Regression
Zusammenfassung
Modelle
Parsimonität (Sparsamkeitsregel): Modelle mit weniger Faktoren aber gleichem Erklärungsgehalt
werden bevorzugt.
Mathematische Modelle sind deterministisch: wenn x dann y (Beispiel: y = ax + b)
Modelle sind kein Spiegelbild der Realität. Sie formulieren allgemeine Gesetzmässigkeiten und reduzieren
die sozialen Komplexität auf das Wesentliche
Statistische Modelle sind probabilistisch/stochastisch: wenn x dann eher y; sie enthalten Zufallsveriablen
und damit Störterme/Fehlerterme (Beispiel y = β0 + β1x + ϵ; ϵ ist der Fehlerterm.)
Regression
Zwecke einer Regression
Herangehenesweisen einer Regression:
Für intervallskalierte (kontinuierliche) Variablen eignen sich Kreuztabellen kaum, mit Regressionen
lassen sich diese Zusammenhänge jedoch einfach untersuchen
statistisches Werkzeug zur Untersuchung von Beziehungen zwischen Variablen
Prognose/Schätzung
Vorhersage der Ergebnisse von Interventionen: Analyse von kausalen Effekten (Experimente)
deskriptive Analyse (Beschreibung ohne Theorie; es kann nur eine Aussage über die vorhanden
Daten gemacht werden)
Hypothesen testen (mit Hilfe von Theorie von der Stichprobe auf die Grundgesamtheit schliessen)
Streudiagram mit Regressionslinie
Univariates Lineare Modell (nur eine unabhängige Variable
yi = beta0 + beta1 * xi + epsilon i
die abhängige Variable (y) muss kontinuierlich sein (andere Begriffe: Ordinate, Outcome, Regressand,
endogene Variable)
Der Fehlerterm ist die Abweichung vom Idealwert (andere Begriffe: Störterm, Residuen, ϵ), es beinhaltet
bei der unabhängige Variable (x) ist das Messniveau egal (andere Begriffe: Abszisse, Prädiktor,
Regressor, exogene Variable)
Der Steigungskoeffizient ist die Richtung und der Steigungsgrad der Regressionslinie. Es ist die
erwartete Änderung der abhängigen Variable (y), wenn sich die unabhängige Variable (x) um eine Einheit ändert. Es ist also der Einfluss von x auf y. (andere Begriffe: Slope, β)
Der Achsenabschnitt ist der Erwartungswert der abhängigen Variable (y), wenn die unabhängige
Variable (x) den Wert Null annimmt. Die Interpretation macht nur dann Sinn, wenn x den Wert 0 annehmen kann (andere Begriffe: Konstante, Intercept)
Zufall im menschlichen Verhalten
Fehlerspezifikationen des Modells (weggelassene Variablen)
Messfehler in der abhängigen Variable
Warum verwenden wir OLS (das Verfahren der kleinsten Quadrate)?
Welche Gütekriterien sollte ein gutes Schätzverfahren haben?
Ziel: Fehlerterm minimieren
Wir wollen ein lineares Modell rechnen. Gesucht sind Achsenabschnitt und Steigungskoeffizient
OLS ist BLUE (Best Linear Unbiased Estimator; bedeutet, dass es keinen besseren Schätzer geben
kann, also erwartungstreu, konsistent und absolut effizient), (mit geringster Varianz) wenn folgende Annahmen erfüllt sind:
Konsistenz (consistency): Annäherung an der wahren Wert bei zunehmender Stichprobengrösse, auch genannt asymptotische Eigenschaft eines Schätzers
Erwartungstreue (unverzerrt/unbiased)): Erwartungswert entspricht dem wahren Wert
Effizienz (minimale Varianz / efficiency): Je kleiner die Varianz ist, desto näher liegt ein Stichprobenschätzwert
auf dem wahren Parameter liegen. [Relative Effizienz: geringere Varianz bei gleicher erwartungstreue als ein Vergleichsschätzer; Absolute Effizienz: kein anderer Schätzer mit
geringerer Varianz]
Option 1: Summe der Residuen gleich null. Keine gute Option, da sich so positive
und negative Residuen aufheben. Der Mittelwert wäre dann immer optimal
Option 2: Betrag minimieren gut, aber mathematisch komplex zum Schätzen wegen
“Knick” bei 0
Option 3: Quadrate minimieren gut und einfach zum Schätzen (=> OLS) [+ Vorteil,
dass grössere Abweichungen stärker bestraft werden]
Zufallsauswahl
Erwarungswert der Fehler ist null [sonst nicht erwartungstreu] Schnitt aller Fehlerterme soll null sein, sonst nicht erwartungstreu
Linearität: Beziehung (=Parameter) zwischen der abhängigen und der unabhängigen ist linear
Homoskedastizität: Varianz der abhängigen Variable ist konstant über alle Werte der unabhängigen
Variable
keine Autokorrelation: keine Korrelation der Residuen
keine perfekte Multikollinearität, Beispiel zwei Variablen die beide Alter darstellen
für Hypothesentest (d.h. um die p-Werte interpretieren zu können): Normalverteilung der Fehlerterme, sonst nur deskriptiv
OLS selber schätzen: siehe Notizen
Ein univariates lineares Modell schätzen und interpretieren
Generelle Interpretation: Steigt die unabhängige Variable (x) um eine Einheit an, steigt die abhängige
Variable (y) um β1 Einheiten an.
Konkrete für dieses Beispiel: Ist die Zustimmung im Nationalrat um einen Prozentpunkt höher, so ist die
Zustimmung im Volk um 0.48 Prozentpunkte höher
Hypothesen testen
Nullhypothese: gegenteilige Hypothese
Wir können eine Hypothese nicht bestätigen, nur verwerfen. Ziel: Nullhypothese verwerfen
Alternative Hypothese: unserer theoretisch hergeleiteten Hypothese
α-Wert: Signifikanz-Level: Wahrscheinlichkeit, die Nullhypothese zu verwerfen, obwohl sie wahr ist;
in der Regel 0.05, immer häufiger auch 0.005; 95%-Konfidenzinterval: bei 100 Stichproben liegt der beta-Wert 95 in diesem Bereich; β + / − 1.96 · s.e.(β)
t-Wert: β/s.e.; absolute Zahl > 1.96 => auf 0.05 α-Niveau singifikant
p-Wert: Wahrscheinlichkeit ein Testresultat zu erhalten, dass min. so extrem ist als das beobachtete
Resultat unter der Annahme, dass die Nullhypothese korrekt ist. Sehr kleiner p-Wert sagt, dass die Beobachtungen die Nullhypothese nicht stützen
p-Wert unter α-Wert => Nullhypothese kann verworfen werden => Alternativhypothese ist statistisch
signifikant, d.h. überzufällig (nicht gleichbedeutend mit relevant, der Effekt kann auch sehr klein sein)
Zusammenfassung
Einführung Multivariate Regression
Interpretation von subshare2: Nimmt der Ja-Anteil der Ausgaben um einen Prozentpunkt (=Einheit von
Kampagnenbudget) zu, so nimmt der Ja-Anteil der Abstimmung um 0.47 Prozentpunkte (=Einheit des Abstimmungsresultats) zu, ceteris paribus
Logik der Multivariaten Regression
Welcher Anteil der Hauptvariable wird nicht bereits durch die Kontrollvariablen erklärt? x ~ Kontrollvariablen
=> Residuen v
Welcher Anteil der nicht bereits durch die Kontrollvariablen abgedeckt wurde, kann die Haupterklärende
zur zu erklärenden Variable beitragen? u ~ v => Effekt der Haupterklärenden (x) auf die zu erklärende Variable (y)
Welcher Anteil der zu erklärenden Variable (y) können die Kontrollvariablen nicht erklären? y ~
Kontrollvariablen => Residuen u
Variablenwichtigkeit
Maximaler Effekt: (max - min) * Effekt (Beta) [Welche Veränderung von y kann x maximal erreichen?]
Dispersion Importance: Standardisierte Effekte (Betas) [Welchen Effekt haben die Variablen, wenn das
Messniveau standardisiert wurde und damit vergleichbar ist?]
Level Importance: Durchschnitt * Effekt (Beta) [Welchen Effekt hat die Variable im Durchschnitt?]
Anteil am Rˆ2 [Welchen Anteil der Varianz der abhängigen Variable erklärt eine Variable]
R Markdown
Zusammenfassung
Determinationskoeffizient R^2
Adjusted R^2
Ziel: möglichst sparsames Modell mit theoretischer Auswahl der Präditkoren und Kontrollvariablen
statt “data-mining”
Genestete Modelle
Kommen alle Variablen eines Modells auch im anderen Modell vor, so ist dieses im anderen vollen
Modell genestet.
Informationskriterium
Anpassungsgüte: minimale Varianz der Residuen (OLS) oder Maximum Likelihood
AIC: −2l + 2k; BIC: −2l + k · ln(n) [-2l ist die Anpassungsgüte; 2k, k · ln(n) die Sparsamkeit]
Ziel: Modellvergleich mit Kriterien Anpassungsgüte + Sparsamkeit
Fallzahl muss gleich sein; bevorzugt wird das Modell mit dem kleineren Wert
AIC^C (wenn n/k < 40; k = betas + Varianzparameter)
Zusammenfassung
Polynome
yi = β0 + β1x1 + β2x^21 + ϵi
In R: y ~ x + I(xˆ2)
Wann quadrieren? Theoretisch nicht linearen Zusammenhang begründen oder empirisch durch ein
Streudiagram (nicht monoton, z.B. u-förmig)
Discrete Change: Unterschied zwischen zwei Werten von x bei y.
Die Parameter müssen linear sein, nicht jedoch die Variablen. Diese können wir transformieren
Marginaler Effekt: Steigung an einem Punkt (Ableitung)
Logarithmus
Monotone, nicht lineare Zusammenhänge können manchmal mit einem Logarithmus abgebildet werden
Exponentialfunktionen können so linearisiert werden
Rechtsschiefe Variablen können mit dem Logarithmus normailisiert werden
Linear
Double-log
Semilog (lin-log)
Semilog (log-in)
yi = beta0 + beta1*xi + eps i
ln(yi) = beta0 + beta1*ln(xi) + eps i
yi = beta0 + beta1*ln(xi) + eps i
ln(yi) = beta0 + beta1*xi + eps i
Wenn x sich um eine Einheit erhöht, erhöht sich y um beta1 Einheiten
Wenn sich x um einen Prozent erhöht, erhöht sich y um beta1 Prozent (Elastizität)
Wenn x sich um einen Prozent erhöht, erhöht sich y um beta1 / 100 Einheiten
Wenn sich x um eine Einheit erhöht, erhöht sich y um (rund) 100 * beta 1 Prozent
Kategorielle Variablen
Variablen mit 2 Ausprägungen: dichotome/binäre/Dummy-Variable (Veränderung des Achsenabschnitts)
kategorielle Variablen: R macht n-1 Dummy-Variablen. Die Basiskategorie ist Teil des Konstante “(Intercept)”.
Variable muss factor oder character sein, wenn sie numerisch ist, wird sie als kontinueirlich angesehen (z.B. wichtig bei Stata-Datei (as_factor()))
F-Statistik: MSR / MSE. Testet auf R2 = 0 in der Population. Testet, ob min, ein β ungleich 0 ist. Auch
hier gibt es einen t- und p-Wert, mit dem wir sehen können, ob ein Faktor signifikant ist.
car::linearRegression andere Kombinationen gegen 0 testen
Zusammenfassung
Interaktion / Moderation
R Markdown
Ein Variable (Moderator) beeinflusst die stärke eines anderen Effekts
Modelliert als Produkt zweier unabhängiger Variablen (inkl. der Haupteffekte); symetrisch
Bibliografie: lib.bib (Bib-Datei)
Zusammenfassung
Regressionsdiagnostik und Multikollinearität
Hohe Multikollinearität: hohe Korrelation zwischen unabhängigen Variablen, Schätzung ist nicht robust
(kann sich stark ändern wenn eine Variable weggelassen wird; BLUE nicht verletzt)
Paarweise Korrelation Fausregel: > |0.8|
Perfekte Multikollinearität: eine Variale lässt sich perfekt durch andere Berechnen (R setzt diese auf
NA)
Besser: VIF (Varianz Inflation Factor) 1 / (1 - R^2j); R2
j ist der R2-Wert, wenn wir den j-ten Präditkor ab abhängige Variable und die restlichen Prädiktoren als unabhängige Variablen nehmen. Faustregel: VIF >10 => starke Multikolinearität, >5 => gewisse Multikolinearität [Wurzel aus dem VIF ist der
Faktor, um den sich das Beta verändert wegen der Multikollinearität]; in R: vif(model)
Einflussreiche Datenpunkte können einen überproportionalen Einfluss haben
Was tun bei Multikolinearität? Bessere Daten sammeln, Variablen transformieren, Index aus den
Variablen bilden wenn theoretisch sinnvoll, weglassen (evtl. Spezifikationsproblem), wenn Ziel Prognose ist: Problem ignorieren
Annahmen überprüfen, wenn verletzt ist OLS nicht BLUE
Einfluss
Hebelwirkungen: Hatvalue >2 * Durchschnitt(Hatvalues) => starke Hebelwirkung
Multivariate Ausreisse: |extern/intern studentisierte Residuen| > 3 [intern: Residuen durch
Standardabweichung aller Residuen, rstandard(model); extern: Standardabweichung ohne das i-te Residuum, rstudent(model)]
Multivariate Ausreisser mit hoher Hebelwirkung (extreme x-Werte) sind einflussreich
Weitere Möglichkeiten: DFFITS (>1 oder >2); Cooks’ D (>1)
Normalität
Für die Hypothesentests müssen Fehler normalverteilt sein
QQ-Plot: Überprüfung, ob die standardisierten Residuen ungefähr standard-normalverteil sind (plotten
auf die entsprechenden Quantile (n+1) der Standardnormalverteilung), kleine Abweichungen sind unproblematisch
Heteroskedastizität
Nur eindeutig bei sehr grossen Stichproben, sonst Residuenplot anschauen (ist es etwa 10 oder mehr
Mal grösser)
Ursachen:
Annahme: Homoskedastizität (Varianz der Fehler ist konstant)
Auswirkungen: bleibt erwartungstreu und konistent, aber nicht mehr effizient; Falsche Standardfehler
Goldfeld-Quandt-Test: Bei theoretischer Vermutung drei Gruppen bilden und 1. mit 3. vergleichen
(lmtest::gqtest(model, ordered.by=var))
Preusch-Pagan-Test: Testet, ob die Quadrate der OLS-Residuen mit keiner der UVs korrelieren, was
bei Homoskedastizität der Fall ist
H0: Homoskedastizität bei beiden Tests (p<0.05 => Heteroskedastizität)
Was tun?
WLS: Fehlervarianz muss bekannt sein, wenn das der Fall ist: Die Werte der AV und UV werden durch
die bekannten Standardabweichungen der einzelnen i dividiert, dadurch wird sie homoskedastisch
Ausreisser
Unterspezifikation
Spezifische Zusammenhänge zwischen UV und AV, z.B. wird die Ausgabenvarianz bei hohen
Einkommen höher sein als bei tiefen
UV weisst eine sehr schiefe Verteilung auf
Error-Learning: Steht die x-Achse für Lernprozesse, werden gegen Ende weniger Fehler gemacht
als am Anfang, dadurch gibt es auch eine geringere Fehlervarianz
Aufgrund theoretischer Argumente transformieren (z.B. log)
Berechnung robuster Standardfehler (sofern Fallzahl genug hoch)
Wenn Unterspezifikation: Fehlende Variablen ins Modell aufnehmen
click to edit
Zusammenfassung
Spezifikationsfehler
Überspezifikation: Regression enthält unabhängige Variablen, die keinen Einfluss auf die abhängige
Variable haben => diese βs haben einen Wert von 0, Exogentitäsannahme nicht verletzt, aber nicht mehr effizient (schlechteres adj. R2). Lösung: Überschüssige Variablen entfernen
Unterspezifikation: Fehlen von unabhängigen Variablen, die einen Einfluss auf die abhängige Variable
haben => wenn eine unabhängige Variable mit der fehlenden Variable korreliert, korreliert sie mit dem Fehlerterm => Exogenitätsannahme verletzt => Endogenität => β(s) enthalten indirekte
Effekte, d.h. der Schätzer ist nicht mehr erwartungstreu. Oder anders: x1 bekommt Kredit für x2, weil diesem nicht erlaubt wurde, teil des Modells zu sein
Endogenität: Unabhängige Variable(n) korrelieren mit dem Störterm/Fehlerterm
Wie lösen? Fehlende Variable ins Modell aufnehmen, wenn sie vorhanden ist. Sonst Proxivariable
nehmen, sofern diese vorhanden. 2SLS / Instrumenten-Varialen-Schätzung (sofern Instrument gefunden)
Exgonitätsannahme: die unabhängigen Variablen korrelieren nicht mit dem Fehlerterm
das Problem kann auch von Messfehlern der unabhängigen Variable kommen, nicht aber der abhängigen
(die nur auf die Varianz)
Experimente
Kontrolle von Drittvariablen durch zufällige Einteilung in Behandlungs- und Kontrollgruppen
Gruppen müssen genug gross sein, sonst hat das Experiment zu wenig Power. [Power: Die Wahrscheinlichkeit
uns bei Gültigkeit der Alternativen Hypothese wirklich für diese anstatt für die Nullhypothese zu entscheiden] Bei zu tiefem Power findet man unter umständen keinen Effekt, obwohl dieser in der
Realität vorhanden ist.
Bei Umfragen können wir nie auf alles kontrollieren. Lösung: Experiment
Zusammenfassung
Fixed Effects vs. Random Effects
Fixed Effects: Effekte sind einer endlichen Menge von Leveln eines Faktors in den Daten zuzuschreiben,
welche da sind, weil wir an ihnen interessiert sind
Random Effects: Eine Auswahl aus einer Population, welche die Population repräsentiert, aber austauschbar
sind. Deshalb variieren die Effekte zufällig innerhalb derPopulation
Hierarchische Daten: Daten mit mehreren Ebenen (z.B. Schüler:innen (Level 1) aus Schulen (Level 2)
in Ländern (Level 3))
Random Efffects sind zu bevorzugen, wenn eine Mehrebenenanalyse durchgeführt wird, sofern wird
genügend Fälle auf Level 2 (3, 4, . . . , falls vorhanden) haben müssen (~min. 20, besser mehr)
Fixed Effects Modell schätzen
Level 2 (im Beispiel canton) muss ein Faktor oder Character sein, damit n-1 Dummy Variablen gebildet
werden
model = lm(lr_self ~ age + gender + canton, data = schlegel::selects2015)
Alternative Schätzmethode (mit geclusterten Standardfehlern)
Clustered Standard Errors: “clusters” sind Subgruppen. Wird verwendet, wenn z.B. bei einem Experiment
die Treatments einer Gruppe (z.B. ganzen Schulklasse) statt Individuen zugewiesen werden Wird auch oft bei fixed effects gemacht, dort sind die Clusters das Level 2 (z.B. Kanton)
model = fixest::feols(lr_self ~ age + gender, fixef = "canton",
data = schlegel::selects2015)
ICC
anova = lme4::lmer(lr_self ~ 1 + (1 | canton),
data = schlegel::selects2015)
siehe Dok.
Random Intercept Modell scchätzen
model_ri = lme4::lmer(lr_self ~ age + gender + (1 | canton),
data = schlegel::selects2015)
sjPlot::plot_model(model_ri, type = "re", sort.est = "(Intercept)")
andere Typen für die Grafik (Auswahl): “est” (fixed effects), “int” (Interaktion, falls vorhanden),
“pred” (Vorausgesagte Werte mit Konfidenzintervall)
siehe Dok.
Zusammenfassung
Autokorrelation
Autoregression
Unterschiedliche Datentypen
Zeitreihendaten (1 Fall mit vielen Zeitpunkten, z.B. Arbeitslosenzahlen der Schweiz)
Kumulative Querschnittsdaten (mehrere Umfragewellen mit unterschiedlichen Individuen, z.B. Selects
Kumulativer Datendatz 1975-2019)
Querschnittsdaten (normale Umfragedaten, z.B. Selects 2015)
Paneldaten (mehrere Umfragewellen mit den gleichen Individuen, z.B. Swiss Household Panel)
1 Fall Daten (z.B. Tianenmen Massaker)
Autoregressiver Prozess der ersten Ordnung (jeder Fehlerterm korreliert mit dem demjenigen der Vorperiode):
ϵt = ρ · ϵ(t−1) + νt
Autokorrelation: eine Annahme von OLS (die Fehlerterme korrelieren nicht miteinader) ist bei Zeitreihendaten
verletzt (Auswirkung: nicht mehr effizient, aber immer noch erwartungstreu und konsistent; Problem für Hypothesentests)
k-ten Ordnung (statt nur mit der Vorperiode, mit den k-Vorperioden)
Stationsaritätsannahme (ρ ∈ (−1, 1) bedeutet ρ liegt zwischen -1 und 1 exklusive -1 und 1): stellt sicher,
dass die Auswirkungen mit der Zeit abnehmen. Wäre die Annahme verletzt, würden die Fehlerterme im Zeitverlauf immer grösser was für die meisten Fälle nicht beobachtet wird
Wie Autokorrelation feststellen? 1) Testen ob Unterspezifikation? (Gravierenden, da nicht erwartungstreu,
bei Unterspezifikation würde auch Autokorrelation festgestellt) 2) Durbin-Watson-Test (Testet ob das ρ beim autoregressiven Prozess 0 ist)
- d nahe bei 2 => keine Autokorrelation (in R: lmtest::dwtest(model)) - Beheben: sandwich::NeweyWest(model)
(gibt eine korrigierte Varianz-Covarianzmatrix zurück)
Autokorrelation ist wahrscheinlich, wenn die Reihenfolge der Beobachtungen relevant ist, wie das bei
Zeitreihendaten der Regelfall ist. Ein Fehler eines Zeitpunkts t hängt in der Regel mit demjenigen des vorgehenden t-1 zusammen.
Ein Börsencrash hat nicht nur einen Einfluss auf diesen Tag, sondern auch auf die Folgetage, wobei
der Einfluss mit der Zeit abnimmt
Statistische Modelle: normales OLS (yt = β0 + β1*xt + ϵt)
Dynamische Modelle: zusätzlich Vorperioden im Modell (yt = β0 + β1xt + β2x(t−1) + β3*x(t−2) + ... + ϵt)
[Wie viele Zeitperioden: Theorie]
Problem bei dynamischem Modellen: Multikollinearität
Lösung: statt die Vorperioden der unabhängigen (x), diejenigen der abhängigen Variable (y) nehmen:
Autoregressives Modell der k-ten Stufe (ARk). Beispiel für AR2:
yt = β0 + β1xt + β2y(t−1) + β3*y(t−2) + ϵt
Zusammenfassung
Analyse von kumulativen Querschnittsdaten
Kumulierte Querschnittsdaten erlauben keine Trendaussagen auf Individualebene (da Unterschiedliche
Individuen zu unterschiedlichen Messzeitpunkten). Es erlaubt aber Trendaussagen anhand des Durchschnitts.
Aussgan ebei kumulierten Querschnittsdaten sind also nr auf kollektiver Ebene möglich.
Berechnung: OLS mit Dummy-Variablen für die Zeit (Zeit als Faktor reinehmen), möglich sind auch
Interaktionen zwischen der Zeit und Variablen, wenn wir in der Theorie davon ausgehen, dass sich der Effekt einer Variable über die Zeit verändert
Panel
Paneldaten erlauben individuelle Trendaussagen, da wir mehrere Messpunkte von einem Individuum
haben
Paneldaten erhalten
Daten im Longformat (allenfalls pivot_longer() verwenden in R)
Notation:
Fehlerterm: zeitinvariante und zeitvarianter Teil
Pooling Panel Model (normales OLS):
Tritt Problem 2 nicht auf => Pooling oder Random Effects Panel, sonst Fixed Effects oder First
Difference Modell.
First Difference: Elimination des zeitinvarianten Kompotneten des Fehlerterms
yit = β0+βxit+αi+ϵityit−1 = (β0+δ0)+β1xit−1+αi+ϵit−1Δyit = yit−yit−1 = δ0+Δxitβ+Δϵit, t = 2, ..., T siehe Dok.
Probleme
Bei Fixed Effects eliminieren wir die zeitinvariante Komponenten des Fehlerterms durch Substraktion
des Mittelwerts
yit − ¯ yi = β(xit − ¯ xi) + (αi − ¯ αi) + (ϵit − ¯ϵi)
Da alpha i Zeitinvariant ist, ist der Mittelwert identisch und dadruch fällt es raus, ebenso der Achsenabschnitt
(β0).
Within: Erklärung über die Zeit auf individueller Ebene
Alterantive: LSDV (Least Square Dummy Variablen), da nimmt man für jedes Indiviuum eine Dummy
Variable rein mit identischen Resulateten (häufig sind es aber zu viele Individuen, deshalb eher unüblich)
Zeitvariante abhängige Variable
Zeitvariante abhängige Variable (z.B. Einkommen, Ausbildung (vor allem bei jungen))
ein Indiktor für die Zeit (z.B. Jahr oder Welle)
Zeitinvariante unabhängige Variable (z.B. Herkunft, häufig Geschlecht)
eine zeitinvariante eindeutige Bezeichnung für jede Einheit (z.B. id)
Stichprobenumfang: N
Gesamtzahl Zeitpunkte: T
Messzeitpunkt: t
Beobachtungen: N · T
Untersuchungseinheit: i
Problem 1: Autokorrelation (Beobachtungen sind nicht unabhängig, wenn gleiche Personen
mehrmals befragt werden)
Problem 2: Endogenität (bei Unterspezifikation), die Zeitinvariante Komponente des Fehlerterms
korreliert mit unabhängigen Variablen
wenn die Variablen kaum variieren, kann man es nicht schätzen, da die Differenz (Δ) 0 (oder fast
0 ist)
Pro Einheit verlieren wir eine Beobachtung (t=1)
Bei grossem T und kleinem N wird eher First Difference verwendet
Random Effects Modell: Schätzung der zeitinvarianten Kompotente des Fehlerterms wie bei einem
Multilevel Random Intercept Modell
Random Effects Modell ist zu bevorzugen, ausser wenn wir Endogenität haben, dann ist es inkonsistent
und die Schätzer verzerrt. Wenn die Varinaz der Werte eines Invididuums (within-Varianz) sehr viel kleiner ist als die Varianz zwischen dern Indiviuun (between-Varianz), funktioniert des Fixed Effects
Modell nicht gut
plm() in R schätzen
“within”: fixed effects
andere: “random”, “fd”, “between”, “pooling”
model = plm(lr_self ~ sex + edyear + political_interest, data = df_shp,
index = c("idpers", "year"), model = "within")
Welches Modell ist das beste?
library(plm)
Hausman Test: Testet auf Endogenität => Die alternative Hypothese besagt, dass Endogenität
besteht und damit das Random Effects Modell nicht konsistent ist. die Nullhypthese besagt, dass ein Random Effects Modell vorliegt. (in R: phtest(model_fixed, model_random))
Breusch-Pagan Lagrange Multipliert: Testet auf Random Effects: Die Nullhypothese besagt, dass
es keine Varianz zwischen den Einheiten gibt, also keine Paneleffekt. Kann die Nullhypothese nicht verworfen werden, können wir ein pooling Modell schätzen. (in R: plmtest(model_pooling,
type = c("bp")))
Gute Quelle für mehr Details bei Interesse: https://www.princeton.edu/~otorres/Panel101R.pdf
Zusammenfassung
Binäre Abhängige Variable
Die Wahrscheinlichkeit, dass y den Wert 1 annimmt, ist beim logistischen Modell siehe Dok
Daraus wird dann die Regressionsgleichung siehe Dok
Verschiedene Verteilungen
Da wir diese nicht direkt interpretieren können, werden sie häufig in Chancen (odds) umgewandelt siehe Dok
Alternative: kumulierte Verteilung (geht von 0 bis 1, oder 1 bis 0)
Man kann so auch direkt einen Koeffizienten interprieren (sogenannte Odds Ratio) e^βj (in R:
exp(coef(model))) [Interpretation: (Odds Ratio - 1)*100 => Veränderung der AV in Prozent]
OLS ist also weniger geeignet
Durch Umwandelt erhalten wir die Wahrscheinlichkeit siehe Dok
OLS ist bei binären abhängigen Variablen ungeignet, das geschätzte Werte grösser als 1 oder kleiner als
0 sein können, die Fehlerterme sind nicht normalverteilt und wir haben in der Regel Heteroskedastizität
kumulierte logistische Verteilung: Logit
Probit und Logit machen unterschiedliche Annahmen über die Fehlerterme, führen aber so gut wie
immer zu fast identischen Ergebnissen (logistische Verteilung ist ähnlich wie die Normalverteilung)
kumulierte Normalverteilung: Probit
Herleitung: - Die logistische Regression geht von der Idee der Chancen (Englisch “odds”) ais, d.h. dem
Verhältnis der Wahrscheinlihckeit zur Gegenwahrscheinlichkeit
Tranformiert in Logits
Die Wahrscheinlichkeit ist also siehe Dok
Logistische Regression in R schätzen
model = glm(participation ~ age + gender, data = schlegel::selects2015,
family = "binomial", weights = weight_total)
exp(coef(model))
(Intercept) age genderfemale
0.3245414 1.0267068 0.7366773
Interpretation von gender: Frauen haben einen um 26.3% [(0.7366 - 1)*100] tiefere Wahrscheinlichkeit
an Wahlen teilzunehmen als Männer, ceteris paribus
Konfidenzintervalle in R berechnen: Simulation und Bootstrap
Ziel: die Bandbreite der Betas abbilden, die vorhanden sein könnten, wenn wir viele verschiedene
zufällige Stichproben hätten. Damit können wir dann Konfidenzintervalle berechnen
Simulation (Option 1): Ziehung von Betas aus der multivariaten Normalverteilung
betas = MASS::mvrnorm(1000, coef(model), vcov(model))
values = c(1, 23, 1) # Beispiel: 23-jährige Frau
yhat = betas %*% values # das vorausgesagte y berechnen (auf der Logit Skala)
p = exp(yhat) / (1 + exp(yhat)) # in vorausgesagte Wahrscheinlichkeiten umrechnen
mean(p) # vorausgesagte Wahrscheinlichkeit
siehe Dok
Vorausgesagte Wahrscheinlichkeiten und discrete changes mit glm.predict
berechnen siehe Dok
Videos
Modell
Modelltypen
Realmodell
Ikonisches Modell
Verbalmodell
Formalmodell
Maus die Tiermodell für Autismus abbildet
Modelleisenbahn, anschauliches Modell, architektonische Zeichnung, Modellierung Architektur
In natürlicher Sprache beschrieben: Ältere Personen nehmen eher an Wahlen teil
mathematische Grundlagen, Computer
Mathematische Modelle, deterministisch wenn x dann y
Statistische Modelle, stochastisch, wenn x dann eher y
empirisch mit generierten Daten
enthalten Störterme
Was ist eine Regression
Regression durch Galton, Grösse von Väter wird nicht an Söhne weitergegeben, sondern an Mittelwert von Väter
Zusammenhang zwischen zwei oder mehr Variablen
Videos
Streudiagramm mit Regressionlinie
Univariates lineare Modell
i für konkreten Fall
y Dach i für vorausgesagten Y Wert
Schätzverfahren
beta 1 = (Kovarianz von x,y) / (Varianz von x)
Kovarianz = ((Summe von allen y Daten) - (Durchschnitt von y Daten)) * ((Summe von allen x Daten) - (Durchschnitt von x Daten)) / N - 1
Varianz x = ((Summe von allen x Daten) - (Durchschnitt von x Daten)) hoch 2
beta 0 = Durchschnitt von y - (Durchschnitt von x * beta 1)
s^2 (unverzerrter Schätzer der Fehlervarianz) = Summe der Residuen im quadrat (Residuen = Y - Y Hat (vorausgesagte Wert)) / N - 2
Video
Estimates = betas
Std Errors, Standardfehler
t Value = beta / Standardfehler (ist etwas signifikant oder nicht
R^2 : Welcher Anteil der Varianz erklären die unabhängigen Variablen (50% sehr hoher Wert)
Adjusted R^2 Einbezug von Anzahl unabhängiger Variablen
beta1 = Zunahme von Y wenn sich X um eine Einheit verändert
Gewichte: nicht alle machen mit, weniger repräsentierte sind mehr gewichtet, um Verzerrung auszugleichen
Videos
Logistisches formales Modell: P(yi = 1) ((Wahrscheinlichkeit, dass yi gleich 1 ist)) = e^(beta0+beta1x1i+beta2x2i...) / 1 + e^(gleiches wie oben)