Fortgeschrittene Statistik Politik

Woche 2 R

R

Einführungsbeispiel

lineare Regressionslinie hinzufügen

Daten einlesen und filtern

OLS Schätzer

Varianz

beta1

Kovarianz

beta0

Remove missings

Lineare Regression schätzen

Standardabweichung von beta0

Standardabweichung von beta1

s^2

Mit der Funktion lm

Calculate Residuals

Lineare Regression schätzen und interpretieren

Mit Gewicht

Hypothesen testen

Alpha Wert von 0,05 (0,025 auf beiden Seiten

get Betas

get Standardabweichung

95% Konfidenzintervall

Konfidenzintervall direkt berechnen

Woche 3 R: Multivariate Regression

R

Schätze Tabelle

Word

Multivariate Regression von Hand

beta1 schätzen

beta2 schätzen

NA's entfernen um von Hand rechnen zu können

Multivariate Regression

Variablenwichtigkeit

maximale Änderung

Dispersion Importance ( Standarditisierte Koeffizienten)

Level importance (Durchschnittlicher Effekt)

Anteil am R^2

Woche 4 R

Determinationskoeffizient R^2

angepasstes R^2 berechnen

root mean squared error berechnen

R^2 berechnen

alles in Modelloutput ablesen

Varianzanalyse

AIC / BIC

Woche 5 R

Quadratisches Modell

Discrete Change

von 1 bis 2

eine Funktion für unseren Fall schreiben

andere discrete changes

marginale Effekte von swanzahl (Steigung)

bei 2

bei 1

bei 4

bei 9

with a function

Logarithmus

Graph

Modelle

Kategorielle Variablen

Binäre Variable

Modell

Graphische Darstellung

Diskrete Variable

Modell

Unterschied zwischen Variablen

Oder Basiskategorie in Modell ändern

Woche 6 R

Interaktion

Graphische Darstellung

Hypothesen testen

Initiative aus der Reihe der SVP

Beispiel mit kontinuierlichen Variablen

Woche 7 R

Multikollinearität

Pearson's R

Variance inflation factor

Einfluss

Grafik erstellen

Hebelwirkung berechnen

Ausreisser identifizieren

intern studentisierte Residuen

extern studentisierte Residuen

Normalverteilung

Heteroskedastizität

Streudiagramm

Goldfeld-Quandt-Test

Breusch-Pagan-Test

Robuste Standardfehler nach Huber-White

Woche 8

Spezifikationsfehler

RESET Test

RESET zeigt keine Spezifikationsfehler an

Woche 10 R

Fixed Effect Modell

alternatives Modell ohne globalen Achsenabschnitt

Interclass Correlation (ICC)

Ein Random Intercept Modell rechnen

durchschnittliche Effekte (Kantonsunabhängig)

alpha_j anzeigen

graphische Interpretation

Vorausgesagte Werte für X

Woche 11 R

Autokorrelation

Falls verletzt, könnte man folgendermassen korrigieren

Autoregressives Modell

Daten vorbereiten

Modell schätzen

AR 1

AR 2

mit X

Woche 12 R

Kummulierte Querschnittsdaten

Panel Regression

first diference

fixed effects

Pooling

random effects

between-Modell

random Effekte konsistent?

random Effekte nötig oder reicht pooling?

serielle Korrelation

Woche 13 R

Estimating a binary model

logit

probit

Interpretation

odds ratio

predicted probability

discrete change

Konfidenzintervall hinzufügen (simulieren / bootstrap)

1000 (oder mehr) Betas auf der Multivariaten Normalverteilung ziehen

Methode 2: bootstrap

using a package

Streudiagram

Latex

Zusamenfassung

Woche 1: Modelle und Regression

Zusammenfassung

Modelle

Parsimonität (Sparsamkeitsregel): Modelle mit weniger Faktoren aber gleichem Erklärungsgehalt
werden bevorzugt.

Mathematische Modelle sind deterministisch: wenn x dann y (Beispiel: y = ax + b)

Modelle sind kein Spiegelbild der Realität. Sie formulieren allgemeine Gesetzmässigkeiten und reduzieren
die sozialen Komplexität auf das Wesentliche

Statistische Modelle sind probabilistisch/stochastisch: wenn x dann eher y; sie enthalten Zufallsveriablen
und damit Störterme/Fehlerterme (Beispiel y = β0 + β1x + ϵ; ϵ ist der Fehlerterm.)

Regression

Zwecke einer Regression

Herangehenesweisen einer Regression:

Für intervallskalierte (kontinuierliche) Variablen eignen sich Kreuztabellen kaum, mit Regressionen
lassen sich diese Zusammenhänge jedoch einfach untersuchen

statistisches Werkzeug zur Untersuchung von Beziehungen zwischen Variablen

Prognose/Schätzung

Vorhersage der Ergebnisse von Interventionen: Analyse von kausalen Effekten (Experimente)

deskriptive Analyse (Beschreibung ohne Theorie; es kann nur eine Aussage über die vorhanden
Daten gemacht werden)

Hypothesen testen (mit Hilfe von Theorie von der Stichprobe auf die Grundgesamtheit schliessen)

Streudiagram mit Regressionslinie

Univariates Lineare Modell (nur eine unabhängige Variable

yi = beta0 + beta1 * xi + epsilon i

die abhängige Variable (y) muss kontinuierlich sein (andere Begriffe: Ordinate, Outcome, Regressand,
endogene Variable)

Der Fehlerterm ist die Abweichung vom Idealwert (andere Begriffe: Störterm, Residuen, ϵ), es beinhaltet

bei der unabhängige Variable (x) ist das Messniveau egal (andere Begriffe: Abszisse, Prädiktor,
Regressor, exogene Variable)

Der Steigungskoeffizient ist die Richtung und der Steigungsgrad der Regressionslinie. Es ist die
erwartete Änderung der abhängigen Variable (y), wenn sich die unabhängige Variable (x) um eine Einheit ändert. Es ist also der Einfluss von x auf y. (andere Begriffe: Slope, β)

Der Achsenabschnitt ist der Erwartungswert der abhängigen Variable (y), wenn die unabhängige
Variable (x) den Wert Null annimmt. Die Interpretation macht nur dann Sinn, wenn x den Wert 0 annehmen kann (andere Begriffe: Konstante, Intercept)

Zufall im menschlichen Verhalten

Fehlerspezifikationen des Modells (weggelassene Variablen)

Messfehler in der abhängigen Variable

Warum verwenden wir OLS (das Verfahren der kleinsten Quadrate)?

Welche Gütekriterien sollte ein gutes Schätzverfahren haben?

Ziel: Fehlerterm minimieren

Wir wollen ein lineares Modell rechnen. Gesucht sind Achsenabschnitt und Steigungskoeffizient

OLS ist BLUE (Best Linear Unbiased Estimator; bedeutet, dass es keinen besseren Schätzer geben
kann, also erwartungstreu, konsistent und absolut effizient), (mit geringster Varianz) wenn folgende Annahmen erfüllt sind:

Konsistenz (consistency): Annäherung an der wahren Wert bei zunehmender Stichprobengrösse, auch genannt asymptotische Eigenschaft eines Schätzers

Erwartungstreue (unverzerrt/unbiased)): Erwartungswert entspricht dem wahren Wert

Effizienz (minimale Varianz / efficiency): Je kleiner die Varianz ist, desto näher liegt ein Stichprobenschätzwert
auf dem wahren Parameter liegen. [Relative Effizienz: geringere Varianz bei gleicher erwartungstreue als ein Vergleichsschätzer; Absolute Effizienz: kein anderer Schätzer mit
geringerer Varianz]

Option 1: Summe der Residuen gleich null. Keine gute Option, da sich so positive
und negative Residuen aufheben. Der Mittelwert wäre dann immer optimal

Option 2: Betrag minimieren gut, aber mathematisch komplex zum Schätzen wegen
“Knick” bei 0

Option 3: Quadrate minimieren gut und einfach zum Schätzen (=> OLS) [+ Vorteil,
dass grössere Abweichungen stärker bestraft werden]

Zufallsauswahl

Erwarungswert der Fehler ist null [sonst nicht erwartungstreu] Schnitt aller Fehlerterme soll null sein, sonst nicht erwartungstreu

Linearität: Beziehung (=Parameter) zwischen der abhängigen und der unabhängigen ist linear

Homoskedastizität: Varianz der abhängigen Variable ist konstant über alle Werte der unabhängigen
Variable

keine Autokorrelation: keine Korrelation der Residuen

keine perfekte Multikollinearität, Beispiel zwei Variablen die beide Alter darstellen

für Hypothesentest (d.h. um die p-Werte interpretieren zu können): Normalverteilung der Fehlerterme, sonst nur deskriptiv

OLS selber schätzen: siehe Notizen

Ein univariates lineares Modell schätzen und interpretieren

Generelle Interpretation: Steigt die unabhängige Variable (x) um eine Einheit an, steigt die abhängige
Variable (y) um β1 Einheiten an.

Konkrete für dieses Beispiel: Ist die Zustimmung im Nationalrat um einen Prozentpunkt höher, so ist die
Zustimmung im Volk um 0.48 Prozentpunkte höher

Hypothesen testen

Nullhypothese: gegenteilige Hypothese

Wir können eine Hypothese nicht bestätigen, nur verwerfen. Ziel: Nullhypothese verwerfen

Alternative Hypothese: unserer theoretisch hergeleiteten Hypothese

α-Wert: Signifikanz-Level: Wahrscheinlichkeit, die Nullhypothese zu verwerfen, obwohl sie wahr ist;
in der Regel 0.05, immer häufiger auch 0.005; 95%-Konfidenzinterval: bei 100 Stichproben liegt der beta-Wert 95 in diesem Bereich; β + / − 1.96 · s.e.(β)

t-Wert: β/s.e.; absolute Zahl > 1.96 => auf 0.05 α-Niveau singifikant

p-Wert: Wahrscheinlichkeit ein Testresultat zu erhalten, dass min. so extrem ist als das beobachtete
Resultat unter der Annahme, dass die Nullhypothese korrekt ist. Sehr kleiner p-Wert sagt, dass die Beobachtungen die Nullhypothese nicht stützen

p-Wert unter α-Wert => Nullhypothese kann verworfen werden => Alternativhypothese ist statistisch
signifikant, d.h. überzufällig (nicht gleichbedeutend mit relevant, der Effekt kann auch sehr klein sein)

Zusammenfassung

Einführung Multivariate Regression

Interpretation von subshare2: Nimmt der Ja-Anteil der Ausgaben um einen Prozentpunkt (=Einheit von
Kampagnenbudget) zu, so nimmt der Ja-Anteil der Abstimmung um 0.47 Prozentpunkte (=Einheit des Abstimmungsresultats) zu, ceteris paribus

Logik der Multivariaten Regression

Welcher Anteil der Hauptvariable wird nicht bereits durch die Kontrollvariablen erklärt? x ~ Kontrollvariablen
=> Residuen v

Welcher Anteil der nicht bereits durch die Kontrollvariablen abgedeckt wurde, kann die Haupterklärende
zur zu erklärenden Variable beitragen? u ~ v => Effekt der Haupterklärenden (x) auf die zu erklärende Variable (y)

Welcher Anteil der zu erklärenden Variable (y) können die Kontrollvariablen nicht erklären? y ~
Kontrollvariablen => Residuen u

Variablenwichtigkeit

Maximaler Effekt: (max - min) * Effekt (Beta) [Welche Veränderung von y kann x maximal erreichen?]

Dispersion Importance: Standardisierte Effekte (Betas) [Welchen Effekt haben die Variablen, wenn das
Messniveau standardisiert wurde und damit vergleichbar ist?]

Level Importance: Durchschnitt * Effekt (Beta) [Welchen Effekt hat die Variable im Durchschnitt?]

Anteil am Rˆ2 [Welchen Anteil der Varianz der abhängigen Variable erklärt eine Variable]

R Markdown

Zusammenfassung

Determinationskoeffizient R^2

Adjusted R^2

Ziel: möglichst sparsames Modell mit theoretischer Auswahl der Präditkoren und Kontrollvariablen
statt “data-mining”

Genestete Modelle

Kommen alle Variablen eines Modells auch im anderen Modell vor, so ist dieses im anderen vollen
Modell genestet.

Informationskriterium

Anpassungsgüte: minimale Varianz der Residuen (OLS) oder Maximum Likelihood

AIC: −2l + 2k; BIC: −2l + k · ln(n) [-2l ist die Anpassungsgüte; 2k, k · ln(n) die Sparsamkeit]

Ziel: Modellvergleich mit Kriterien Anpassungsgüte + Sparsamkeit

Fallzahl muss gleich sein; bevorzugt wird das Modell mit dem kleineren Wert

AIC^C (wenn n/k < 40; k = betas + Varianzparameter)

Zusammenfassung

Polynome

yi = β0 + β1x1 + β2x^21 + ϵi

In R: y ~ x + I(xˆ2)

Wann quadrieren? Theoretisch nicht linearen Zusammenhang begründen oder empirisch durch ein
Streudiagram (nicht monoton, z.B. u-förmig)

Discrete Change: Unterschied zwischen zwei Werten von x bei y.

Die Parameter müssen linear sein, nicht jedoch die Variablen. Diese können wir transformieren

Marginaler Effekt: Steigung an einem Punkt (Ableitung)

Logarithmus

Monotone, nicht lineare Zusammenhänge können manchmal mit einem Logarithmus abgebildet werden

Exponentialfunktionen können so linearisiert werden

Rechtsschiefe Variablen können mit dem Logarithmus normailisiert werden

Linear

Double-log

Semilog (lin-log)

Semilog (log-in)

yi = beta0 + beta1*xi + eps i

ln(yi) = beta0 + beta1*ln(xi) + eps i

yi = beta0 + beta1*ln(xi) + eps i

ln(yi) = beta0 + beta1*xi + eps i

Wenn x sich um eine Einheit erhöht, erhöht sich y um beta1 Einheiten

Wenn sich x um einen Prozent erhöht, erhöht sich y um beta1 Prozent (Elastizität)

Wenn x sich um einen Prozent erhöht, erhöht sich y um beta1 / 100 Einheiten

Wenn sich x um eine Einheit erhöht, erhöht sich y um (rund) 100 * beta 1 Prozent

Kategorielle Variablen

Variablen mit 2 Ausprägungen: dichotome/binäre/Dummy-Variable (Veränderung des Achsenabschnitts)

kategorielle Variablen: R macht n-1 Dummy-Variablen. Die Basiskategorie ist Teil des Konstante “(Intercept)”.
Variable muss factor oder character sein, wenn sie numerisch ist, wird sie als kontinueirlich angesehen (z.B. wichtig bei Stata-Datei (as_factor()))

F-Statistik: MSR / MSE. Testet auf R2 = 0 in der Population. Testet, ob min, ein β ungleich 0 ist. Auch
hier gibt es einen t- und p-Wert, mit dem wir sehen können, ob ein Faktor signifikant ist.

car::linearRegression andere Kombinationen gegen 0 testen

Zusammenfassung

Interaktion / Moderation

R Markdown

Ein Variable (Moderator) beeinflusst die stärke eines anderen Effekts

Modelliert als Produkt zweier unabhängiger Variablen (inkl. der Haupteffekte); symetrisch

Bibliografie: lib.bib (Bib-Datei)

Zusammenfassung

Regressionsdiagnostik und Multikollinearität

Hohe Multikollinearität: hohe Korrelation zwischen unabhängigen Variablen, Schätzung ist nicht robust
(kann sich stark ändern wenn eine Variable weggelassen wird; BLUE nicht verletzt)

Paarweise Korrelation Fausregel: > |0.8|

Perfekte Multikollinearität: eine Variale lässt sich perfekt durch andere Berechnen (R setzt diese auf
NA)

Besser: VIF (Varianz Inflation Factor) 1 / (1 - R^2j); R2
j ist der R2-Wert, wenn wir den j-ten Präditkor ab abhängige Variable und die restlichen Prädiktoren als unabhängige Variablen nehmen. Faustregel: VIF >10 => starke Multikolinearität, >5 => gewisse Multikolinearität [Wurzel aus dem VIF ist der
Faktor, um den sich das Beta verändert wegen der Multikollinearität]; in R: vif(model)

Einflussreiche Datenpunkte können einen überproportionalen Einfluss haben

Was tun bei Multikolinearität? Bessere Daten sammeln, Variablen transformieren, Index aus den
Variablen bilden wenn theoretisch sinnvoll, weglassen (evtl. Spezifikationsproblem), wenn Ziel Prognose ist: Problem ignorieren

Annahmen überprüfen, wenn verletzt ist OLS nicht BLUE

Einfluss

Hebelwirkungen: Hatvalue >2 * Durchschnitt(Hatvalues) => starke Hebelwirkung

Multivariate Ausreisse: |extern/intern studentisierte Residuen| > 3 [intern: Residuen durch
Standardabweichung aller Residuen, rstandard(model); extern: Standardabweichung ohne das i-te Residuum, rstudent(model)]

Multivariate Ausreisser mit hoher Hebelwirkung (extreme x-Werte) sind einflussreich

Weitere Möglichkeiten: DFFITS (>1 oder >2); Cooks’ D (>1)

Normalität

Für die Hypothesentests müssen Fehler normalverteilt sein

QQ-Plot: Überprüfung, ob die standardisierten Residuen ungefähr standard-normalverteil sind (plotten
auf die entsprechenden Quantile (n+1) der Standardnormalverteilung), kleine Abweichungen sind unproblematisch

Heteroskedastizität

Nur eindeutig bei sehr grossen Stichproben, sonst Residuenplot anschauen (ist es etwa 10 oder mehr
Mal grösser)

Ursachen:

Annahme: Homoskedastizität (Varianz der Fehler ist konstant)

Auswirkungen: bleibt erwartungstreu und konistent, aber nicht mehr effizient; Falsche Standardfehler

Goldfeld-Quandt-Test: Bei theoretischer Vermutung drei Gruppen bilden und 1. mit 3. vergleichen
(lmtest::gqtest(model, ordered.by=var))

Preusch-Pagan-Test: Testet, ob die Quadrate der OLS-Residuen mit keiner der UVs korrelieren, was
bei Homoskedastizität der Fall ist

H0: Homoskedastizität bei beiden Tests (p<0.05 => Heteroskedastizität)

Was tun?

WLS: Fehlervarianz muss bekannt sein, wenn das der Fall ist: Die Werte der AV und UV werden durch
die bekannten Standardabweichungen der einzelnen i dividiert, dadurch wird sie homoskedastisch

Ausreisser

Unterspezifikation

Spezifische Zusammenhänge zwischen UV und AV, z.B. wird die Ausgabenvarianz bei hohen
Einkommen höher sein als bei tiefen

UV weisst eine sehr schiefe Verteilung auf

Error-Learning: Steht die x-Achse für Lernprozesse, werden gegen Ende weniger Fehler gemacht
als am Anfang, dadurch gibt es auch eine geringere Fehlervarianz

Aufgrund theoretischer Argumente transformieren (z.B. log)

Berechnung robuster Standardfehler (sofern Fallzahl genug hoch)

Wenn Unterspezifikation: Fehlende Variablen ins Modell aufnehmen

click to edit

Zusammenfassung

Spezifikationsfehler

Überspezifikation: Regression enthält unabhängige Variablen, die keinen Einfluss auf die abhängige
Variable haben => diese βs haben einen Wert von 0, Exogentitäsannahme nicht verletzt, aber nicht mehr effizient (schlechteres adj. R2). Lösung: Überschüssige Variablen entfernen

Unterspezifikation: Fehlen von unabhängigen Variablen, die einen Einfluss auf die abhängige Variable
haben => wenn eine unabhängige Variable mit der fehlenden Variable korreliert, korreliert sie mit dem Fehlerterm => Exogenitätsannahme verletzt => Endogenität => β(s) enthalten indirekte
Effekte, d.h. der Schätzer ist nicht mehr erwartungstreu. Oder anders: x1 bekommt Kredit für x2, weil diesem nicht erlaubt wurde, teil des Modells zu sein

Endogenität: Unabhängige Variable(n) korrelieren mit dem Störterm/Fehlerterm

Wie lösen? Fehlende Variable ins Modell aufnehmen, wenn sie vorhanden ist. Sonst Proxivariable
nehmen, sofern diese vorhanden. 2SLS / Instrumenten-Varialen-Schätzung (sofern Instrument gefunden)

Exgonitätsannahme: die unabhängigen Variablen korrelieren nicht mit dem Fehlerterm

das Problem kann auch von Messfehlern der unabhängigen Variable kommen, nicht aber der abhängigen
(die nur auf die Varianz)

Experimente

Kontrolle von Drittvariablen durch zufällige Einteilung in Behandlungs- und Kontrollgruppen

Gruppen müssen genug gross sein, sonst hat das Experiment zu wenig Power. [Power: Die Wahrscheinlichkeit
uns bei Gültigkeit der Alternativen Hypothese wirklich für diese anstatt für die Nullhypothese zu entscheiden] Bei zu tiefem Power findet man unter umständen keinen Effekt, obwohl dieser in der
Realität vorhanden ist.

Bei Umfragen können wir nie auf alles kontrollieren. Lösung: Experiment

Zusammenfassung

Fixed Effects vs. Random Effects

Fixed Effects: Effekte sind einer endlichen Menge von Leveln eines Faktors in den Daten zuzuschreiben,
welche da sind, weil wir an ihnen interessiert sind

Random Effects: Eine Auswahl aus einer Population, welche die Population repräsentiert, aber austauschbar
sind. Deshalb variieren die Effekte zufällig innerhalb derPopulation

Hierarchische Daten: Daten mit mehreren Ebenen (z.B. Schüler:innen (Level 1) aus Schulen (Level 2)
in Ländern (Level 3))

Random Efffects sind zu bevorzugen, wenn eine Mehrebenenanalyse durchgeführt wird, sofern wird
genügend Fälle auf Level 2 (3, 4, . . . , falls vorhanden) haben müssen (~min. 20, besser mehr)

Fixed Effects Modell schätzen

Level 2 (im Beispiel canton) muss ein Faktor oder Character sein, damit n-1 Dummy Variablen gebildet
werden

model = lm(lr_self ~ age + gender + canton, data = schlegel::selects2015)

Alternative Schätzmethode (mit geclusterten Standardfehlern)

Clustered Standard Errors: “clusters” sind Subgruppen. Wird verwendet, wenn z.B. bei einem Experiment
die Treatments einer Gruppe (z.B. ganzen Schulklasse) statt Individuen zugewiesen werden Wird auch oft bei fixed effects gemacht, dort sind die Clusters das Level 2 (z.B. Kanton)

model = fixest::feols(lr_self ~ age + gender, fixef = "canton",
data = schlegel::selects2015)

ICC

anova = lme4::lmer(lr_self ~ 1 + (1 | canton),
data = schlegel::selects2015)

siehe Dok.

Random Intercept Modell scchätzen

model_ri = lme4::lmer(lr_self ~ age + gender + (1 | canton),
data = schlegel::selects2015)
sjPlot::plot_model(model_ri, type = "re", sort.est = "(Intercept)")

andere Typen für die Grafik (Auswahl): “est” (fixed effects), “int” (Interaktion, falls vorhanden),
“pred” (Vorausgesagte Werte mit Konfidenzintervall)

siehe Dok.

Zusammenfassung

Autokorrelation

Autoregression

Unterschiedliche Datentypen

Zeitreihendaten (1 Fall mit vielen Zeitpunkten, z.B. Arbeitslosenzahlen der Schweiz)

Kumulative Querschnittsdaten (mehrere Umfragewellen mit unterschiedlichen Individuen, z.B. Selects
Kumulativer Datendatz 1975-2019)

Querschnittsdaten (normale Umfragedaten, z.B. Selects 2015)

Paneldaten (mehrere Umfragewellen mit den gleichen Individuen, z.B. Swiss Household Panel)

1 Fall Daten (z.B. Tianenmen Massaker)

Autoregressiver Prozess der ersten Ordnung (jeder Fehlerterm korreliert mit dem demjenigen der Vorperiode):

ϵt = ρ · ϵ(t−1) + νt

Autokorrelation: eine Annahme von OLS (die Fehlerterme korrelieren nicht miteinader) ist bei Zeitreihendaten
verletzt (Auswirkung: nicht mehr effizient, aber immer noch erwartungstreu und konsistent; Problem für Hypothesentests)

k-ten Ordnung (statt nur mit der Vorperiode, mit den k-Vorperioden)

Stationsaritätsannahme (ρ ∈ (−1, 1) bedeutet ρ liegt zwischen -1 und 1 exklusive -1 und 1): stellt sicher,
dass die Auswirkungen mit der Zeit abnehmen. Wäre die Annahme verletzt, würden die Fehlerterme im Zeitverlauf immer grösser was für die meisten Fälle nicht beobachtet wird

Wie Autokorrelation feststellen? 1) Testen ob Unterspezifikation? (Gravierenden, da nicht erwartungstreu,
bei Unterspezifikation würde auch Autokorrelation festgestellt) 2) Durbin-Watson-Test (Testet ob das ρ beim autoregressiven Prozess 0 ist)

  • d nahe bei 2 => keine Autokorrelation (in R: lmtest::dwtest(model)) - Beheben: sandwich::NeweyWest(model)
    (gibt eine korrigierte Varianz-Covarianzmatrix zurück)

Autokorrelation ist wahrscheinlich, wenn die Reihenfolge der Beobachtungen relevant ist, wie das bei
Zeitreihendaten der Regelfall ist. Ein Fehler eines Zeitpunkts t hängt in der Regel mit demjenigen des vorgehenden t-1 zusammen.

Ein Börsencrash hat nicht nur einen Einfluss auf diesen Tag, sondern auch auf die Folgetage, wobei
der Einfluss mit der Zeit abnimmt

Statistische Modelle: normales OLS (yt = β0 + β1*xt + ϵt)

Dynamische Modelle: zusätzlich Vorperioden im Modell (yt = β0 + β1xt + β2x(t−1) + β3*x(t−2) + ... + ϵt)
[Wie viele Zeitperioden: Theorie]

Problem bei dynamischem Modellen: Multikollinearität

Lösung: statt die Vorperioden der unabhängigen (x), diejenigen der abhängigen Variable (y) nehmen:
Autoregressives Modell der k-ten Stufe (ARk). Beispiel für AR2:

yt = β0 + β1xt + β2y(t−1) + β3*y(t−2) + ϵt

Zusammenfassung

Analyse von kumulativen Querschnittsdaten

Kumulierte Querschnittsdaten erlauben keine Trendaussagen auf Individualebene (da Unterschiedliche
Individuen zu unterschiedlichen Messzeitpunkten). Es erlaubt aber Trendaussagen anhand des Durchschnitts.
Aussgan ebei kumulierten Querschnittsdaten sind also nr auf kollektiver Ebene möglich.

Berechnung: OLS mit Dummy-Variablen für die Zeit (Zeit als Faktor reinehmen), möglich sind auch
Interaktionen zwischen der Zeit und Variablen, wenn wir in der Theorie davon ausgehen, dass sich der Effekt einer Variable über die Zeit verändert

Panel

Paneldaten erlauben individuelle Trendaussagen, da wir mehrere Messpunkte von einem Individuum
haben

Paneldaten erhalten

Daten im Longformat (allenfalls pivot_longer() verwenden in R)

Notation:

Fehlerterm: zeitinvariante und zeitvarianter Teil

Pooling Panel Model (normales OLS):

Tritt Problem 2 nicht auf => Pooling oder Random Effects Panel, sonst Fixed Effects oder First
Difference Modell.

First Difference: Elimination des zeitinvarianten Kompotneten des Fehlerterms

yit = β0+βxit+αi+ϵityit−1 = (β0+δ0)+β1xit−1+αi+ϵit−1Δyit = yit−yit−1 = δ0+Δxitβ+Δϵit, t = 2, ..., T siehe Dok.

Probleme

Bei Fixed Effects eliminieren wir die zeitinvariante Komponenten des Fehlerterms durch Substraktion
des Mittelwerts

yit − ¯ yi = β(xit − ¯ xi) + (αi − ¯ αi) + (ϵit − ¯ϵi)

Da alpha i Zeitinvariant ist, ist der Mittelwert identisch und dadruch fällt es raus, ebenso der Achsenabschnitt
(β0).

Within: Erklärung über die Zeit auf individueller Ebene

Alterantive: LSDV (Least Square Dummy Variablen), da nimmt man für jedes Indiviuum eine Dummy
Variable rein mit identischen Resulateten (häufig sind es aber zu viele Individuen, deshalb eher unüblich)

Zeitvariante abhängige Variable

Zeitvariante abhängige Variable (z.B. Einkommen, Ausbildung (vor allem bei jungen))

ein Indiktor für die Zeit (z.B. Jahr oder Welle)

Zeitinvariante unabhängige Variable (z.B. Herkunft, häufig Geschlecht)

eine zeitinvariante eindeutige Bezeichnung für jede Einheit (z.B. id)

Stichprobenumfang: N

Gesamtzahl Zeitpunkte: T

Messzeitpunkt: t

Beobachtungen: N · T

Untersuchungseinheit: i

Problem 1: Autokorrelation (Beobachtungen sind nicht unabhängig, wenn gleiche Personen
mehrmals befragt werden)

Problem 2: Endogenität (bei Unterspezifikation), die Zeitinvariante Komponente des Fehlerterms
korreliert mit unabhängigen Variablen

wenn die Variablen kaum variieren, kann man es nicht schätzen, da die Differenz (Δ) 0 (oder fast
0 ist)

Pro Einheit verlieren wir eine Beobachtung (t=1)

Bei grossem T und kleinem N wird eher First Difference verwendet

Random Effects Modell: Schätzung der zeitinvarianten Kompotente des Fehlerterms wie bei einem
Multilevel Random Intercept Modell

Random Effects Modell ist zu bevorzugen, ausser wenn wir Endogenität haben, dann ist es inkonsistent
und die Schätzer verzerrt. Wenn die Varinaz der Werte eines Invididuums (within-Varianz) sehr viel kleiner ist als die Varianz zwischen dern Indiviuun (between-Varianz), funktioniert des Fixed Effects
Modell nicht gut

plm() in R schätzen

“within”: fixed effects

andere: “random”, “fd”, “between”, “pooling”

model = plm(lr_self ~ sex + edyear + political_interest, data = df_shp,
index = c("idpers", "year"), model = "within")

Welches Modell ist das beste?

library(plm)

Hausman Test: Testet auf Endogenität => Die alternative Hypothese besagt, dass Endogenität
besteht und damit das Random Effects Modell nicht konsistent ist. die Nullhypthese besagt, dass ein Random Effects Modell vorliegt. (in R: phtest(model_fixed, model_random))

Breusch-Pagan Lagrange Multipliert: Testet auf Random Effects: Die Nullhypothese besagt, dass
es keine Varianz zwischen den Einheiten gibt, also keine Paneleffekt. Kann die Nullhypothese nicht verworfen werden, können wir ein pooling Modell schätzen. (in R: plmtest(model_pooling,
type = c("bp")))

Gute Quelle für mehr Details bei Interesse: https://www.princeton.edu/~otorres/Panel101R.pdf

Zusammenfassung

Binäre Abhängige Variable

Die Wahrscheinlichkeit, dass y den Wert 1 annimmt, ist beim logistischen Modell siehe Dok

Daraus wird dann die Regressionsgleichung siehe Dok

Verschiedene Verteilungen

Da wir diese nicht direkt interpretieren können, werden sie häufig in Chancen (odds) umgewandelt siehe Dok

Alternative: kumulierte Verteilung (geht von 0 bis 1, oder 1 bis 0)

Man kann so auch direkt einen Koeffizienten interprieren (sogenannte Odds Ratio) e^βj (in R:
exp(coef(model))) [Interpretation: (Odds Ratio - 1)*100 => Veränderung der AV in Prozent]

OLS ist also weniger geeignet

Durch Umwandelt erhalten wir die Wahrscheinlichkeit siehe Dok

OLS ist bei binären abhängigen Variablen ungeignet, das geschätzte Werte grösser als 1 oder kleiner als
0 sein können, die Fehlerterme sind nicht normalverteilt und wir haben in der Regel Heteroskedastizität

kumulierte logistische Verteilung: Logit

Probit und Logit machen unterschiedliche Annahmen über die Fehlerterme, führen aber so gut wie
immer zu fast identischen Ergebnissen (logistische Verteilung ist ähnlich wie die Normalverteilung)

kumulierte Normalverteilung: Probit

Herleitung: - Die logistische Regression geht von der Idee der Chancen (Englisch “odds”) ais, d.h. dem
Verhältnis der Wahrscheinlihckeit zur Gegenwahrscheinlichkeit

Tranformiert in Logits

Die Wahrscheinlichkeit ist also siehe Dok

Logistische Regression in R schätzen

model = glm(participation ~ age + gender, data = schlegel::selects2015,
family = "binomial", weights = weight_total)

exp(coef(model))

(Intercept) age genderfemale

0.3245414 1.0267068 0.7366773

Interpretation von gender: Frauen haben einen um 26.3% [(0.7366 - 1)*100] tiefere Wahrscheinlichkeit
an Wahlen teilzunehmen als Männer, ceteris paribus

Konfidenzintervalle in R berechnen: Simulation und Bootstrap

Ziel: die Bandbreite der Betas abbilden, die vorhanden sein könnten, wenn wir viele verschiedene
zufällige Stichproben hätten. Damit können wir dann Konfidenzintervalle berechnen

Simulation (Option 1): Ziehung von Betas aus der multivariaten Normalverteilung

betas = MASS::mvrnorm(1000, coef(model), vcov(model))
values = c(1, 23, 1) # Beispiel: 23-jährige Frau
yhat = betas %*% values # das vorausgesagte y berechnen (auf der Logit Skala)
p = exp(yhat) / (1 + exp(yhat)) # in vorausgesagte Wahrscheinlichkeiten umrechnen
mean(p) # vorausgesagte Wahrscheinlichkeit

siehe Dok

Vorausgesagte Wahrscheinlichkeiten und discrete changes mit glm.predict
berechnen siehe Dok

Videos

Modell

Modelltypen

Realmodell

Ikonisches Modell

Verbalmodell

Formalmodell

Maus die Tiermodell für Autismus abbildet

Modelleisenbahn, anschauliches Modell, architektonische Zeichnung, Modellierung Architektur

In natürlicher Sprache beschrieben: Ältere Personen nehmen eher an Wahlen teil

mathematische Grundlagen, Computer

Mathematische Modelle, deterministisch wenn x dann y

Statistische Modelle, stochastisch, wenn x dann eher y

empirisch mit generierten Daten

enthalten Störterme

Was ist eine Regression

Regression durch Galton, Grösse von Väter wird nicht an Söhne weitergegeben, sondern an Mittelwert von Väter

Zusammenhang zwischen zwei oder mehr Variablen

Videos

Streudiagramm mit Regressionlinie

Univariates lineare Modell

i für konkreten Fall

y Dach i für vorausgesagten Y Wert

Schätzverfahren

beta 1 = (Kovarianz von x,y) / (Varianz von x)

Kovarianz = ((Summe von allen y Daten) - (Durchschnitt von y Daten)) * ((Summe von allen x Daten) - (Durchschnitt von x Daten)) / N - 1

Varianz x = ((Summe von allen x Daten) - (Durchschnitt von x Daten)) hoch 2

beta 0 = Durchschnitt von y - (Durchschnitt von x * beta 1)

s^2 (unverzerrter Schätzer der Fehlervarianz) = Summe der Residuen im quadrat (Residuen = Y - Y Hat (vorausgesagte Wert)) / N - 2

Video

Estimates = betas

Std Errors, Standardfehler

t Value = beta / Standardfehler (ist etwas signifikant oder nicht

R^2 : Welcher Anteil der Varianz erklären die unabhängigen Variablen (50% sehr hoher Wert)
Adjusted R^2 Einbezug von Anzahl unabhängiger Variablen

beta1 = Zunahme von Y wenn sich X um eine Einheit verändert

Gewichte: nicht alle machen mit, weniger repräsentierte sind mehr gewichtet, um Verzerrung auszugleichen

Videos

Logistisches formales Modell: P(yi = 1) ((Wahrscheinlichkeit, dass yi gleich 1 ist)) = e^(beta0+beta1x1i+beta2x2i...) / 1 + e^(gleiches wie oben)