Please enable JavaScript.
Coggle requires JavaScript to display documents.
M3 Kwantitatief luik: H6 Multiple regressie-analyse - Coggle Diagram
M3 Kwantitatief luik: H6 Multiple regressie-analyse
Assumpties
De voorspellers X en de afhankelijke variabele Y zijn van interval meetniveau
Schending = geen drama, dichtome variabelen kunnen zonder problemen weggenomen worden, MITS de verdeling van respondenten over de categorieën redelijk is
:warning: AV: eis van interval niveau = absoluut
De X-variabelen hebben een lineair verband met de Y-variabele
Als geen verband bestaat, of het verband is van een andere vorm, zal de techniek geen bevredigende resultaten opleveren
De X-variabelen zijn 'fixed' en de Y-variabele is 'random'
Fixed = de categorieën van X zijn door de onderzoeker gekozen - schending = geen drama, resultaten blijven goed interpreteerbaar
Random = Y-waarnemingen zijn in elke lineaire combinatie random getrokken - :check: aanname dat dit zo is in de praktijk!
De voorspelfouten zijn onderling afhankelijk, normaal verdeeld en hebben voor elke combinatie van X-variabelen dezelfde variantie σ
onafhankelijkheid tussen waarnemingen: :warning: schending = ernstig voor de betrouwbaarheid van de toetsen
normaliteit: :check: voldaan als we een voldoende grote steekproef hebben
dezelfde σ voor elke combinatie: :warning: altijd toetsen! niet voldaan = voorspelfouten hebben geen gelijke variantie dus heteroscedastisch - aanleiding tot wantrouwen!
:star: homoscedastisch = voorspelfouten zijn 'gelijk' over de waarden van X verspreid
Multiple regressie-analyse
:star: Regressie-analyse = onderzoeken hoe goed een bepaalde factor of variabele waarin we geïnteresseerd zijn kunnen voorspellen uit andere kenmerken die we gemeten hebben - samenhang
:star: Prediction = in hoeverre zeggen scores op de ene variabele of set van variabelen iets over een andere variabele?
:star: Forecasting = als we weten hoe het behandelverloopp was, wat de eerdere criminele carrière was, en hoe impulsief de jongere was, kunnen we dan voorspellen of hij gaat recidiveren?
Verschil eenvoudig vs multiple: niet één afhankelijke variabele X maar meerdere onafhankelijke variabelen :check: plausibeler model
= k verschillende onafhankelijke variabelen om de afhankelijke variabele X te voorspellen
:star: Gestandaardiseerde regressiegewichten = deze gewichten speelt de eenheid waarin een variabele gemeten is geen rol
:warning: NIET meer b, maar β
:star: Ongestandaardiseerd = de regressiegewichten worden bepaald door de 'eenheid' van de onafhankelijke variabele in kwestie
:warning: BLIJFT b
:check: Voordelen tov meerdere bivariate analyses:
de voorspelling van de afhankelijke variabele kan geoptimaliseerd worden: samen zorgen de variabelen X1 tot en met Xk ervoor dat we Y zo goed mogelijk gaan benaderen
we kunnen zien welke variabelen de grootste bijdrage leveren aan de voorspelling van Y en welke niet/minder
:star: 2. deze kunnen uit het model verwijderd worden, model wordt zo 'spaarzaam'
:star: Toetsen = voor elke predictor beslissen of die een belangrijke rol speelt in de voorspelling van Y
:warning: groot aantal regressiegewichten = groter risico op kanskapitalisatie: het significantieniveau α stijgt bij het uitvoeren van reeksen toetsen
:star: Overwegingen bij keuze van predictoren:
bij de voorspelling van een afhankelijke variabele Y dienen inhoudelijke overwegingen een rol te spelen (lukraak voorspellers opnemen = black box-benadering)
lukraak voorspellers opnemen = gevaar van kanskapitalisatie
:star: Multicollineariteit = de overlap tussen predictoren (maak model onnodig lastig)
:warning: Effecten van toevalligheid corrigeren: NIET R2 gebruiken als maat voor performance, maar 'adjusted R' = correctie voor het aantal afhankelijke variabelen in het model
Controle op assumpties
:star: Durbin-Watson-toets: als de waarde van deze toets in de buurt van 2 komt, concluderen we dat er GEEN afhankelijkheid is
:warning: toetst slechts of er geen afhankelijkheid is tussen opeenvolgende observaties (afhankelijkheid in andere vorm = toets voldoet niet)
Histogram: zien of de voorspelfouten normaal verdeeld zijn
Met de plot van de voorspelfouten tegen de voorspelde Y zien of er homoscedasticiteit is en of de lineaire voorspelling mogelijk niet optimaal is
:check: gezonde plot = gelijkmatige puntenwolk
Logistische regressie-analyse
Als afhankelijke variabele Y dichotoom is (hij neemt maar 2 waarden aan, bijv 0 en 1) moet een speciaal soort regressie-analyse gebruikt worden (=logistische regressie-analyse)
Enkelvoudige regressie-analyse
= voorspellen van een afhankelijke variabele (X) uit één onafhankelijke variabele (Y)
:warning: Bivariate analyses waarbij X en Y allebei van minimaal interval meetniveau zijn - Y = a + bX
a = intercept
b = regressiecoëfficiënt (regressiegewicht)
Implicaties:
we mogen proberen Y te voorspellen op basis van X
we nemen aan dat dit het beste gaat met een lineair model: lineaire relatie tussen X en Y - rechte lijn door puntenwolk
regressie-analyse is een asymmetrische techniek: als we niet Y uit X zouden voorspellen maar X uit Y, krijgen we NIET dezelfde coëfficiënten a en b
:warning: Voorspelfout = het verschil tussen de echte Y en de obv het regressiempdel voorspelde Yi
Schattingsprocedure = :star: 'Kleinste kwadraten' oftewel 'Ordinary Least Squares (OLS): het is niet mogelijk om een andere a en b te vinden die kleinere voorspelfouten opleveren. Als de voorspelfouten gekwadrateerd en opgeteld zouden worden, krijgen we de optelsom van de afwijkingen - bewezen kan dus worden dat er geen andere a en b zijn waarvoor de som kleiner is
Kwaliteit van de voorspelling
:star: Multiple correlatiecoëfficiënt (Pearon's correlatiecoëfficiënt tussen de gemeten Y en de obs X1, X2... voorspelde Y) = weergeven hoe goed de voorspelling is
:check: Naarmate gemeten Y en voorspelde Y meer op elkaar lijken, de voorspelling beter gelukt
:warning: Praktijk: R2 = aangeven hoeveel van de variantie van Y voorspeld kan worden uit de voorspelling van Y op grond van het model
R2 = :star: maat voor goodness of fit: onderlinge afwijking tussen waargenomen waarden en voorspelde waarden onder het model