M3 Kwantitatief luik: H9 Principale componenten-analyse en schaalconstructie
Cronbach’s α
Principale componenten-analyse
Praktische kwesties
Assumpties
- Er wordt verondersteld dat de variabelen minimaal van interval meetniveau zijn
- De variabelen X1, X2, X3.. zijn normaal verdeeld
- De relaties tussen de variabelen zijn lineair
- De correlaties tussen de variabelen zijn betrouwbaar: er zit niet teveel ruis in de metingen, ook geen outliers
Relatie tussen principale componenten-analyse en factoranalyse
⭐ Principale componenten-analyse: proberen de gemeten X-variabelen zo goed mogelijk samen te vatten in een klein aantal componenten
⭐ Factoranalyse: proberen de gemeten X-variabelen zo goed mogelijk te verklaren uit een verondersteld aantal onderliggende factoren
Aantal variabelen per factor
Aantal principale componenten: ⭐ 4 criteria om dimensionaliteit van de oplossingsruimte te kiezen
Steekproefgrootte
⚠ hangt af van de structuur in de data (meestal: 5 à 6 per factor)
⭐ Marker variabele = op een factor laadt maar één variabele
⚠ ongewenst: er valt dan niet veel te interpreteren
⚠ niet veel datareductie op deze manier
⭐ Complexe variabelen = variabelen laden sterk op meer dan één factor
⚠ ook niet prettig: interpretatie wordt lastiger (er wordt gedacht dat de variabelen telkens maar één bepaald aspect of construct reflecteren
- 'Eigenwaarde > 1 - criterium' = alléén principale componenten meenemen die een eigenwaarde groter dan 1 hebben
- 'Knik-criterium' = eerste component heeft altijd de grootste eigenwaarde, daarna de tweede etc.. een plot van de eigenwaarden is tegen het nummer van de principale componenten ALTIJD een dalende lijn ⚠
Gebruikelijk: principale componenten meenemen tot en met de knik
- 'Scree-criterium' = over de laagste eigenwaarden wordt een 'scree-plot' getrokken (de waarden van de eigenwaarden plotten): op een gegeven moment schiet de lijn de hoogte in: vanaf dat punt de eigenwaarden meenemen ⚠ (andersom tov knik-criterium)
- 'Interpreteerbaarheid-criterium' = factoren met een eigenwaarde < 1 kunnen ook meegenomen worden omdat ze goed interpreteerbaar zijn (maar weinig variantie hebben) + als een principale component geen inhoudelijk betekenis heeft (maar wel veel variantie) dan heeft het weinig zin om die scores mee te rekenen
Laatste woord = factoren interpreteren
Vuistregel voor veel technieken: ongeveer 10 X zo groot als aantal variabelen
Vuistregel voor PCA: een iets groter aantal respondenten tov het aantal variabelen (want meerdere variabelen kunnen samengevoegd worden tot een kleiner aantal, die kunnen ook met voldoende betrouwbaarheid gemeten worden
Schaalconstructie: wie hoog scoort op het ene item, zal ook hoog scoren op andere items binnen dezelfde schaal - Cronbach's α = maat van interne consistentie ⭐
Algemene informatie
symmetrisch: alle variabelen spellen een gelijke rol (voorbeeld: correlatie-analyse
multivariaat: de relatie tussen meerdere variabelen (een groot aantal) analyseren, binnen een set van variabelen onderling
⭐ Principale componenten-analyse: VRIJ zoeken naar combinaties van variabelen die zo goed mogelijk de informatie in alle variabelen samenneemt - (groepen van) variabelen die sterk onderling samenhangen worden in deze techniek tot één nieuwe variabele gecombineerd (= principale component)
oorspronkelijke set van k variabelen wordt samengevat in p < k van die principale componenten - ⭐ techniek voor datareductie + daarna componenten interpreteren
⭐ Schaalconstructie: een specifieke vooraf gegeven set van variabelen die zo sterk samenhangen dat zij als één principale component of één construct/één schaal opgevat kunnen worden
Voorbeeld: Likertschaal - 5 tot 7 antwoordcategorieën, een positie aangeven op een continu kenmerk
Methode voor schaalconstructie = Cronbach's α - maat voor onderlinge samenhang binnen een set variabelen
⚠ PCA en Cronbach's α = SPIEGELBEELD - PCA: vrij zoeken naar mogelijkheden om aantal variabelen te reduceren tot kleiner aantal dimensies & Cronbach's α: op inhoudelijke grond vooraf een set variabelen bij elkaar zetten, en daarna kijken of die groep ook een schaal kan vormen
Items correleren onderling flink = hoge Cronbach's α
Waarden tussen 0 -1 - vuistregel = Cronbach's α moet minimaal 0.8 zijn, anders te weinig interne samenhang tussen de items ⚠
Cronbach's α neem TOE als het aantal items toeneemt en het gemiddelde inter-itemcorrelatie gelijkblijft
✅ Hoe sterker de samenhang van de variabelen X en Y, hoe dunner de 'sigaar' in de scatterplot en daarmee hoe zekerder we Y (of X) kunnen voorspellen als we X (of Y) meten
Perfecte samenhang = 2 variabelen kunnen vervangen door één component (in praktijk vrijwel nooit)
Door de 'sigaar' een lijn (P) trekken, die een principale component is: de lijn P toont wat er ongeveer aan de hand is met X en Y
⭐ Componentenlading = de gewichten waarmee uit de oorspronkelijke variabelen de principale componenten gevormd worden
✅ berekend met behulp van een procedure die garadeert dat de principale componenten zo goed mogelijk samenhangen met de oorspronkelijke variabelen
Componenten worden orthogonaal ⭐ = de componenten staan in een hoek van 90 graden ten opzichte van elkaar (ze zijn ongecorreleerd)
⭐ Principale componenten + de componentenlading = Factoroplossing
⭐ Componentenscores = de scores van de personen op de principale componenten berekenen samen met de lading die het heeft
⭐ Eigenwaarden = een maat voor de verklaarde variantie van een principale component
hoge eigenwaarde = veel variantie (vertellen hoe belangrijk de principale componenten zijn)
= som van de gekwadrateerde componentenladingen
⭐ Communaliteiten = hoe belangrik de rol van diverse variabelen in de oplossing zijn
= som van de gekwadrateerde componentladingen, over de principale componenten
lage communaliteit = niet goed passend in de oplossing, misschien verwijderen ⚠
⭐ Rotatie: de oplossing zo draaien dat de interpretatie geoptimaliseerd wordt - hoge componentenladingen worden groter, lage componentenladingen worden lager - eigenwaarden veranderen ook, communaliteiten NIET
Plaatje van de oplossingsruimte zou scherper zijn, als de principale componenten NIET als x-as en y-as worden genomen, maar assen zouden worden getrokken door de pijlenbundels heen
Meer dan 2 principale componenten? ⚠ tabel vormen van de componentladingen op de geroteerde principale componenten - componentenladingen van > 0.3 onderstrepen
⚠ Opletten voor kruisladingen: variabelen die niks te maken hebben met het principale component- mag MAX 1/3e van de hoofdlading zijn