M3 Kwantitatief luik: H9 Principale componenten-analyse en schaalconstructie

Cronbach’s α

Principale componenten-analyse

Praktische kwesties

Assumpties

  1. Er wordt verondersteld dat de variabelen minimaal van interval meetniveau zijn
  1. De variabelen X1, X2, X3.. zijn normaal verdeeld
  1. De relaties tussen de variabelen zijn lineair
  1. De correlaties tussen de variabelen zijn betrouwbaar: er zit niet teveel ruis in de metingen, ook geen outliers

Relatie tussen principale componenten-analyse en factoranalyse

⭐ Principale componenten-analyse: proberen de gemeten X-variabelen zo goed mogelijk samen te vatten in een klein aantal componenten

⭐ Factoranalyse: proberen de gemeten X-variabelen zo goed mogelijk te verklaren uit een verondersteld aantal onderliggende factoren

Aantal variabelen per factor

Aantal principale componenten: ⭐ 4 criteria om dimensionaliteit van de oplossingsruimte te kiezen

Steekproefgrootte

⚠ hangt af van de structuur in de data (meestal: 5 à 6 per factor)

⭐ Marker variabele = op een factor laadt maar één variabele

⚠ ongewenst: er valt dan niet veel te interpreteren

⚠ niet veel datareductie op deze manier

⭐ Complexe variabelen = variabelen laden sterk op meer dan één factor

⚠ ook niet prettig: interpretatie wordt lastiger (er wordt gedacht dat de variabelen telkens maar één bepaald aspect of construct reflecteren

  1. 'Eigenwaarde > 1 - criterium' = alléén principale componenten meenemen die een eigenwaarde groter dan 1 hebben
  1. 'Knik-criterium' = eerste component heeft altijd de grootste eigenwaarde, daarna de tweede etc.. een plot van de eigenwaarden is tegen het nummer van de principale componenten ALTIJD een dalende lijn ⚠

Gebruikelijk: principale componenten meenemen tot en met de knik

  1. 'Scree-criterium' = over de laagste eigenwaarden wordt een 'scree-plot' getrokken (de waarden van de eigenwaarden plotten): op een gegeven moment schiet de lijn de hoogte in: vanaf dat punt de eigenwaarden meenemen ⚠ (andersom tov knik-criterium)
  1. 'Interpreteerbaarheid-criterium' = factoren met een eigenwaarde < 1 kunnen ook meegenomen worden omdat ze goed interpreteerbaar zijn (maar weinig variantie hebben) + als een principale component geen inhoudelijk betekenis heeft (maar wel veel variantie) dan heeft het weinig zin om die scores mee te rekenen

Laatste woord = factoren interpreteren

Vuistregel voor veel technieken: ongeveer 10 X zo groot als aantal variabelen
Vuistregel voor PCA: een iets groter aantal respondenten tov het aantal variabelen (want meerdere variabelen kunnen samengevoegd worden tot een kleiner aantal, die kunnen ook met voldoende betrouwbaarheid gemeten worden

Schaalconstructie: wie hoog scoort op het ene item, zal ook hoog scoren op andere items binnen dezelfde schaal - Cronbach's α = maat van interne consistentie ⭐

Algemene informatie

symmetrisch: alle variabelen spellen een gelijke rol (voorbeeld: correlatie-analyse

multivariaat: de relatie tussen meerdere variabelen (een groot aantal) analyseren, binnen een set van variabelen onderling

⭐ Principale componenten-analyse: VRIJ zoeken naar combinaties van variabelen die zo goed mogelijk de informatie in alle variabelen samenneemt - (groepen van) variabelen die sterk onderling samenhangen worden in deze techniek tot één nieuwe variabele gecombineerd (= principale component)

oorspronkelijke set van k variabelen wordt samengevat in p < k van die principale componenten - ⭐ techniek voor datareductie + daarna componenten interpreteren

⭐ Schaalconstructie: een specifieke vooraf gegeven set van variabelen die zo sterk samenhangen dat zij als één principale component of één construct/één schaal opgevat kunnen worden

Voorbeeld: Likertschaal - 5 tot 7 antwoordcategorieën, een positie aangeven op een continu kenmerk

Methode voor schaalconstructie = Cronbach's α - maat voor onderlinge samenhang binnen een set variabelen

⚠ PCA en Cronbach's α = SPIEGELBEELD - PCA: vrij zoeken naar mogelijkheden om aantal variabelen te reduceren tot kleiner aantal dimensies & Cronbach's α: op inhoudelijke grond vooraf een set variabelen bij elkaar zetten, en daarna kijken of die groep ook een schaal kan vormen

Items correleren onderling flink = hoge Cronbach's α

Waarden tussen 0 -1 - vuistregel = Cronbach's α moet minimaal 0.8 zijn, anders te weinig interne samenhang tussen de items ⚠

Cronbach's α neem TOE als het aantal items toeneemt en het gemiddelde inter-itemcorrelatie gelijkblijft

✅ Hoe sterker de samenhang van de variabelen X en Y, hoe dunner de 'sigaar' in de scatterplot en daarmee hoe zekerder we Y (of X) kunnen voorspellen als we X (of Y) meten

Perfecte samenhang = 2 variabelen kunnen vervangen door één component (in praktijk vrijwel nooit)

Door de 'sigaar' een lijn (P) trekken, die een principale component is: de lijn P toont wat er ongeveer aan de hand is met X en Y

⭐ Componentenlading = de gewichten waarmee uit de oorspronkelijke variabelen de principale componenten gevormd worden

✅ berekend met behulp van een procedure die garadeert dat de principale componenten zo goed mogelijk samenhangen met de oorspronkelijke variabelen

Componenten worden orthogonaal ⭐ = de componenten staan in een hoek van 90 graden ten opzichte van elkaar (ze zijn ongecorreleerd)

⭐ Principale componenten + de componentenlading = Factoroplossing

⭐ Componentenscores = de scores van de personen op de principale componenten berekenen samen met de lading die het heeft

⭐ Eigenwaarden = een maat voor de verklaarde variantie van een principale component

hoge eigenwaarde = veel variantie (vertellen hoe belangrijk de principale componenten zijn)

= som van de gekwadrateerde componentenladingen

⭐ Communaliteiten = hoe belangrik de rol van diverse variabelen in de oplossing zijn

= som van de gekwadrateerde componentladingen, over de principale componenten

lage communaliteit = niet goed passend in de oplossing, misschien verwijderen ⚠

⭐ Rotatie: de oplossing zo draaien dat de interpretatie geoptimaliseerd wordt - hoge componentenladingen worden groter, lage componentenladingen worden lager - eigenwaarden veranderen ook, communaliteiten NIET

Plaatje van de oplossingsruimte zou scherper zijn, als de principale componenten NIET als x-as en y-as worden genomen, maar assen zouden worden getrokken door de pijlenbundels heen

Meer dan 2 principale componenten? ⚠ tabel vormen van de componentladingen op de geroteerde principale componenten - componentenladingen van > 0.3 onderstrepen

⚠ Opletten voor kruisladingen: variabelen die niks te maken hebben met het principale component- mag MAX 1/3e van de hoofdlading zijn