Please enable JavaScript.
Coggle requires JavaScript to display documents.
Data en inferentie (Hoofdstuk 1: Distributies verkennen (Density curve…
Data en inferentie
Hoofdstuk 1: Distributies verkennen
Variabelen
Data met specifieke informatie over gemeten dingen
Kunnen individuen zijn
Geen individu betekent 'case'
Soorten variabelen
Categorisch
Nominaal
Ordinaal
Kwantitatief
Ratio
Interval
Weergave van distributies
Kwantitatieve variabelen
Histogram
<--Handiger
Benadering van normale distributie
Stemplot
<--Minder handiger, vooral bij veel data
Categorische variabelen
Percentage
Aantal
Staafgrafiek
Cirkeldiagram
Verkenning
Het algemene patroon + Bijzondere afwijkingen
Kijk naar vorm
Kijk naar centrum
Kijk naar de spreiding
Afwijkingen heten
outliers
Unimodaal of Multimodaal?
Symmetrie of Scheef?
Distributies samenvatten
Centrum
Mediaan
Resistentere centrummaat dan het gemiddelde
Gemiddelde
Geen resistente centrummaat
Spreiding
of
Variantie
Standaarddeviatie
Variantie (Standaarddeviatie^2)
Kwartielen indien mediaan gebruikt
Outliers ontdekken
Verschil tussen kwartielen maal 1.5
Density curve
Gebied onder de curve geeft proportie aan van observatie in de distributie
Gemiddelde gebruikt in plaats van mediaan
Symmetrische density curves hebben gelijke gemiddelden en medianen
Asymmetrie trekt gemiddelde verder weg richting de staarten dan de mediaan
Normale verdeling
Belvormig
Symmetrisch
Unimodaal
Beschrijving vereist het gemiddelde plus de standaarddeviatie
Standaardisering van observaties
1) Observatie minus gemiddelde van de distributie
2) Delen door de bekende standaarddeviatie
3) Levert z-score op
Hoofdstuk 4: Kansen en '
randomness
'
Random phenomenon
Precieze uitkomst kan niet voorspeld worden, echter distributie van uitkomsten wel
Kans
De kans van een gebeurtenis is de proportie van het voorkomen, in verhouding met de
N
herhaalde metingen
Kansenmodel
Complementen van gebeurtenissen.
De gehele sample space zonder gebeurtenis X. Alle mogelijke uitkomsten zonder gebeurtenis X
Disjunctie
Gebeurtenis A en B zijn disjunct als ze geen gedeelde uitkomst hebben
Events
Kans van de gebeurtenis in
sample space
Sample space
Set aan mogelijke uitkomsten van
random phenomenon
* P(S)=1
Bestaat uit
De toegewezen kansen
P
Sample space
S, mogelijke gebeurtenissen
Onafhankelijk
Als gebeurtenis A niet de daaropvolgende kans van gebeurtenis B verandert
Vermenigvuldiging
Gebeurtenis A en B zijn te vermenigvuldigen mits onafhankelijk
Optellen
Optellen van kansen mag als de gebeurtenissen disjunct zijn.
Random Variable
Kan numerieke waarden aannemen afhankelijk van de uitkomst van de
random phenomenon
Continue
Discreet
Hoofdstuk 3: Data produceren
Experimenteel onderzoek
2 of meer behandelingen van groepen eenheden of individuen
Gescheiden verschillende behandelingen = factoren
Design
De keus en de manier van behandelingen, en toewijzing ervan
Basis principes zijn
Control
Maakt vergelijken mogelijk en verwijdert derde variabelen zo veel mogelijk
Blocking om randomisatie te beperken, indien dat averechts werkt. Kleine, maar essentiële systematisering
Randomization
Willekeurige toewijzing voorkomt bias of systematische favoriseren
Repetition
Reduceert de kans op kansvariaties. Maakt ontdekken van kleine verschillen makkelijker.
Naast goed design vereist experimenteel onderzoek
Effectieve statistische design:
Steekproeven
Selecteert een kleine groep uit een grotere populatie, om over de populatie een uitspraak te doen
Design
Methode voor
sampling
Probability sampling designs
zijn hiervoor nodig
Meest basale vorm is
simple random sample (SRS)
Elke sample combinatie heeft dezelfde kans om gevormd te worden
Stratified random sample
Populatie opgedeeld in
strata (vergelijbkare individuen) belangrijk voor respons
Voor elk
stratum
een SRS gebruiken*
Combineren van SRS per
stratum
levert
stratified random sample
op**
Multistage samples
SRS op verschillende hoogten in niveaus
Sampling distributies en parameters
Parameter
Een getal die de populatie beschrifjt
Statistiek
Een getal die door berekening uit data voortvloeit is een
Sampling distributie
Doel is om inferentie te maken over de populaties
Statistiek
beschrijft de variatie in herhaalde meting van de behandeling.
Uit de distributie kan naar voren komen wat dit over de populatie zegt
Hoofdstuk 7: Inferenties over distributies
One sample z-statistiek
Heeft een
N
(0,1) distributie, en dus normaal verdeeld.
Gebaseerd op
Standaarddeviatie van de sample
Gemiddelde van de sample
SRS van de populatie
veronderstelling dat
centrale limietstelling
geldt
Bedoeld voor grote datasets
one-sample t-statistiek
Zelfde als one sample z-statistiek, maar voor kleine samples bedoeld.
distributie hangt af van de hoeveelheid vrijheidsgraden.
t
(k) distributie benadert
N
(0,1) als k/vrijheidsgraden toenemen.
Robuuster dan de z-test voor niet-normale data met n tussen1 5 en 40.
wanneer n>41 dan zelfs voor sterk scheve distributie bruikbaar
Hoofdstuk 5:
Sampling Distributions
Binomiale verdeling
Bestaat uit de factoren
Het aantal keer '
succes
' (k)
het aantal pogingen (N)
de kans op succes (p)
De kans op een x aantal keer succes neemt een binomiale verdeling aan, gegeven N, k en p.
Wanneer N groot is, is de binomiale verdeling bij benadering normaal verdeeld.
Populatie moet 20x groter zijn dan sample voor het gebruik van deze verdeling bij proporties
Centrale limietstelling
een steekproefgemiddelde/-standaarddeviatie van een SRS, met hoge N heeft de eigenschap
door omrekening de populatiegemiddelde berekend kan worden
De standaarddeviatie van de populatie kan worden berekend
De steekproefstatistieken kunnen unbiased estimators zijn van de populatie.
Hoofdstuk 6: Inleiding in inferentie
Power en significantie
Significantie
Type I fout. Nulhypothese onterecht verworpen
Type II fout. Nulhypothese onterecht aangehouden
Type I fout is significantieniveau
Type II fout is de
power
om de alternatieve hypothese te detecteren.
Power
Het kunnen detecteren van een alternatieve hypothese
De kans dat de test de nulhypothese verwerpt als het alternatief waar is.
Sample size vergroten doet power toenemen, als significantieniveau gelijk blijft.
Betrouwbaarheidsinterval
Een schatting van een onbekende parameter, met indicatie hoeveel vertrouwen in de nauwkeurigheid zit.
Bestaat uit twee delen
Betrouwbaarheidsniveau
Persoonlijke keus
De kans dat de ware populatieparameter binnen het interval zich bevindt.
Grotere interval, meer betrouwbaarheid, minder precies.
Kleinere interval, minder betrouwbaarheid, preciezer.
Interval
Gebaseerd op data
Neemt de vorm:
'schatting +/- foutmarge'
aan
Afhankelijke van de factoren
Sample size
de populatie standaarddeviatie neemt af.
Gekozen betrouwbaarheidsniveau