Egenskaper hos mätdata

Klasstillhörighet

Frekvenser

Numeriska

Skalvärden

Metriska

Variabler som kan kvantifieras dvs. anta olika värden, kan vara diskreta eller kontinuerliga

Diskreta

Kontinuerliga

Kan anta vilket värde som helst inom ett intervall. Ex: Vikten av alla blåsippor inom ett provområde

Kan bara anta vissa värden, ex:heltal

Skaltyper

Nominal

När variabler bara går att klassifiera

Ordinal

  1. Går att klassificera!
  1. Man kan rangordna variablerna, man kan avgöra om ett värde är högre eller lägre än ett annat men inte hur mycket högre eller lägre!

Intervall

Har alla egenskaper som ordinal men kan även avståndet mellan värdena ha en innebörd.

Kvot

Samma som intervallskalan bara att kvot har en naturlig nollpunkt. Exempelvis: vikt, avstånd

Parametriska eller icke-parametriska tester

Icke-parametriska

Parameter innebär data som är normal eller approximativt nromalfördelade kan beskrivas med medelvärde och något mått på variationen kring medelvärdet. Detta variationsmått kan vara Sd eller varians. Alla dessa beskrivningar kallas parametrar för ett stickprov eller en population

Data från fördelningar som man inte kan beskriva med medelvärden är inga parametrar av kvantitativ sort. Därför hänvisas man till mer kvalitativa tester.

I de flesta icke-parametriska testerna räknar man på observationernas rangordningstal. Detta gör att extremer i mätdata försvinner och ersätts med rangtal.

Rankning kan förändra strukturen hos de data man analyserar.

Datatransformation

Om man vet att ens data är av en annan fördelning är normalfördelning bör man transformera ens data till att bli mer normalfördelad, innan man börjar göra uträkningar

Om variationen inte är jämt fördelad över ett helt mätintervall kallas det heteroskedasticitet och gör att parametriska tester inte kan användas.

Man kan få bort ojämnheter i variationen genom att man logaritmererar y-variablen.

Proportioner eller %. Exempelvis andel av olika funktionella grupper i prover, använd Arcsin roten ur p

Hypotesprövning

En statistisk hypotesprövning ställer en nollhypotes först och sedan en eller flera s.k mothypoteser!

Nollhypotesen beskriver att det inte finns någon skillnad eller effekt.

I testproceduren kan nollhyptosen antingen förkastas eller inte förkastat, men aldrig accepteras!

Signifikansnivån beskriver vilken risk man är villig att ta för att förkasta en sann nollhypotes. Signifikansnivån är den risk man tar att det stickprov man samlat på grund av slumpen visar ett annat mönster än hela populationen och därigen tar ett felaktigt beslut i frågan om att behålla eller förkasta nollhypotesen.

Typ 1-fel: Är att man förkasta en sann nollhypotes och signifikansnivån är den risk man tar att detta ska inträffa.

Typ 2-fel: Är att behålla en falsk nollhypotes.

Testfunktion: är en egenskap som beräknas utifrån stickprovet och fungerar som beslutsunderlag för att bestämma om nollhypotesen ska förkastas eller ej.

  1. Beslutsregel: ger ett kritiskt värde som anger om nollhypotesen ska förkastas eller ej.

7.Beräkningar

  1. Statistiskt beslut. Förkasta eller låt bli att förkasta nollhypotesen!
  1. Testfunktion
  1. Signifikansnivå
  1. Hypoteser
  1. Data: vilken skaltyp och vilken fördelning har de data man ska testa.
  1. Urval

Spridningsmått

Spridningen kring ett medelvärde ges av variansen eller standardavvikelsen.

Variansen är ett medelvärde av hur mycket de olika observationerna avviker från stickprovets medelvärde.

Medelvärdet av dessa är sedan ett mått på variationen, men det är inte den statistiska variansen

Spridningen kring medelvärdet ges även av Sd. I normalfördelningen ligger 68,3% av alla observationer inom intervallet medel +/- s och 95,4% av observationerna inom intervallet medel +/- 2s.

När man ska välja vilket mått på central tendens ska man använda fördelningens utseende av stor betydelse. Om stickprovet åtminstone är approximativt normalfördelat kan man använda medelvärdet.

Men vid skeva fördelningar är det mer lämpligt att använda medianen.

skala

Skillnaden mellan stickprovets och populationens medelvärden beror bl.a på variationen i stickprovet och antalet prover. Genom att kombinera dessa två mått får man dels ett mått medelfelet och dels ett konfidensintervall för stickprovet.

Medelfel: är ett mått på hur långt medelvärdet för ett stickprov är från populationens medelvärdet. Eftersom man har större chans att komma i närheten av populationsmedelvärdet ju större stickprov man tar, minskar medelfelet med ökande stickprovsstorlek.

Konfidensintervallet: anger precisionen i en skattning av ett populationsmedelvärde från ett stickprov. För att kunna beräkna konfidensintervallet måste man ange en konfidensnivå. Oftast väljs 95% eller 99%. Vid en 95% konfidensnivå kommer konfidensintervallet i minst 95 av 100 tänkta upprepade provtagningar att innefatta det sanna medelvärdet.

Sd beskriver stickprovets spridning medan medelfelet är ett mått på hur väl stickprovet överensstämmer med populationen.

Vilket variationsmått man väljer beror på vad man vill visa och vad det är som orsakat variationen.

Om man har mycket naturlig biologisk variation är det bättre med Sd

Kontrollerade experiment är det bättre att välja medelfel.

Om man mäter längden på mygglarverna har man erhållit metriska värden, skalvärden

Antalet mygglarver i ett sedimentprov