7 Survey sampling

population x1,x2,...,xN

population mean

\[\mu=\frac{1}{N}\sum_{i=1}^Nx_i\]

population total

\[\tau=\sum_{i=1}^{N}x_i=N\mu\]

population variance

\[\sigma^2=\frac{1}{N}\sum_{i=1}^{N}(x_i-\mu)^2\]

\[=\frac{1}{N}\sum_{i=1}^Nx_i^2\quad-\quad\mu^2\]

\[=p(1-p)\] för dikotomiska fall

sample \(X_1, X_2, ..., X_n\)

sample mean

\(\bar{X}=\frac{1}{n}\sum_{i=1}^nX_i\)

\[T=N\bar{X}\]

\(\)

Genom att beteckna populationens distinkta värden med


ζ1, ... ζm


och antalet populationsmedlemmar som har värdet ζj med nj kan vi visa att ...

\(E(\bar{X})=\mu\) #
\(E(T)=\tau\)

\(E(X_i)=\mu\)
\(Var(X_i)=\sigma^2\) #

För simple random sampling gäller
\[Var(\bar{X})=\frac{\sigma^{2}}{n} \color{purple}{ \left(\frac{N-n}{N-1}\right)}\]

För sampling with replacement gäller
\[Var(\bar{X})=\frac{\sigma^{2}}{n}\]

\(\sigma_{\bar{X}}\approx\frac{\sigma}{\sqrt{n}}\)

Med simple random sampling har vi
\(E(\hat{\sigma}^{2})=\sigma^{2}\color{red}{\left(\frac{n-1}{n}\right)\frac{N}{N-1}}\)
\(\hat{\sigma}^2\) är alltså biased!

\(\hat{\sigma}^2 = \frac{1}{n}\sum_{i=1}^{n}(X_{i}-\bar{X})^{2}\)

An unbiased estimate of \(Var\bar{X}\) is
\[\begin{align*} s_{\bar{X}}^{2} & =\frac{\hat{\sigma}^{2}}{n}\left(\frac{n}{n-1}\right)\left(\frac{N-1}{N}\right)\left(\frac{N-n}{N-1}\right)\ & =\frac{s^{2}}{n}\left(1-\frac{n}{N}\right) \end{align*}\]
where
\[s^{2}=\frac{1}{n-1}\sum_{i=1}^{n}(X_{i}-\bar{X})^{2}\]

An unbiased estimate of \(Var(\hat{p})\) is
\(s_{\hat{p}}^{2}=\frac{\hat{p}(1-\hat{p})}{n-1}\left(1-\frac{n}{N}\right)\)

The central limit theorem says that
\(P\left(\frac{\bar{X_{n}}-\mu}{\sigma_{\bar{x}}}\leq z\right)\rightarrow\Phi(z)\)
as \(n\rightarrow\infty\)

\(\bar{X_n}\) är sample mean av n i.i.d. random variables

Konfidensintervall

\(P(\bar{X}-z_{\alpha/2}\sigma_{\bar{X}}\leq\mu\leq\bar{X}+z_{\alpha/2}\sigma_{\bar{X}})\approx1-\alpha\)

För stora n (säg, över 25-30) kan vi använda \(s_\bar{X}\) ist. för \(\sigma_\bar{X}\)

Estimation of a ratio

\(r=\frac{\sum_{i=1}^{N}y_{i}}{\sum_{i=1}^{N}x_{i}}=\frac{\mu_{y}}{\mu_{x}}\)

\(R=\frac{\bar{Y}}{\bar{X}}\)

Med Taylor-series-expansion av g kring \(\mu_X\) kan vi visa att (4.6 Approximate methods (s.161)) för Y=g(X):


\(\mu_{Y}\approx g(\mu_{X})+\frac{1}{2}\sigma_{X}^{2}g''(\mu_{X})\)
\(\sigma_{Y}^{2}\approx\sigma_{X}^{2}[g'(\mu_{X})]^{2}\)


och för Z=g(X, Y):


\(E(Z)\approx g(\mu)+\frac{1}{2}\sigma_{X}^{2}\frac{\partial^{2}g(\mu)}{\partial x^{2}}+\frac{1}{2}\sigma_{Y}^{2}\frac{\partial^{2}g(\mu)}{\partial y^{2}}+\sigma_{XY}\frac{\partial^{2}g(\mu)}{\partial x\partial y}\)
\(Var(Z)\approx\sigma_{X}^{2}\left(\frac{\partial g(\mu)}{\partial x}\right)^{2}+\sigma_{Y}^{2}\left(\frac{\partial g(\mu)}{\partial y}\right)^{2}+2\sigma_{XY}\left(\frac{\partial g(\mu)}{\partial x}\right)\left(\frac{\partial g(\mu)}{\partial y}\right)\)
där \(\mu\) är punkten \((\mu_X, \mu_Y)\)

population covariance

\[\sigma_{xy}=\frac{1}{N}\sum_{i=1}^{N}(x_{i}-\mu_{x})(y_{i}-\mu_{y})\]

With simple random sampling, the approximate variance of \(R=\bar{Y}/\bar{X}\) is
\[Var(R)\approx\frac{1}{\mu_{x}^{2}}\left(r^{2}\sigma_{\bar{X}}^{2}+\sigma_{\bar{Y}}^{2}-2r\sigma_{\bar{X}\bar{Y}}\right)\]
\[=\frac{1}{n}\left(1-\frac{n-1}{N-1}\right)\frac{1}{\mu_{x}^{2}}\left(r^{2}\sigma_{x}^{2}+\sigma_{y}^{2}-2r\sigma_{xy}\right)\] #

With simple random sampling, the expectation of R is given approximately by
\[E(R)\approx r+\frac{1}{n}\left(1-\frac{n-1}{N-1}\right)\frac{1}{\mu_{x}^{2}}(r\sigma_{x}^{2}-\rho\sigma_{x}\sigma_{y})\] #

(fås från ovan och att vi sätter in \(Var(\bar{X})\) och \(Var(\bar{Y})\), och \(Cov(\bar{X}, \bar{Y})\) fås på samma sätt som dessa två)

Estimated variance of R
\[s_{R}^{2}=\frac{1}{n}\left(1-\frac{n-1}{N-1}\right)\frac{1}{\bar{X}^{2}}(R^{2}s_{x}^{2}+s_{y}^{2}-2Rs_{xy})\]

där \(s_{xy}=\frac{1}{n-1}\sum_{i=1}^{n}(X_{i}-\bar{X})(Y_{i}-\bar{Y})\)
\(=\frac{1}{n-1}\left(\sum_{i=1}^{n}X_{i}Y_{i}-n\bar{X}\bar{Y}\right)\)

Ett approximativt 100(1-\(\alpha\))% konfidensintervall för r är \(R\pm z_{\alpha/2}s_{R}\)

Låt \(x_i\) och \(y_i\) vara antalet sängar och discharges på det i:te sjukuset. Antag att vi känner till alla \(x_i\) och vill utnyttja detta när vi estimerar antalet discharges.


Ett sätt är att forma en ratio estimate av \(\mu_y\):
\(\bar{Y}_{R}=\frac{\mu_{x}}{\bar{X}}\bar{Y}=\mu_{x}R\)

Det bygger på att vi tror att xi och yi är starkt relaterade.
Om \(\bar{X}<\mu_x\) så underestimerar samplet antalet sängar, och förmodligen antalet discharges också; multiplikationen av \(\bar{Y}\) med \(\mu/\bar{X}\) ökar \(\bar{Y}\) till \(\bar{Y}_R\).

Stratified Random Sampling

L strata in all
strata population sizes: \(N_1+N_2+...+N_L=N\)
strata sample sizes: \(n_1+n_2+...+n_L=n\)
ith population value in the lth stratum: \(x_{il}\)
sample value: \(X_{il}\)
fraction of the population: \(W_l=N_l/N\)

\(\mu=\sum_{l=1}^{L}W_l\mu_l\)

sample mean in stratum \(l\):
\[\bar{X}_l=\frac{1}{n_l}\sum_{i=1}^{n_l}X_{il}\]

The stratified estimate of the population mean:\[\bar{X}_{s}=\sum_{l=1}^{\textrm{L}}W_{l}\bar{X_{l}}\] It is unbiased.

\[Var(\bar{X_{s}})=\sum_{l=1}^{L}\frac{W_{l}^{2}\sigma_{l}^{2}}{n_{l}}{\color{purple}{\left(1-\frac{n_{l}-1}{N_{l}-1}\right)}}\]

the stratified estimate of the population total

\[E(T_{s})=\tau\]

\(Var(T_s)\) = byt ut \(W\) mot \(N_l\) ovan

Estimates

of \(\sigma_l^2\)

\[s_{l}^{2}=\frac{1}{n_{l}-1}\sum_{i=1}^{n_{l}}(X_{il}-\bar{X}_{l})^{2}\]

of \(Var(\bar{X}_{s})\)

\[s_{\bar{X_{s}}}^{2}=\sum_{l=1}^{L}W_{l}^{2}\left(\frac{1}{n_{l}}\right)\left(1-\frac{n_{l}-1}{N_{l}-1}\right)s_{l}^{2}\]

Methods of allocation

Neyman allocation

\[n_{l}=n\frac{W_{l}\sigma_{l}}{\sum_{k=1}^{L}W_{k}\sigma_{k}}\]

vilket ger \[Var(\bar{X}_{so})=\frac{\left(\sum_{l=1}^{L}W_{l}\sigma_{l}\right)^{2}}{n}\] där vi kallar det stratifierade estimatet som använder Neyman-allokationen \(\bar{X_{so}}\)

Problem:

  • varianserna av stratana är oftast okända
  • en survey kan vilja mäta flera attribut för varje populationsmedlem, och det är oftast omöjligt att hitta en allokering som är samtidigt optimal för alla dessa attribut.

Proportional allocation

\[n_{l}=nW_{l}\]

\[\bar{X}_{sp}=\frac{1}{n}\sum_{i=1}^{L}\sum_{i=1}^{n_{l}}X_{il}\]

Om vi ignorerar finite population correction har vi\[Var(\bar{X}_{sp})=\frac{1}{n}\sum_{l=1}^{L}W_{l}\sigma_{l}^{2}\]

Skillnad

\[Var(\bar{X}_{sp})-Var(\bar{X}_{so})=\frac{1}{n}\sum_{l=1}^{L}W_{l}(\sigma_{l}-\bar{\sigma})^{2}\]där\[\bar{\sigma}=\sum_{l=1}^{L}W_{l}\sigma_{l}\]

dvs

  • om alla strators varianser är samma så är båda lika bra
  • ju mer variabla varianserna är, desto bättre är det att använda optimal allokering.

Skillnaden mellan variansen av mean av ett (i) simple random sample och ett (ii) stratifierat sample med proportionell allokering, är (utan finit populationskorrektion):

\[Var(\bar{X})-Var(\bar{X}_{sp})=\frac{1}{n}\sum_{l=1}^{L}W_{l}(\mu_{l}-\mu)^{2}\]

  • prop. bättre än s.r.s. om means variabla
  • opt. bättre än prop. om var. variabla

An unbiased estimate av \(Var X\) is\[\frac{1}{n-1}\left(1-\frac{1}{N}\right)\sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2}=\left(1-\frac{1}{N}\right)s^{2}\]

fås genom att dividera med biasfaktorn i \(E(\hat{\sigma}^2)\)

Förklaring av substitution i konfidensintervall:
Som vi ser till vänster innehåller uttrycket egentligen \(\sigma_\bar{X}\), standardavvikelsen av estimatet \(\bar{X}\). Som vi ser i tabellen ovan innehåller uttrycket för \(\sigma_\bar{X}^2\) populationsvariansen \(\sigma^2\), vilket vi förmodligen INTE KÄNNER TILL. DÄRFÖR är vi tvungna att ersätta \(\sigma_\bar{X}\) med den estimerade standardavvikelsen av estimatet, \(s_\bar{X}\), dvs roten ur det uttryck för (s^2_\bar{X}\) som vi kan läsa ut i tabellen.

För stora samples visar sig effekten av denna substitution vara negligibel.

dvs \(\bar{X}\pm z_{\alpha/2}\sigma_{\bar{X}}\)

Detta är alltså bara genomsnittet av alla stickprovsvärden dvs det ser ut att vara precis samma sak som att bara ta ett vanligt stickprov med stolek n. MEN skillnaden är att här är vi garanterade att ta ett visst antal värden från varje stratum. Om stratana befinner sig på olika platser på tallinjen (olika mean) så är det inte så konstigt att detta ökar chansen att få ett bra, representativt värde. Om stratana är slumpmässiga får vi däremot samma sak som ett vanligt stickprov.

BEKRÄFTAT