10 Summarizing Data (Measures of location (Confidence interval for the…
10 Summarizing Data
Measures of location
Confidence interval for the median
Consider an IID sample \((X_1, . . . , X_n)\) without assuming any parametric model for the unknown population
Let \[Y=\sum_{i=1}^{n}1_{{{X_{i}\leq M}}}\]be the number of observations below (or equal to) the median, then\[p_{k}=P(X_{(k)} < M < X_{(n-k+1)})=P(k\leq Y\leq n-k)\]can be computed from the symmetric binomial distribution \(Y\sim\textrm{Bin}(n,0.5)\)
This yields the following confidence interval for the median:\[(X_{(k)},X_{(n-k+1)})\textrm{ is a }100p_{k}\%\textrm{ CI for the population median M}\]
Trimmed mean
\[\alpha\textrm{-trimmed mean }\bar{X}_{\alpha}=\textrm{sample mean without }\frac{n\alpha}{2}\textrm{ smallest and }\frac{n\alpha}{2}\textrm{ largest observations}\]
blir mer robust
Nonparametric bootstrap
Om vi inte känner till fördelningsfunktionen F, kan vi uppskatta den med den empiriska fördelningen \(F_n\).
Innebär att vi samplar med replacement från våra observationer, dvs
sample(data, sample_size, replace = T)
Sign test
A non-parametric test of \(H_0:M=M_0\)
against the two-sided alternative \(H_1:M\neq M_0\).
sign test statistic \[Y_{0}=\sum_{i=1}^{n}1_{X_{i}\leq M_{0}}\]räknar antalet observationer under nollhypotes-värdet
Connection to
: reject \(H_0\) if \(M_0\) falls outside the corresponding confidence interval \((X_{(k)},X_{(n-k+1)})\)
Based on cdf
\[F_{n}(x)=\frac{1}{n}(\#x_{i}\leq x)\]
Låt den sorterade batchen vara\[x_{(1)}\leq x_{(2)}\leq\cdots\leq x_{(n)}\]Då, om\[x_{(k)} \leq x < x_{(k+1)},\] så är \[F_{n}(x)=k/n\]
Om x:en är ett stickprov från en kontinuerlig fördelningsfunktion \(F\), gäller
The Survival Function
Hazard function
Detta kommer från följande
: Om en individ har överlevt fram till t så är sannolikheten att den dör i intervallet \((t, t+\delta)\):\[P(t\leq T\leq t+\delta|T\geq t)=\frac{P(t\leq T\leq t+\delta)}{P(T\geq t)}\]\[=\frac{F(t+\delta)-F(t)}{S(t)}\]\[\approx\frac{\delta f(t)}{S(t)}\]Denna sannolikhet delat på \(\delta\) ger alltså hur fort vi dör per steg åt höger (om vi lever i t)
The intstantaneous rate for individuals who have survived up to a given time
It may also be expressed as\[h(t)=-\frac{d}{dt}\textrm{log}\,S(t)\]
Quantile-Quantile Plots
for comparing distribution functions
Ex. följande observationer av t.ex. livslängd
x från cdf F = kontrollgrupp
y från cdf G = behandlats
additive treatment effect
\(y_p=x_p+h\) och Q-Q-plotten är rak linje med lutning 1 och intercept \(h\)
plottar kvantilerna av en fördelning mot de av en annan
multiplicative treatment effect
\(y_p=cx_p\) och Q-Q-plotten är rak linje med lutning \(c\) och intercept 0
Hur konstruera?
Givet n observationer och
order statistics
tilldelas \(k/(n+1)\):e kvantilen av data till \(X_{(k)}\)
Denna konventionen är inte unik;
ibland tilldelas \(X_{(k)}\) istället kvantilen \((k-0.5)/n\)
To compare two batches a Q-Q plot is simply constructed by plotting the points \((X_{(i)}),Y_{(i)})\)
If unequal size, an interpolation process can be used
Testing normality
The normality hypothesis \(H_0\) states that the population distribution for the sample (X1, . . . , Xn) is
normal \(N(µ, σ^2)\) with unspecified parameter values
A Q-Q plot used for testing this hypothesis is
normal probability plot
Normal probability plot
is the scatter plot for \((x_k, y_k)\), where \(x_{k}=\Phi^{-1}\left(\frac{k-0.5}{n}\right)\) and \(y_{k}=X_{(k)}\)
Om normalfördelnings-probability-plotten är nära
en rak linje y = a + bx så accepterar vi \(H_0\)
och använder estimaten
The quantile function \(\Phi^{-1}\) for the standard normal distribution \(\Phi\) is called the profit function from (PRObability unIT)
Measures of dispersion
indication of the "
" of a batch of numbers
sample standard deviation, \(s\)
sample variance\[s^{2}=\frac{1}{n-1}\sum_{i=1}^{n}(X_{i}-\bar{X})^{2}\]
robusta mot outliers
interquartile range
the difference between the upper and lower
sample quartiles
median absolute deviation from the median
dvs median av \(|X_{i}-\hat{M}|,\;i=1\ldots,n\)
Recommended to plot the
of observations falling in the bin
divided by the bin width
gives area 1
för att få en mjuk kurva:
Låt \(w(x)\) vara en ickenegativ symmetrisk viktfunktion centrerad i 0, och integrerande till 1. T.ex. pdf för Z.\[w_{h}(x)=\frac{1}{h}w\left(\frac{x}{h}\right)\]är en omskalad version av \(w\). (om \(w\) är Z så är detta N med std h).
Om \(X_{1},\ldots,X_{n}\) är ett stickprov från en täthetsfunktion \(f\) så ges ett estimat till \(f\) av\[f_{h}(x)=\frac{1}{n}\sum_{i=1}^{n}w_{h}(x-X_{i})\]
Detta estimat kallas
kernel proability density estimate
Parametern \(h\) kallas
(motsvarar bin width vad gäller jaggedness/utslätning)
empirical log survival är extremt opålitliga för stora t, disregardas
"the treatment increases lifetime by 2 mo"
"the treatment increases lifetime by 25%"
Man kan visa att \[E(X_{(j)})=\frac{j}{n+1}\] för ett sample av storlek \(n\)
från uniform fördelning på [0, 1]
Probability Plots
\(X_{(1)} < X_{(2)} < \cdots < X_{(n)}\)
order statistics
This suggests plotting the ordered observations against their expected values
If the underlying distribution is uniform, the plot should look roughly linear
Proposition C 2.3:
If X is a continuous random variable with a
strictly increasing
cumulative distribution function, \(F_X\), and if \(Y=F_X(X)\), then \(Y\) has a uniform density on [0,1].
The transformation \(Y=F_X(X)\) is known as the
probability integral transformation
Eftersom\[P(Z\leq z)=P(F(X)\leq z)=P(X < F^{-1}(z))=F(F^{-1}(z))=z\] vilket är den uniforma cdf:en
Alltså bör vi få en rak linje
om vi plottar quantiles av Y här ->
Detta föreslår följande: Antag hypotes att X följer en viss fördelning, F. Givet ett sample \(X_{1},\ldots X_{n}\), plottar vi\[F(X_{(k)})\quad\textrm{vs.}\quad\frac{k}{n+1}\]eller ekvivalent\[X_{(k)}\quad\textrm{vs.}\quad F^{-1}\left(\frac{k}{n+1}\right)\]
(eftersom om a ≈ b borde f(a) ≈ f(b))
(may be viewed as the empirical quantiles)
In some cases, \(F\) is of the form\[F(x)=G(\frac{x-\mu}{\sigma})\](såsom normalfördelningen, där \(G=\Phi=\) standardnormalfördelningens cdf). Vi får att
i så fall blir ekvivalent med att plotta om \[X_{(k)}\approx\sigma G^{-1}(x)+\mu\] dvs =>
(gör liten skillnad)
If normality does not hold, draw a straight line via empirical lower and upper quartiles to detect a
light tails profile or heavy tails profile
(och använd c.o.skewness och kurtosis?)
quantile för x = \(x_p\), samma för y
Om w=Z är detta normalkullar
centrerade i varje \(X_i\), med std=h
common statistical model for the variability of a measurement process:\[X_{i}=\mu+\beta+\varepsilon_{i}\] = the true value + the bias in the measurement procedure + the random error
mut. excl., # obs.,
= roten av
n-1 baseras på att \(s^2\) är en
unbiased estimate
av pop.var.
Däremot är \(s\)
inte unbiased
estimate av eftersom sqrt är ickelinjär
n-1 eller n gör ej så stor skillnad om n tillräckligt stort
känslig mot outliers
can be converted into estimates of \(\sigma\) for a normal distribution by dividing them by...
(där \(Z=F(X)\))
(alltså om tätheten inte är noll någonstans) //Hannes
(eller \(x_k=\Phi^{-1}\left(\frac{k}{n+1}\right)\))