Please enable JavaScript.
Coggle requires JavaScript to display documents.
10 Summarizing Data (Measures of location (Confidence interval for the…
10 Summarizing Data
Measures of location
Confidence interval for the median
Consider an IID sample \((X_1, . . . , X_n)\) without assuming any parametric model for the unknown population
distribution.
Let \[Y=\sum_{i=1}^{n}1_{{{X_{i}\leq M}}}\]be the number of observations below (or equal to) the median, then\[p_{k}=P(X_{(k)} < M < X_{(n-k+1)})=P(k\leq Y\leq n-k)\]can be computed from the symmetric binomial distribution \(Y\sim\textrm{Bin}(n,0.5)\)
This yields the following confidence interval for the median:\[(X_{(k)},X_{(n-k+1)})\textrm{ is a }100p_{k}\%\textrm{ CI for the population median M}\]
Trimmed mean
\[\alpha\textrm{-trimmed mean }\bar{X}_{\alpha}=\textrm{sample mean without }\frac{n\alpha}{2}\textrm{ smallest and }\frac{n\alpha}{2}\textrm{ largest observations}\]
blir mer robust
Nonparametric bootstrap
Om vi inte känner till fördelningsfunktionen F, kan vi uppskatta den med den empiriska fördelningen \(F_n\).
Innebär att vi samplar med replacement från våra observationer, dvs
sample(data, sample_size, replace = T)
Sign test
A non-parametric test of \(H_0:M=M_0\)
against the two-sided alternative \(H_1:M\neq M_0\).
sign test statistic \[Y_{0}=\sum_{i=1}^{n}1_{X_{i}\leq M_{0}}\]räknar antalet observationer under nollhypotes-värdet
\[Y_{0}\overset{H_{0}}{\sim}\textrm{Bin}(n,0.5)\]
Connection to
#
: reject \(H_0\) if \(M_0\) falls outside the corresponding confidence interval \((X_{(k)},X_{(n-k+1)})\)
Based on cdf
The
Empirical
cdf
\[F_{n}(x)=\frac{1}{n}(\#x_{i}\leq x)\]
Låt den sorterade batchen vara\[x_{(1)}\leq x_{(2)}\leq\cdots\leq x_{(n)}\]Då, om\[x_{(k)} \leq x < x_{(k+1)},\] så är \[F_{n}(x)=k/n\]
Om x:en är ett stickprov från en kontinuerlig fördelningsfunktion \(F\), gäller
\(E[F_{n}(x)]=F(x)\)
\(Var[F_{n}(x)]=\frac{1}{n}F(x)[1-F(x)]\)
The Survival Function
\[S(t)=P(T>t)=1-F(t)\]
sample
\[S_{n}(t)=1-F_{n}(t)\]
Hazard function
Detta kommer från följande
: Om en individ har överlevt fram till t så är sannolikheten att den dör i intervallet \((t, t+\delta)\):\[P(t\leq T\leq t+\delta|T\geq t)=\frac{P(t\leq T\leq t+\delta)}{P(T\geq t)}\]\[=\frac{F(t+\delta)-F(t)}{S(t)}\]\[\approx\frac{\delta f(t)}{S(t)}\]Denna sannolikhet delat på \(\delta\) ger alltså hur fort vi dör per steg åt höger (om vi lever i t)
The intstantaneous rate for individuals who have survived up to a given time
It may also be expressed as\[h(t)=-\frac{d}{dt}\textrm{log}\,S(t)\]
\[h(t)=\frac{f(t)}{S(t)}\]
Quantile-Quantile Plots
for comparing distribution functions
Ex. följande observationer av t.ex. livslängd
x från cdf F = kontrollgrupp
y från cdf G = behandlats
additive treatment effect
\(y_p=x_p+h\) och Q-Q-plotten är rak linje med lutning 1 och intercept \(h\)
\(G(y)=F(y-h)\)
plottar kvantilerna av en fördelning mot de av en annan
multiplicative treatment effect
\(y_p=cx_p\) och Q-Q-plotten är rak linje med lutning \(c\) och intercept 0
\(G(y)=F(y/c)\)
Hur konstruera?
Givet n observationer och
order statistics
\(X_{(1)},...,X_{(n)}\)
tilldelas \(k/(n+1)\):e kvantilen av data till \(X_{(k)}\)
#
Denna konventionen är inte unik;
ibland tilldelas \(X_{(k)}\) istället kvantilen \((k-0.5)/n\)
To compare two batches a Q-Q plot is simply constructed by plotting the points \((X_{(i)}),Y_{(i)})\)
If unequal size, an interpolation process can be used
Testing normality
The normality hypothesis \(H_0\) states that the population distribution for the sample (X1, . . . , Xn) is
normal \(N(µ, σ^2)\) with unspecified parameter values
A Q-Q plot used for testing this hypothesis is
called
normal probability plot
.
Normal probability plot
is the scatter plot for \((x_k, y_k)\), where \(x_{k}=\Phi^{-1}\left(\frac{k-0.5}{n}\right)\) and \(y_{k}=X_{(k)}\)
#
Om normalfördelnings-probability-plotten är nära
en rak linje y = a + bx så accepterar vi \(H_0\)
och använder estimaten
\(\hat{\mu}=a,\quad\hat{\sigma}=b\)
The quantile function \(\Phi^{-1}\) for the standard normal distribution \(\Phi\) is called the profit function from (PRObability unIT)
Measures of dispersion
indication of the "
scatteredness
" of a batch of numbers
sample standard deviation, \(s\)
sample variance\[s^{2}=\frac{1}{n-1}\sum_{i=1}^{n}(X_{i}-\bar{X})^{2}\]
robusta mot outliers
interquartile range
(IQR)
the difference between the upper and lower
sample quartiles
median absolute deviation from the median
(MAD)
dvs median av \(|X_{i}-\hat{M}|,\;i=1\ldots,n\)
Histograms
Recommended to plot the
proportion
of observations falling in the bin
divided by the bin width
gives area 1
för att få en mjuk kurva:
Låt \(w(x)\) vara en ickenegativ symmetrisk viktfunktion centrerad i 0, och integrerande till 1. T.ex. pdf för Z.\[w_{h}(x)=\frac{1}{h}w\left(\frac{x}{h}\right)\]är en omskalad version av \(w\). (om \(w\) är Z så är detta N med std h).
Om \(X_{1},\ldots,X_{n}\) är ett stickprov från en täthetsfunktion \(f\) så ges ett estimat till \(f\) av\[f_{h}(x)=\frac{1}{n}\sum_{i=1}^{n}w_{h}(x-X_{i})\]
Detta estimat kallas
kernel proability density estimate
Parametern \(h\) kallas
bandwidth
(motsvarar bin width vad gäller jaggedness/utslätning)
empirical log survival är extremt opålitliga för stora t, disregardas
dotted=G
"the treatment increases lifetime by 2 mo"
"the treatment increases lifetime by 25%"
Man kan visa att \[E(X_{(j)})=\frac{j}{n+1}\] för ett sample av storlek \(n\)
från uniform fördelning på [0, 1]
Probability Plots
\(X_{(1)} < X_{(2)} < \cdots < X_{(n)}\)
order statistics
This suggests plotting the ordered observations against their expected values
#
\[1/(n+1),\ldots,n/(n+1)\]
If the underlying distribution is uniform, the plot should look roughly linear
Proposition C 2.3:
#
If X is a continuous random variable with a
strictly increasing
cumulative distribution function, \(F_X\), and if \(Y=F_X(X)\), then \(Y\) has a uniform density on [0,1].
The transformation \(Y=F_X(X)\) is known as the
probability integral transformation
Eftersom\[P(Z\leq z)=P(F(X)\leq z)=P(X < F^{-1}(z))=F(F^{-1}(z))=z\] vilket är den uniforma cdf:en
Alltså bör vi få en rak linje
om vi plottar quantiles av Y här ->
Detta föreslår följande: Antag hypotes att X följer en viss fördelning, F. Givet ett sample \(X_{1},\ldots X_{n}\), plottar vi\[F(X_{(k)})\quad\textrm{vs.}\quad\frac{k}{n+1}\]eller ekvivalent\[X_{(k)}\quad\textrm{vs.}\quad F^{-1}\left(\frac{k}{n+1}\right)\]
(eftersom om a ≈ b borde f(a) ≈ f(b))
(may be viewed as the empirical quantiles)
In some cases, \(F\) is of the form\[F(x)=G(\frac{x-\mu}{\sigma})\](såsom normalfördelningen, där \(G=\Phi=\) standardnormalfördelningens cdf). Vi får att
#
i så fall blir ekvivalent med att plotta om \[X_{(k)}\approx\sigma G^{-1}(x)+\mu\] dvs =>
#
(gör liten skillnad)
If normality does not hold, draw a straight line via empirical lower and upper quartiles to detect a
light tails profile or heavy tails profile
(och använd c.o.skewness och kurtosis?)
quantile för x = \(x_p\), samma för y
Om w=Z är detta normalkullar
centrerade i varje \(X_i\), med std=h
common statistical model for the variability of a measurement process:\[X_{i}=\mu+\beta+\varepsilon_{i}\] = the true value + the bias in the measurement procedure + the random error
mut. excl., # obs.,
P(X_i>M)=P(X_i<M)=1/2
= roten av
n-1 baseras på att \(s^2\) är en
unbiased estimate
av pop.var.
Däremot är \(s\)
inte unbiased
estimate av pop.sd. eftersom sqrt är ickelinjär
n-1 eller n gör ej så stor skillnad om n tillräckligt stort
känslig mot outliers
can be converted into estimates of \(\sigma\) for a normal distribution by dividing them by...
1.35
0.675
(där \(Z=F(X)\))
(alltså om tätheten inte är noll någonstans) //Hannes
|
|
\(\,\,\,\,\,\,\,\,\)----->
(eller \(x_k=\Phi^{-1}\left(\frac{k}{n+1}\right)\))