區間估計
信賴區間的特殊課題
信賴區間與樞紐量
點估計類比為打靶其實有一個問題,就是其實我們不知道靶心在哪,但只要開槍,平均而言就會擊中母數。
而使用點估計,最終雖會算出一個值,但我們不知道他與實際母數的差別是多少。所以統計學家Neyman創造了區間估計量,用區間範圍來估計母數,並對真實的母數是否會在範圍裡,做出一個「信心」上的陳述,這就是信賴區間。
單一母體區間估計
Confidence interval, C.I.
信賴上下界都是隨機變數
(1-α)100% is confidence level, degree of confidence or confidence coefficient
信賴區間越窄越好,信心水準越高越好 但這是2難
Pivotal quantity
是隨機樣本的函數組合
僅能含有待估母數θ一個未知母數,不可含有其他未知母數,且分配要可掌握
只是一個過渡性工具,為了能讓我們求出區間估計量
求取信賴區間的4個步驟
(1)適當點估計量
(2)以點估計量為基礎,求出樞紐量
(3)列出機率式子1-α=P(尾點<樞紐量<尾點)
轉變為1-α=P(L<θ<U)
(4)區間估計量為[L,U]
μ區間估計
母體常態
σ2已知
Z分配
母體常態
σ2未知
t分配(n-1)
母體非常態
大樣本
σ2已知/未知
Z分配
母體非常態
大樣本
(1)自行假設常態
(2)不能常態就柴比雪夫
σ2區間估計
母體一定常態
μ已知不考慮
μ未知
卡方分配(n-1)
p區間估計
母體Bernoulli
一定大樣本
Z分配
var(Phat)的不偏要除n-1
證明準備
有限母體校正
母體有限要做校正
若標準誤裡有母數未知
fpc分母從N-1調成N
n/N<5%視為無限母體
只有4個情況
單邊信賴區間
公式就是雙邊的直接抄下去就好
α不用除2
若要寫完整流程,
一開始開口方向要相反
影響信賴區間寬度的因素
(1)信心水準(可控)
(2)樣本大小(可控)
(3)母體/樣本標準差(不可控)
信賴區間真正的意義
對於已實現的區間,我們必須以信心來陳述,若是未實現的,才能使用機率
預測區間
是對樣本外的另一個樣本進行區間估計(例如生產線上樣本外的另外某個燈泡,可能已經在架上,估計在架上的那個燈泡的壽命)
兩母體之區間估計
兩獨立母體期望值差μ1-μ2區間估計
母體常態
σ12,σ22皆已知
Z分配
母體常態
σ12,σ22未知且相等
同質變異數(homoscedasticity)
團結力量大Sp2
t分配(n1+n2-2)
母體常態
σ12,σ22未知且不相等
異質變異數(heteroscedasticity)
兄弟登山各自努力S12,S22
t分配(dfwelch)
算出來的dfwelch無條件捨去
在做兩獨立母體期望值差的區間估計,若變異數皆未知,應先做模型診斷(model adequacy checking)
母體非常態
n1,n2皆大樣本
母體變異數已知/未知
Z分配
兩相依母體差的期望值µD區間估計
配對樣本,樣本數必須相同
相依母體是相對較好的實驗設計
數學可以證明相依母體的成對樣本能得到較小的標準誤
兩母體必正相關
成對差異為常態分配
t分配(m-1)
成對差異非常態分配
需要大樣本
Z分配
兩獨立母體變異數比例σ12/σ22區間估計
母體µ1µ2已知跳過
母體µ1µ2未知
F分配(n1-1,n2-1)
注意f分配尾點倒數關係
兩獨立母體比例差p1-p2區間估計
母體bernoulli分配
n1,n2大樣本
Z分配
樣本數問題
單一母體樣本數問題
是抽樣調查的前置問題,在給定
(1)信心水準
(2)信賴區間或誤差界限寬度
我們需要多少樣本才足夠的問題
算出來的樣本數一律無條件進位
µ之樣本數問題
一定是Z分配
σ2未知採用過去經驗
沒有過去經驗則採用
全距除以4,R/4
p之樣本數問題
一定是Z分配
phat採用過去經驗
沒有過去經驗則採用
能使p(1-p)為最大之p
神奇的1068
95%信心水準
誤差界限正負3%
2獨立母體樣本數問題
兩獨立母體的樣本數問題,在固定信心水準和誤差界限時,樣本數問題會有無限多組解,因為n1多一點n2少一點或n2多一點n1少一點,都能達到相同的信心水準,因此必須設定樣本數相同n1=n2=m,以此求解這個m。
補充:不一定只能設定相等,設定成倍數關係也是可以。
µ1-µ2/p1-p2樣本數問題
推導方式同單一母體