機率與統計
前言:數學裡"若P(試驗)則Q(結果)",
但現實常非這麼確定唯一
當"若P(隨機試驗)則Q1、Q2...時,
需要根據不完整的資訊做決定時...
把不確定的程度量化
統計這些不確定
以機率語言詮釋
做出合理推論
加入信賴區間來描述
名詞認識
隨機現象:含不確定性的現象(ex:丟硬幣有正反兩面)
隨機試驗(ex:操作一個丟硬幣試驗n次)
隨機變數X(ex:出現正面的次數,x=1,2,3...)
機率質量函數P:
隨機變數的機率
(ex:出現x次正面的機率)
Pi >= 0
P1+P2+...+Pn = 1
統計隨機變數
期望值E(X):每種結果依其發生機率來加權
變異數(離均平方*機率之和)與標準差
Var(X):E(X平方) - [E(X)]的平方
σ(X) = 根號( Var (X) )
性質
E(aX+b) = aE(X)+b
Var(aX+b) = a**2 Var(X)
σ(aX+b) = |a| σ(X)
二項分布
伯努利試驗(只有兩種結果的試驗)
每次試驗都互不影響(獨立)
每次成功的機率均相等
P(X=k) = C n取k p的k次方 乘 (1-p)的n-k次方,P(X=k)表在n次試驗中成功k次的機率
P的總和=1,分布剛好是(p+(1-p))的n次方的二項展開式,所以稱這樣的機率分布是參數(n,P)的二項分布,以X~B(n,p)表示
二項分布的期望值E(X) = np
二項分布的變異數及標準差
Var(X) = np(1-p);
σ(X) = 根號( Var(X) )
抽樣
統計推論:是真值?
因為普查整個母群體成本高,
因而改由母群體抽取一部分樣本(抽樣)進行統計,
根據其統計數值推論母群體的特性
亂數表抽樣
抽多少樣本才具代表性?
大數法則
誤差多少?
認識常態分布:68-95-99.7
中央極限定理:當樣本數n夠大時,成功比率經標準化後的機率分布會接近標準常態分布
95%的數據會落在距平均數2個標準差的區間內
抽樣樣本之隨機變數成功比率的
期望值E(Y)=p
標準差σ(Y) = 根號( p(1-p)/n )
解讀抽樣統計數據:
目標p-hat(0.?):滿意度、支持度、知名度、接受度、安全度...
抽樣誤差:抽樣的統計標準差σ(一般希望小於3%)
信心水準(%):對真正答案會落在我們抽樣結果區間的信心
信賴區間(0.0?):p-hat加減信心水準所對應的誤差
特性1:p-hat越接近0.5,抽樣誤差越大,其信賴區間越長
特性2:依我們想要的抽樣誤差大小決定要抽樣的n
設計公平或自然界的P通常呈現常態分布(大數法則)
二項分布的實際應用:統計某隨機現象發生的成功機率(Y=X/n),當n夠大時、其Y接近母群體的平均數機率就很大,隨機變數成功比率Y的機率質量函數會呈現常態分布