統計學複習
統計目的
在面對不確定的狀況下,能幫助做決策的科學方法
分類
敘述統計
推論統計
在已知的數據上做描述,可用圖表呈現
以樣本推論母體
母體的特徵稱為參數
樣本的特徵為統計量
抽樣
隨機抽樣
系統抽樣
分層抽樣
簡單隨機抽樣
非隨機抽樣
配額抽樣
主觀抽樣
偶遇抽樣
滾雪球抽樣
部落抽樣
舉例:一個班五十人抽籤
有難度,需要先取讀母體
抽五號後,之後抽的號碼都加7,有規律性的抽
個體屬性類為互斥的屬性
例如:能力分班,以每個班級去抽樣
個體差異不大,如果樣本差異過大要用分層抽樣
在劇院、車站特定場所
方便、費用低,但抽樣誤差大,市場初步調查時可用
對於研究領域十分熟悉,知道那些樣本具有代表性
中部地區的旅遊市場,那就會去日月潭
有別於分層(按隨機原則),會是先將整體做分類,依配額選取樣本,在配額內主觀判斷選定樣本
被訪問者實施訪問,再請他提供他的朋友
效度
定義
指測量的工具可能影響到測量的結果準確度
內部
外部
樣本本身的觀察直可不可靠
指研究結果能夠一般化和普遍事用到樣本來自的總體
節省成本,小心以偏概全,以樣本推論母體
尺度
定義
順序尺度
區間尺度
名義尺度
比率尺度
考試分數
滿意度調查
表是等級或順序之數值
性別、職業、學號
尺度表比較對照表(K:\Yu\統計複習)
集中趨勢常用統計量
樣本平均數
中位數
眾數
百分位數
分散趨勢
四分位距(IQR)
標準差
全距
母體標準差與樣本標準差(S)
四分位差(QD)
樣本公式分母要記得減一
變異係數
標準差除以平均數
以股價為例,有高價、低價股,所以要除上平均股價
重要不等式
柴比雪夫不等式
經驗法則
正、副1個標準差,會包含68%的資料量;2個標準差會佔95%的資料量
不需受限為鐘型,提供一個保守估計
證明
適用於單峰對稱或鐘形分配
馬可夫不等式
平均出現60起車禍,一天超過120起車禍的機率上限為0.5
較為精確的方法
柴比雪夫不等式單邊版
機率
排列
簡易原理
加法原理
乘法原理 4!
組合
Cn,m
重複組合例題
Hn,m
二項式與多項式定理
重要元素
樣本空間(Sample Space)
事件(Event)
原理;定理
排容原理
條件機率
且、或的觀念,P(A或B)= P(A) + P(B)-P(A且B)
獨立事件
互斥事件
樣本空間縮減的概念
貝氏定理
隨機變數
定義域、值域
總和P(x)等於1,每個機率介於0和1之間
機率分配
間斷型機率分配
連續型機率分配
例題:兩個骰子的機率
聯合機率分配
考慮兩個隨機變數,機率分布與相互關係探討
邊際機率分配
將雙變數的機率分配下,只考慮期中一個變數的機率分配
期望值(平均的概念)
了解期望值的線性性質
延伸變異數的平方性質
變異數
資料離散的程度
公式:平方的期望值 減去期望值的平方
統計相關理論工具
動差觀念
中心動差
原點動差
1階的原點動差也就是期望值
二階動差減去一階動差的平方為變異數,與中心距離的平方,離散程度
三階動差就是距離立方,可測出隨機變量的偏態
四階動差的平均值除上標準差整個的四次方為峰度係數
反思
基因檢測圖
一階動差的意義為期望值
動差函數相等 ,並隨機變數必然相同
方便求出期望值與變異數
機率分不的另一種表達
簡易推倒多個獨立隨機變數的機率和
變數轉換
分配
單變數的變數轉換
多變數的變數轉換
條件
可微分,對應1-1的基本要求
重點
建立聯合機率分配函數
再算出邊際機率函數
分類
離散型
連續型
一對一
一對多
分開來看
布阿松分配
定義
一段時間內發生的次數λ
特性
期望值E(x) = np = λ
Var(X) = npq(q = 1) = λ
n→ ∞, p→0之二項分配
兩段時間發生的次數獨立
一段時間發生次數的平均與時間長短程比例
極短的時間內發生的機率為0
間斷型機率分配
分配
負二項分配
超幾何分配
直到得到k次成功次才停止,總共實驗次數為X的分布
分散型分配
期望值=np
與二項分配比較
取後不放回(超幾何)
取後放回(二項分配)
母體為樣本的20倍以上都以二項分配應對
二項分配
只有兩種結果
兩種結果抽中機率相等
每次實驗維互相獨立
二項試驗或柏努力試驗
E(x) = np ,Var(x) = npq