Please enable JavaScript.
Coggle requires JavaScript to display documents.
ch16統計分析方法 - Coggle Diagram
ch16統計分析方法
描述統計
descriptive statistics
以一種易處理的形式呈現量化的描述
簡化資料
資料過於龐大時,將處理不了的詳細資料簡化成可處理的摘要
e.g.將樣本年齡簡化,變成以區間顯示
(所有30~39歲的人都歸到"3"這個區間,可以將數十種不同的年齡簡化成數個類目)
描述
樣本特色或樣本中變項間關係的統計運算,
但僅止於描述樣本
關聯測量
兩個變項間的關聯可用矩陣表示,
可以從矩陣中看出樣本的分布
消減誤差比例:
proportionate reduction of error, PRE
測量兩變項間關聯的模型
評斷兩變項關係強度的邏輯模型,
藉由問出一個變項的已知數值,以
降低猜測另一變項值的錯誤程度
→因為知道兩變項間的關係,而可以減少的錯誤比例
消減錯誤的比例是兩變項間關聯的指標→比例越高,兩變項關聯越強
名義變數
nominal variable
若兩變項是名義資料→用
λ
(lambda)測量(0~1之間)
λ
:減少的錯誤÷所有資訊未知的情況下會產生的錯誤
名義變項是
無順序
的結構→
不會討論正、負關係,只會討論關係的程度
e.g.比起不知道任何資訊,知道一個人的職業,有助於猜測其性別
如果兩變項完全相關→只要知道其中一個變項的資訊就可以完全避免錯誤
→λ=1
如果兩變項獨立→知道一個變項的資訊並不能消減錯誤的比例
→λ=0
順序變數
ordinal variable
用
γ
(gamma)測量有順序性的變項
比對觀察值在兩個變數上的順序,順序一致的比率越高,則兩者的相關性越高
變化範圍是-1~1之間(負相關~正相關)
e.g.假定年齡與身高間有相關,於是將學生做出各種配對做比較
假定年齡高者身高較高的配對為「相同」,年齡較高身高較矮的配對為「相反」
若「相同」組多於「相反」組→年齡與身高為正相關
γ的計算方法:(p.664)
等距、等比變數
interval variable/
ratio variable
使用皮爾森積差相關r,測量等距或等比變項間的關聯
迴歸分析
變項間的關係以迴歸方程式表示
Y=f(X)
→Y是X的函數→X的變異能導致Y→X值決定Y值
線性迴歸分析
linear regression analysis
尋找線性的方程式,
該直線最能描述兩個等比變項間的關係
迴歸線標出X跟Y間相關的圖形,而迴歸方程式是摘述該關聯的有效形式
當迴歸方程式(regression equation)可以正確描述兩變項間的一般關聯時
→可以用來預測其他數值(Y')
未解釋變異:(Y-Y')的平方
根據已知的X值做估計後仍存在的錯誤
被解釋變異:總變異-未解釋變異
最常被使用
多元迴歸
(複迴歸)
用來分析
依變項同時受到多個自變項影響的情形
e.g.學生的成績同時受到多個因素影響
偏迴歸分析
partial regression analysis
和精確模型的概念相同
→測試變項不變的情形下,兩個變項間關係的方程式
結果會拿來與沒有測試變項的兩變項關係做比較
曲線迴歸分析
curvilinear regression analysis
使變項間的關係以彎曲的幾何線表示
可以形成一條通過每一點的線,比起線性迴歸更能精確描述觀察,
但沒有辦法代表兩變項間的關係,也沒辦法預測新的觀察→不具推論價值
推論統計
inferential statistics
單變項推論
根據嚴謹抽樣設計的隨機選擇,
在應用樣本的發現推論至母體時,可以估計預期的誤差範圍
任何有關抽樣誤差的敘述,必須包含
信心水準
與
信賴區間
進行推論的
注意事項
抽樣標準誤的計算是假定100%完成率→完成率越低,抽樣誤差越高
推論統計只針對抽樣誤差,
不考量非抽樣誤差
優良的抽樣設計也有可能存在非抽樣誤差
樣本必須來自欲推論的母體
(e.g.若欲推論的母體是城市,則不能只用電話簿抽樣→沒有完整的城市人口資料)
非抽樣誤差:
不完美的資料品質,來自於抽樣誤差以外的因素
(e.g.資料輸入錯誤、編碼錯誤、受訪者誤解問項...)
檢定統計顯著性
統計顯著性:
樣本中所觀察到的關係,只能歸因於抽樣誤差的可能性
→因為抽樣誤差才測量到的關係
可以計算得知
統計顯著性檢定:
一樣本所觀察到的變項間關係,只能歸因於抽樣誤差的
機率
常用顯著水準:
0.05、0.01、0.001
實質顯著性:
變項間的關係是否大到足以形成有意義的差異
主觀判斷
要素
假定透過傳統機率抽樣選出樣本的代表性
就兩個變項所觀察到的樣本單元的共同分配
假定兩變項獨立
基本邏輯
母體內變項間的獨立性假定,與所觀察到的樣本單元分配之間產生差異時
→因為樣本沒有代表性or拒絕獨立性的假定
使用顯著性檢定
研究人員事先指明他們認為足夠的顯著水準,
若有任何測得的關聯在此顯著水準下具有統計顯著性,就認為代表兩變項間具有真正的關聯
→研究人員願意漠視「這個關聯只是抽樣誤差所造成的關聯」的機率
e.g.0.05的水準有顯著
→變項間的關係純粹是因抽樣誤差所造成 的機率,100次中不會超過5次
卡方χ2
根據
虛無假設
:
母體內兩變項間沒有任何關係
計算兩變項間
沒有關係時的共同期望值分配
,
再跟實際從樣本資料得到的分配比較
→比較兩者之間的差異,純粹是因為抽樣誤差所導致的機率為多少
step:p.680
查表計算
使用
自由度
:
要檢視N個值的平均數,則自由度是N-1
→有N-1個數可以自由選擇,但選定後第N個值也就此固定
χ2中的自由度
:
觀察次數的表中,橫列數目-1,直行數目-1後相乘
→(r-1)(c-1)
以得到的自由度查表,
卡方值越高,表示該值越不可能單純是抽樣誤差所引起的
,
越能推翻虛無假設
適用於檢定名義資料、順序資料所發現的關係之統計關聯性
T檢定
常用來判斷組別平均數差異的統計顯著性
概念
樣本越大,t值越大
各組內的變異越小,t值越大
t值會隨著平均數差異的增大而增加
不希望因為研究使用非典型的樣本,而下了不太正確的推論
(e.g.研究與體重相關,但樣本的體重非常極端)
結果
兩變項間有真正關係→拒絕虛無假設
兩變項間沒有關係→接受虛無假設
查表
查表查到的值:
表達平均數觀察值的差異單純由抽樣誤差所造成的機率
→已知的關聯是否具有統計顯著性
錯誤的
結論
II型錯誤
錯誤地接受虛無假設
→推斷變項之間無關,但其實具有關係
I型錯誤
錯誤地拒絕虛無假設
→推斷兩變項間有關係,但事實上沒有
核心概念
根據樣本觀察的發現,進一步將觀察值推論到母體的相關統計計算
幫助排除不是代表研究母體中真正關係的關聯