ch16統計分析方法

描述統計
descriptive statistics

推論統計
inferential statistics

以一種易處理的形式呈現量化的描述

簡化資料

資料過於龐大時,將處理不了的詳細資料簡化成可處理的摘要

e.g.將樣本年齡簡化,變成以區間顯示
(所有30~39歲的人都歸到"3"這個區間,可以將數十種不同的年齡簡化成數個類目)

描述樣本特色或樣本中變項間關係的統計運算,
但僅止於描述樣本

關聯測量

兩個變項間的關聯可用矩陣表示,
可以從矩陣中看出樣本的分布

消減誤差比例:
proportionate reduction of error, PRE

測量兩變項間關聯的模型

評斷兩變項關係強度的邏輯模型,
藉由問出一個變項的已知數值,以降低猜測另一變項值的錯誤程度
→因為知道兩變項間的關係,而可以減少的錯誤比例

消減錯誤的比例是兩變項間關聯的指標→比例越高,兩變項關聯越強

名義變數
nominal variable

若兩變項是名義資料→用λ(lambda)測量(0~1之間)
λ:減少的錯誤÷所有資訊未知的情況下會產生的錯誤

名義變項是無順序的結構→不會討論正、負關係,只會討論關係的程度

e.g.比起不知道任何資訊,知道一個人的職業,有助於猜測其性別

如果兩變項完全相關→只要知道其中一個變項的資訊就可以完全避免錯誤
→λ=1

如果兩變項獨立→知道一個變項的資訊並不能消減錯誤的比例
→λ=0

順序變數
ordinal variable

γ(gamma)測量有順序性的變項

比對觀察值在兩個變數上的順序,順序一致的比率越高,則兩者的相關性越高

變化範圍是-1~1之間(負相關~正相關)

e.g.假定年齡與身高間有相關,於是將學生做出各種配對做比較
假定年齡高者身高較高的配對為「相同」,年齡較高身高較矮的配對為「相反」
若「相同」組多於「相反」組→年齡與身高為正相關

γ的計算方法:(p.664)

迴歸分析

等距、等比變數
interval variable/
ratio variable

使用皮爾森積差相關r,測量等距或等比變項間的關聯

變項間的關係以迴歸方程式表示

Y=f(X)
→Y是X的函數→X的變異能導致Y→X值決定Y值

線性迴歸分析
linear regression analysis

多元迴歸
(複迴歸)

偏迴歸分析

partial regression analysis

曲線迴歸分析

curvilinear regression analysis

尋找線性的方程式,
該直線最能描述兩個等比變項間的關係

迴歸線標出X跟Y間相關的圖形,而迴歸方程式是摘述該關聯的有效形式

當迴歸方程式(regression equation)可以正確描述兩變項間的一般關聯時
→可以用來預測其他數值(Y')

未解釋變異:(Y-Y')的平方
根據已知的X值做估計後仍存在的錯誤

被解釋變異:總變異-未解釋變異

用來分析依變項同時受到多個自變項影響的情形
e.g.學生的成績同時受到多個因素影響

和精確模型的概念相同
→測試變項不變的情形下,兩個變項間關係的方程式

結果會拿來與沒有測試變項的兩變項關係做比較

使變項間的關係以彎曲的幾何線表示

可以形成一條通過每一點的線,比起線性迴歸更能精確描述觀察,
但沒有辦法代表兩變項間的關係,也沒辦法預測新的觀察→不具推論價值

最常被使用

單變項推論

根據嚴謹抽樣設計的隨機選擇,
在應用樣本的發現推論至母體時,可以估計預期的誤差範圍

任何有關抽樣誤差的敘述,必須包含信心水準信賴區間

進行推論的
注意事項

抽樣標準誤的計算是假定100%完成率→完成率越低,抽樣誤差越高

推論統計只針對抽樣誤差,不考量非抽樣誤差
優良的抽樣設計也有可能存在非抽樣誤差

樣本必須來自欲推論的母體
(e.g.若欲推論的母體是城市,則不能只用電話簿抽樣→沒有完整的城市人口資料)

非抽樣誤差:
不完美的資料品質,來自於抽樣誤差以外的因素
(e.g.資料輸入錯誤、編碼錯誤、受訪者誤解問項...)

檢定統計顯著性

統計顯著性:

實質顯著性:


樣本中所觀察到的關係,只能歸因於抽樣誤差的可能性
→因為抽樣誤差才測量到的關係

可以計算得知


變項間的關係是否大到足以形成有意義的差異

主觀判斷

統計顯著性檢定:
一樣本所觀察到的變項間關係,只能歸因於抽樣誤差的機率

要素

假定透過傳統機率抽樣選出樣本的代表性

就兩個變項所觀察到的樣本單元的共同分配

假定兩變項獨立

基本邏輯

母體內變項間的獨立性假定,與所觀察到的樣本單元分配之間產生差異時
→因為樣本沒有代表性or拒絕獨立性的假定

常用顯著水準:
0.05、0.01、0.001

使用顯著性檢定

研究人員事先指明他們認為足夠的顯著水準,
若有任何測得的關聯在此顯著水準下具有統計顯著性,就認為代表兩變項間具有真正的關聯
→研究人員願意漠視「這個關聯只是抽樣誤差所造成的關聯」的機率

e.g.0.05的水準有顯著
→變項間的關係純粹是因抽樣誤差所造成 的機率,100次中不會超過5次

卡方χ2

根據虛無假設
母體內兩變項間沒有任何關係

計算兩變項間沒有關係時的共同期望值分配
再跟實際從樣本資料得到的分配比較
→比較兩者之間的差異,純粹是因為抽樣誤差所導致的機率為多少

step:p.680

查表計算

使用自由度
要檢視N個值的平均數,則自由度是N-1
→有N-1個數可以自由選擇,但選定後第N個值也就此固定

χ2中的自由度
觀察次數的表中,橫列數目-1,直行數目-1後相乘
→(r-1)(c-1)

以得到的自由度查表,
卡方值越高,表示該值越不可能單純是抽樣誤差所引起的
越能推翻虛無假設

T檢定

適用於檢定名義資料、順序資料所發現的關係之統計關聯性

常用來判斷組別平均數差異的統計顯著性

概念

樣本越大,t值越大

各組內的變異越小,t值越大

t值會隨著平均數差異的增大而增加

不希望因為研究使用非典型的樣本,而下了不太正確的推論
(e.g.研究與體重相關,但樣本的體重非常極端)

結果

兩變項間有真正關係→拒絕虛無假設

兩變項間沒有關係→接受虛無假設

查表

查表查到的值:
表達平均數觀察值的差異單純由抽樣誤差所造成的機率
→已知的關聯是否具有統計顯著性

錯誤的
結論

II型錯誤

I型錯誤

錯誤地拒絕虛無假設
→推斷兩變項間有關係,但事實上沒有

錯誤地接受虛無假設
→推斷變項之間無關,但其實具有關係

核心概念

根據樣本觀察的發現,進一步將觀察值推論到母體的相關統計計算

幫助排除不是代表研究母體中真正關係的關聯