ch16統計分析方法

描述統計
descriptive statistics

推論統計
inferential statistics

以一種易處理的形式呈現量化的描述

簡化資料

資料過於龐大時，將處理不了的詳細資料簡化成可處理的摘要

e.g.將樣本年齡簡化，變成以區間顯示
(所有30~39歲的人都歸到"3"這個區間，可以將數十種不同的年齡簡化成數個類目)

描述樣本特色或樣本中變項間關係的統計運算，
但僅止於描述樣本

關聯測量

兩個變項間的關聯可用矩陣表示，
可以從矩陣中看出樣本的分布

消減誤差比例：
proportionate reduction of error, PRE

測量兩變項間關聯的模型

評斷兩變項關係強度的邏輯模型，
藉由問出一個變項的已知數值，以降低猜測另一變項值的錯誤程度
→因為知道兩變項間的關係，而可以減少的錯誤比例

消減錯誤的比例是兩變項間關聯的指標→比例越高，兩變項關聯越強

名義變數
nominal variable

若兩變項是名義資料→用λ(lambda)測量(0~1之間)
λ：減少的錯誤÷所有資訊未知的情況下會產生的錯誤

名義變項是無順序的結構→不會討論正、負關係，只會討論關係的程度

e.g.比起不知道任何資訊，知道一個人的職業，有助於猜測其性別

如果兩變項完全相關→只要知道其中一個變項的資訊就可以完全避免錯誤
→λ=1

如果兩變項獨立→知道一個變項的資訊並不能消減錯誤的比例
→λ=0

順序變數
ordinal variable

用γ(gamma)測量有順序性的變項

比對觀察值在兩個變數上的順序，順序一致的比率越高，則兩者的相關性越高

變化範圍是－1~1之間(負相關~正相關)

e.g.假定年齡與身高間有相關，於是將學生做出各種配對做比較
假定年齡高者身高較高的配對為「相同」，年齡較高身高較矮的配對為「相反」
若「相同」組多於「相反」組→年齡與身高為正相關

γ的計算方法：(p.664)

迴歸分析

等距、等比變數
interval variable/
ratio variable

使用皮爾森積差相關r，測量等距或等比變項間的關聯

變項間的關係以迴歸方程式表示

Y=f(X)
→Y是X的函數→X的變異能導致Y→X值決定Y值

線性迴歸分析
linear regression analysis

多元迴歸
(複迴歸)

偏迴歸分析

partial regression analysis

曲線迴歸分析

curvilinear regression analysis

尋找線性的方程式，
該直線最能描述兩個等比變項間的關係

迴歸線標出X跟Y間相關的圖形，而迴歸方程式是摘述該關聯的有效形式

當迴歸方程式(regression equation)可以正確描述兩變項間的一般關聯時
→可以用來預測其他數值(Y')

未解釋變異：(Y-Y')的平方
根據已知的X值做估計後仍存在的錯誤

被解釋變異：總變異－未解釋變異

用來分析依變項同時受到多個自變項影響的情形
e.g.學生的成績同時受到多個因素影響

和精確模型的概念相同
→測試變項不變的情形下，兩個變項間關係的方程式

結果會拿來與沒有測試變項的兩變項關係做比較

使變項間的關係以彎曲的幾何線表示

可以形成一條通過每一點的線，比起線性迴歸更能精確描述觀察，
但沒有辦法代表兩變項間的關係，也沒辦法預測新的觀察→不具推論價值

最常被使用

單變項推論

根據嚴謹抽樣設計的隨機選擇，
在應用樣本的發現推論至母體時，可以估計預期的誤差範圍

任何有關抽樣誤差的敘述，必須包含信心水準與信賴區間

進行推論的
注意事項

抽樣標準誤的計算是假定100%完成率→完成率越低，抽樣誤差越高

推論統計只針對抽樣誤差，不考量非抽樣誤差
優良的抽樣設計也有可能存在非抽樣誤差

樣本必須來自欲推論的母體
(e.g.若欲推論的母體是城市，則不能只用電話簿抽樣→沒有完整的城市人口資料)

非抽樣誤差：
不完美的資料品質，來自於抽樣誤差以外的因素
(e.g.資料輸入錯誤、編碼錯誤、受訪者誤解問項...)

檢定統計顯著性

統計顯著性：

實質顯著性：

樣本中所觀察到的關係，只能歸因於抽樣誤差的可能性
→因為抽樣誤差才測量到的關係

可以計算得知

變項間的關係是否大到足以形成有意義的差異

主觀判斷

統計顯著性檢定：
一樣本所觀察到的變項間關係，只能歸因於抽樣誤差的機率

要素

假定透過傳統機率抽樣選出樣本的代表性

就兩個變項所觀察到的樣本單元的共同分配

假定兩變項獨立

基本邏輯

母體內變項間的獨立性假定，與所觀察到的樣本單元分配之間產生差異時
→因為樣本沒有代表性or拒絕獨立性的假定

常用顯著水準：
0.05、0.01、0.001

使用顯著性檢定

研究人員事先指明他們認為足夠的顯著水準，
若有任何測得的關聯在此顯著水準下具有統計顯著性，就認為代表兩變項間具有真正的關聯
→研究人員願意漠視「這個關聯只是抽樣誤差所造成的關聯」的機率

e.g.0.05的水準有顯著
→變項間的關係純粹是因抽樣誤差所造成的機率，100次中不會超過5次

卡方χ2

根據虛無假設：
母體內兩變項間沒有任何關係

計算兩變項間沒有關係時的共同期望值分配，
再跟實際從樣本資料得到的分配比較
→比較兩者之間的差異，純粹是因為抽樣誤差所導致的機率為多少

step：p.680

查表計算

使用自由度：
要檢視N個值的平均數，則自由度是N-1
→有N-1個數可以自由選擇，但選定後第N個值也就此固定

χ2中的自由度：
觀察次數的表中，橫列數目-1，直行數目-1後相乘
→(r-1)(c-1)

以得到的自由度查表，
卡方值越高，表示該值越不可能單純是抽樣誤差所引起的，
越能推翻虛無假設

T檢定

適用於檢定名義資料、順序資料所發現的關係之統計關聯性

常用來判斷組別平均數差異的統計顯著性

概念

樣本越大，t值越大

各組內的變異越小，t值越大

t值會隨著平均數差異的增大而增加

不希望因為研究使用非典型的樣本，而下了不太正確的推論
(e.g.研究與體重相關，但樣本的體重非常極端)

結果

兩變項間有真正關係→拒絕虛無假設

兩變項間沒有關係→接受虛無假設

查表

查表查到的值：
表達平均數觀察值的差異單純由抽樣誤差所造成的機率
→已知的關聯是否具有統計顯著性

錯誤的
結論

II型錯誤

I型錯誤

錯誤地拒絕虛無假設
→推斷兩變項間有關係，但事實上沒有

錯誤地接受虛無假設
→推斷變項之間無關，但其實具有關係

核心概念

根據樣本觀察的發現，進一步將觀察值推論到母體的相關統計計算

幫助排除不是代表研究母體中真正關係的關聯