Please enable JavaScript.
Coggle requires JavaScript to display documents.
Ch14 Multiple Regression Analysis(複回歸分析)(P511/P477) - Coggle Diagram
Ch14 Multiple Regression Analysis(複回歸分析)(P511/P477)
1 適用情境:同時探索應變數和一組(一個以上或多個)變數的關係(P511/P477)
結果產生:一個用一組統計上顯著的自變數解釋絕大部分應變數的變異數之迴歸模型(P511/P477)
1 假設前提(P529/P496, 517)
1-3 殘差依循常態機率分配
殘差(y − ŷ)近似平均數為零的常態分配
檢驗假設:建立殘差直方圖或常態機率圖(normal probability plot)
常態機率圖如果這些點非常靠近從左下方畫到右上方的直線,常態機率圖就支持殘差依循常態分配的假設
(P532/P498)
殘差分配的平均數為0
1-4 獨立變數之間不應該相關
研究者應選取一組彼此不相關的獨立變數
檢驗假設:建立相關矩陣, 相關矩陣能顯示出所有獨立變數之間可能的關係
若兩獨立變數相關性大於0.70或小於-0.70皆代表有多重共線性的問題
獨立變數間相關性的驗證法為:當重要的預測變數有顯著性;或當獨立變數的正負值相反;或當刪除某獨立變數時,迴歸係數,出現大變化
變異膨脹因子(variance inflation factor,VIF)驗證獨立變數間的相關性
(14-7)(P533/P499)
VIF 介於4~10之間,則存在多重共線性
VIF >10, 這表示獨立變數應被刪除
被挑選的獨立變數作為相依變數,剩下的獨立變數,仍然為獨立變數
實際上,幾乎不可能挑選一組完全無關的獨立變數
Multicollinearity(多重共線性) 發生在獨立變數間有相關的時候,這會不利對個別迴歸係數,與他們對相依變數的影響進行推論
多重共線性並不影響複迴歸方程式預測相依變數。
但在個別獨立變數與相依變數的關係時,多重共線性就可能會造成影響。
這些獨立變數可能會導致個別獨立變數的假設檢定出現錯誤,這是由於估計標準物的不穩定所造成
多重共線性的一些問題:
迴歸係數理應為正,結果卻回負,反之亦然
1 more item...
當增加或刪除某獨立變數時,其餘的迴歸係數有劇烈的變化
1 more item...
理應是重要預測變數的獨立變數,卻沒有顯著的迴歸係數
1 more item...
1-2 不論ŷ值大小,殘差變異相同
殘差(y − ŷ)和 ŷ的大小無關
檢驗假設:建立散佈圖,殘差置於垂直軸,預測值ŷ置於水平軸
若散佈點無規則可循, 及這些點是隨機,則殘差符合等差性的要求
(P531/P497)
殘差圖顯示出水平軸上整個變數範圍內的殘差正負值呈隨機分配
因為殘差分散於各處而沒有固定的型態,所以沒有有理由懷疑線性假設
殘差值只在垂直軸上且圍繞在0附近。正與負的殘差值都有。
Homoscedasticity(殘差變異固定稱為等差性)
圍繞在迴歸方程式的殘差變異,對所有獨立變數的值都相同
1-5 殘差是獨立的
相依變數的相鄰觀測值是不相關的
autocorrelation(自我相關)
自相關發生於當相鄰的殘差有關時
當樣本觀測值和時間有關係,往往無法符合殘差是獨立的這項假設
當資料是在一段時間內收集的,就經常會有自我相關的問題
出現自相關時,標準誤的值在迴歸係數的假設檢定會出現錯誤結果
檢驗假設
b Durbin-Watson檢定
a 繪製散佈圖,殘差置於垂直軸,預測值ŷ置於水平軸
殘差沒有固定的形式、殘差間沒有高度相關,以及沒有連續的正或負殘差
1-1 線性關係存在
一組獨立變數與相依變數間存有線性關係
檢驗假設:建立散佈圖,獨立變數置於水平軸,相依變數置於垂直軸,
若圖形呈現隨機狀態,則為線性關係(P529/P496, 517)
(P531/P496)
散佈圖提供關係的正負方向、線性與否及關係強度(P529/P496, 517)
2 Multiple Regression Analysis(複回歸分析)(P511/P478)
Review基本概念
複迴歸方程式(P512/P478)
(14-1)(P512/P478)
評估複迴歸方程式(P518/P484)
相依變數
y
的總變異分成兩個部分
迴歸項
y
變異可被所有獨立變數解釋的部分
誤差或殘差項
y
變異不可解釋的部分
(總變異)
multiple standard error of estimate(複迴歸的標準誤)(P519/P485)
(14-2)(P519/P485)
(P519/P486)
The multiple standard error of estimate is equal to the square root of the residual MS, which is also called the mean square error (MSE).(均方MS為回歸變異及誤差變異的均方,複迴歸的估計標準誤=殘差MS的平方根,殘差的MS也稱為誤差均方MSE)
Coefficient of Multiple Determination(複判定係數)(P520/P486)
定義: 獨立變數在相依變數的變異中所佔的百分比
The percent of variation in the dependent variable, y, explained by the set of independent variables, x1, x2, x3, … xk. (相依變數
y
的變異被一組獨立變數X1、X2 X3...、Xk解釋的百分比
複判定係數的性質(P520/P486)
值在0~1之間
0代表獨立變數與相依變數間相關性小
1代表獨立變數與相依變數間相關性大
不能為負數
容易解釋
標示為R2
相關係數的平方
(14-3)(P520/P486)
SSR+SSE=SS Total
調整後的複判定係數(P521/P487)
(14-4)(P521/P487)
當越多的獨立變數,加入複迴歸模型時, 判定係數會傾向於增加。每增加一個新的變數,皆會使預測更為精確。 會造成SSE更小,而SSR更大。
R2 的增加僅是因為獨立變數的總個數增加,而不是因為新增的獨立變數是相依變數的良好預測因子
這樣的狀況是有問題的,統計軟體為了平衡獨立變數的個數影響,會使用調整後的負判定係數
模型(model)(P522/P488)
在複迴歸的情境下,假設有一個將相依變數連接到k個獨立變數的未知母體迴歸方程式,此方程式稱為關係的模型
用希臘字母代表母體參數
抽樣分配的平均數,皆等於被估計的參數值。藉由使用這些統計量的抽樣分配特性,可以對母體參數進行推論。
流程
a 手動
Step 1 定義獨立變數與相依變數(P5/P480)
Step 2 建立相關矩陣(P5/P480)
Step 3 算出複迴歸方程式
Step 4 Global Test(進行聯合檢定)(P523/P489)
Step 5 評估個別迴歸係數(P525/P491)
Step 6 依據Step 5 結果刪除獨立變數,依據新模型重新進行回歸分析(Step 4+5)
1 more item...
a 建立虛無假設與對立假設
檢驗個別獨立變數的迴歸係數哪些為0哪些不為0
H0: β1 = 0 H0: β2 = 0 H0: β3 = 0
H1: β1 ≠ 0 H1: β2 ≠ 0 H1: β3 ≠ 0
1 more item...
a 建立虛無假設與對立假設
檢驗是否所有獨立變數的迴歸係數都為0
H0: β1 = β2 = β3 = 0
H0: β1 = β2 = β3 = 0
b 選擇顯著水準
1 more item...
b Excel(P512/P479)
TA Class
regression analysis
質性獨立變數(名目尺度)(P535/P501)
Qualitative Variables(質變數)
描述某性質或特性
Dummy Variables(虛擬變數)
編號0和1代表兩個可能的情況
一種只有兩個可能結果的變數。將其中一個結果編號為1,另一個編號為0來進行分析。
可以使用用兩個以上可能結果的質變數嗎?(P5/P503)
可以。但編碼的方式會變得更複雜,同時也需要一系列的虛擬變數。
具有交互作用的回歸模型(P538/P504)
把交互作用視為單獨的獨立變數來檢視
藉由將獨立變數的資料值,與另一個獨立變數的資料值相乘而產生一個新的獨立變數
Y = α + β1X1 + β2X2 +
β3X1X2
(P538/P504)
X1X2
為交互作用項
交互作用項以Step 5 評估個別迴歸係數(P525/P491)
研究所有可能的交互作用會變得非常複雜,謹慎考慮獨立變數之間可能的交互作用,常常會對了解回歸模型相當有啟發 (P5/P506)
多(三)因子的交互作用
其中一個獨立變數為名目尺度的交互作用