Please enable JavaScript.
Coggle requires JavaScript to display documents.
信度 (影響信度的因素 (測驗題項的多寡 (N越大越好,折半後信度需校正, 斯布通式), 受試樣本特質的變異情形-全距限制,…
信度
影響信度的因素
測驗題項的多寡
N越大越好,折半後信度需校正
受試樣本特質的變異情形-全距限制
測驗難度➡️中等難度信度接近1
評分的客觀性➡️客觀>主觀
估計信度的方法:誤差越多信度越低,但要選擇的是適切性
古典測驗理論CTT
(Classical test theory)
定義:實得分數X與真分數T關聯性為測驗基礎的一種理論-信度、效度
實得的分數(obtained score)、真分數(True score)與誤差分數(Error)
古典測驗理論的幾個假定(assumption)
x̅=T或E(X)=T
誤差是隨機發生的Σe=0或ē=0
一個人多次
所有受試者總和
真分數與誤差相關=0,因為測驗的誤差e不會影響真實分數T
複本-相關Te、ee’、Te’=0
別稱:真分數理論(True score theory)
信度的解釋與應用
信度係數的解釋:實得分數的變異中,真分數變異所佔的比例
測量標準誤(Standard error of measurement,SEm或SEM)
來源:估計標準誤,X預測Y,Y的誤差(區間估計)
Sʏ.x=Sʏ*√1-r²xʏ
定義無限多個實得分數的標準差➡️測量標準誤
SEm=Sx
√1-r²xᴛ
SEm=Sx
√1-rxx
X區間估計
內涵
信度高,SEm小;信度=1,SEm=0
信度低,SEm大;信度=0,SEm=測驗的標準差
測驗的標準差小,測量標準誤小;反之
差異分數的測量標準誤(Standard error of difference)
功能:許多測驗都有分量表(subscale)➡️一個測驗裡測量兩個不同得能力或特質,不同分量表各有一個分數。兩個分數的差異究竟是因為能力或誤差?由差異分數的測量標準誤來看~
意義:多次進行一份測驗➡️兩分量表無限多個實得分數➡️相減得差異分數➡️無限多個差異分數形成常態分配➡️此分配標準差
SEdiff.=S√2-rxx-ryy 公式推導-手寫
求得差異分數的測量標準誤做區間估計
信度的種類
⭐️常模參照測驗的信度估計方法
再測信度(重測信度,test-retest Reliability)
功能:時間穩定性
意義:同一份測驗對同一群有代表性的受試者前後實測兩次,分數求相關
別稱:穩定係數(coefficient of stability)
誤差來源:時間抽樣誤差
r≠1就有誤差
實務現象
時間越久誤差越大
練習效果,2>1
適合:動作、性向、智力、速度測驗
不適合:成就、情意測驗
再測信度通常預測受試者未來的表現所以應具備良好的信度
複本信度(alternate form reliability)
-施測兩次
複本意義
別稱:equivalent form¶llel form
定義:兩個題本在內容、形式、題數、指導說明、時間限制與例題等方面類似或相等
編制方法:同一份設計明細表,你一題我一題的設計
複本信度:兩複本分數求相關
種類
同時複本信度
別稱:等值係數(coefficient of equivalence)
方式:對一群有代表性的受試者同時施測兩個複本求相關
誤差:內容抽樣誤差
延宕複本信度
別稱:穩定與等值係數(coefficient of stability and equivalence)
方式:對一群有代表性的受試者前後施測兩個複本求相關
誤差:內容抽樣誤差、時間抽樣誤差
實務現象
仍有練習效果
花錢時間
再測信度:時間抽樣誤差
複本信度:內容抽樣誤差
延宕信度:內容抽樣誤差、時間抽樣誤差
延宕複本最嚴格
內部一致性信度(internal consistency reliability)
-施測一次
折半方法split-half method
斯布
rxx=2rhh/1+rhh
誤差:內容抽樣誤差
折半方式:依題項數有許多種,不同折法算出來的信度通常不相等
使用前提:兩半的變異數要相等否則會高估
速度測驗不適合使用
方法:將全測驗的題項拆成兩半,並計算兩個半份測驗的相關。
但n變少所以信度會下降因此要用斯皮爾曼-布朗公式( Spearman-Brown formula ,斯布公式)校正
福樂藍根Flanagan
rF=2(1-S²a+S²b/S²x)
S²a&S²b其中一半變異數
無須校正
變異數不必相等也能用
變異數相等時,斯布=福樂藍根
誤差:內容抽樣誤差、maybe內容異質性誤差
盧龍Rulon
rR=1-S²d/S²x
S²d兩辦差值變異數
無須校正
變異數不必相等也能用
變異數相等時,斯布=福樂藍根=盧龍
誤差:內容抽樣誤差、maybe內容異質性誤差
總結
S²a=S²b,rsb=rf=rr
S²a>S²b,rsb>rf=rr
庫李信度(Kuder-Richardson reliability)
提出:庫德Kuder和李查森Richardson(1937)➡️庫李方法KR method
庫李20號公式(KR20 formula)
各題難度不一樣(每一題答錯比率不同)
誤差:內容抽樣誤差、內容異質性誤差
適用:二元計分(選擇、是非);不適用李克特氏量表
庫李21號公式(KR21 formula)
各題難度差異小(每一題答錯比率差不多)
誤差:內容抽樣誤差、內容異質性誤差
適用:二元計分(選擇、是非);不適用李克特氏量表
Cronbach’s α
範圍最廣、最常用
方法:所有題項兩兩求相關
公式推導-手寫
其他要點
適用:二元計分(選擇、是非)、李克特氏量表
福樂藍根&盧龍所有折半方法平均數=Cronbach’s α
誤差
內容抽樣誤差:不同題項測到的結果不同
內容異質性誤差:每題要測得構念不同,構念越多共變數所佔的比例越低,Cronbach’s α 越低
是庫李20、21公式的母公式
折半信度、Cronbach’s α 、庫李信度
評分者間信度
兩個連續資料➡️r
兩評分者等第資料➡️斯皮爾曼等級相關
多評分者等第資料➡️肯德爾和諧係數
定義:主觀計分時ex申論題、歌唱、美術,不同評分者評分的一致性
誤差:評分者抽樣誤差
標準參照測驗的信度估計方法
(通過/不通過)
百分比一致性(Percent Agreement,Pᴀ)
所有人測兩次,看兩次結果是否一致
Pᴀ=A+D/N
一份信度高的測驗兩次結果應該一致
Cohen's Kappa(k係數)
修正Pᴀ的高估
Pᴄ=A+B/N
A+C/N+C+D/N
B+D/N
評分者間信度也可用
信度的意義、估計方法
信度( reliability )的意義
測量可靠性,排除誤差的能力
一致性:所有的提項概略測到同一個東西
穩定性:不同時間測得結果概略相同
定義:實得分數的變異中,真分數的變異所占比例➡️S²ᴛ/S²x=r²ᴛe(理論上)=rxx or rxx’(實務上)
公式S²x=S²ᴛ+S²e-推導手寫
實得分數的變異等於真分數的變異加誤差的變異
信度介於0-1之間,S²x=S²ᴛ+S²e同除S²x
➡️1=S²ᴛ/S²x+S²e/S²x➡️S²ᴛ/S²x=1-S²e/S²x
信度=信度係數=r²ᴛe=rxx
信度指數:√r²ᴛe=√rxx
信度的特性
心理教育方面測量的信度比自然科學低-間接der
信度不是普遍特質,信度有很多種意義並不相同
信度是一種統計概念需得到實徵資料後計算
信度並非全有全無,0-1
測量的誤差
非系統性誤差(Unsystematic error)=S²r
別稱:隨機誤差(random error)
隨機、不可預測、影響不一致會破壞平衡
使信度下降
種類
測驗題項ex太冷門
施測時的物理、身心情境
主觀計分
信度誤差皆是=時間抽樣、內容抽樣、評分者抽樣
系統性誤差(Systematic error)=S²ir
使分數一致的上升或下降所以並不影響信度但影響效度
ex練習效果、送分
對CRT影響大→送分導致多人及格 測驗不具參考價值
對NRT影響相對低→所有人分數加分,平移相對位置不變