信度

古典測驗理論CTT
(Classical test theory)

定義:實得分數X與真分數T關聯性為測驗基礎的一種理論-信度、效度

實得的分數(obtained score)、真分數(True score)與誤差分數(Error)

古典測驗理論的幾個假定(assumption)

信度的意義、估計方法

影響信度的因素

信度的解釋與應用

信度( reliability )的意義

測驗題項的多寡

受試樣本特質的變異情形-全距限制

測驗難度➡️中等難度信度接近1

評分的客觀性➡️客觀>主觀

估計信度的方法:誤差越多信度越低,但要選擇的是適切性

信度係數的解釋:實得分數的變異中,真分數變異所佔的比例

測量標準誤(Standard error of measurement,SEm或SEM)

差異分數的測量標準誤(Standard error of difference)

別稱:真分數理論(True score theory)

x̅=T或E(X)=T

誤差是隨機發生的Σe=0或ē=0

一個人多次

所有受試者總和

真分數與誤差相關=0,因為測驗的誤差e不會影響真實分數T

複本-相關Te、ee’、Te’=0

測量可靠性,排除誤差的能力

一致性:所有的提項概略測到同一個東西

穩定性:不同時間測得結果概略相同

定義:實得分數的變異中,真分數的變異所占比例➡️S²ᴛ/S²x=r²ᴛe(理論上)=rxx or rxx’(實務上)

公式S²x=S²ᴛ+S²e-推導手寫
實得分數的變異等於真分數的變異加誤差的變異

信度介於0-1之間,S²x=S²ᴛ+S²e同除S²x
➡️1=S²ᴛ/S²x+S²e/S²x➡️S²ᴛ/S²x=1-S²e/S²x

信度=信度係數=r²ᴛe=rxx
信度指數:√r²ᴛe=√rxx

信度的特性

心理教育方面測量的信度比自然科學低-間接der

信度不是普遍特質,信度有很多種意義並不相同

信度是一種統計概念需得到實徵資料後計算

信度並非全有全無,0-1

測量的誤差

信度的種類

⭐️常模參照測驗的信度估計方法

標準參照測驗的信度估計方法
(通過/不通過)

非系統性誤差(Unsystematic error)=S²r

系統性誤差(Systematic error)=S²ir

別稱:隨機誤差(random error)

隨機、不可預測、影響不一致會破壞平衡

使信度下降

種類

測驗題項ex太冷門

施測時的物理、身心情境

主觀計分

使分數一致的上升或下降所以並不影響信度但影響效度
ex練習效果、送分

信度誤差皆是=時間抽樣、內容抽樣、評分者抽樣

對CRT影響大→送分導致多人及格 測驗不具參考價值

對NRT影響相對低→所有人分數加分,平移相對位置不變

再測信度(重測信度,test-retest Reliability)

複本信度(alternate form reliability)
-施測兩次

複本意義

種類

內部一致性信度(internal consistency reliability)
-施測一次

評分者間信度

折半方法split-half method

庫李信度(Kuder-Richardson reliability)

Cronbach’s α
範圍最廣、最常用

兩個連續資料➡️r

兩評分者等第資料➡️斯皮爾曼等級相關

多評分者等第資料➡️肯德爾和諧係數

功能:時間穩定性

意義:同一份測驗對同一群有代表性的受試者前後實測兩次,分數求相關

別稱:穩定係數(coefficient of stability)

誤差來源:時間抽樣誤差
r≠1就有誤差

實務現象

時間越久誤差越大

練習效果,2>1

適合:動作、性向、智力、速度測驗

不適合:成就、情意測驗

再測信度通常預測受試者未來的表現所以應具備良好的信度

同時複本信度

延宕複本信度

別稱:equivalent form&parallel form

定義:兩個題本在內容、形式、題數、指導說明、時間限制與例題等方面類似或相等

編制方法:同一份設計明細表,你一題我一題的設計

複本信度:兩複本分數求相關

別稱:等值係數(coefficient of equivalence)

別稱:穩定與等值係數(coefficient of stability and equivalence)

方式:對一群有代表性的受試者同時施測兩個複本求相關

方式:對一群有代表性的受試者前後施測兩個複本求相關

誤差:內容抽樣誤差

誤差:內容抽樣誤差、時間抽樣誤差

實務現象

仍有練習效果

花錢時間

再測信度:時間抽樣誤差
複本信度:內容抽樣誤差
延宕信度:內容抽樣誤差、時間抽樣誤差

延宕複本最嚴格

斯布

rxx=2rhh/1+rhh

誤差:內容抽樣誤差

折半方式:依題項數有許多種,不同折法算出來的信度通常不相等

使用前提:兩半的變異數要相等否則會高估

速度測驗不適合使用

方法:將全測驗的題項拆成兩半,並計算兩個半份測驗的相關。
但n變少所以信度會下降因此要用斯皮爾曼-布朗公式( Spearman-Brown formula ,斯布公式)校正

福樂藍根Flanagan

盧龍Rulon

rF=2(1-S²a+S²b/S²x)
S²a&S²b其中一半變異數

無須校正

變異數不必相等也能用

變異數相等時,斯布=福樂藍根

rR=1-S²d/S²x
S²d兩辦差值變異數

無須校正

變異數不必相等也能用

變異數相等時,斯布=福樂藍根=盧龍

總結
S²a=S²b,rsb=rf=rr
S²a>S²b,rsb>rf=rr

方法:所有題項兩兩求相關

a

公式推導-手寫

其他要點

適用:二元計分(選擇、是非)、李克特氏量表

福樂藍根&盧龍所有折半方法平均數=Cronbach’s α

誤差

是庫李20、21公式的母公式

內容抽樣誤差:不同題項測到的結果不同

內容異質性誤差:每題要測得構念不同,構念越多共變數所佔的比例越低,Cronbach’s α 越低

誤差:內容抽樣誤差、maybe內容異質性誤差

誤差:內容抽樣誤差、maybe內容異質性誤差

提出:庫德Kuder和李查森Richardson(1937)➡️庫李方法KR method

庫李20號公式(KR20 formula)

KR20-1

各題難度不一樣(每一題答錯比率不同)

誤差:內容抽樣誤差、內容異質性誤差

適用:二元計分(選擇、是非);不適用李克特氏量表

庫李21號公式(KR21 formula)

KR21

各題難度差異小(每一題答錯比率差不多)

誤差:內容抽樣誤差、內容異質性誤差

適用:二元計分(選擇、是非);不適用李克特氏量表

折半信度、Cronbach’s α 、庫李信度

關係

定義:主觀計分時ex申論題、歌唱、美術,不同評分者評分的一致性

spearman

Kendall

Kendall分子

誤差:評分者抽樣誤差

百分比一致性(Percent Agreement,Pᴀ)

Cohen's Kappa(k係數)

所有人測兩次,看兩次結果是否一致

Pᴀ=A+D/N

一份信度高的測驗兩次結果應該一致

修正Pᴀ的高估

Cohen's

Pᴄ=A+B/NA+C/N+C+D/NB+D/N

評分者間信度也可用

N越大越好,折半後信度需校正

斯布通式

來源:估計標準誤,X預測Y,Y的誤差(區間估計)

定義無限多個實得分數的標準差➡️測量標準誤

Sʏ.x=Sʏ*√1-r²xʏ

SEm=Sx√1-r²xᴛ
SEm=Sx
√1-rxx

X區間估計

內涵

信度高,SEm小;信度=1,SEm=0
信度低,SEm大;信度=0,SEm=測驗的標準差

測驗的標準差小,測量標準誤小;反之

功能:許多測驗都有分量表(subscale)➡️一個測驗裡測量兩個不同得能力或特質,不同分量表各有一個分數。兩個分數的差異究竟是因為能力或誤差?由差異分數的測量標準誤來看~

意義:多次進行一份測驗➡️兩分量表無限多個實得分數➡️相減得差異分數➡️無限多個差異分數形成常態分配➡️此分配標準差

SEdiff.=S√2-rxx-ryy 公式推導-手寫

求得差異分數的測量標準誤做區間估計