教育測驗
(吳迪)

壹、緒論

參、效度

貳、信度

肆、常模與分數測驗

伍、教學目標與教學評量

一、測驗與評量的發展史

click to edit

click to edit

二、測驗的意義

陸、命題分析與試題分析

click to edit

click to edit

柒、智力測驗、性向測驗、成就測驗

捌、人格測驗

玖、項目反應理論與適性測驗

click to edit

click to edit

click to edit

click to edit

(一)心理計量學

(二)心理測驗

click to edit

click to edit

(三)古典測驗理論

基本假設:
1.古典測驗理論:X=t+e(實得分數=真實分數+誤差分數)
2.誤差分數與真實分數間無關(Pte=0)。
3.二個不同測驗之誤差分數間無相關存在(Pe1e2=0)。
4.不同測驗的誤差分數與真實分數呈零相關(Pe1t2=0)。
5.E(X)=t(實得分數的期望值等於真實分數)。
6.Nitko在1983年提出確定複本之相等性,同一個人在二份測驗有相同的真實分數,二個測驗誤差彼此獨立,且誤差變異相等,即t2=t1;σe1=σe2。
7.誤差分數的平均數為0〔E(e)=0〕。


余民寧提出傳統測驗理論對測量問題觀點,包括假設具有潛在特質存在、多次測量的推論結果、單獨一次測量必有誤差、假設潛在特質與誤差之間是獨立、複本測驗嚴格假設。

(四)概化理論

(五)試題反應理論

概化理論是由Cronbach, Rajaratnam, Gleser於專著《推論力理論》提出,概化理論基本上可視為是古典測驗理論的擴展統計模式。

click to edit

(一)測量

三、測量量尺

研究者在研究過程中,所蒐集到資料數據中,應以何種特性或測量為準則。因不同測量尺度其資料計算與進行統計推論方式均不同,因此對於「變項」的基本概念與區辯方是,是初學者進入「教育統計學」領域的必備概念。而最常見測量尺度區分方式是以1951年S.S Stevens將測量尺度區分為四大類。

click to edit

理論簡介:
古典測驗理論是最早發展的測驗理論,源自Gulikson著作《古典測驗理論》,也是目前最實用的理論,現今許多測驗都是依據古典理論編制,並建立資料間的實證關係。「古典測驗理論」又稱「古典信度理論」,其主要在估計受試者測驗的實得分數與真實分數的關聯性,又稱「真實分數理論」。信度、效度、測驗編制、試題分析...均為古典測驗理論的內容。
以數學公式表示 X=t+e
X:實得分數(測驗結果觀察分數)
t:真實分數(考生真正能力分數或潛在特質的部分)
e:誤差分數(代表該測驗無法測得學生真正能力或潛在特質的部分)

補充名詞:
心理測驗可用於測量行為樣本所進行的標準化程序,且以類別或分數予以描述。此外多數測驗具有常模或標準化,而其結果可據以預測某種重要行為。

優缺點:
1.優點
(1)以古典真分數理論為基礎架構,假設較少,容易滿足,又稱「弱勢理論」。發展時間最久、應用與流通最廣的測驗理論,採用計算 公式簡單易懂,適用大多數教育與心理測驗情境、社會科學研究資料分析。
(2)施測流程較少限制,且流程是直線性,作答程序先從簡單回答在作困難題目,回答可以跳答且允許更改答案。
(3)規定每一位受試者都要作答所有題目,不論受試者是否會作答,均須作答相同題目與題數,且評分標準亦以相同長度試題評論結果。
(4)以原始分數衡量受試者成就,或衍生分數表示受試者在團體中相對位置。
(5)推廣容易,實際應用較容易。


2.缺點
(1)同一份測驗的難易程度會因不同受試者樣本結果不同:如給資優班施測,大部分學生均答對,則試題傾向容易;反之給普通班學生,試題就變得很難。因此傳統測驗分析並不理想。傳統測驗試題分析如難度、鑑別度、信效度等都依照樣本指標,上述指標會因不同不同受試者樣本,在同一份試卷得到不同難度、鑑別度與信效度。
(2)同一位考生能力評估因不同測驗而不同:作答較容易考題,答對題數較多,表示考生程度較好;作答較困難考題,答對題數會較少,表示考生程度較差。因此難易度不同,早成同一位考生產生不同能力,是不合乎邏輯的。
(3)假設每位受試者的測量誤差均相同,以相同測量標準誤為指標,並未能考量受試者能力,對高低能力極端值同學非常地不合理也不正確。
(4)對於非複本,但功能相同測驗測得分數間,無法提供有意義的比較:有意義的比較僅限於相同測驗前後測量之量數或複本測驗分數之間。
(5)假設原始分數的相同受試者,其能力必定相同,未考量受試者試題反映組型,即使原始分數相同,其反映組型未必相同,能力估計值亦不同。

(二)評量

依據量尺,用數字來量化或分配數字,作為研究者感興趣之人事物之屬性、特徵、現象或表現多寡程度;用以描述個人特質的歷程,測量不是使用文字或品質來描述。測量最常使用紙筆測驗執行,又稱心理測量。


測量的特性
1.個體具有可測量特質:
心裡測量需假設特質是具體且可測量的,測量時個體具有真實分 數,用以算出次差分數。


2.心理與教育的測量是間接的:
心理特質屬於抽象,只能間接測量或根據測驗行為結果推論個體。


3.測量均有誤差存在:
實際測到分數,並非真正分數,總會有誤差存在;單獨一次測量必存在有誤差。測量誤差分為系統誤差與非系統誤差,古典測驗理論所關心誤差分數(e)為非系統誤差


4.測量時常是相對的:
測量得到的分數皆為相對分數,而非絕對分數。測量分數必須和他人比較才有意義,如「常模參照測驗」為相對性質。

評量根據一項標準,對所測量到的數字(量)做主觀價值的判斷,評量所涵蓋內容比測量還大因此測量只是評量的一部分;測量是依據數量做客觀的描述,而評量除測量數字的依據,尚包括主觀價值判斷。評量特性包括1.評量方式可以彈性而多樣化、2.評量是了解學生學習結果的一種方式、3.評量適用於教學前中後、4.評量需有參考的衡量標準,以作為判斷依據。

補充名詞:
『比西量表』:測量某一個體結果,用智商(IQ)來描述個體的智力特質,此一過程就稱為測量。
〔ex:使用溫度計測量溫度多少、體重計測量人類體重。〕

補充名詞:
『測量量尺』:將研究蒐集到的數量資料,把數字分派到人、事件和物體上的法則。心理與教育研究中,有四種不同測量量尺,即名義量尺、次序量尺、等距量尺、比率量尺。根據上述量尺,可以測量到四種不同資料,應用統計分析方法也不同。

補充名詞:
『評量』:以系統方式探討教學過程和學習成就是否達到預期水準的過程,並且所得的資料也可以作為教學回饋與課程修正的依據。

(三)測驗

1.狹義:測驗是測量學生行為樣本的工具與材料。
〔ex:智力測驗、性向測驗、評定量表、檢核表、觀察、晤談等。〕


2.廣義:測驗即採用數字量尺或分類系統,來觀察和描述個人特質的一種系統程序。測驗是指採用一套標準的刺激,對個人的特質做客觀測量的有系統程序。

補充名詞:
『標準刺激』:包括測驗的材料本身(ex:教師課堂上抽考題目)及其實施過程,而非如人格測驗所用例題、實驗器材、課堂學生提出的問題。

補充名詞:
「數量的描述」並非絕對,有時也可做值的描述。

(四)評定

指搜集、統整、解釋學生學習訊息的一個歷程,以幫助教師進行教學決定的一種歷程,包括測量與測驗兩種。強調評量時應考量各種相關的資料,從各種可行的面向搜集資料,從各種角度加以分析、比較所得資料,並作綜合研判,進行整體詮釋。近年來教學評量趨勢提倡多元評量,藉以測量學生高層次思考能力與關注學習歷程,因此「評定」逐漸取代「評量」

測驗vs測量vs評量


截圖 2020-10-12 下午8.26.44

補充名稱:
『考試』:是一種相當複雜的活動,通常是以試題或是其他工具來測量應考者,已獲得分數、等第和級別等結果;以入學考試為例,由於組別與科系不同的需求,應試者必須參與學科考試,甚至加考實作考試。考試所需的試卷通常稱為測驗

測驗與評量的問題(負面):
1.測驗可能侵犯學生的隱私權。
2.測驗可能會造成學生焦慮並干擾學習過程。
3.測驗可能會將受試者分類,會造成學生心靈傷害。
4.測驗可能對具有創意性與聰明的學生不公平。
5.測驗可能對語言能力不佳的學生不公平。
6.測驗的範圍可能只涵蓋部分的學習內容。
7.測驗可能造成教師自我判斷的效果。

  1. 次序變數(=順序變數)
    不僅能標示事物與事物間不同特質或類別而指定的數字,亦能指出大小次序(等級順序)、多寡、優劣、高低,但無法衡量其距離差異大小值,僅中位數有意義。(ex:考試名次、作文成績甲等乙等、百分等級、教育程度、社經地位、大學教授層級。)
  1. 等距變數(=區間變數)
    不僅能標示事物與事物間不同特質或類別而指定的數字,亦能指出大小次序(等級順序)、多寡、優劣、高低,尚可以數值方式表示二事物差別之大小的變數。等距變數具有一基本特性「相等單位」,但無絕對零點、無倍數關係。
  1. 類別變數(=名目變數、名義變數):
    係為標示事物與事物間不同特質或類別而指定的數字,無法比較二者間大小和形式,亦即二變項間具有互斥性與完整性。僅眾數有意義。(ex:身分證號碼、血型、性別、郵遞區號。)
  1. 比率變數
    不僅能標示事物與事物間不同特質或類別而指定的數字,亦能指出大小次序(等級順序)、多寡、優劣、高低,尚可以數值方式表示二事物差別之大小的變數,還可以表示相對比例大小。比率變數最重要條件是具有絕對零點與倍數關係,具備四則運算中加、檢、成、除運算。為變數中最高階量尺。(ex:身高、年齡、體重、薪資。)