Please enable JavaScript.
Coggle requires JavaScript to display documents.
教育測驗與評量 (測驗品質★ (信度 (真實分數模式假設 (X=t+e, 實得分數是真實不變的部分,但是觀察不到的潛在特質,需實得分數推估。,…
教育測驗與評量
測驗品質★
試題分析的重要性與內涵
試題分析的功能
試題分析的方法
品質分析
雙向細目分析表
題目內涵與所屬細目表細格的一致性
題目品質是否合乎命題原則
編製過程的嚴謹性
量化分析
難度P=(PH+PL)/2,0.3~0.7
鑑別度D=PH-PL,0.4以上
誘答力
每個錯誤選項至少一個低組選擇
選擇錯誤選項,低組比高組還高
空白未答比率降最低
試題選擇原則
兼顧質量
先挑D>.25
P.4~.7
具誘答率
符合雙向細目表(邏輯分析)
信度
意涵
同測驗者、不同時間,相同工具或複本,結果一致
兩次測量有很高一致性,表測驗分數高穩定性、可靠性、可預測性
真實分數模式假設
X=t+e
實得分數是真實不變的部分,但是觀察不到的潛在特質,需實得分數推估。
同一批學生,標準測驗情境,同一批測驗(複本測驗)多次,所得測驗分數的平均值。
誤差分數:系統誤差、非系統誤差
測量誤差:偏誤(個別)、隨機誤差(一起)
信度種類
重(再)測信度:同一分,一段時間後,測兩次
複本信度:兩份(正本、複本)
內部一致性信度(折半法、庫李信度、阿法係數)
評分者信度(奧運跳水評分)
效度
效度種類
內容效度(邏輯效度、取樣效度):雙向(邏輯分析)+專家(實證分析)
表面效度:看起來OK
校標關聯效度:一個指標來做對照,模擬考可推測學測成績
實證效度、統計效度、經驗效度
同時效度:一份測驗,測驗學生,學生平時表現資料已經蒐集,再比較。
預測效度:智力測驗、性向測驗,測驗未來表現
建構效度
聚斂效度(高相關)
區別效度(低相關)
影響效度的因素(內容、情境、身心、校標的適切性、樣本性質)
多元評量
實作評量
意涵
建構好的情境,學生執行,教師觀察學生反應,確認適當否
教師編擬與結果相似的模擬測驗情境,讓學生表現
運用不同領域,藝能、自然、語文、社會、數學
介於認知的紙筆與真實情況之間
重點過程、結果或兩者
優點
同時評量認知與技能教學目標
技能診斷資料的提供
接近真實,增進學習遷移
直接量測,排除語文干擾
目的
彌補傳統紙筆測驗不足
學生學習成就更正確的推論
教學活動正向引導
缺點
人力、金錢、時間
測驗情境控制困難(學生互相干擾)
計分不易客觀
合格評分人員難尋
不利易焦慮的學生
檔案評量
內涵
依據教學目標與計畫,學生持續一段時間系統蒐集、組織、省思之學習成果檔案,教師評定努力、進步成長情況
老師學生討論單元目標與檔案內容,學生參與評定過程,建構有意義的學習,已達教學與評量結合目的
特性
目標化
歷程化
組織化
多元化
個別化
內省化
溝通化
整合化
優點
兼顧歷程與結果的評量
獲得更真實的評量學習結果
呈現多元資料激發創意
兼顧認知、技能、情意
培養主動積極的學習精神
培養自我負責的價值觀
增進自我反省能力
增進各類人員的溝通
增進師生關係
增強學生溝通表達與組織能力
缺點
增加教師批改時間,增加工作負擔
經費投入多,學生經濟負擔大
未擬定評分標準,易流於不客觀
學生能力(語文、表達、組織等能力)
月暈效應,降低效度
成標準化工具,但信、效度不意建立
教師、家長、學生接受與執行意願不高
口語評量
理念
口試(總結性)
問問題(形成性)
優點
問問題
提高參與感
加深思考
與同儕互動與學習
提供立即性增強
掌握教學進度
提供診斷性資料
口試
評估學生概念完整與否
較紙筆更能評量認知與情意
更高層次學習(分析綜合評鑑)
立即診斷學生問題
增進表達、組織能力
改善學習方法與態度(背)
不易作弊
缺點
評分標準難建立,影響信度
對語言差學生不利
評分者主觀意識
需較多人力不符經濟效益
軼事紀錄
理念
觀察到有意義的插曲與事件
觀察生活表現、偶發事件
佐證資料,非評量唯一依據
直接觀察佐證資料能當提高評量結果效度
內涵
重要、偶發、插曲、事件
準備卡片(紀錄)
訪間賣的卡片
左上角名字地點、右上角時間事件,紀載事件
缺點
老師能力差不易觀察
記錄費時,已經很忙更難運用
難取得充分、有意義的偶發
老師的解釋、價值觀、月暈
動態評量
意義
了解(評量)動態認知歷程與能力改變
著重評量者與受評者互動
結合教學與診斷評量
特性
兼重學習結果與歷程
兼重回溯評量與前瞻性評量
兼重鑑定、診斷、處方
重認知能力之可塑
師生雙向溝通的互動關係
融合教學與評量
優點
較不會低估文化不力與身心不利(教學介入)
較知道如何表現學習、思考歷程,解決策略缺失,較察覺思考或認知結構
顧及個別差異,尊重學生獨特思考模式
較能避免認知因素對教學與評量之干擾
強化學生正向自我概念,使學生獲得學習成溝喜悅
較能剖析連續性學習歷程,掌握認知改變歷程
待克服問題
評量不易執行
個別評量成本甚高
前測訊息未能充分運用
教學介入缺乏理論基礎
研究題材仍不足
信、效度有待加強
測驗編制(X)
決定測驗目的
設計雙向細目表
編擬測驗試題
審查與修改測驗試題
編輯測驗試題
基本概念
測驗類型
測驗分類
測驗目的
情意測驗
認知測驗
測驗材料
文字測驗
非文字測驗
受測人數
個別測驗
團體測驗
標準化程度
標準化測驗
非標準化測驗
測驗時限
速度測驗
難度測驗
測驗反應類型
最大表現(能力測驗)
典型行為(人格測驗)
測驗結果的解釋
常模參照測驗
標準參照測驗(效標)
評分方式
客觀性測驗
主觀性測驗
成就測驗
標準化測驗
標準化測驗
非標準化測驗
教學診斷功能
預備測驗(安置評量)
診斷測驗(診斷評量)
教學評量目的
形成性測驗(形成評量)
總結性測驗(總結評量)
三類教學目標:認知、技能、情意
測驗的類型與介紹
生涯測驗
人格測驗(自陳測驗、投射測驗)
性向測驗
智力測驗
成就測驗
測驗重要元素
信度
內容效度
校標關聯效度
建構效度
常模
發展性常模
團體內常模
信度
實用性
教學評量
教學前(安置型)
教學中(形成性、診斷性)
教學後(總結性)
教學目標評量
認知領域
知識向度(事實、概念、程序、後設認知)
認知歷程向度(記憶、了解、
應用、分析、評鑑、創造)
情意領域(X)
接受(注意)、反應、評價、
重組(組織)、內化(形成品德)
動作技能
感知、準備(趨向)、模仿(導引下學習
、自動化、複雜反應、適應、創作)
測量統計
集中量數
平均數
中位數
眾數
三種分配形狀關係
離散量數
(變異量數)
全距(R=Xmax-Xmin)
四分差(3/4-2/4)/2
變異數
標準差
偏態
峰度
測量統計
常模
狹義:某團體(一群受測者)在表準化樣本之測驗上(測驗工具)的平均分數(平均數)
廣義:原始分數轉換成衍生分數,可了解個人在團體相對地位
功能
自己測驗分數的比較依據。心理與教育測驗:1.可了解異己不同能力與心理特質2.原始分數經由常模對照可直接比較自己各個測驗分數差異情形
人我之間測驗分數的比較依據
類型
百分等級常模(百分等級、百分位數)
標準分數Z=(原始分數-團體平均)/標準差
T分數=10Z+50
AGCT分數=20Z+100
GEEB分數=100Z+500
標準九
離差智商
史比DIQ=16Z+100
魏氏DIQ=15Z+100
測驗結果
倫理(專業、道德、倫理、社會)