Please enable JavaScript.
Coggle requires JavaScript to display documents.
測驗與評量的重要性, (成就)測驗的目的, 評測高品質的要素 - Coggle Diagram
測驗與評量的重要性
4.診斷學生之學習問題
修正教學的指標
發現學習問題與困難
調整教學進度與內容
3.激發學生的學習動機(以考促教)
真實性
(盡可能與日常生活問題和情境連結)
評量回饋
立即
回饋並鼓勵與認可
盡可能有
成功經驗
充分時間與機會增進其表現
著重個人學習進展(而非與他人比較)
2.教學的規劃與實施
評量對教學進行的兩大功能
1.擬定教學計劃
2.對學生學習情況的監控
評估學生的
先備能力
學習華語的目的
學習特性
1.學習環境的建立與維持(教學策略)
成績的評定
(成就)測驗的目的
【
反饋功能
】
教師可根據反饋
調節教學活動
瞭解學生對有關的知識、技能的掌握,診斷學生的
學習困難
所在
可促進學生的學習活動
(動機激發)
【
人才選拔與安置
】
升學考試
招供考試
分班
【
評價功能
】
以
標準化
的方式,可評鑑一定範圍內的知識與能力
在評價時必須參照其他信息,
不能單看測驗分數
可作
跨區域的橫向比較
,也可作
跨年代的縱向比較
【
研究工具
】
通過
測驗成績
來檢查
教育效果
教改
評測高品質的要素
【
效度 validity
】
重點-測驗結果與終極表現的一致程度
效度證據
1.以
測驗內容
為基礎
測驗內容
及所
評量能力
之間的對應關係
著重在
認知歷程
的向度
2.以
效標關聯
為基礎
效標-衡量測驗有效性的
外在標準
,通常是指我們所要預測的行為(終極表現/獨立測量表現)
可以用來作為效標的變數有很多。可以是
現成的指標
(如產量、薪水),也可以是
人為設計的指標
(如課堂測驗)
常見的效標主要有
學業成就、等級評定、臨床診斷、特殊訓練成績、實際工作表現、對團體的區分
、其他測驗成績。
【
效標關聯度
】
1.
預測效度 Predictive Validity
在測試後經過一段時間,取得受測者在效標行為的表現之獨立測量。
經
計算測驗表現
和
效標行為測量
之相關。
學測 VS. 學業表現
(透過一測驗表現
推估
學生入學後
未來的表現
)
預測效度須經
一段時間
才能反應效標的準確性。
2.
同時效度 Concurrent Validity
同時效度的
效標資料
是與
測驗分數
同時搜集的。
憂鬱量表 VS 醫師診斷。
3.以
構念效度
為核心
構念-抽象而屬假設性的
概念、特質或變項
不同的語言理論對於語言能力應包含哪些要素,將各
語言成分
區隔開來,在測驗評量中即稱為:不同的構念。
智力、焦慮、機械性向、成就動機等。
【
構念效度 Construct Validity
】
以
理論構念
解釋
測驗結果
的作法。
內容證據、效標關聯證據等,都是構念效度的部分證據。
Messik 主張構念效度有六個層面之證據
內容面
評量內容與欲測特質之關聯性 (內容關聯效度)
實質面
受測者用到理論歷程完成評量作業,評量反應符合理論(如:難易程度分配)
結構面
評分模式忠實反映構念結構
類推面
分數能類化到不同群體與作業
外在面
外在變項的幅合與區辨效度 (效標關聯度)
幅合效度
-外在變項的幅合與區辨效度 (效標關聯度)
區辨效度
-不同構念以相同/不相同的方法測量,都會得到低相關(二者和信度相關)。
後果面(後效作用)
評量分數使用的實際與潛在影響
使用評量所產生的所有後果 (含預期/非預期)
構念效度是評量效度的
核心概念
!!
效度-指一測驗是否評量到他所要評量的能力
效度的特性
無法直接測量,但可從其他資料推論。
必須審慎判斷
效度的證據
是否適當或令人滿意。
效度是屬於
測驗的結果
的檢視,而非測驗工具本身。
【
公平性
】
評量所得的分數
對不同背景
(種族、性別、社經地位)
的學生一樣有效
。
1.須讓學生對學習目標與評量
有清楚認知
1.公開的評量內容與計分標準
2.標準化考試會公布-測試能力、題型與試題樣本。
讓受試者了解
評量目的、評量方式、內容和計分標準
。
2.
偏誤
會影響表現的構念
Popham
,偏誤的兩種形式
1.
冒犯-刻板印象
2.
不公平懲罰
-試題對某一族群的考生較為不利(如特定專業領域文章出現頻率過高)。
3.要能因應
特殊學生
的需求做調整
【
信度 Reliability
】
信度-測驗分數可靠的程度,也就是這一測驗
受信賴的程度
。
關鍵在於結果的一致性。
【
隨機誤差
】
誤差
=
評量的結果
與
真值
之間的差距
隨機誤差的來源十分多元。而
信度的各種計算/探究方式
,即是在估算可能產生的
隨機誤差的影響
。信度高,則隨機誤差小,反之亦然。
信度的檢測方式
【
再測信度
】-
穩定性
定義-在不同的時間點,對一群受者
重複實施
同一評量工具,取得兩次
施測結果的一致性
(相關係數)。
影響因素-身心狀態、外在物理環境(如:噪音)
時間-相距兩到四週之間。(時間間隔越長,再測信度越低)
分析-
相關分析
或
顯著性檢驗法
,可以評價量表信度的高低。
結果越是相關,差異不顯著則信度越高。
【
副本信度
】-
等值性
副本-兩份評量,其
題目數、題目形式與內容、題目的難易度、施測的指導語、時間限制、評量相關的特性
等,都
十分類似
。
內容取樣誤差
-複本因題目選擇的
隨機因素
所造成的分數變異。(愈小愈好)
【複本
立即
信度】
兩個複本在
同一時間
內施行於一群人,這兩組評量結果的一致性。(受測者評量負擔大)
【複本
延宕
信度】
間隔一段時間
後,再以複本進行第二次評量,後估算兩組評量的一致性。
優點-可將
遺忘曲線
考量進去。
複本信度:透過複本取得評量
結果的一致性
。
【
內部一致信度
】
只一個題本、一次測量結果便能估計信度。
關心的是受試者在
各評量項目(構念)
上表現一致的程度。
重要特徵-評量項目不加總計分,但所有評量項目測的是同一能力/特質。
通常會將聽、說、讀、寫技能
分開評量
,每項技能都要達到特定分數,才算達到精熟。
不傾向四技得分加總/各自獨立。
能夠反映出評量的
試題同質之程度
。
測量方式
【
評分者信度
】
牽涉到評量者的對表現評分的一致。分析
評分者評分結果的相關性
,或給予
相同評分的比例
作為
評分者信度指標
。
需仰賴評分者的判斷,如:口說或書寫的評分。
【
折半信度
】(出題方式)
研究者在建立測量工具時,將原有的題目數擴充為二倍。
其中有一半是另一半的重複或相似的題目,研究者以二個部分的得分的比較,來估算此測量工具的信度。
【
實用信
】
高品質的評量亦必須符合
實用性
和經濟原則。
教師應評估的幾個因素
1.
評量方式的熟悉度
否則會勞師動眾,而且可信度受到質疑
2.
評量時間
以最少的時間,獲取最可靠的評量訊息
選擇題 VS 實作評量
3.容易度
評量實施
的容易度
計分
的容易度
分數解釋
的容易度
4.
花費