測評工具發展程序

準備階段

文獻整理與定向

測驗編制計畫

文獻閱讀與整理,有助於測量內涵的清晰化和操作化。找到與測量議題有關的後設分析結果,更可了解測量信效度的大略狀況

測驗的長度與時間:決定測驗最終版本的可能題數或可能花費的時間

預試施測:說明預試施測的母體與樣本規模,以及(項)題目檢驗與(目)分析的相關事項

測驗的格式與尺度:說明測驗所使用的測量方式、評定格式

正式施測:說明正式施測的母體與樣本規模與相關事項。包括抽樣的詳細程序,以及隨同正式量表一併施測的效標或其他量表的介紹

測驗的對象:說明測驗實際適用的對象

信效度分析:說明正式量表所欲提出的各項信效度技術指標

測驗的目的與內容:說明測驗所欲測量的內容,必要時舉出相關理論觀點來說明概念的內容與理論基礎

常模建立:說明常模的建立程序與內容

測驗的名稱:說明測驗的內容

成本估計:預估發展測驗所需投入的相關成本與人力規劃

時程甘梯圖:說明測驗發展的步驟與時程

click to edit

預試階段

試題編寫

題目編寫方法與原則

試題編寫

第一階段:發散期

第二階段:收斂期

編寫初期,進行腦力激盪,快速而不批評地編寫,盡量想出各種題目

評價階段,根據定義的合適度、題目表達的清晰度,來評估題目保留的優先順序。

準備階段

click to edit

測驗編制計劃

文獻整理與定向

預試階段

click to edit

預試施測

試題編寫

項目分析

正式階段

click to edit

正式施測

建立正式量表

技術指標建立(信度與效度分析)

後續發展

量表維護(常模的建立與更新)

量表發展的編題與應用原則

表面效度原則:題目盡可能與所測量的議題直接有關,或可以引導作答者朝向與議題有關的方向作答

內容效度原則:題目盡可能涵蓋所有與特質概念有關的範圍

單一維度原則:題目宜精簡,避免多重意涵

語意難度原則:題目必須能夠具備所有目標受測者均能完全理解的遣詞用語

共同理解原則:研究者與受測者對於題目和答案皆有清楚一致的理解與認識

最大變異數原則:受測者之間對題目意涵雖有共同的了解,卻有不同的答案

類別窮盡原則:題目的答案選項盡可能涵蓋所有的反應

類別互斥原則:題目的答案選項必須讓受測者清楚分辨其間差異

標準程序原則:題目的使用必須不受測量時間、地點與環境、測量方式(例如網路測試與紙本施測)、與實施者的影響而產生不同的結果,例如指導語的使用必須統一,實施者的訓練必須相當

專業倫理原則:題目編寫語呈現須避免歧視,包括性別、能力、種族上的攻擊性或不當言詞應予以避免

題目編寫大方向

避免雙重意義

使用一些編題技巧防止填答者的草率和惡意作答

題目不宜過長,以精簡、易於閱讀為原則

預試題本長度

量表編製初期發生題目非常相似的題目冗餘是可接受的一件事

冗餘題目是針對構念的相似而言,而非題目本身特徵的改變。是為有效冗餘

預試的題目,至少是最終量表題目數的2倍

題型格式語題目組成

建構反應題:開放式的測量題目,除了題幹之外,答案由受是者自行作答。例如:問答題、填充題

選擇題:具有多個選項的測量題目,受測者依據題幹的指示,從各選項選擇一個作答

配合題:一組題幹配合另一組數目相同或不同選項的測量題目。研究者針對各題幹的答對狀況進行0.1計分。配合題可以是為選擇題的複雜化

Likert-Type量表:等級反應題目,適合於態度測量或意見評估。加總評定量表。過多的選項無助於意見表達,過少則會損失變異與精密度。點數:一般多用4.5.6.7點。

Thurstone量表:由一組測量某相同特質的題目所組成,但是每一個題目具有不同的強度,受測者勾選某一個題目時,即可獲得一些強度分數,當一組題目被評估完畢後,所有被勾選為同意的題目其強度分數的中位數,及代表該量表的分數。
編好題目,交給實務人員,就這些題目依個人喜好或實務上的重要性,將題目歸類(1~11),最重要的歸為11,最不重要的為1。
評分完,每一題可以計算出一個平均數與四分位差,稱為Q分數。一個題目的Q分數越大,代表大家的評分越分散,重要性越模糊,但如果大家一致認為某個題目重要或很不重要,該題目的Q分數即較小,變異較小,模糊性低。
研究者依模糊性的高低選出最一致性(不模糊)的題目10~20題,並使其平均數能涵蓋不同強度高低,組成一套量表。
這十幾題不但內容上具有特定的重要性,模糊性低,且每一個題目都有一定的重要性權數(重要平均數)
優點:不用針對一模糊強調來進行判斷,避免量尺是否等距的爭議。每一題有一定的重要性,符合等距尺度的精神,又稱「等距量表法」
缺點:編製過程相對繁瑣複雜、評分者選擇有其代表性與客觀性的問題、消耗時間和經濟成本,較少被使用

Guttman量表:由一組距有不同程度的同質性題目所組成。受測者對於某特定事件有一定的看法,且題目由淺至深排列,因此,在一定難度以下的題目均應回答同意,但超過一定的題目難度即應回答不同意。
同意與不同意的轉折點即反映了受測者的真實態度強度或行為強度,此時受測者回答幾個同意,即代表分數幾分。所以,Guttman量表又稱累積量表

Guttman量表與Thurstone量表的差異:兩種量表類似,差異在於計分方法。
Guttman量表:以轉折點所累積的題目為分數。
Thurstone量表:已個題目的重要性分數來計分。
Guttman量表的編製與使用較Thurstone量表簡易。
Thurstone量表的分數精確性較高

語意差別量表:由Osgood等人所發展的態度測量技術。針對某一個評定的對象,要求受測者在一組兩極對立的配對形容詞,進行評定。
Likert-type量尺以完整陳述句來說明測量內容,語意差別法則以雙極形容詞來表示。
分數計分可將形容詞加總獲得總分計算。但要注意,並非每一對形容詞都適合加總。因此,設計時宜妥善選用,以便進行總和計算。或是利用因素分析法,將概念相似的形容詞配對予以加總,得到因素分析再進行應用

視覺類比測驗:語意差別法用量尺分數來表示,另一種替代方法是以一段開放的數線,讓受測者自由點出其意見傾向,再以點選處的距離來代表受測者的強度。以開放的線段代替特定的數字,可以去除因為特定數職的定錨效應。但處理上較費力,應用不普遍

強迫選擇量表:利用兩個立場相反的描述句,其中一個代表正面的立場,另一句代表反面的立場,要求受試者自兩者中挑選出較接近自己想法的題目。
改善Likert量尺對於兩極端強度測量敏感度不足的問題,讓受試者在兩個立場相左的陳述句做二選一的選擇,明確指出個人的立場,而不會有中庸模糊的分數。
避免一些反應心向的問題,減少受試者以特定答題趨勢去回答問題。
優點:用以了解受試者的立場,強迫表態。
缺點:量表的長度較一般量表多出一倍,增加編題者的工作量

檢核表:一種簡化的Likert-type量尺的測量格式。針對某一個測量的對象或特質,列出一組關鍵的形容詞,並要求受測者針對各形容詞的重要性,以2點尺度或多點尺度來進行評估。

排序題:與檢核表一樣,是一種便捷的測量方法,在一般行銷調查中經常被使用來排列消費者的偏好與喜愛度。
排序反應的是順序,無法提供程度強弱大小的詳細資訊,無法將數據轉換成等距變數,無法進行一般常用的線性模式統計

類別勾選題:問卷調查中,經常被使用

測評的防弊機制

測評工作的一大挑戰是,如何讓受測者忠實按照自己的意見、想法與能力水準來作答。特別是人格測驗,最容易受到測驗情境的影響(例如:實施口試或人事甄選情境,或是司法審判中的心理衡鑑工作)而產生社會讚許作答或作假的情形。人格測驗防弊機制,例如使用強迫選擇題型、設置測題、控制作答時間等等。另外作答過程中,發生特殊作答現象,稱為反應心向

反應心向:受試者在填答問卷時,有一種比較固定的作答傾向
傾向於回答特殊的答案:離異反應。
傾向回答同意或不同意:順從心向。
習慣性遺漏填答:作答粗心。
以中間值來描述自己的狀態:中庸傾向。
答案有批判性或攻擊性:批判、攻擊傾向

作假:受試者企圖利用測驗分數操弄他人對自己的看法。
偽善:存心討好,透過好分數已建立他人對自己的良好印象。
偽惡:藉分數造成負面印象,博取他人的注意、同情或幫助,或想表達不滿、報復心態

社會讚(期)許:以社會大眾所歡迎的方式來描述自己的狀態。尤其是自陳測驗,一般受試者會不自覺的採用大眾喜愛或社會認可答案來表現自己。社會讚許性不同於惡意欺騙或撒謊。
自我欺瞞:潛意識歷程,受試者相信自己擁有良善本質的一種自我防衛機制
印象整飾:目的性的意識行為,受測者透過偽裝,使自己呈現出一個好(或壞)的印象。
印象整飾的分數會隨匿名到公開的變化而顯著上升,自我防衛則無此一現象

作假偵測

社會讚許與作假評估,MMPI(明尼蘇達多向人格測驗),社會讚許量表。說謊量尺:L量尺。防衛量尺:K校正量尺。罕見量尺:F量尺

其他量化評估技術:直接評估測驗量表的題目本身是否受到社會讚許或作假的威脅程度。邊題目時請專家對題目進行評估,以9點量尺來打分數,求平均數,作為題目的社會讚許威脅性。高登人格測驗即應用此一原理編製而成

作答一致性評估:正反向題隨機配置入題中,或同一題目重複隨機放置於量表不同位置,偵測作答是否不一致

其他替代題型的使用:選用較不受影響的測驗題型。例如:非文字測驗、投射測驗、繪圖測驗、語句完成測驗等。採用強迫選擇問句。選用自陳量表進行測量時,非常容易出現導因於工具本身的偏誤,稱為方法效應,也就是因為特定工具的使用,所產生不必要的系統變異或系統誤差的影響

其他防弊機制:1.壓力減低技術:使用適當的指導語,以匿名方式作答,去除填答者的疑慮與壓力。2.受測代理人:透過與受測者熟悉的親朋好友與師長來進行資料蒐集。人力資源管理所使用的360度評鑑技術,即使用多重評估者的策略。3.電腦施測,可利用電腦來記錄作答時間,進而判斷作答品質

建立測驗量表的題庫。題目的選擇與編寫必須符合先前所決定的測量範疇、內涵、符合理論界說。每個題目的內容必須能夠相當程度反應量表題目的構念。要有創意地思考所想要測量的構念內容並編寫出一堆題目