測評工具發展程序

準備階段

文獻整理與定向

測驗編制計畫

文獻閱讀與整理，有助於測量內涵的清晰化和操作化。找到與測量議題有關的後設分析結果，更可了解測量信效度的大略狀況

測驗的長度與時間：決定測驗最終版本的可能題數或可能花費的時間

預試施測：說明預試施測的母體與樣本規模，以及(項)題目檢驗與(目)分析的相關事項

測驗的格式與尺度：說明測驗所使用的測量方式、評定格式

正式施測：說明正式施測的母體與樣本規模與相關事項。包括抽樣的詳細程序，以及隨同正式量表一併施測的效標或其他量表的介紹

測驗的對象：說明測驗實際適用的對象

信效度分析：說明正式量表所欲提出的各項信效度技術指標

測驗的目的與內容：說明測驗所欲測量的內容，必要時舉出相關理論觀點來說明概念的內容與理論基礎

常模建立：說明常模的建立程序與內容

測驗的名稱：說明測驗的內容

成本估計：預估發展測驗所需投入的相關成本與人力規劃

時程甘梯圖：說明測驗發展的步驟與時程

click to edit

預試階段

試題編寫

題目編寫方法與原則

試題編寫

第一階段：發散期

第二階段：收斂期

編寫初期，進行腦力激盪，快速而不批評地編寫，盡量想出各種題目

評價階段，根據定義的合適度、題目表達的清晰度，來評估題目保留的優先順序。

準備階段

click to edit

測驗編制計劃

文獻整理與定向

預試階段

click to edit

預試施測

試題編寫

項目分析

正式階段

click to edit

正式施測

建立正式量表

技術指標建立(信度與效度分析)

後續發展

量表維護(常模的建立與更新)

量表發展的編題與應用原則

表面效度原則：題目盡可能與所測量的議題直接有關，或可以引導作答者朝向與議題有關的方向作答

內容效度原則：題目盡可能涵蓋所有與特質概念有關的範圍

單一維度原則：題目宜精簡，避免多重意涵

語意難度原則：題目必須能夠具備所有目標受測者均能完全理解的遣詞用語

共同理解原則：研究者與受測者對於題目和答案皆有清楚一致的理解與認識

最大變異數原則：受測者之間對題目意涵雖有共同的了解，卻有不同的答案

類別窮盡原則：題目的答案選項盡可能涵蓋所有的反應

類別互斥原則：題目的答案選項必須讓受測者清楚分辨其間差異

標準程序原則：題目的使用必須不受測量時間、地點與環境、測量方式(例如網路測試與紙本施測)、與實施者的影響而產生不同的結果，例如指導語的使用必須統一，實施者的訓練必須相當

專業倫理原則：題目編寫語呈現須避免歧視，包括性別、能力、種族上的攻擊性或不當言詞應予以避免

題目編寫大方向

避免雙重意義

使用一些編題技巧防止填答者的草率和惡意作答

題目不宜過長，以精簡、易於閱讀為原則

預試題本長度

量表編製初期發生題目非常相似的題目冗餘是可接受的一件事

冗餘題目是針對構念的相似而言，而非題目本身特徵的改變。是為有效冗餘

預試的題目，至少是最終量表題目數的2倍

題型格式語題目組成

建構反應題：開放式的測量題目，除了題幹之外，答案由受是者自行作答。例如：問答題、填充題

選擇題：具有多個選項的測量題目，受測者依據題幹的指示，從各選項選擇一個作答

配合題：一組題幹配合另一組數目相同或不同選項的測量題目。研究者針對各題幹的答對狀況進行0.1計分。配合題可以是為選擇題的複雜化

Likert-Type量表：等級反應題目，適合於態度測量或意見評估。加總評定量表。過多的選項無助於意見表達，過少則會損失變異與精密度。點數：一般多用4.5.6.7點。

Thurstone量表：由一組測量某相同特質的題目所組成，但是每一個題目具有不同的強度，受測者勾選某一個題目時，即可獲得一些強度分數，當一組題目被評估完畢後，所有被勾選為同意的題目其強度分數的中位數，及代表該量表的分數。
編好題目，交給實務人員，就這些題目依個人喜好或實務上的重要性，將題目歸類(1~11)，最重要的歸為11，最不重要的為1。
評分完，每一題可以計算出一個平均數與四分位差，稱為Q分數。一個題目的Q分數越大，代表大家的評分越分散，重要性越模糊，但如果大家一致認為某個題目重要或很不重要，該題目的Q分數即較小，變異較小，模糊性低。
研究者依模糊性的高低選出最一致性(不模糊)的題目10~20題，並使其平均數能涵蓋不同強度高低，組成一套量表。
這十幾題不但內容上具有特定的重要性，模糊性低，且每一個題目都有一定的重要性權數(重要平均數)
優點：不用針對一模糊強調來進行判斷，避免量尺是否等距的爭議。每一題有一定的重要性，符合等距尺度的精神，又稱「等距量表法」
缺點：編製過程相對繁瑣複雜、評分者選擇有其代表性與客觀性的問題、消耗時間和經濟成本，較少被使用

Guttman量表：由一組距有不同程度的同質性題目所組成。受測者對於某特定事件有一定的看法，且題目由淺至深排列，因此，在一定難度以下的題目均應回答同意，但超過一定的題目難度即應回答不同意。
同意與不同意的轉折點即反映了受測者的真實態度強度或行為強度，此時受測者回答幾個同意，即代表分數幾分。所以，Guttman量表又稱累積量表

Guttman量表與Thurstone量表的差異：兩種量表類似，差異在於計分方法。
Guttman量表：以轉折點所累積的題目為分數。
Thurstone量表：已個題目的重要性分數來計分。
Guttman量表的編製與使用較Thurstone量表簡易。
Thurstone量表的分數精確性較高

語意差別量表：由Osgood等人所發展的態度測量技術。針對某一個評定的對象，要求受測者在一組兩極對立的配對形容詞，進行評定。
Likert-type量尺以完整陳述句來說明測量內容，語意差別法則以雙極形容詞來表示。
分數計分可將形容詞加總獲得總分計算。但要注意，並非每一對形容詞都適合加總。因此，設計時宜妥善選用，以便進行總和計算。或是利用因素分析法，將概念相似的形容詞配對予以加總，得到因素分析再進行應用

視覺類比測驗：語意差別法用量尺分數來表示，另一種替代方法是以一段開放的數線，讓受測者自由點出其意見傾向，再以點選處的距離來代表受測者的強度。以開放的線段代替特定的數字，可以去除因為特定數職的定錨效應。但處理上較費力，應用不普遍

強迫選擇量表：利用兩個立場相反的描述句，其中一個代表正面的立場，另一句代表反面的立場，要求受試者自兩者中挑選出較接近自己想法的題目。
改善Likert量尺對於兩極端強度測量敏感度不足的問題，讓受試者在兩個立場相左的陳述句做二選一的選擇，明確指出個人的立場，而不會有中庸模糊的分數。
避免一些反應心向的問題，減少受試者以特定答題趨勢去回答問題。
優點：用以了解受試者的立場，強迫表態。
缺點：量表的長度較一般量表多出一倍，增加編題者的工作量

檢核表：一種簡化的Likert-type量尺的測量格式。針對某一個測量的對象或特質，列出一組關鍵的形容詞，並要求受測者針對各形容詞的重要性，以2點尺度或多點尺度來進行評估。

排序題：與檢核表一樣，是一種便捷的測量方法，在一般行銷調查中經常被使用來排列消費者的偏好與喜愛度。
排序反應的是順序，無法提供程度強弱大小的詳細資訊，無法將數據轉換成等距變數，無法進行一般常用的線性模式統計

類別勾選題：問卷調查中，經常被使用

測評的防弊機制

測評工作的一大挑戰是，如何讓受測者忠實按照自己的意見、想法與能力水準來作答。特別是人格測驗，最容易受到測驗情境的影響（例如：實施口試或人事甄選情境，或是司法審判中的心理衡鑑工作）而產生社會讚許作答或作假的情形。人格測驗防弊機制，例如使用強迫選擇題型、設置測題、控制作答時間等等。另外作答過程中，發生特殊作答現象，稱為反應心向

反應心向：受試者在填答問卷時，有一種比較固定的作答傾向
傾向於回答特殊的答案：離異反應。
傾向回答同意或不同意：順從心向。
習慣性遺漏填答：作答粗心。
以中間值來描述自己的狀態：中庸傾向。
答案有批判性或攻擊性：批判、攻擊傾向

作假：受試者企圖利用測驗分數操弄他人對自己的看法。
偽善：存心討好，透過好分數已建立他人對自己的良好印象。
偽惡：藉分數造成負面印象，博取他人的注意、同情或幫助，或想表達不滿、報復心態

社會讚(期)許：以社會大眾所歡迎的方式來描述自己的狀態。尤其是自陳測驗，一般受試者會不自覺的採用大眾喜愛或社會認可答案來表現自己。社會讚許性不同於惡意欺騙或撒謊。
自我欺瞞：潛意識歷程，受試者相信自己擁有良善本質的一種自我防衛機制
印象整飾：目的性的意識行為，受測者透過偽裝，使自己呈現出一個好(或壞)的印象。
印象整飾的分數會隨匿名到公開的變化而顯著上升，自我防衛則無此一現象

作假偵測

社會讚許與作假評估，MMPI(明尼蘇達多向人格測驗)，社會讚許量表。說謊量尺：L量尺。防衛量尺：K校正量尺。罕見量尺：F量尺

其他量化評估技術：直接評估測驗量表的題目本身是否受到社會讚許或作假的威脅程度。邊題目時請專家對題目進行評估，以9點量尺來打分數，求平均數，作為題目的社會讚許威脅性。高登人格測驗即應用此一原理編製而成

作答一致性評估：正反向題隨機配置入題中，或同一題目重複隨機放置於量表不同位置，偵測作答是否不一致

其他替代題型的使用：選用較不受影響的測驗題型。例如：非文字測驗、投射測驗、繪圖測驗、語句完成測驗等。採用強迫選擇問句。選用自陳量表進行測量時，非常容易出現導因於工具本身的偏誤，稱為方法效應，也就是因為特定工具的使用，所產生不必要的系統變異或系統誤差的影響

其他防弊機制：1.壓力減低技術：使用適當的指導語，以匿名方式作答，去除填答者的疑慮與壓力。2.受測代理人：透過與受測者熟悉的親朋好友與師長來進行資料蒐集。人力資源管理所使用的360度評鑑技術，即使用多重評估者的策略。3.電腦施測，可利用電腦來記錄作答時間，進而判斷作答品質

建立測驗量表的題庫。題目的選擇與編寫必須符合先前所決定的測量範疇、內涵、符合理論界說。每個題目的內容必須能夠相當程度反應量表題目的構念。要有創意地思考所想要測量的構念內容並編寫出一堆題目