第四章正式評量應具備的測驗認知

第四章正式評量應具備的測驗認知 第一節效度

效度（validity） • 乃是評量工具的成效，是測驗最為重要的技術性特色。基本上效度是關心「測驗所欲測量的內容到底有多好？」或「測驗能測量到所欲測量的範圍嗎？」。 • 在探討評量工具上包括下列三種主要的測驗效度型式：

一.內容效度 • 「內容效度」（content validity）係指測驗正確地測量行為樣本的範圍。 • 擁有良好內容效度的測驗，包括範圍或學習領域上具有代表性的行為樣本。

至於建立內容效度可以包括下列幾項步驟： • 步驟一：依據完整的內容領域評論來發展測驗細目 • 步驟二：編製測驗項目以求符合測驗項目 • 步驟三：針對仔細選擇的一組對象進行預試 • 步驟四：根據預試結果來修正測驗項目] • 步驟五：編製成最後的測驗

表面效度 • 是一種非技術性的效度型式，包括快速評論測驗以決定其在表面上是否有效的程度。 • 現金效度關心的是商業性測驗的銷售量。

二.效標關聯效度 • 「效標關聯效度」（criterion-related validity）係指個人在某測驗的分數與一項標準測量的關聯（通常是個人在另一項測驗上的分數） • 此種比較所產生的相關係數稱為效度係數。它們的範圍由-1.00（完全負相關）至1.00（完全正相關）。

「效標關聯效度」 • 包含「預測效度」--測量測驗在預測未來成就表現上的成效和 • 「同時效度」--測驗與另一可供比較的測驗或其他已具有效度測量的相關。

三.構念效度 • 「構念效度」（construct validity）要比其他型式的信度更為抽象，它是指測驗測量理論性構念或概念多好的程度。 • 智力、自我概念、粗大動作能力和推理能力是幾種難以界定和測量的抽象構念。

通常 • 構念效度的建立包括仔細的鑑定和界定構念，然後引出和驗證有關構念的測驗成就表現的假設。

由於建立構念效度 • 需要較長的歷程，大多數測驗很少提供此種效度型式的資料。除多數非正式測驗外，都提供有關兩種其他效度型式（內容和效標關聯）的資料。

使一種測驗有效的歷程 • 是無法與決定測驗信度的歷程分開來的 • 事實上，這兩種測驗概念之間存在令人驚訝的關係可以是可靠但是沒有效度的，但是不可能有效度卻沒有信度。

第二節信度 • 「信度」（reliability）乃是評量工具的必要技術性品質，它是指測驗分數和其它學生能力和行為的正確性與一致性。

表示信度統計的是 • 信度係數（reliability coefficient, r），它包括由0至1的數值。r =0表示完全無信度可言，而r =1則代表完美的信度。

一.重測信度 • 「重測信度」（test-retest reliability ）乃是一種估計正確性的歷程，包括針對仔細選擇的一組對象施予兩次測驗，並使用所得分數來計算信度係數，以描述這兩組分數間的一致性。

二.複本信度 • 「複本信度」（alternate-form reliability）又稱為等量信度（equivalent-form reliability），也可稱作互替形式97的108信度，它是一種比較同一測驗兩種型式的分數，來估計其正確性的過程。

三.折半信度 • 「折半信度」（split-half reliability）是一種決定正確性的程序，包括同一測驗兩個部分的相關。 • 也就是說，將測驗項目分成兩半，並比較這兩半測驗項目的相關係數。

測量標準誤 • （stardard error of measurement, SEM）代表企圖說明可能的變異性或測驗計分和解釋上所涉及的錯誤。測驗的信度愈大，SEM就會愈小。

四.評分者間信度 • 「評分者間信度」（inter-rater reliability）通常是指觀察者間信度（inter-observer reliability），有時又稱為計分者間信度（Interscorer reliability）。 • 它關心測驗如何計分一致或由兩位評分者者評定行為。

第三節常模 • 測驗常模是由常模組上的受試分數所發展出來的一組分數，是用來解釋測驗分數的依據。任何測驗的原始分數，若無法對照常模就難以看出其意義來。

常模型式有多種 • 包括全國性常模、地區性常模、特殊團體常模及學校平均數常模等。 • 常模參照測驗的可信度取決於常模的可靠性。如果常模具有代表性，就可以產生有效的比較。反之，就會發生無效的比較。

在評鑑常模的效度上 • Sattler（1992）曾確定了三種要素：（1）代表性：包括年齡、年級水準、性別、地理區域和社經地位等特性。（2）大小：是指常模組上的受試數目（至少包括每各年齡或年級100名受試者）；（3）適切性：則包括關心常模的可用性。

一.常模參照與標準參照測驗 • 常模參照測驗（norm-referenced testing, NRT）與標準參照測驗（criterion -referenced testing, CRT）代表著兩種基本上不同解釋成就表現的方法。

NRT • 包括相較於他人的成就表現（常模組或對照組）來解釋學生的成就表現。

至於CRT • 是指依據某些功能性水準或標準來解釋學生的成就表現。它與教學和測量學生小且各自獨立的知識單元有密切相關。

在心理與教育評量中較為常用的常模有： • （一）年齡常模（age norm）年齡常模是依據各個不同年齡而建立的標準化樣本，這可由個體在不同年齡層正確回應測驗項目的百分比來加以決定。

（二）年級常模（grade norm） • 年級常模是依據各個不同年級而建立的標準化樣本，在測驗上所得的平均數而建立。

（三）百分等級常模（percentile rank norm） • 百分等級是一種相對地位量數，它是指落在個人原始分數下面分數（標準化樣本所決定的）百分比的指標。

（四）標準分數常模（standsrd score norm） • 標準分數常模乃是將原始分數用相同的平均數與標準差加以轉換得來的，用來表示個人的分數落在平均數之上或之下的距離。

標準分數常模 • 最為常見的有下列三種：（1）Z分數；（2）T分數；（3）離差智商。

二.標準化 • 標準化是指建構測驗材料、實施步驟、計分方法及測驗結果解釋的技巧。 • 標準化使鑑定和評量人員在控制的情況下，實施、計分和解釋測驗的可能性，以降低無法預測的結果。

第四節實用性 • 實用測量概念著重評量工具的應用性和功能性特色。

第五節其他有關測驗的認知 • 一.測驗結果的影響因素（一）受試者方面1.焦慮與動機2.健康和情緒狀況3.障礙類型4.練習效果

（二）主試者或主受試者間的互動方面 • 1.主試者的偏見2.主試者的文化和語言3.測驗實施和解釋上的差異4.計分錯誤

（三）測驗本身方面 • 1.測驗的基礎和天花板效應2.可能的測驗偏見Reschly（1980）曾指出這些偏見分別是「平均-差異偏見」、「項目偏見」、「心理計量偏見」及「因素分析偏見」。

二.測驗分數的解釋 • （一）側面圖的分析一旦測驗使用者想直接比較個人在各項測驗分數的高低時，分析側面圖將會是一種良好的選擇。

凡是一種測驗 • 包括有若干分測驗的，均適合運用這種方法來解釋測驗分數，例如魏氏兒童智力量表（WISC-III）、視覺動作統整發展測驗（VMI）或行為與情意評量表（BERS）等。

近年來傾向於 • 採用區間形式（interval form）來解釋側面圖，也就是將原始分數上下各加減一個標準誤，然後根據常模對照表將其轉化為各種衍生分數。

（二）解釋測驗分數的基本原則 • 下面所列舉的是一些解釋測驗分數的基本原則（如表4-9），可作為解釋分數的參考。測驗使用者若能嚴格遵守，將可大大減少測驗分數解釋的謬誤及誤用的情形。

第四章 正式評量應具備的測驗認知