傳統試題和 IRT 試題分析的方法國家教育研究院籌備處測評組 cheng@naer.tw 曾建銘

傳統試題和 IRT試題分析的方法國家教育研究院籌備處測評組cheng@naer.edu.tw曾建銘

傳統試題和 IRT試題分析的方法 • 傳統試題分析的方法 • IRT試題分析的方法 • 試題分析的解釋

試題分析（item analysis） 一、前言二、試題分析功能三、測驗試題分析

一、前言 • 信度與效度是測驗二項的重要特徵，二項特徵均須視試題品質優劣而定，而試題品質則可藉由試題分析而提高。

前言試題分析包括：（1）依試題內容與形式做品質分析（2）依試題統計特性做量化分析。

品質分析 • 可由試題的內容審查、有效命題原則、教學目標進行邏輯的分析，即可達到目的。

量化分析 • 量化的目的主要在分析每題試題所具備三大統計特徵：難度、鑑別度、誘答力。於考試完後做試題的分析，以便將內容效度適切的、鑑別力高的與難度適中的題目保留下來以建立題庫。

二、試題分析功能 （一）提供回饋給學生，作為學生改進學習方法的參考。（二）提供回饋給教師，作為實施補救教學的依據。（三）提供改進課程建議的依據。（四）增強教師編製測驗的技巧。（五）增進測驗題庫運用的效能。（六）可縮短測驗長度，節省測驗時間，提高信度與效度。

三、測驗試題分析 常模參照測驗試題分析分為三種分析：（1）難度（2）鑑別力（3）誘答力。

三、測驗試題分析 • 試題量的分析步驟 • 難度分析 • 鑑別力分析 • 難度與鑑別力的關係 • 選擇題選項誘答力分析 • 效標參照測驗試題分析

試題量的分析步驟 • 根據原始分數的高低依序排列。 • 從最高分往下取總人數的25%~33%為高分組再從最低分往上取總人數的25%~33%為低分組。(註一) • 分別計算高分組與低分組在每一道題答對人數與百分比。 • 計算每題的難度指數。 • 計算每題的鑑別指數。 • 檢查每一題所列選項回答人數以確定誘答力。

註一： Kelley(1939)─當測驗分數是常態分配時，以27%分組試題的鑑別力最可靠。 ◎當百分比低於27%時可靠性較低，而百分比太大時，會影響題目的鑑別作用。 ◎對教師而言，合理的分組百分比可在25%到33%之間。

難度分析 • 通過百分比分析 • 等距量尺分析 • 試題難度與測驗分數的分配

通過百分比分析 計算全體受試者答對每題的人數百分比，這百分比稱為難度指數。如下：【公式1】 P = R / N P：難度指數 R：答對的人數 N：總人數優點：簡單易行。缺點：無法顯示試題區別功能，到底是高分組答對較多或低分組。

通過百分比分析 【公式2】 P = P H＋ P L / 2 P ：難度指數 P H：高分組答對的人數 P L：低分組答對的人數優點：（1）答對百分比表示難度，其數值愈大，題目愈簡單。（2）使用次序量尺，可以指出題目的等級順序或相對難度。缺點：（1）無法指出各難度間差異大小。（2）單位不相等，即P1－P2≠P2－P3

難度分析 • 採用等距量尺分析 △=13+4z △：難度 z：σ值

難度公式的比較

試題難度與測驗分數的分配 難度P值→0 ≤ P ≤1 （1）P ＝0.5（難度適中），分配型態為常態分配。（2）0.3 ≤P ≤0.7（難度適當）（3）P ＞0.7（試題較易），分配型態為負偏分配。（4）P ＜0.3（試題較難），分配型態為正偏分配。

鑑別力分析 鑑別力分析的目的在於確定題目是否具有區分高下的作用。依分析時所依據的標準可有兩種方式 • 內部一致性分析 • 外在效度分析

內部一致性分析 內部一致性分析旨在瞭解各個試題的功能是否和整個測驗的功能相符合一致。公式如下： D＝P H－ P L D ：鑑別力指數 P H：高分組答對的百分比 P L：低分組答對的百分比

內部一致性分析 （1）-1≤ D ≤1 D ＝0，無鑑別度。試題太簡單，高分組與低分組學生全部答對（P H－ P L＝ 0）。試題太困難，高分組與低分組學生全部答錯（P H－ P L＝ 0）。（2）D ＝+ 1，高分組學生全部答對，低分組學生全部答錯。（P H＝1， P L＝ 0）。（3）D ＝－1，低分組學生全部答對，高分組學生全部答錯。（P H＝0， P L＝ 1）。

內部一致性分析 美國學者伊博（1979）的評鑑標準

外在效度分析 • 外在效度分析旨在檢驗題目是否具有預定的某種鑑別作用（簡茂發，民67）。 • 分析學生在試題上的反應與在效標上表現之間的關係，目的在試題反應與測驗的外在效度變得最大，用來增強效標關聯效度。 • 根據學生在某題試題的反應答對或答錯與測驗總分相關係數，此一相關係數即用來表示試題鑑別度指標。其常用的方法有：點二系列相關、二系列相關。

難度與鑑別力的關係 • 題目難度適中，P=0.5時，鑑別指數最大D＝1；P=1或0時，鑑別指數最大D＝0，當試題平均鑑別力愈高時，測驗的信度愈高。 • 選擇題目時，除了顧及難度與鑑別度外，亦應考量選出試題之分配比例是否和雙向細目表符合一致。

運用試題分析的數據資料

選擇題選項誘答力分析 • 分析選擇題是否具誘答性，只要分析高低組學生在每個學生在每個試題選答的次數分配，加以判斷即可。 • 國內郭生玉教授提出判斷原則：（1）每一錯誤選項至少有一低分組學生選擇。（2）選擇錯誤選項的低分組學生應比高分組學生還高。

選目的有效性分析-試題的選目分析 • 此題的選目均屬於合理有效。

選目的有效性分析-試題的選目分析 • 選目B沒有誘答力→修改 • 選目D可能意義不清、有2個正確答案或受試者作答不小心→修改

選目的有效性分析-試題的選目分析 • 選目A和C在正確性不夠清楚→修改使之只有一個正確答案或最佳答案。 • 每個選項的選答都非常接近，對低分組都有誘答力，可能是低分組缺乏知識所致。

選目的有效性分析-試題的選目分析 • 高分組選答各個選項的次數都很接近，顯受試者可能盲目的猜測→檢討或修改。

選目的有效性分析-試題的選目分析 • 高分組選答正確答案的次數反而比低分組少，顯示此題為反向題→檢討原因加以修正或淘汰不用。

選目的有效性分析-試題的選目分析 • 題目的選項分析顯示不合理而須要修改，但是在修改前應仔細研究是否是題目本身的缺陷或學生反應上的錯誤所致。

試題選擇的標準 • 先做試題分析 • 評鑑試題優劣(考慮難度、鑑別力) • 考慮選出試題的比例是否與雙向細目表一致 • 試題編排增加受試者做測驗動機 → 少數較易題目放前面使能力高者感到具有挑戰性 → 選幾題較難的 ◎全測驗的試題宜力求0.50的平均難度

效標參照測驗的試題分析 效標參照測驗所使用的試題通常會比常模參照測驗所使用者容易些，因為教師多半期望大多數的學生在測驗上都有良好的表現，獲得好成績，教師若仍沿用常模參照測驗的試題分析方法，則高分組與低分組學生在試題上的答對百分比值都會接近1，而鑑別度指標值趨近於0。由此可見效標參照的試題分析方法異於常模參照使用的試題分析分法，方能避免試題分析產生無法解釋的效果。

試題難度 一般來說，效標參照測驗難度指標分析是沒有必要進行的，因為它的測驗目的不同於常模參照所致。常模參照測驗中，測驗的目的是在區分學生成就的高低，因此教師所期望的最佳難度指標是.50左右最好。效標參照測驗試題的難度指標，應和教學前預設定的通過標準(精熟標準一致)。例如，假設以80%的試題答對率或通過分數為精熟標準時，則理想的難度指標應訂為.80左右，教師可不必參考常模參照測驗的試題選擇標準，而是依據教材內容和實際教學情況，做為判斷精熟標準或難度指標。

教學敏感度指標 • Cox和Vargas(1996)提出了一種同一組受測者在教學前進行前測和教學後進行後測的方法D=P後-P前 • -1.00 ≦ D ≦ 1.00 • 正常教學前後指標值大約是介於.10到.60之間 D接近0，代表該試題的鑑別度指標越低，不能反映出預期的教學效果 D接近1，代表該試題的鑑別度指標越高，對教學效果的敏感度越大，代表該試題的品質越佳 反映出命題很成功 D是負值，代表該試題是個反向作用題，反映出教學效果是有問題的，代表該試題品質極不良 應予淘汰

標準參照測驗試題的鑑別力分析 • 精熟組與非精熟組的差異： • D＝PP－Pf D ：鑑別力指數 PP：精熟組的答對比率 Pf：非精熟組的答對比率 ※題目難度會影響鑑別力，且標準參照測驗是預期多數學生能精熟內容，故鑑別力將比常模參照的低。

標準參照測驗試題的難度分析 • 前面的難度分析方法可用於標準參照測驗。不過，解釋上和常模參照測驗不同： 1.希望學生在教學後能精熟教材，故教學有效時，多數題目的難度指數（通過百分比）均很大。（難度指數反映的教學品質多於題目的品質）。 2.標準參照測驗的難度應和事先設定的相同，例如：以85％為精熟標準時，理想的難度指數應訂在0.85左右。

教學敏感度分析

現代測驗理論 • 現代測驗理論的特點：就是以概率表示受試能力與項目的關係。其中P（θ）表示能力θ的受試答對某試題的機率P。

IRT試題分析參數 • 試題特徵曲線 • 難度參數 • 鑑別力參數 • 猜測參數 • 試題訊息函數

試題特徵曲線（item characteristic curve，ICC） • P（θ）就是試題反應函數，將試題反應函數用平面座標圖表示出來即稱為試題特徵曲線。

試題特徵曲線說明 • 座標的縱軸是答對機率，P（θ），也就是具某能力θ的受試答對某題的機率。 • 機率介於0.00至1.00之間。 • 橫軸代表能力或潛在特質。 • 潛在特質為一連續體，由左而右表最低的無限小－∞至最高的無限大＋∞。如圖一

常態肩形ICC • 最理想的試題特徵曲線就是常態肩形，多一點能力就增加一些答對機率。如S形常態分配累積次數曲線，左下方與右上方都無法真正達到0.00或1.00。如圖一

難度參數 • 難度參數就是能力量尺θ上的落點，又稱落點參數。ICC的起點靠近左側表示題目較容易，反之靠近右側題目較困難。

難度參數的意義 • 難度參數又稱b參數，以決定一個題目在潛在特質連續體的位置。題目愈難，所需的能力愈高，ICC越偏右，一般能力的受試者答對機率較低，反之，題目越容易，所需能力越低，ICC越偏左，一般能力的受試者答對該題的機率也會較高。

難度參數、能力與機率的關係 要分析難度參數、能力與機率的關係，最容易的比較方法就是能力減難度θ－b，因b參數與能力量尺θ性質一樣，故可相減。當θ－b＝0或θ＝b時，答對機率 P（θ）＝0.5，也就是能力與難度相等時，答對機率為一半。當θ＞b時，答對機率超過一半。當θ＜b時，答對機率低於一半。圖四表示能力、難度與機率三者的關係。

回上頁

傳統試題和 IRT 試題分析的方法國家教育研究院籌備處測評組 cheng@naer.tw 曾建銘