문항반응이론 Item Response Theory

문항반응이론Item Response Theory 2010년 5월 20일 강태훈

문항반응이론 개관일차원 문항반응모형: 이분문항일차원 문항반응모형: 다분문항특수한 경우의 모수 추정 (결측치 존재, 혼합 문항 유형 검사, 일부 문항 모수 고정하는 경우)

Psychometrics 개요 • 측정(measurement) • 정의 • 인간의 특성: 인지적, 정의적, 심동적 • 사회과학에서의 측정: 간접적, 임의적 • 측정 척도: • 측정 vs. 통계 (statistics) • 측정 vs. 평가 (evaluation) • 측정 vs. 총평 (assessment)

역사적 개관 • Spearman (1904): CTT 기본 개념, 요인분석 (g-theory) • Binet & Simon (1916): 문항특성곡선의 개념 • Lawley(1940s): IRT의 출발점 제공 Lawley, D. N. (1943). The application of the maximum likelihood method to factor analysis. British Journal of Psychology33: 172-175. • Lord (1952), Birnbaum(1968): 정규성(normality) 가정 하에서 문항반응이론 개발. Lord & Novick (1968)의 Statistical Theories of Mental Test Scores는 Birnbaum에 의해 집필된 문항반응이론에 관한 네 개의 장 포함.

문항반응이론 (IRT) • 수학적 (혹은 심리측정학적) 모형 • 분석의 단위: 문항 점수

고전검사이론 (CTT) • 분석의 단위: 검사 점수 • CTT의 기본 모형: X=T+e • 가정 : ρTe= 0, σ 2X = σ 2T + σ 2e ρee`= 0 • 신뢰도: ρ XX` = ρ2XT = σ 2T / σ 2X • 측정의 표준오차 (standard error of measurement ; SEM): σe = σ X · (1- ρ XX’ )1/2

IRT vs. CTT • CTT의 제한점 • “group-dependent” and “form-dependent” • 동일한 SEM • 평형 검사 가정 • IRT의 장점 • 상호독립성 (문항모수와 피험자모수) • 문항모수와 피험자 능력모수: 동일 척도에 놓임 • 피험자 능력 모수가 특정 검사를 위해 표집된 문항들이 아니라 전체 문항 전집과 관련되어 정의됨 • DIF, CAT, 검사 동등화 문제 등에 비교적 손쉬운 적용

Unidimensional IRT의 제한점 • 강한 가정으로 인한 적용의 제약 • 많은 수의 피험자 요구 • 인지적 과정에 대한 설명 부재 <문항반응이론의 확장> • 다차원 문항반응모형 (compensatory VS. non-compensatory) • Mixture IRT 모형 • Multilevel IRT • 인지진단모형 등등

The new rules of measurement • Embretson & Reise (2000). Item Response Theory for Psychologists

Calculus for IRT • 미분 공식 • df(x) /dx=f`(x) • dc/dx=0: 상수의 미분 • d{f(x)g(x)}/dx=f`(x)g(x)+f(x)g`(x) • d{f(x)+g(x)}/dx=f`(x)+g`(x) • d{f(g(x))/dx=f`(g(x))g`(x): 연쇄법칙 • 로그 (logex=ln x) 및 지수함수의 미분 • (ln x)`=1/x • (ln f(x))` = f`(x) / f(x), where f(x) > 0 • (ex )`=ex • (ef(x) )`=ef(x)f`(x)

문항반응이론 개관 일차원 문항반응모형: 이분문항(Unidimensional and Dichotomous Item Response Model) 일차원 문항반응모형: 다분문항특수한 경우의 모수 추정

1모수, 2모수, 3모수 IRT 모형 • dichotomous IRT models • 1모수 모형(1PM): 곤란도(β) • 2모수 모형(2PM): 곤란도(β), 변별도(α) • 3모수 모형(3PM): 곤란도(β), 변별도(α),추측도 (c) • 문항모수의 의미 • 문항 곤란도 • 문항 변별도 • 문항 추측도 문항특성곡선 (ICC)

2 모수 Probit 모형 (2PPM) • 검사의 한 문항에 대한 정답 확률을 피험자 능력의 함수로 나타내기 위해 두 가지 접근이 가능 (Probit vs. Logisitc) • Probit 모형은 Lord & Novick(1968)이 IRT를 소개할 때 주로 사용된 개념이기 때문에, 이후 주로 Logisitic 모형을 사용하여 분석을 하게 된 상황 하에서도 영향력을 가짐. 2모수 프로빗 모형

문항 정답 확률: 2PPM의 경우 • Normal Ogive 모형을사용하여 문항반응함수를 표현하면 닫힌 식으로 나타낼 수 없다(즉 적분 기호를 항상 사용). 능력모수와 정답확률의 관계는 누적정규표나 문항특성곡선(item characteristic curve; ICC)로 쉽게 나타낼 수 있다. αi=1.2이고β i=0.6 (2PM)일 때,

2 모수 Logistic 모형 (2PLM) • 2모수 로지스틱

Probit과 Logistic 모형 일치를 위한 교정상수 D • D = 1.702는 로지스틱 모형을 통해 구한 문항 모수를 프로빗 척도 상의값으로 교정하기 위하여 사용된다

Rasch 모형과 1PLM 모형 • Rasch 모형에서는 문항 변별도 모수가 언제나 1이다. • 1모수 모형은 문항 변별도 모수가 모든 문항에서 동일 • 1모수 및 Rasch 모형의 특징 • 검사 총점이 피험자 능력에 대한 충분 통계치 • Specific Objectivity:

3모수 로지스틱 모형 (3PLM) • 그 이름에도 불구하고 엄밀히 말해서 로지스틱 모형이 아니다. 모형 자체를 로짓으로 표현할 수 없기 때문이다. • 추측도 모수의 변화에 따른 ICCs

3모수 모형의 ICC • 변별도 = 1.2, 곤란도 = 0.5, 추측도 = .20

검사특성곡선 (Test Characteristic Curve; TCC) • 비록 문항반응이론이 문항 수준의 분석을 주로 하지만 능력모수와 검사 점수 간의 관계를 보는 것도 가능하다.TCC는 다음과 같은 공식으로 구할 수 있다. • TCC가 그리는 곡선은 각 문항의 모수들에 의해서 결정되므로 ICC처럼 정규누적분포와 같은 형태를 보이지는 않는다. • T값의 의미는 해당 능력 모수에서 기대되는 검사 점수로서 CTT상에서의 진점수와 유사한 의미를 가진다. 달리 말해서, IRT 모형에 의해서 추정된 진점수이다. • n개의 이분 문항이 있을 때 T값의 범위는 0부터 n이 되고, 3모수 모형의 경우에는 Σci부터 n까지이다.

검사특성곡선(TCC)의 예

MLE(2PLM의 경우) • 최대우도추정(Maximum Likelihood Estimation; MLE)에 대한 이해: “문항반응이론 특강 별첨#1” 참고 • 문항모수 α와 β추정은 결국 아래와 같은 우도함수에서 최대값을 나타내는 α(discrimination)와 β(difficulty)를 찾아내는 과정이다.

문항 및 피험자 모수의 추정 • 앞의 MLE를 통해 다음과 같은 상황에서의 문항 및 피험자 모수 추정이 가능하였다. • (모든 문항의 모수를 알고 있는 경우) 한 피험자의 능력모수 추정하기 • (모든 피험자의 능력 모수를 알고 있는 경우) 한 문항의 모수(변별도와 곤란도) 추정하기 • 현실적으로 우리에게 주어지는 데이터는 0/1 이며, 위처럼 어느 한 쪽의 모수들을 알지 못한다. 이 때 우리가 사용할 수 있는 모수 추정 방법은? • 결합최대우도추정법 (문항 및 피험자 모수를 함께 추정) • 조건최대우도추정법(Rasch 모형 하에서 원점수가 능력모수의 충분 추정치임을 이용, 문항 모수 먼저 추정  피험자 모수 추정) • 주변최대우도추정법(능력에 대해서 정규분포 가정, 적분을 이용하여 능력 모수 추정 필요성을 일단 제거, 문항 모수 먼저 추정  피험자 모수 추정)

JMLE, CMLE, & MMLE • 결합최대우도추정 (joint MLE; JMLE): 2PLM의 경우 2n + N 개의 문항 및 피험자 모수를 한꺼번에 추정 • 프로그램: LOGIST (Wingersky, Barton, & Lord, 1982), SYSTAT 등 • 문제점 (1) “Perfect” or “Zero” examinee and item (2) Heywood case (3) 2PLM 과 3PLM의 경우 추정 실패하는 경우 많음 • 조건최대우도추정(conditional MLE; CMLE): 피험자 모수를 추정하는 대신 충분 통계치 사용(sufficient statistic; s=Σiα i u i) • 프로그램: WINMIRA 등 • 오직 Rasch 모형에 사용될 수 있다 • 주변최대우도추정(Marginal MLE; MMLE): 피험자 모수에 대한 분포를 상정하고 이를 적분함으로써 우도함수에서 개개인의 피험자모수를 추정할 필요가 없게 됨 • 프로그램: BILOG, PARSCALE 등 대부분의 상업용 프로그램

IRT 가정 및 그 검증 • Unidimensional IRT (이하 UIRT) 를 위한 두 가정: • 일차원성 가정: 하나의 교육 및 심리검사 결과에 IRT를 적용하기 위해서는 해당 검사가 피험자가 지니고 있는 단 하나의 특성이나 능력(single latent trait or ability)을 측정해야 한다. • 지역독립성 가정: 피험자의 문항 수행에 영향을 미친다고 생각되는 특성이나 능력(들)을 감안하고 나면(once the abilities are taken into account), 검사 내 문항들에 대한 피험자의 반응은 통계적으로 독립이다.  UIRT 하에서 두 가정은 기본적으로 같은 의미를 가지고 있기 때문에 하나가 충족되면 다른 하나도 충족된다 • 가정의 검증: 별첨#2 참조

지역독립성 가정의 의미: n개 문항에 대한 한 피험자의 반응유형(response pattern): 두 개 이상의 능력을 고려한다면 (multidimensional IRT) 단일 능력만 고려한다면 (UIRT) • 일차원성과 지역독립성 외에 문항반응이론의 또 하나의 가정은 문항수행(혹은 문항점수)와 능력 (θ)간의 단조증가성(monotonicity)이다. P(θj) ≥ P(θk) whenever θj ≥θk

문항모수의 추정 (BILOG-MG): • 문항반응이론 특강 별첨#3 “BILOG-MG: 이분문항반응모형에서의 모수 추정” 참고 - 3PLM의 경우 : 20문항 2,000명의 피험자(n=20, N=2000) - 자료 (2000 by 20): Simudata1.dat - BILOG-MG code: Simudata1.BLM

능력 추정의 표준오차 • Conditional Standard Error of Estimation (CSEE): MLE 능력 추정의 오차를 계산할 때 아래에서 보듯이 피험자의 관찰된 반응은 영향을 주지 않는다. 즉 사용되는 모형이 추정의 오차를 결정한다. • 이러한 결정은 자료가 모형에 의해서 잘 설명된다는 (good fit) 가정 하에서 옳다. 하지만! • 때로는 피험자의 반응이 모형이 예상하는 바와 다를 수 있는데(e.g., 쉬운 문항은 틀리고 어려운 문항만 맞히는 경우), 이 경우 능력 추정이 어렵거나 아예 불가능할 수 있다  “Person Fit” Issue (다음 페이지 계속)

문항정보함수의 예 • 앞서 살펴본 5문항의 모수를 가지고 ICC를 그려보자. • 검사정보함수 (Test Information Function) ?

추정의 표준오차와 검사정보함수 • 각 모형에 따른 CSEE와 검사정보함수

문항반응이론 개관 일차원 문항반응모형: 이분문항 일차원 문항반응모형: 다분문항(Unidimensional and Polytomous Item Response Model) 특수한 경우의 모수 추정

다분문항반응이론 (PIRT) • PIRT Model은 검사 문항이 맞고(1) 틀리고(0)의 이분형이 아니라 (0,1,2,3) 혹은 (1,2,3,4,5) 등과 같이 다분적으로(polytomously) 채점되었을 때 사용된다. • 가장 흔하게 사용되는 모형 • Samejima (1969): Graded Response Model (GRM) • Muraki (1992): Generalized Partial Credit Model (GPCM) • Master (1982): Partial Credit Model (PCM) • Adnrich (1978): Rating Scale Model (RSM) • 정의적 특성 검사 자료를 위한 모형 • Robert, et al. (2000): Generalized Graded Unfolding Model (GGUM) • Cumulative Mechanisms VS. Unfolding Mechanisms

GRM (Samejima, 1969) • 2PLM 모형을 기반으로 문항점수(e.g., x=1,2,3,4,5) 중에서 x보다 큰 점수를 얻을 확률을 모형화한다. 경계특성곡선 (boundary characteristic curves)

GPCM (Muraki, 1992) • 모형: where α is the discrimination of item i, β denotes the difficulty of item i, and τ represents the location parameter for a category on item i. • PCM: • RSM:

What is “Logistic”, really? • 다분 문항 반응에 대하여 이를 모형화 한다는 것은 결국 한 문항 점수(혹은 범주)가 주어진 능력 수준에서 획득될(혹은 선택될) 확률을 수학적 모형으로 나타내는 것이다. • 이를 위해서는 PIRT에서 쓰이는 로짓 혹은 로지스틱의 의미를 명확히 이해할 필요가 있다. • 별첨#4“IRT에서로짓 혹은 로지스틱의 의미” 참조

GRM의 모수 추정 • 별첨#5: “MULTILOG와 PARSCALE을 이용한등급반응모형 (Graded Response Model; GRM) 문항 및 피험자 모수 추정” 참고 GPCM, PCM, RSM의 모수 추정 • 별첨#5: “PARSCALE을 이용한일반화부분점수모형(Generalized Partial Credit Model; GPCM) 및 하위 모형의문항 및 피험자 모수 추정” 참고

문항반응이론 개관 일차원 문항반응모형: 이분문항 일차원 문항반응모형: 다분문항 특수한 경우의 모수 추정 (결측치 존재, 혼합 문항 유형 검사, 일부 문항 모수 고정하는 경우)

특수한 경우의 모수 추정: 결측치가 존재하는 경우 • 결측치 (missing value)에 관한 일반론 • 결측치의 종류 • MCAR (missing completely at random): Pr(r | yo, ym) = Pr(r) • MAR (missing at random): Pr(r | yo, ym) = Pr(r | yo) • MNAR (missing not at random): Pr(r | yo, ym) • MCAR과 MAR은 어느 정도 구분할 수 있지만, 사실 MAR과 MNAR을 실제로 구별하기는 어렵다.

결측치 처리 방법: No Panasea!! • Complete Case Analysis (완전제거법; list-wise deletion): 결측 비율이 낮거나 MCAR인 경우 OK. 그러나 결측률이 높을 경우 큰 정보의 손실(비효율성, 통계적 검정력 감소)과 모수 추정치가 왜곡(bias)될 수 있다는 문제가 있다. • 자료대체방법(imputation): MCAR 혹은 MAR 이라는 가정하에서 • Mean value imputation: 해당 변수의 평균값으로 대체 • Exact match imputation: 다른 외부 자료 값으로 대체 • Hot-deck imputation: 동일한 특성의 피험자 값 중 무작위로 선택하여 대체 • Regression imputation • Multiple imputation • 기타 등등

모수추정의 실제 (with missing values) • 교육 및 심리 검사 내의 모든 문항이 모든 피험자에게 응답되는 경우(data with no missing)는 드물다. Missing(s) 발생 원인? • 피험자가 정답을 몰라 아예 답을 표기하지 않음 • 피험자의 부주의 • 속도 검사 • 입력 상의 부주의 • 연구자의 필요에 따른 결과 • IRT의 문항 및 피험자 모수 추정에서 결측치에 대한 처리 • 오답 처리: “omitted” 즉 피험자 정답을 모르기 때문에 응답하지 않았다고 가정 (시험 중간 중간 부분에 답하지 않은 경우) • 결측치로 인정: “not presented” 즉 피험자가 정답을 모르기 때문에 응답하지 않은 것이 아니라 뭔가 다른 이유로 결측치가 되었다고 가정 • imputation이 가능하나 이는 보통 IRT S/W에서 제공되는 처리 방법은 아니며 연구자의 판단에 따라 SPSS, SAS 등의 다른 프로그램 사용 가능

특수한 경우의 모수추정 실제 I • 자료에 결측치가 존재하는 경우 • BILOG-MG: MISSING.BLM

특수한 경우의 모수추정 실제 II • Mixed-Item Format Tests (한 검사 내에 두 가지 이상의 문항 유형이 존재하는 경우): 문항에 따라 다른 모형 사용 가능 • PARSCALE: MATH.PSL

특수한 경우의 모수추정 실제 III • 일부 문항의 모수를 이미 알려진 값으로 고정하고 나머지 문항의 모수와 피험자 능력 모수를 추정하는 경우 • Fixed Item Parameter Calibration: • indeterminacy problem의 해결을 위한 θ~N(0,1)이 사용되어서는 안 됨  FREE=(NOADJUST, NOADJUST), • 각 MMLE/EM 단계에서 피험자 능력 분포가 update되어야 함 (즉, 전 단계를 통해 새로 계산된 사후분포가 사용됨)  > CALIB POSTERIOR

IRT의 응용 분야:각종검사의 문항은행 관리 피험자 능력 추정자격시험의 합격여부 결정 차별적 기능문항 (DIF) 추출컴퓨터화 검사 (CBT, CAT)검사 동등화 (Test Equating)

Thank you!!홈페이지: http://irt.com.ne.kr Email: taehoonkang@gmail.com 성신여자대학교 교육학과 강태훈

문항반응이론 Item Response Theory

문항반응이론 Item Response Theory

Presentation Transcript

Techniques for Explaining Item Response Theory to Stakeholder

Carl Perkins Carpe per diem! Allowables , Unallowables and Finance FAQ’s

Getting More from your Data

Electronic Annual Review Files

Item Analysis: Classical and Beyond

Reader Response Theory

Item gennemgang

Common Formative Assessments

Item Banking

Week 4 Video 4

Control Theory

Item Exemplars: Technology Enhanced and C onstructed Response

Management Response NCAS/NASA Audit 106 4/6/2010–4/8/2010

Module 10: Creating Traditional Constructed-Response Assessment Items

Reader-Response Theory

Scaling of the Cognitive Data and Use of Student Performance Estimates

A Practitioner’s Introduction to Equating

Application of Item Response Theory to PRO Development

Traitement néo(adjuvant) du cancer de l’œsophage

Link between Multilevel Modeling and Item Response Modeling: Multilevel Measurement Modeling

ITEM RESPONSE THEORY

報告人：潘輝銘