310 likes | 453 Vues
사업체조사에서의 선택적 에디팅 ( Selective Editing ) . 발표자 : 이기재 ( 한국방송통신대학교 정보통계학과 교수 ) 박현아 ( 서울대학교 통계학과 Post Dr.). 1. 5. 데이터 에디팅 ( Data Editing) 의 정의. 선택적 에디팅 적용 과정. 2. 6. 데이터 오류 및 결측치. 선택적 에디팅 적용 사례. 3. 데이터 에디팅의 분류. 4. 선택적 에디 팅 (Selective editing) . Contents.
E N D
사업체조사에서의 선택적 에디팅( Selective Editing ) 발표자 : 이기재 (한국방송통신대학교 정보통계학과 교수) 박현아(서울대학교 통계학과 Post Dr.)
1 5 데이터 에디팅(Data Editing)의 정의 선택적 에디팅 적용 과정 2 6 데이터 오류 및 결측치 선택적 에디팅 적용 사례 3 데이터 에디팅의분류 4 선택적 에디팅(Selective editing) Contents
1. 데이터 에디팅(Data Editing) (1) • 정의 • 통계 자료를 산출하는 일련의 과정 중 데이터를 수집하고 처리하는 단계에서 오류 및 결측치를 찾아내고(탐색) 이를 수정하는 작업(Granquist,1995) • 데이터 에디팅 시점 • 전통적인 면접조사에서는 응답이 완료된 조사표를 자료 입력(코딩) 후 데이터 에디팅을 실시함 • CATI(Computer Assisted Telephone Interviewing)과 CAPI(Computer Assisted Personal Interviewing)의경우에서는 조사표 입력, 코딩과 데이터 에디팅이 동시에 이루어 짐
1. 데이터 에디팅(Data Editing) (2) • 장점 • 데이터의 정확성 향상 : 응답오차와 처리오차 제거, 무응답 편향 줄임 • 자료가 활용될 때 자료의 일관성을 향상시킴 • 단점 • 통계 공표를 지연시켜 시의성 저하 • 과대한 비용과 시간 : 데이터 에디팅 비용이 전체 조사 비용에서 20-40%를 차지함(Granquist & Kovar(1997)) • 지나친 개입으로 새로운 오류와 불확실성이 자료에 포함될 수 있음
데이터 오류 및 결측치(1) • 체계적인 오류(Systematic error) • 특정 항목에 대하여 모든 레코드에서 일관되게 나타나는 오류 • 랜덤 오류를 탐색하기 전에 탐색되고 처리됨 • 예 : 단위측정오류, 컴퓨터 시스템 오류,부호화 오류, 용어 이해 불충분으로 인한 오류, 코딩오류 • 랜덤오류(Random error) • 체계적인 이유가 아닌 우연히 발생하는 오류
데이터 오류 및 결측치(2) • 결측값(Missing data) • 일반 결측값과 구조적 결측값의 구별 : 구조적 결측값이란 여과 질문에 의한 결측을 말함 • 단위무응답(Unit nonresponse)와 항목무응답(Item nonresponse) : 각각 조사자의 무응답과 몇 개의 항목 무응답을의미 • 응답자료만을 이용한 추정은 편향이 발생함 • 처리방안 : 가중치 조정이나 무응답 대체법 이용
자료의 오류 및 결측치(3) • 특이치 (Outlier) • 집계나 추정치에 영향을 크게 미치는 값 • 표본조사 값과 설계가중치의 영향력으로 발생 • 대다수의 자료와 멀리 떨어진 관측치를 특이치(Outlier)라 하며 영향력 관측치와 거의 같은 개념 • 탐색 방안 : 범위 탐색, 울타리 방법, 상자그림, 로버스트 탐색, 거리 탐색(Mahalanobis거리) • 처리 방안 : 재조사, 제거 후 대체, 값조정(Winsorization), 가중치 조정(Down weighting), 값과 가중치 조정, 로버스트(Robust)한 추정
데이터 에디팅의 분류 (1) • 사람 개입 여부에 따른 분류 • 수작업 에디팅(Manual editing) (Bethlehem(2009)) • 수동으로 자료오류를 탐색하고 탐색된 자료 오류를 수동으로 처리함 • 데이터 상의 오류를 처리하는 데 한계가 있음 • 쌍방향 에디팅(Interactive editing) • 자료 획득 후 오류 탐색 및 처리를 사람이 컴퓨터의 도움을 받아 진행함 (예: Blaise, CSPro등) • 충분한 보조정보와 재조사가 가능할 때 효과적임 • 많은 비용과 시간이 필요 • 재조사에 의한 편향발생 및 새로운 오류 개입
데이터 에디팅의 분류 (2) • 사람 개입 여부에 따른 분류 • 자동 에디팅(Automated editing) (Bethlehem, 2009) • 컴퓨터 프로그램을 이용하여 저장된 자료의 오류를 탐색하고 처리하는 방법. • 편집규칙을 프로그램으로 만들어 오류 탐색,처리 • Fellegi-Holt(1976)방법 : 컴퓨터 발전과 더불어 데이터 에디팅의 이론적 체계화 시도 • 편집규칙의 예 : IF-THEN-ELSE의 구조 사용, 예)나이가 어리면 미혼으로 수정하는 프로그램 IF Age<15 THEN Marstat=Unmarried
데이터 에디팅의 종류 (1) • 마이크로 에디팅(Micro editing) • 개별 조사단위에 대하여 적용되는 데이터 편집 방법 :입력 데이터 편집(Input data editing) • Data capture와추정 단계에서 적용 가능 • 수작업과 자동화(컴퓨터 이용) 과정을 통해 이루어짐 • 종류 : validityedits, logical edits, consistency edits, range edits 등 • 조사오류값을 찾아 수정하거나 결측치 처리 후 대체 • 개별 조사단위의 상대적 중요도에대한 고려 없이 진행됨. • “Over-editing”의 문제 발생 가능성 • 선택적 에디팅(selective editing) 방법 적용
데이터 에디팅의 종류 (2) • 매크로 에디팅(Macro editing) • 주로추정단계에서 적용됨. 출력 데이터 편집(Output data editing) • 마이크로 에디팅 단계에서 누락된 데이터 오류를 찾아 수정함 • 추정결과에 중대한 영향을 미치는 특이치(outlier)를찾아 처리하게 됨 • 특이치 검출 방안 • Aggregation method(Granquist, 1997): 추정량의 값을 구해서 문제가 되는 레코드를 찾아내어 수정하는 방법(현재 자료 또는 과거 자료와 같이 비교하여 특이치 검출) • Distribution method(자료의 분포 이용 방법): 탐색적 자료분석 (EDA) 방법, 상자그림, 히스토그램과 산점도 등을 사용함
선택적 에디팅(Selective editing) (1) • 선택적 에디팅 • Significance editing라고도 함 • 전통적인 마이크로 에디팅은 각 조사단위에 대해 똑같은 처리 강도로 진행됨 • 개별적 에디팅의 수와 비용을 최소화하기 위해 영향이 큰 조사단위를 선별하여 수행하고자 함 • 영향력이 큰 의심 조사단위에 대해서 재접촉(recontact)과 추적조사(follow-up)가실시됨. • 영향력이 크지 않은 경우는 에디팅을 적용하지 않거나, 자동화 에디팅을 적용함
선택적 에디팅(Selective editing) (2) • 선택적 에디팅(계속) • 각조사단위에 대해 score값을 구하여 우선 순위를 결정함 • 영국, 호주, 네덜란드, 스웨덴, 미국 등의 국가통계 작성 기관에서 사용함 • 특히 사업체조사에서 중요한 역할을 함 • 스웨덴 통계청은 SELEKT 1.1을 개발하여 사용하고 있음 (Norberg, A. et al. (2011))
선택적 에디팅(Selective editing) (3) A procedure which targets only some of the micro data variables or records for review by prioritizing the manual work (Norberg et al, 2010).
선택적 에디팅의 적용 (1) • Hooper, Lewis & Dobbins (2010)에 기초함 1. 중요변수(key variables)와 추정영역(Domain) 결정 • 고용형태별근로실태조사 - 중요변수 : 임금총액, 상여금 제외 임금총액, 근로시간 등 - 추정영역 : 산업중분류*사업체 규모 • 사업체노동력조사 - 중요변수 : 현원, 입직자수, 이직자수, 빈일자리수 등 - 추정영역 : 산업중분류*사업체 규모
선택적 에디팅의 적용 (2) 2. Item(local) and unit(global) score 함수 • 각 조사단위에서 각 중요변수에 대한 score 계산 - : 설계가중치, : 에디팅 전의 조사값, : predicted value, : 변수 j의추정영역 d의 전시점 추정값
선택적 에디팅의 적용 (3) <참고> Item(local) score 함수의의미 • 각 조사단위에서 각 중요변수에 대한 score 계산 Risk component Influence component
선택적 에디팅의 적용 (4) <참고> Item(local) score 함수 • 각 조사단위에서 각 중요변수에 대한 score 계산 - : 직전 조사시점의 조사값을 활용하거나 활용할 수 없는 경우는 register value 또는 imputedvalue를이용함
선택적 에디팅의 적용 (5) Unit(Global) score 함수 • 각 unit에서 각 중요변수에 대한 score 값을 unit(조사단위) score로 전환 • Unit score 함수의예 - , • - 대개 SUM이나 MAX 함수를 주로 이용함
선택적 에디팅의 적용 (6) <참고> Unit(Global) score 함수 • Unit score는 Minkowskimetric으로 표현 가능 • Unit score 함수의예 - ,
선택적 에디팅의 적용 (7) 3. Threshold(Cut-off value) 결정 (1) • 주요 데이터 질에 대한 지표 - Relative Bias(RB) - Absolute Relative Bias(ARB) - Savings • 영국 통계청의 Monthly Business Survey에서는 ARB가 1%이하가 되도록 모의실험을 통해서 threshold 결정
선택적 에디팅의 적용 (8) 3. Threshold(Cut-off value) 결정 (2) • Threshold 결정을위해서는 raw, unedited data set와해당데이터에 대한 clean, edited data가 함께 필요함 모의실험을 통해서 결정하게 됨 • 과거 데이터가 없는 경우에는 모형기반의 결정법 이용하게 됨. Lawrence and McKenzie(2000) • 실무적으로는 각 조사단위에 대해서 unit score를 계산하여 에디팅의 우선순위를 결정하고 예산과 시간이 허락하는 범위에서 진행할 수 있음
선택적 에디팅 적용 예시 (1) • 사업체노동력조사(고용현황 부분) • 2010년 5월, 6월 사업체노동력조사 결과 이용 • 중요변수 • - 현원, 입직자수, 이직자수, 빈일자리수 • 추정 영역(domain) • - 산업 중분류*사업체 규모 • - 산업중분류 : 26(전자제품, 컴퓨터, 영상, 음향, • 및 통신기기), 47(소매업), 56(음식점업) 등
선택적 에디팅 적용 예시 (2) • 각 조사단위에서 4개 변수에 대해서 item score 계산 • - • -: 전월의조사값 활용
선택적 에디팅의 적용 예시 (3) • Unit(Global) score 함수 계산 • 각 unit에서 각 중요변수에 대한 score 값을 unit(조사단위) score로 전환 ,
선택적 에디팅의 적용 예시(4) • item1, item2, item3, item4 : 4개 주요 변수에 대한 item score 값 • unit_sc1, unit_sc2, unit_sc3 : unit score를 구하는 3가지 방법 • 순위1, 순위2, 순위3 : 3가지 unit score에 대한 순위
선택적 에디팅의 적용 예시(5) • 선택적 에디팅 적용 후 검토 • Unit(Global) score 종류에 따른 차이는 크지 않음. • 3 종류의 unit score 함수에 대해서 상위 5% 내 • 일치도는90%수준임 • 각 조사단위의 unit score는 에디팅의 우선순위를 나타내고, 예산과 시간의 범위 내에서 데이터 점검 가능 • 선택적 에디팅을 적용하기 위해서는 충분한 사전 준비가 필요함. 예를 들어 Raw, unedited data와 clean, edited data가 함께 준비되어야 적용할 수 있음
결론 및 토의 (1) • 1. 데이터 에디팅은 작성되는 통계의 질을 좌우하는 중요한 요소로 상당한 비용과 시간이 소요되는 작업임 • 2. 선택적 에디팅은 예산과 시간의 제약 속에서 효율적으로 마이크로 에디팅을 진행하는 방안을 제시함 • 3. 사업체조사는 조사단위에 따라 추정결과에 미치는 영향정도에 차이가 크게 나타남. 이 경우에 선택적 에디팅의 유용성은 대단히 큼
결론 및 토의 (2) • 4. 선택적 에디팅을 적용하기 위해서는 충분한 사전 준비 작업이 필요함. 예를 들어 Raw, unedited data와 clean, edited data가 함께 준비되어야 적용할 수 있고, 에디팅 질도 파악 가능함 • 5. 궁극적으로 스웨덴 통계청의 SELEKT 1.1와같은 범용 선택적 에디팅시스템구축을 위한 연구도 필요함. 대표적 사업체 조사에 유연하게 적용될 수 있도록 구축되어야 함
참고문헌 • Bethlehem, J.(2009) Applied survey methods, wiley. • Chamber,R.L.(1986) Outlier robust finite population estimation, JASA 81, 1063-1069. • Fellegi, I.P. and Holt, D.(1976) A systematic approach to automatic edit and imputation, JASA 71,17-35. • Granquist, L. (1995) Improving the traditional editing process, In Business survey methods(eds. Cox et al.), John Wiley & Son:177-199. • Granquist, L. and Kover, J. (1997) Editing of survey data: How much is enough?, In survey measurement and process quailty (eds. Lyberg et al.), John Wiley & Son:415-435. • Granquist, L. (1997) Macro-editing: The aggregate method, statistical data editing, UN Conference of European statisticians statistical standard and studies, Geneva (Swizerland).
참고문헌 • Granquist, L. (1997) The New View on Editing, International Statistical Review. • Hooper, E., Lewis, D. and Dobbins, C. (2010) The Application of Selective Editing to the ONS Monthly Business Survey, Q2010 Conference, Helsinki, 2010. • Latouche and Berthelot(1992) Use of score function to prioritize and limit recontacts in editing business surveys, Journal of official statistics 8, 389-400. • Lawrence, D. and Mcdavitt, C. (1994) Significance edition in the Australian survey of average weekly earings, Journal of official statistics 10, 437-447. • Norberg, A. et al (2010) A General Methodology for Selective Data Editing, Statistics Sweden.