1 / 31

사업체조사에서의 선택적 에디팅 ( Selective Editing )

사업체조사에서의 선택적 에디팅 ( Selective Editing ) . 발표자 : 이기재 ( 한국방송통신대학교 정보통계학과 교수 ) 박현아 ( 서울대학교 통계학과 Post Dr.). 1. 5. 데이터 에디팅 ( Data Editing) 의 정의. 선택적 에디팅 적용 과정. 2. 6. 데이터 오류 및 결측치. 선택적 에디팅 적용 사례. 3. 데이터 에디팅의 분류. 4. 선택적 에디 팅 (Selective editing) . Contents.

diedrick
Télécharger la présentation

사업체조사에서의 선택적 에디팅 ( Selective Editing )

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 사업체조사에서의 선택적 에디팅( Selective Editing ) 발표자 : 이기재 (한국방송통신대학교 정보통계학과 교수) 박현아(서울대학교 통계학과 Post Dr.)

  2. 1 5 데이터 에디팅(Data Editing)의 정의 선택적 에디팅 적용 과정 2 6 데이터 오류 및 결측치 선택적 에디팅 적용 사례 3 데이터 에디팅의분류 4 선택적 에디팅(Selective editing) Contents

  3. 1. 데이터 에디팅(Data Editing) (1) • 정의 • 통계 자료를 산출하는 일련의 과정 중 데이터를 수집하고 처리하는 단계에서 오류 및 결측치를 찾아내고(탐색) 이를 수정하는 작업(Granquist,1995) • 데이터 에디팅 시점 • 전통적인 면접조사에서는 응답이 완료된 조사표를 자료 입력(코딩) 후 데이터 에디팅을 실시함 • CATI(Computer Assisted Telephone Interviewing)과 CAPI(Computer Assisted Personal Interviewing)의경우에서는 조사표 입력, 코딩과 데이터 에디팅이 동시에 이루어 짐

  4. 1. 데이터 에디팅(Data Editing) (2) • 장점 • 데이터의 정확성 향상 : 응답오차와 처리오차 제거, 무응답 편향 줄임 • 자료가 활용될 때 자료의 일관성을 향상시킴 • 단점 • 통계 공표를 지연시켜 시의성 저하 • 과대한 비용과 시간 : 데이터 에디팅 비용이 전체 조사 비용에서 20-40%를 차지함(Granquist & Kovar(1997)) • 지나친 개입으로 새로운 오류와 불확실성이 자료에 포함될 수 있음

  5. 데이터 오류 및 결측치(1) • 체계적인 오류(Systematic error) • 특정 항목에 대하여 모든 레코드에서 일관되게 나타나는 오류 • 랜덤 오류를 탐색하기 전에 탐색되고 처리됨 • 예 : 단위측정오류, 컴퓨터 시스템 오류,부호화 오류, 용어 이해 불충분으로 인한 오류, 코딩오류 • 랜덤오류(Random error) • 체계적인 이유가 아닌 우연히 발생하는 오류

  6. 데이터 오류 및 결측치(2) • 결측값(Missing data) • 일반 결측값과 구조적 결측값의 구별 : 구조적 결측값이란 여과 질문에 의한 결측을 말함 • 단위무응답(Unit nonresponse)와 항목무응답(Item nonresponse) : 각각 조사자의 무응답과 몇 개의 항목 무응답을의미 • 응답자료만을 이용한 추정은 편향이 발생함 • 처리방안 : 가중치 조정이나 무응답 대체법 이용

  7. 자료의 오류 및 결측치(3) • 특이치 (Outlier) • 집계나 추정치에 영향을 크게 미치는 값 • 표본조사 값과 설계가중치의 영향력으로 발생 • 대다수의 자료와 멀리 떨어진 관측치를 특이치(Outlier)라 하며 영향력 관측치와 거의 같은 개념 • 탐색 방안 : 범위 탐색, 울타리 방법, 상자그림, 로버스트 탐색, 거리 탐색(Mahalanobis거리) • 처리 방안 : 재조사, 제거 후 대체, 값조정(Winsorization), 가중치 조정(Down weighting), 값과 가중치 조정, 로버스트(Robust)한 추정

  8. 데이터 에디팅의 분류 (1) • 사람 개입 여부에 따른 분류 • 수작업 에디팅(Manual editing) (Bethlehem(2009)) • 수동으로 자료오류를 탐색하고 탐색된 자료 오류를 수동으로 처리함 • 데이터 상의 오류를 처리하는 데 한계가 있음 • 쌍방향 에디팅(Interactive editing) • 자료 획득 후 오류 탐색 및 처리를 사람이 컴퓨터의 도움을 받아 진행함 (예: Blaise, CSPro등) • 충분한 보조정보와 재조사가 가능할 때 효과적임 • 많은 비용과 시간이 필요 • 재조사에 의한 편향발생 및 새로운 오류 개입

  9. 데이터 에디팅의 분류 (2) • 사람 개입 여부에 따른 분류 • 자동 에디팅(Automated editing) (Bethlehem, 2009) • 컴퓨터 프로그램을 이용하여 저장된 자료의 오류를 탐색하고 처리하는 방법. • 편집규칙을 프로그램으로 만들어 오류 탐색,처리 • Fellegi-Holt(1976)방법 : 컴퓨터 발전과 더불어 데이터 에디팅의 이론적 체계화 시도 • 편집규칙의 예 : IF-THEN-ELSE의 구조 사용, 예)나이가 어리면 미혼으로 수정하는 프로그램 IF Age<15 THEN Marstat=Unmarried

  10. 데이터 에디팅의 종류 (1) • 마이크로 에디팅(Micro editing) • 개별 조사단위에 대하여 적용되는 데이터 편집 방법 :입력 데이터 편집(Input data editing) • Data capture와추정 단계에서 적용 가능 • 수작업과 자동화(컴퓨터 이용) 과정을 통해 이루어짐 • 종류 : validityedits, logical edits, consistency edits, range edits 등 • 조사오류값을 찾아 수정하거나 결측치 처리 후 대체 • 개별 조사단위의 상대적 중요도에대한 고려 없이 진행됨. •  “Over-editing”의 문제 발생 가능성 • 선택적 에디팅(selective editing) 방법 적용

  11. 데이터 에디팅의 종류 (2) • 매크로 에디팅(Macro editing) • 주로추정단계에서 적용됨. 출력 데이터 편집(Output data editing) • 마이크로 에디팅 단계에서 누락된 데이터 오류를 찾아 수정함 • 추정결과에 중대한 영향을 미치는 특이치(outlier)를찾아 처리하게 됨 • 특이치 검출 방안 • Aggregation method(Granquist, 1997): 추정량의 값을 구해서 문제가 되는 레코드를 찾아내어 수정하는 방법(현재 자료 또는 과거 자료와 같이 비교하여 특이치 검출) • Distribution method(자료의 분포 이용 방법): 탐색적 자료분석 (EDA) 방법, 상자그림, 히스토그램과 산점도 등을 사용함

  12. 선택적 에디팅(Selective editing) (1) • 선택적 에디팅 • Significance editing라고도 함 • 전통적인 마이크로 에디팅은 각 조사단위에 대해 똑같은 처리 강도로 진행됨 • 개별적 에디팅의 수와 비용을 최소화하기 위해 영향이 큰 조사단위를 선별하여 수행하고자 함 • 영향력이 큰 의심 조사단위에 대해서 재접촉(recontact)과 추적조사(follow-up)가실시됨. • 영향력이 크지 않은 경우는 에디팅을 적용하지 않거나, 자동화 에디팅을 적용함

  13. 선택적 에디팅(Selective editing) (2) • 선택적 에디팅(계속) • 각조사단위에 대해 score값을 구하여 우선 순위를 결정함 • 영국, 호주, 네덜란드, 스웨덴, 미국 등의 국가통계 작성 기관에서 사용함 • 특히 사업체조사에서 중요한 역할을 함 • 스웨덴 통계청은 SELEKT 1.1을 개발하여 사용하고 있음 (Norberg, A. et al. (2011))

  14. 선택적 에디팅(Selective editing) (3) A procedure which targets only some of the micro data variables or records for review by prioritizing the manual work (Norberg et al, 2010).

  15. 선택적 에디팅의 적용 (1) • Hooper, Lewis & Dobbins (2010)에 기초함 1. 중요변수(key variables)와 추정영역(Domain) 결정 • 고용형태별근로실태조사 - 중요변수 : 임금총액, 상여금 제외 임금총액, 근로시간 등 - 추정영역 : 산업중분류*사업체 규모 • 사업체노동력조사 - 중요변수 : 현원, 입직자수, 이직자수, 빈일자리수 등 - 추정영역 : 산업중분류*사업체 규모

  16. 선택적 에디팅의 적용 (2) 2. Item(local) and unit(global) score 함수 • 각 조사단위에서 각 중요변수에 대한 score 계산 - : 설계가중치, : 에디팅 전의 조사값, : predicted value, : 변수 j의추정영역 d의 전시점 추정값

  17. 선택적 에디팅의 적용 (3) <참고> Item(local) score 함수의의미 • 각 조사단위에서 각 중요변수에 대한 score 계산 Risk component Influence component

  18. 선택적 에디팅의 적용 (4) <참고> Item(local) score 함수 • 각 조사단위에서 각 중요변수에 대한 score 계산 - : 직전 조사시점의 조사값을 활용하거나 활용할 수 없는 경우는 register value 또는 imputedvalue를이용함

  19. 선택적 에디팅의 적용 (5) Unit(Global) score 함수 • 각 unit에서 각 중요변수에 대한 score 값을 unit(조사단위) score로 전환 • Unit score 함수의예 - , • - 대개 SUM이나 MAX 함수를 주로 이용함

  20. 선택적 에디팅의 적용 (6) <참고> Unit(Global) score 함수 • Unit score는 Minkowskimetric으로 표현 가능 • Unit score 함수의예 - ,

  21. 선택적 에디팅의 적용 (7) 3. Threshold(Cut-off value) 결정 (1) • 주요 데이터 질에 대한 지표 - Relative Bias(RB) - Absolute Relative Bias(ARB) - Savings • 영국 통계청의 Monthly Business Survey에서는 ARB가 1%이하가 되도록 모의실험을 통해서 threshold 결정

  22. 선택적 에디팅의 적용 (8) 3. Threshold(Cut-off value) 결정 (2) • Threshold 결정을위해서는 raw, unedited data set와해당데이터에 대한 clean, edited data가 함께 필요함 모의실험을 통해서 결정하게 됨 • 과거 데이터가 없는 경우에는 모형기반의 결정법 이용하게 됨. Lawrence and McKenzie(2000) • 실무적으로는 각 조사단위에 대해서 unit score를 계산하여 에디팅의 우선순위를 결정하고 예산과 시간이 허락하는 범위에서 진행할 수 있음

  23. 선택적 에디팅 적용 예시 (1) • 사업체노동력조사(고용현황 부분) • 2010년 5월, 6월 사업체노동력조사 결과 이용 • 중요변수 • - 현원, 입직자수, 이직자수, 빈일자리수 • 추정 영역(domain) • - 산업 중분류*사업체 규모 • - 산업중분류 : 26(전자제품, 컴퓨터, 영상, 음향, • 및 통신기기), 47(소매업), 56(음식점업) 등

  24. 선택적 에디팅 적용 예시 (2) • 각 조사단위에서 4개 변수에 대해서 item score 계산 • - • -: 전월의조사값 활용

  25. 선택적 에디팅의 적용 예시 (3) • Unit(Global) score 함수 계산 • 각 unit에서 각 중요변수에 대한 score 값을 unit(조사단위) score로 전환 ,

  26. 선택적 에디팅의 적용 예시(4) • item1, item2, item3, item4 : 4개 주요 변수에 대한 item score 값 • unit_sc1, unit_sc2, unit_sc3 : unit score를 구하는 3가지 방법 • 순위1, 순위2, 순위3 : 3가지 unit score에 대한 순위

  27. 선택적 에디팅의 적용 예시(5) • 선택적 에디팅 적용 후 검토 • Unit(Global) score 종류에 따른 차이는 크지 않음. • 3 종류의 unit score 함수에 대해서 상위 5% 내 • 일치도는90%수준임 • 각 조사단위의 unit score는 에디팅의 우선순위를 나타내고, 예산과 시간의 범위 내에서 데이터 점검 가능 • 선택적 에디팅을 적용하기 위해서는 충분한 사전 준비가 필요함. 예를 들어 Raw, unedited data와 clean, edited data가 함께 준비되어야 적용할 수 있음

  28. 결론 및 토의 (1) • 1. 데이터 에디팅은 작성되는 통계의 질을 좌우하는 중요한 요소로 상당한 비용과 시간이 소요되는 작업임 • 2. 선택적 에디팅은 예산과 시간의 제약 속에서 효율적으로 마이크로 에디팅을 진행하는 방안을 제시함 • 3. 사업체조사는 조사단위에 따라 추정결과에 미치는 영향정도에 차이가 크게 나타남. 이 경우에 선택적 에디팅의 유용성은 대단히 큼

  29. 결론 및 토의 (2) • 4. 선택적 에디팅을 적용하기 위해서는 충분한 사전 준비 작업이 필요함. 예를 들어 Raw, unedited data와 clean, edited data가 함께 준비되어야 적용할 수 있고, 에디팅 질도 파악 가능함 • 5. 궁극적으로 스웨덴 통계청의 SELEKT 1.1와같은 범용 선택적 에디팅시스템구축을 위한 연구도 필요함. 대표적 사업체 조사에 유연하게 적용될 수 있도록 구축되어야 함

  30. 참고문헌 • Bethlehem, J.(2009) Applied survey methods, wiley. • Chamber,R.L.(1986) Outlier robust finite population estimation, JASA 81, 1063-1069. • Fellegi, I.P. and Holt, D.(1976) A systematic approach to automatic edit and imputation, JASA 71,17-35. • Granquist, L. (1995) Improving the traditional editing process, In Business survey methods(eds. Cox et al.), John Wiley & Son:177-199. • Granquist, L. and Kover, J. (1997) Editing of survey data: How much is enough?, In survey measurement and process quailty (eds. Lyberg et al.), John Wiley & Son:415-435. • Granquist, L. (1997) Macro-editing: The aggregate method, statistical data editing, UN Conference of European statisticians statistical standard and studies, Geneva (Swizerland).

  31. 참고문헌 • Granquist, L. (1997) The New View on Editing, International Statistical Review. • Hooper, E., Lewis, D. and Dobbins, C. (2010) The Application of Selective Editing to the ONS Monthly Business Survey, Q2010 Conference, Helsinki, 2010. • Latouche and Berthelot(1992) Use of score function to prioritize and limit recontacts in editing business surveys, Journal of official statistics 8, 389-400. • Lawrence, D. and Mcdavitt, C. (1994) Significance edition in the Australian survey of average weekly earings, Journal of official statistics 10, 437-447. • Norberg, A. et al (2010) A General Methodology for Selective Data Editing, Statistics Sweden.

More Related