480 likes | 784 Vues
연구를 위한 통계학적 자료 분석을. 어떻게 접근할까. 2005 년 4 월 9 일 강 대 룡 ( 연세대학교 의과대학 ). 참 값 = 관측값 + “ 오차 ”. Random error. Systematic error. +. Bias. Reliability. Validity. 有意수준 下에서. 자료수집. 연구설계. 연구설계. 연구설계. 연구설계. 연구설계. 연구결과 해석 및 고찰. 자료분석.
E N D
연구를 위한 통계학적 자료 분석을 어떻게 접근할까 2005년 4월 9일 강 대 룡 (연세대학교 의과대학)
참 값 = 관측값 + “오차” Random error Systematic error + Bias Reliability Validity
有意수준 下에서 자료수집 연구설계 연구설계 연구설계 연구설계 연구설계 연구결과 해석 및 고찰 자료분석 記述통계 :조사된 모든 변수에 대해 “기초 기술통계량”을 구하면서, “Data cleaning” N, Missing value, Outlier 확인, 범주의 Regrouping 고려, … 통계적 檢定 (Testing) : 硏究가설 歸無가설 推論통계 (일:일, 일:다, sub-group) 통계적 해석 : “P-value”로 의사결정 유의성 有無 (차이, 연관성, 선형적인 상관성, 혼란변수 “통제”하에서 영향력) “보건학적”, “의학적” 해석
Categories of statistical procedures used to assess the statistical content in the articles * 비모수적 방법 Source : Emerson JD, Colditz GA, Use of Statistical Analysis in The New England Journal of Medicine. N. Engl. J. Med. 1983 ; 309, 709-13.
무엇이 보건학 연구를 어렵게 만드나 • 보건학의 주 연구대상은 인간이다 ! • 윤리적 문제 • 연구설계상의 한계 • 연구 설계상 한계로 인한 문제들
무엇이 보건학 연구를 어렵게 만드나 • 연구자의 성급함이 연구결과를 왜곡시킬 수 있다 ! • 연구자의 성급한 마음 혹은 부정한 의도 • “농부와 노인”(전우택, 사회의학연구방법론) • 고찰없는 연구 결과
무엇이 보건학 연구를 어렵게 만드나 • 연구자가 수집한 최초의 자료는 여러가지 잡음이 뒤섞여 있다! • 이상점 • 결측치 • 잡음이 없는 자료는 없다!
무엇이 보건학 연구를 어렵게 만드나 • 자료분석에서 부적합한 통계분석을 사용하였을 때 • 사용한 자료가 통계방법의 가정에 위배되는 것이라면? • 이런 연구결과가 사람의 생명과 주어진 보건문제에 직접적으로 관여하는 것이라면?
자! 이제부터는 분명한 ‘연구주제’와 ‘연구설계’는 앞서 설명하였기 때문에 지금부터는 수집한 자료를 어디서부터 어떻게 접근하면서 분석할지 생각해보자. 어떻게 접근할까?
수집한 자료를 어떻게 • 간결하게 표현할까?
수집한 자료를 어떻게 간결하게 표현할까 예제자료 1 • 한국인 남자에서 지방산섭취가 Ischemic Heart Disease (IHD)와 • 관련성이 있는가를 알아보고자 함 • 환자-대조군 연구를 통해 자료를 수집 (Suh et al, 2001) • 환자군 : 세브란스병원에서 1995년부터 1996년 기간동안 처음으로 • 발생한 acute myocardial infarction 또는 • angina pectoris로 진단된 환자 • 대조군 : 동일 시기 세브란스 정형외과/안과 내원한 사람 • 식이섭취 조사 : Food Frequency Questionnaire(FFQ)를 이용 • 기타 일반적인 특성 및 건강관련 행위 내용조사
수집한 자료를 어떻게 간결하게 표현할까 • [통계 1-1] • 논문에서 언급할 변수들의 분포를 최대한 분석할 필요가 있다 • 측정한 변수가 “연속형” 변수면 대표값(산술평균, 중위수 등)과 • 산포도(표준편차, 사분위수 범위 등)로, • 측정한 변수가 “범주형” 변수면 각 범주의 빈도와 백분율을 보여주면 OK! • 물론 연속형 변수도 경우에 따라 범주화하여 빈도를 보여줄 수 있다 • 물론 여러 가지 형태의 그림(히스토그램, Box plot 등)을 통해 • 분포를 볼 수 있다
수집한 자료를 어떻게 간결하게 표현할까 • 총열량 섭취 : 환자군(평균 136 kcal) > 대조군 • 총지방산 섭취 : 환자군(평균 10 g) > 대조군 • 전체적으로 평균에 비해 표준편차가 매우 큼 • - 이상점(outlier)이 있는가? • - 분포가 오른쪽으로 치우쳐 있는 형태인가?
수집한 자료를 어떻게 간결하게 표현할까 • [통계 1-2] • 분포 모습 제시할 때는 확인, 정리된 자료로 분석해야 함! • 자료 확인을 철저히 하지 못하면 논문을 무사히(?) 끝내고 난 뒤에도 • 두고두고 마음이 편치 않을 것이다 • 자료를 깨끗이 정리하고 확인-확인하는 방법뿐이다 도움 되는 방법 [사례 1] 각 변수에 입력오류는 없는가? [사례 2] 무응답자의 자료는 제대로 결측치로 분석되었는가? [사례 3] 각 변수의 기술통계량으로 파악하면 이상한 자료가 없는데 여러 변수를 동시에 고려하니 이상한 자료가 발생할 수 있는가? 종합정리 1-1 본격적인 연구가설 분석 전에 반드시 자료 확인!
수집한 자료를 어떻게 간결하게 표현할까 종합정리 1-2 자료의 요약 및 정리
단순분석을 일차적으로 먼저 시행해보자 [가설 2-1] 지방산 섭취가 환자군과 대조군 간에 차이가 있는가? (또는 총 열량에 대한 지방산 섭취 비율이 차이가 있는가?) 통계적 가설검정의 여러 가지 방법들에 들어가기에 앞서 통계적 가설검정의 기본적인 원리에 대해 간단하게 알아보자! 앞의 기술통계량에서 환자군은 총 지방산섭취가 60.3g, 대조군은 50.2g 이었다. 즉, 환자군의 총 지방섭취가 대조군 보다 10.1g더 많이 섭취하고 있다.
단순분석을 일차적으로 먼저 시행해보자 의문 2-1 우리는 이 10.1g의 차이를 어떻게 받아들여야 할까? [통계 2-1] 통계적 가설검정이란 주어진 자료의 좋은 정보를 이용하여 귀무가설 또는 대립가설 중 어떤 것을 선택하는 것이 좋을 지에 대한 의사결정 과정이다. 의문 2-2 동전을 던져 나오는 앞면과 뒷면으로 의사결정을 한다면? 좋은 정보를 이용하여 의사결정 한다면 어떤 정보가 좋은 정보? [통계 2-2] 그러나 좋은 정보를 이용하여 의사결정을 하더라도 의사결정의 오류가 존재한다. 왜 존재할까? 모집단과 표본의 차이라고 생각할 수 있을까?
단순분석을 일차적으로 먼저 시행해보자 의사결정에 따른 오류 [통계 2-3] 통계학적 의사결정은 제 1종의 오류를 유의수준 내에서 허용하고 제 2종의 오류를 최소화하는 방법을 사용 [통계 2-4] 유의확률 < 유의수준 (일반적으로 0.05)☞대립가설 H1채택 유의확률 > 유의수준 (일반적으로 0.05)☞귀무가설 H0고수
단순분석을 일차적으로 먼저 시행해보자 이제부터! 자료의 형태에 따라 어떤 통계적 방법을 적용하면 되는지 알아보자. • 변수 구분! • 측정수준에 따라 : 연속형 변수와 범주형 변수 • 설명관계의 방향성에 따라 • : 종속변수 (또는 반응변수)와 독립변수 (또는 설명변수) • 3. 측정자료에 독립성이 있는지의 여부도 통계적 방법을 선택하는데 주요한 기준이 됨!
단순분석을 일차적으로 먼저 시행해보자 • 종속변수 : 연속형으로 측정한 수축기혈압 • 독립변수 : 두 집단(경구피임약 복용군 / 비복용군)을 구별하는 이분형 범주형 변수 • 가설을 일반화하면“독립된 두 모집단의 수축기혈압의 평균을 비교” [통계적 분석방법] 독립된 두 집단의 t-검정 (모수적 방법), 윌콕슨 순위합 검정(비모수적 방법) [의문 2-1] 두 집단은 경구피임약 복용여부 외에는 다른 요인 (특히 수축기혈압에 영향을 미치는 요인)의 분포에 대해 동질적인가? 동질적이지 못하다면 t-검정의 결과는 의미가 없을 수 있다
단순분석을 일차적으로 먼저 시행해보자 • 종속변수 : 연속형으로 측정한 전과 후의 수축기혈압 • 독립변수 : 두 집단(경구피임약 복용군/비복용군)을 구별하는 이분형 범주형 변수 • 가설을 일반화하면“짝을 이룬 쌍에서 (전과 후의) 차에 대한 모평균이 0인가” [통계적 분석방법] paired t-검정 (모수적 방법), 윌콕슨 부호순위 검정(비모수적 방법) [의문 2-2] 관심있는 개입(이 경우 경구피임약 복용) 기간 동안 다른 개입은 없었는가? 다른 개입이 있다면 이 결과의 신뢰성에 문제를 제기할 수 있다.
단순분석을 일차적으로 먼저 시행해보자 • 종속변수 : 연속형으로 측정한 FEF • 독립변수 : 6 집단을 구별하는 범주형 변수 • 가설을 일반화하면“독립된 여러(세 집단 이상) 모집단의 평균을 비교” [통계적 분석방법] 일요인 분산분석 (모수적 방법), 크루스칼-월리스 검정(비모수적 방법) [의문 2-3] 집단 들은 흡연력 상태 외에는 다른 요인(특히 FEF에 영향을 미치는 요인)의 분포에 대해 동질적인가?
단순분석을 일차적으로 먼저 시행해보자 • 종속변수 : 부작용 여부에 따른 범주형 변수 • 독립변수 : 치료군을 구별하는 범주형 변수 • 가설을 일반화하면“두 범주형 변수간에 관련성(동일성, 독립성)이 있는가” [통계적 분석방법] 카이제곱 검정 (x2-검정), Fisher의 정확도 검정(exact test) [의문 2-4] 두 치료법에서 다른 요인(특히 부작용에 영향을 미치는 요인)의 분포에 대해 동질적인가? 각 칸의 (기대) 빈도수가 너무 작지(5 미만) 않은가?
단순분석을 일차적으로 먼저 시행해보자 • 종속변수 : 비만도(kg/m2)인 연속변수 • 독립변수 : 총 열량섭취인 연속변수 • 가설을 일반화하면“두 연속형 변수간에 선형적 관련성이 있는가” [통계적 분석방법] 상관분석, 단순회귀분석 [의문 2-5] 총 열량섭취와 비만도의 관계에 영향을 미치는 다른 혼란변수는 없는가? 두 변수간에 선형적 관련성이 있는가(상관분석) 가정한 회귀모형이 적합한가?
단순분석을 일차적으로 먼저 시행해보자 모수적 방법과 비모수적 방법의 적용 • 모수적 방법이란 표본이 추출된 모집단의 확률분포에 대하여 • 특정분포를 가정하고 그 가정된 분포의 모수(parameter)에 대한 • 검정문제를 생각하는 방법 • 모집단의 분포(정규분포)를 가정하므로서 검정통계량의 분포를 • 알 수가 있음 • 그러나 정규분포를 따르지 않거나 특정분포를 가정할 수 없는 경우, • 특히 표본의 수가 작은 경우는 순위(rank)에 기초한 비모수적 • (nonparametric) 방법을 사용하는 것이 바람직하다
단순분석을 일차적으로 먼저 시행해보자 • [종합정리 2-1] • 측정한 변수를 종속변수와 독립변수, 측정수준에 따라 범주형과 연속형, 그리고 자료의 독립성 여부에 따라 t-검정 (독립된 두 집단, 짝을 이룬 두 집단), x2-검정, 일요인 분산분석, (피어슨) 상관분석, 단순회귀분석 등을 구분하여 적용할 수 있다 • 모집단의 분포를 가정할 수 없는 경우 비모수적 방법으로 윌콕슨 순위합 검정, 윌콕슨 부호순위 검정, 크루스칼-왈리스 검정, 스피어맨 상관분석 등을 각각 적용할 수 있다 • 자료의 특성에 맞게 검정방법을 선택하고 제시된 유의확률을 이용하여 귀무가설과 대립가설 중 하나를 선택하면 된다
단순분석을 일차적으로 먼저 시행해보자 이제부터! [예제자료 1]의 가설을 밝혀나가는데 이제까지 언급한 방법들을 어떻게 적용하고 또한 이를 표로 정리하는지 알아보자!
단순분석을 일차적으로 먼저 시행해보자 [단계 2-1] 주 연구가설에 대한 통계학적 가설검정을 시행하자!
단순분석을 일차적으로 먼저 시행해보자 [단계 2-2] 주 연구가설에 대해 통제할 다른 변수는 없는가?
단순분석을 일차적으로 먼저 시행해보자 [의문 2-6 ] 주 연구가설을 밝히는데 위의 비만도, 흡연력, 고혈압과 고지혈증 등의 영향을 통제하지 않으면 어떤 문제가 있는가? [종합정리 2-1] 통계적 가설을 설정하고, 연구자의 가설이 지지되는지 일차적으로 단순한 분석을 시행하자!
3. 여러 요인의 영향을 동시에 분석하자 - 회귀분석적 방법?
여러 요인의 영향을 동시에 분석하자 - 회귀분석적 방법? • [통계 3-1] • 여러 요인의 영향을 동시에 분석 또는 혼란변수를 통제하기 • 위해서는 회귀분석적 방법을 많이 사용 • 회귀분석 방법은 종속변수와 독립변수들 간의 함수모형을 • 설정하고 (회귀모형) 그 모형을 통해 관련성을 밝히는 방법 • 종속변수가 연속형인 경우는 • 다중 회귀분석 (multiple regression)을 많이 사용 • 종속변수가 범주형인 경우는 • 다중 로지스틱 회귀분석 (logistic regression)을 많이 사용
여러 요인의 영향을 동시에 분석하자 - 회귀분석적 방법? 예제자료 2 • 납제련소 부근에 사는 144명의 어린이들 대상 • 혈중농도 측정하여 위험군(≥40mg/ml)과 정상군으로 분류하고 신경학적인 • 기능에 차이가 있는가를 알아보고자 10초간 finger-wrist tab (MAXFWT)을 • 측정. 연령을 포함하여 이와 관련 있는 여러 가지 요인들 조사 • 변수 • Group : 1=exposed, 2=normal • Sex : 1=male, 2=female • Age : years
여러 요인의 영향을 동시에 분석하자 - 회귀분석적 방법? [의문 3-1] 연령(age)과 성(sex)의 영향을 통제한 후 위험군과 정상군 두 군간에 MAXFWT의 차이가 있는가? [통계 3-1] 다중 회귀분석 모형 • 회귀모형: • 회귀계수의 의미 : 다른 요인을 통제하였을 때, • : exposed 집단에 비해 normal 집단이 MAXFWT가 평균적으로 만큼 높다. • : male에 비해 female 집단이 MAXFWT가 평균적으로 만큼 높다. • : 연령이 1살 증가하면 MAXFWT가 평균적으로 만큼 증가한다
여러 요인의 영향을 동시에 분석하자 - 회귀분석적 방법?
여러 요인의 영향을 동시에 분석하자 - 회귀분석적 방법? [의문 3-2 ] 비만도와 흡연력, 그리고 총 열량의 영향을 통제한 후 total fat intake가 증가할 때 IHD의 위험이 증가하는가? [통계 3-2] 다중 로지스틱 회귀분석 모형 • 회귀모형: • 회귀계수의 의미 (odds ratio로 해석) : 다른 요인(x)을 통제하였을 때, • : 총열량에 대한 total fat이 1% 증가하면 IHD에 걸릴 위험이 증가
여러 요인의 영향을 동시에 분석하자 - 회귀분석적 방법?
여러 요인의 영향을 동시에 분석하자 - 회귀분석적 방법? [종합정리 3-1] 자료의 특성에 맞는 회귀분석을 시행하므로서 여러 독립변수들의 영향을 동시에 알아보고 서로의 영향을 통제한 후의 독립적인 관련성을 알아볼 수 있다!
여러 요인의 영향을 동시에 분석하자 - 회귀분석적 방법? • [종합정리 3-2] 회귀모형을 구축하는 전략 • 간단한 분석(단일변량분석)을 통해서 변수간의 정보를 파악하자! • 단일변량분석을 통해 유의확률이 0.3미만인 독립변수는 • 위험요인의 가능성이 있다. • - 독립변수간의 상호작용(영향)을 고찰하자 • 단일변량분석에서 어느 정도 관련성을 보이는 독립변수(p<0.3 or p<0.2) • 또는 이 연구에서 관심을 갖는 독립변수, 그리고 혼란변수를 모형에 • 포함하여 자료의 특성에 맞는 회귀분석을 시행하자! • 선택한 회귀분석 모형의 기본가정이 만족되는가? • 최종적으로 가능한 간단한 모형이면서도 설명력이 높은 모형을 찾도록 • 노력하자!
Blaise Pascal (1623-1662) Erasmus Darwin (1731-1802) Francis Galton (1822-1911) Charles Darwin (1809-1882) regression to the “mediocre” Gregor Mendel (1822-1884) Thomas Bayes (1702-1761) Karl Pearson (1857-1936) : 상관분석법 Ronald Aylmer Fisher (1890-1962) : 의학실험계획법, 분산분석법(ANOVA) Jerzy Neyman (1894-1981) : 통계적 가설검정법, “현대통계학” 시작
JNC 5, 1993JNC 6, 1997JNC, 2003 Category SBP DBP Category SBP DBP Category SBP DBP Optimal <120 <80 Normal <120 and <80 Normal <130 <85 Normal <130 <85 Prehypertension 120-139 or 80-89 High-normal 130-139 85-89 High-normal 130-139 85-89 Hypertension Hypertension Hypertension stage 1 140-159 90-99 stage 1 140-159 90-99 stage 1 140-159 or 90-99 stage 2 160-179 100-109 stage 2 160-179 100-109 stage 2 >160 or >100 stage 3 180-209 110-119 stage 3 >180 >110 stage 4 >210 >120 Classification of BP(1993~2003)
120 130 140 SBP C1 C2 C3 C4 80 C5 C6 C7 C8 85 Categorization of BP / JNC6 C9 C10 C11 C12 90 C13 C14 C15 C16 DBP
120 140 SBP C1 C2 C3 80 C4 C5 C6 Categorization of BP / JNC7 90 C7 C8 C9 DBP