320 likes | 1.07k Vues
權數與 SUDAAN 簡介. 張新儀 4/14/2001 醫療保健政策研究組 國家衛生研究院. 權數. 分析調查資料所用的權數是該抽樣單位被抽取之機率的倒數,也是該單位在群體所代表的數目 如果抽樣方法是以不等機率抽樣,在估計母群體的一些統計值,必須加權才能得到不偏估計量. SAS 加權方法有二. 1. 直接乘上權數:每個觀測值乘以 W i ,得 到的結果代表整個人群, W i =總人口數 2. 乘上權數再調到觀察人數:每個觀測值乘以 W i / W i N , W i =總人口, N =總樣本數. 甚麼是 SUDAAN ?.
E N D
權數與SUDAAN簡介 張新儀 4/14/2001 醫療保健政策研究組 國家衛生研究院
權數 • 分析調查資料所用的權數是該抽樣單位被抽取之機率的倒數,也是該單位在群體所代表的數目 • 如果抽樣方法是以不等機率抽樣,在估計母群體的一些統計值,必須加權才能得到不偏估計量
SAS加權方法有二 1.直接乘上權數:每個觀測值乘以Wi,得 到的結果代表整個人群, Wi=總人口數 2.乘上權數再調到觀察人數:每個觀測值乘以Wi /WiN ,Wi=總人口,N=總樣本數
甚麼是SUDAAN? • SUDAAN的全名是SURVEY DATA ANALYSIS,顧名思義,這是專為分析抽樣調查資料的軟體。 • 是Research Triangle Institute所發展出來的軟體,原來是SAS下的一模組(Module),現可獨立執行 • 網址 http://www.rti.org/units/shsp/sud1.cfm
為甚麼要用SUDAAN? • 一般統計分析都假設是簡單逢機抽樣(SRS),而抽樣調查常常不是SRS,也就是說每個人(家戶)被抽到的機率不是相等的,他們的代表性也不是相等的,所以要以特別方式處理。
抽樣調查資料的特性 • a). 每個人(家戶)被抽到的機率不相等 • b). 分層:同一層內同質性高 • c). 聚集現象 • d). 拒訪及其他 • SUDAAN主要處理的有 • A).權數:用來反應每個抽樣單位被抽到的機率, 也可 以 說是反應該單位在母群體中的代表性; • B).抽樣設計:影響變異數(標準差)的估算, 進而影響統計檢定。
抽樣調查資料用一般假設SRS的軟體分析的問題 • a). 點估計可用一般軟體加權後得到; • b). 該估計值的標準誤常被低估; • c). 信賴區間太窄; • d). 統計檢定總是顯著。
*所有百分比都經過加權 • 1. 加權到總人口數後之2=79441.8, p=0.001 • 2. 加權到總人口數後再調整回樣本數, 2=17.1, p=0.146 • 3. 加權且考慮抽樣方法(design effect), 2=108.0, p=0.0001
營養調查的SUDAAN程式(MUST FOLLOW!) proc sort data=nahsit; by stra;run; /* 按地區層排序 */; data city; /*輸入每一層的鄉鎮市區數 */; input stra $ citycnt; cards; 1 18 2 30 3 19 4 6 5 23 6 64 7 196 ;
營養調查的SUDAAN程式(MUST FOLLOW!) data t; merge nahsit city; by stra; /* 合併地區層和該層之鄉鎮市區數*/; strata=stra+0; /* 將文字型變項改為數值型 */; cityn=city+0; sexn=sex+0; run; proc sort; by strata citycnt; run; /* 排序(SUDAAN要求一定要按層排序)*/; PROC CORSSTAB data=t filetype=sas DESIGN=WOR; /*開始SUDAAN /; NESTSTRATA CITYCNT; TOTCNTCITYCNT _MINUS1_; WEIGHT ewt;
SUDAAN語法可分為四大部分 • 1.程序Procedures: 如PROCdescriptive, PROC crosstab etc… • 2.宣告抽樣設計等相關事項: 如DESIGN=, WEIGHT, NEST, TOTCNT • 3.和計算有關的部分: 如SUBGROUP, LEVELS, RECODE, SUBPOPN • 4.輸出格式(output): 如TITLE, FOOTNOTE, SETENV, PRINT, OUTPUT, FORMAT等。
SUDAAN要求的資料格式 • SUDAAN 可讀ASCII, SAS, SPSS 等資料檔 • 所有的變數必須是數值型 • 資料必須照NEST變數的順序排序 • 每一筆資料必須有和抽樣設計相關的變數,SUDAAN不處理權數missing或是負數的資料。
一、程序Procedures • 有兩大類程序: 1.描述性—CROSSTAB, DESCRIPT, RATIO, RECORDS; 2. 迴歸模式—REGRESS, RLOGISTIC, MULTILOG, SURVIVAL 語法:PROC CROSSTABDESIGN=…; 和SAS一樣都是以‘;’結束
描述抽樣方法 1.DESIGN= WOR, WR, UNEQWOR, STRWR, STRWOR, SRS, JACKKNIF, BRR 2.WEIGHTvariable; 權數,營養調查有兩組權數,一是完訪者的權數,一是體檢的權數,視分析需要用不同的權數,在合併問卷和體檢資料時要用體檢加權。
描述抽樣方法 3.NESTvariables; 區分抽樣層次,SUDAAN要求一定把資料要先照抽樣順序排序,營養調查先是地區層,下面是鄉鎮市區。 4.TOTCNTvariables; /*Population counts*/ 母群體內的數目,營養調查是宣告每個地區層內的鄉鎮市區數。 5.SAMCNTvariables; /*Sample counts */ 6.JOINTPROBvariables;
計算上所需的statement • SUBGROUP variables; LEVELS n1,n2 …; 用在宣告類別變項有多少類,一定要宣告,LEVELS 要對應SUBGROUP的變項,SUBGROUP有5變項,就要給5個數字,類別變項也要是數值型,從1開始。 例如 SUBGROUP STRATA RACE SEX; LEVLES 7 2 2;
計算上所需的statement • SUBPOPN expression/[NAME=”label”]; 用在只分析其中某一群人,如20歲以上可寫成 SUBPOPN age>= 20 /name=“成人”; • RECODE variable1=(code_list) variable2=(code_list) …; 重新譯碼(或分割資料) 如 RECODE ZERONE=(0 1); SUBGROUP ZERONE; LEVELS 2; /* 把0,1變成1,2*/; 如RECODE X=(4.5); /* 把資料切成 <4.5的是0, ≧4.5的是1 */;
將人口結構調整到某國、某一年的人口結構 • 目的:因人口結構的不同,一些疾病盛行率受年齡的影響,所以要把人口調整到一標準人口上以便跨國比較。 • STDVAR variables; • STDWGT weights; • 如將人口結構調到1980年US Population STDVAR agewt; STDWGT0.26500.20460.14770.15140.12250.07520.0336;
其他 • 迴歸模式: REGRESS, RLOGISTIC, MULTILOG, SURVIVAL 1. REFLEVEL variable1=value1 variable=value2…; 讓你選擇某一變數的某一類做reference 2. CONTRAST coefficient /name=”“; 3. EFFECTS和 CONTRAST 很像,較簡單。 4. TEST 5. OUTPUT
例子 • procdescriptdata=t filetype=sas design=wor means; • nest strata cityn; • totcnt citycnt _minus1_; • weight ewt; • subgroup sexn strata adult bmi_g agewt; • levels27377; • var hbp dmc cholc tgc hyua arth; • table bmi_g; • stdvar agewt; • stdwgt0.26500.20460.14770.15140.12250.07520.0336; • subpopn20 <= age; • print • mean="percent" • semean="STANDARD ERROR" • nsum="SAMPLE SIZE"/style=nchs; • title1"TAIWAN, STANDARDIZED"; • rformat sexn sex.; • rformat adult adult.; • rformat bmi_g bmi_g.; • run;
Variance Estimation Method: Taylor Series (WOR) • Standardized estimates • For Subpopulation: 20 <= AGE • by: Variable, BMI_G. • --------------------------------------------------------- • Variable STANDARD SAMPLE • BMI_G percent ERROR SIZE • --------------------------------------------------------- • HBP • Total 26.54 1.90 2566 • [16, 20) 13.11 2.57 351 • [20, 22) 17.32 1.75 457 • [22, 23) 25.66 2.28 278 • [23, 24) 27.96 4.32 291 • [24, 26) 29.49 3.34 511 • [26, 30) 51.18 5.67 512 • [30, 40) 58.95 6.03 166 • DMC • Total 5.95 0.66 2566 • [16, 20) 3.98 1.43 351 • [20, 22) 1.89 0.78 457 • [22, 23) 9.31 2.62 278
[23, 24) 6.05 1.41 291 • [24, 26) 5.21 1.41 511 • [26, 30) 9.06 1.17 512 • [30, 40) 7.34 1.83 166 • CHOLC • Total 12.01 1.66 2566 • [16, 20) 2.29 0.59 351 • [20, 22) 15.33 3.32 457 • [22, 23) 11.72 3.48 278 • [23, 24) 16.28 4.94 291 • [24, 26) 11.15 1.13 511 • [26, 30) 12.32 2.51 512 • [30, 40) 24.62 8.75 166 • TGC • Total 9.81 0.57 2566 • [16, 20) 3.28 1.59 351 • [20, 22) 5.21 1.44 457 • [22, 23) 9.36 2.27 278 • [23, 24) 8.09 1.92 291 • [24, 26) 11.06 2.63 511 • [26, 30) 21.72 4.35 512 • [30, 40) 19.38 6.04 166 • ---------------------------------------------------------
Annual licenses are now available for all versions of SUDAAN. Annual license prices for PC users start at $880 for the first user and $290 for each additional user for the first year. Renewal years are approximately 50% of the first year price. University discounts are available. Universities with a 5 or more user PC licenses are granted free student use for degree required educational purposes. Please see Order for details.