1 / 26

權數與 SUDAAN 簡介

權數與 SUDAAN 簡介. 張新儀 4/14/2001 醫療保健政策研究組 國家衛生研究院. 權數. 分析調查資料所用的權數是該抽樣單位被抽取之機率的倒數,也是該單位在群體所代表的數目 如果抽樣方法是以不等機率抽樣,在估計母群體的一些統計值,必須加權才能得到不偏估計量. SAS 加權方法有二. 1. 直接乘上權數:每個觀測值乘以 W i ,得 到的結果代表整個人群,  W i =總人口數 2. 乘上權數再調到觀察人數:每個觀測值乘以 W i /  W i  N ,  W i =總人口, N =總樣本數. 甚麼是 SUDAAN ?.

mora
Télécharger la présentation

權數與 SUDAAN 簡介

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 權數與SUDAAN簡介 張新儀 4/14/2001 醫療保健政策研究組 國家衛生研究院

  2. 權數 • 分析調查資料所用的權數是該抽樣單位被抽取之機率的倒數,也是該單位在群體所代表的數目 • 如果抽樣方法是以不等機率抽樣,在估計母群體的一些統計值,必須加權才能得到不偏估計量

  3. SAS加權方法有二 1.直接乘上權數:每個觀測值乘以Wi,得 到的結果代表整個人群, Wi=總人口數 2.乘上權數再調到觀察人數:每個觀測值乘以Wi /WiN ,Wi=總人口,N=總樣本數

  4. 甚麼是SUDAAN? • SUDAAN的全名是SURVEY DATA ANALYSIS,顧名思義,這是專為分析抽樣調查資料的軟體。 • 是Research Triangle Institute所發展出來的軟體,原來是SAS下的一模組(Module),現可獨立執行 • 網址 http://www.rti.org/units/shsp/sud1.cfm

  5. 為甚麼要用SUDAAN? • 一般統計分析都假設是簡單逢機抽樣(SRS),而抽樣調查常常不是SRS,也就是說每個人(家戶)被抽到的機率不是相等的,他們的代表性也不是相等的,所以要以特別方式處理。

  6. 抽樣調查資料的特性 • a). 每個人(家戶)被抽到的機率不相等 • b). 分層:同一層內同質性高 • c). 聚集現象 • d). 拒訪及其他 • SUDAAN主要處理的有 • A).權數:用來反應每個抽樣單位被抽到的機率, 也可 以 說是反應該單位在母群體中的代表性; • B).抽樣設計:影響變異數(標準差)的估算, 進而影響統計檢定。

  7. 抽樣調查資料用一般假設SRS的軟體分析的問題 • a). 點估計可用一般軟體加權後得到; • b). 該估計值的標準誤常被低估; • c). 信賴區間太窄; • d). 統計檢定總是顯著。

  8. 加權與不加權的統計檢定

  9. *所有百分比都經過加權 • 1. 加權到總人口數後之2=79441.8, p=0.001 • 2. 加權到總人口數後再調整回樣本數, 2=17.1, p=0.146 • 3. 加權且考慮抽樣方法(design effect), 2=108.0, p=0.0001

  10. BMI (Mean s.e. )

  11. 營養調查的SUDAAN程式(MUST FOLLOW!) proc sort data=nahsit; by stra;run; /* 按地區層排序 */; data city; /*輸入每一層的鄉鎮市區數 */; input stra $ citycnt; cards; 1 18 2 30 3 19 4 6 5 23 6 64 7 196 ;

  12. 營養調查的SUDAAN程式(MUST FOLLOW!) data t; merge nahsit city; by stra; /* 合併地區層和該層之鄉鎮市區數*/; strata=stra+0; /* 將文字型變項改為數值型 */; cityn=city+0; sexn=sex+0; run; proc sort; by strata citycnt; run; /* 排序(SUDAAN要求一定要按層排序)*/; PROC CORSSTAB data=t filetype=sas DESIGN=WOR; /*開始SUDAAN /; NESTSTRATA CITYCNT; TOTCNTCITYCNT _MINUS1_; WEIGHT ewt;

  13. SUDAAN語法可分為四大部分 • 1.程序Procedures: 如PROCdescriptive, PROC crosstab etc… • 2.宣告抽樣設計等相關事項: 如DESIGN=, WEIGHT, NEST, TOTCNT • 3.和計算有關的部分: 如SUBGROUP, LEVELS, RECODE, SUBPOPN • 4.輸出格式(output): 如TITLE, FOOTNOTE, SETENV, PRINT, OUTPUT, FORMAT等。

  14. SUDAAN要求的資料格式 • SUDAAN 可讀ASCII, SAS, SPSS 等資料檔 • 所有的變數必須是數值型 • 資料必須照NEST變數的順序排序 • 每一筆資料必須有和抽樣設計相關的變數,SUDAAN不處理權數missing或是負數的資料。

  15. 一、程序Procedures • 有兩大類程序: 1.描述性—CROSSTAB, DESCRIPT, RATIO, RECORDS; 2. 迴歸模式—REGRESS, RLOGISTIC, MULTILOG, SURVIVAL 語法:PROC CROSSTABDESIGN=…; 和SAS一樣都是以‘;’結束

  16. 描述抽樣方法 1.DESIGN= WOR, WR, UNEQWOR, STRWR, STRWOR, SRS, JACKKNIF, BRR 2.WEIGHTvariable; 權數,營養調查有兩組權數,一是完訪者的權數,一是體檢的權數,視分析需要用不同的權數,在合併問卷和體檢資料時要用體檢加權。

  17. 描述抽樣方法 3.NESTvariables; 區分抽樣層次,SUDAAN要求一定把資料要先照抽樣順序排序,營養調查先是地區層,下面是鄉鎮市區。 4.TOTCNTvariables; /*Population counts*/ 母群體內的數目,營養調查是宣告每個地區層內的鄉鎮市區數。 5.SAMCNTvariables; /*Sample counts */ 6.JOINTPROBvariables;

  18. 計算上所需的statement • SUBGROUP variables; LEVELS n1,n2 …; 用在宣告類別變項有多少類,一定要宣告,LEVELS 要對應SUBGROUP的變項,SUBGROUP有5變項,就要給5個數字,類別變項也要是數值型,從1開始。 例如 SUBGROUP STRATA RACE SEX; LEVLES 7 2 2;

  19. 計算上所需的statement • SUBPOPN expression/[NAME=”label”]; 用在只分析其中某一群人,如20歲以上可寫成 SUBPOPN age>= 20 /name=“成人”; • RECODE variable1=(code_list) variable2=(code_list) …; 重新譯碼(或分割資料) 如 RECODE ZERONE=(0 1); SUBGROUP ZERONE; LEVELS 2; /* 把0,1變成1,2*/; 如RECODE X=(4.5); /* 把資料切成 <4.5的是0, ≧4.5的是1 */;

  20. 將人口結構調整到某國、某一年的人口結構 • 目的:因人口結構的不同,一些疾病盛行率受年齡的影響,所以要把人口調整到一標準人口上以便跨國比較。 • STDVAR variables; • STDWGT weights; • 如將人口結構調到1980年US Population STDVAR agewt; STDWGT0.26500.20460.14770.15140.12250.07520.0336;

  21. 其他 • 迴歸模式: REGRESS, RLOGISTIC, MULTILOG, SURVIVAL 1. REFLEVEL variable1=value1 variable=value2…; 讓你選擇某一變數的某一類做reference 2. CONTRAST coefficient /name=”“; 3. EFFECTS和 CONTRAST 很像,較簡單。 4. TEST 5. OUTPUT

  22. 例子 • procdescriptdata=t filetype=sas design=wor means; • nest strata cityn; • totcnt citycnt _minus1_; • weight ewt; • subgroup sexn strata adult bmi_g agewt; • levels27377; • var hbp dmc cholc tgc hyua arth; • table bmi_g; • stdvar agewt; • stdwgt0.26500.20460.14770.15140.12250.07520.0336; • subpopn20 <= age; • print • mean="percent" • semean="STANDARD ERROR" • nsum="SAMPLE SIZE"/style=nchs; • title1"TAIWAN, STANDARDIZED"; • rformat sexn sex.; • rformat adult adult.; • rformat bmi_g bmi_g.; • run;

  23. Variance Estimation Method: Taylor Series (WOR) • Standardized estimates • For Subpopulation: 20 <= AGE • by: Variable, BMI_G. • --------------------------------------------------------- • Variable STANDARD SAMPLE • BMI_G percent ERROR SIZE • --------------------------------------------------------- • HBP • Total 26.54 1.90 2566 • [16, 20) 13.11 2.57 351 • [20, 22) 17.32 1.75 457 • [22, 23) 25.66 2.28 278 • [23, 24) 27.96 4.32 291 • [24, 26) 29.49 3.34 511 • [26, 30) 51.18 5.67 512 • [30, 40) 58.95 6.03 166 • DMC • Total 5.95 0.66 2566 • [16, 20) 3.98 1.43 351 • [20, 22) 1.89 0.78 457 • [22, 23) 9.31 2.62 278

  24. [23, 24) 6.05 1.41 291 • [24, 26) 5.21 1.41 511 • [26, 30) 9.06 1.17 512 • [30, 40) 7.34 1.83 166 • CHOLC • Total 12.01 1.66 2566 • [16, 20) 2.29 0.59 351 • [20, 22) 15.33 3.32 457 • [22, 23) 11.72 3.48 278 • [23, 24) 16.28 4.94 291 • [24, 26) 11.15 1.13 511 • [26, 30) 12.32 2.51 512 • [30, 40) 24.62 8.75 166 • TGC • Total 9.81 0.57 2566 • [16, 20) 3.28 1.59 351 • [20, 22) 5.21 1.44 457 • [22, 23) 9.36 2.27 278 • [23, 24) 8.09 1.92 291 • [24, 26) 11.06 2.63 511 • [26, 30) 21.72 4.35 512 • [30, 40) 19.38 6.04 166 • ---------------------------------------------------------

  25. Annual licenses are now available for all versions of SUDAAN. Annual license prices for PC users start at $880 for the first user and $290 for each additional user for the first year. Renewal years are approximately 50% of the first year price. University discounts are available. Universities with a 5 or more user PC licenses are granted free student use for degree required educational purposes. Please see Order for details.

More Related