平均值的比較 ( 獨立母體 )

平均值的比較(獨立母體) Wen, shu-hui shwen@mail.tcu.edu.tw 99.1.22 at 新店慈濟

Outline • SPSS視窗作業環境 • 資料管理與轉換 • 參數方法 • 兩個母體:Two-sample t-test • 三個母體:ANOVA • 無母數方法 • 兩個母體: Wilcoxon Rank-Sum test • 三個母體: Kruskal-Wallis test

SPSS視窗作業環境資料檢視視窗 : save datafile as *.sav 資料轉換： Computation (+, -, *, / ) Logical expression (if, select if ) 資料管理： recode, count, rank, sort etc. 資料分析： Descriptive statistics (Graph、Summary statistics) Analyze (e.g. Hypothesis testing、regression) 變數檢視視窗: Name (in English), Type, Label, Missing values

結果輸出視窗 (output file: *.spv) 圖或表可直接 copy, paste 到文書處理軟體(word, excel)

語法視窗(*.sps) 可編寫SPSS程式指令，可在功能鑑列(tool bar)： file  open  syntax 開啟新的語法視窗，於此撰寫程式要執行程式只要選取程式碼，按右鍵”run current” 即可執行

資料的讀取與建立新的資料檔 • Import data • 可讀取眾多外部檔案，e.g. Excel datafile • Then you can save this data as **.sav (the default SPSS file)

練習讀取外部Excel檔案 FEV.xls 確認檔案路徑後，開啟正確的工作單 (worksheet) 通常第一列為變數名稱，請依據此規則整理資料

Example: FEV data • 一秒最大呼氣量(FEV) • FEV 與抽菸的關係? • Other related factors, e.g. age, gender

凡是成功讀進資料後即可先儲存為SPSS檔案格式，e.g. FEV.sav (若不需要全部變數則可點選”變數”，將不需存的變數於保留的框框去掉) 往後只要做資料分析時，就可以直接讀進 FEV.sav檔即可 (File open  data 選擇 FEV.sav)

資料管理 • 若是建立新檔，可以 • 直接在SPSS的資料視窗key in data • 或是在其他資料庫建檔後，再利用SPSS軟體import data的功能，讀取不同資料格式(e.g. *.txt, *.xls ) • 變數名稱建議中英皆可，以英文為佳 • 有些名詞在SPSS有特定用法，不得使用 e.g. all, and, by, eq, ge, gt, le, lt, not, or, with etc.

定義變數 • 直接到變數檢視畫面, 設定變數之名稱、類型、註解、遺漏值、格式等 • 變數類型(TYPE) • 選擇合適的變數型態。一般常用者為數值型、字串、日期等

定義變數(2) • 變數註解(label) • 針對分類型變數，需輸入數值所代表之意義 • e.g. 性別紀錄為0, 1. 其中0為男生、1為女生. • 遺漏值 • 設定遺漏值(missing value), 可輸入遺漏值的範圍或是特定數值即視為missing value • 選定測量尺度 • 有名義、次序及尺度可供選擇

練習 (分析報表會以新定義好的值呈現) • 定義Id為字串 (字串會靠左排列) • 定義 Sex=0, female; 1 male • 定義Smoke=0, nonsmoker; 1 smoker

按此展開數值註解視窗 輸入值的意義於此定義值(value)

善用help • 利用輔導簡介查詢不熟的指令

資料轉換 • 常用的幾種功能有 compute, recode, select, split • Compute: 新變數由舊變數透過某些轉換公式得到 , e.g. BMI=weight(kg)/height2(m) • 練習:將身高轉成以 cm為單位 (1 inch=2.54 cm) • 轉換  計算變數

目標變數填入新變數的名稱，會增加在資料的最後一欄目標變數填入新變數的名稱，會增加在資料的最後一欄定義新變數：數值運算式中定義與原變數的關係，下方有函數選項供選擇 SPSS 語法為 COMPUTE height=Hgt * 2.54. EXECUTE.

資料轉換 (2) 2.重新編碼(recode) 練習: 身高以140, 160來分為矮、中、高三組 height <= 140 newh=1 140 < height <= 160 newh=2 height >=160 newh=3 NOTE: 建議重新編碼時，應設定新變數，盡量保留原始資料。

練習 (recode) 輸入新變數名稱為 newh 按舊值與新值定義舊值 <=140 新值為 1 依此類推

SPSS recode 語法 RECODE height (Lowest thru 140=1) (140 thru 160=2) (160 thru Highest=3) INTO newh. EXECUTE. 可在變數檢視視窗定義 newh=1為 short; 2為 normal; 3為 tall (請自行練習)

資料轉換 (3) 3. 選擇觀察值 • 可設定要選擇之個案的條件 • 身高高於168者 • 或是性別為男生

輸入篩選條件，可輸入多個條件篩選個案作分析輸入篩選條件，可輸入多個條件篩選個案作分析

篩選後，可進行分析

資料正確性 • Reasonable range (Check for outlier) • For categorical variable, the category belongs to reasonable range. (Gender has only 2 groups) • For continuous symmetric variable, the data point falls in mean  3sd. Or check by box-plot, you can find extreme values. • Missing values • You need to define the code for missing value at the beginning. • Do not set empty cell as 0. • Usually, empty cell is recognized as missing value.

異常值處理 • Outliers • May result from key in error or measurement error from experiment equipments. • Solutions: 1. Correct the data from the original records. 2. Remove the outlier and do the analysis again. Present two versions of results with/without outliers. • If you can’t judge the real reason for the outlier, just provide 2 versions of analysis with and without the outlier.

平均數的比較—兩個獨立母體 • 想比較男女生的平均身高(或是FEV值)是否明顯不同? • 資料為獨立性資料，不同個體的身高不會互相影響 • 可利用獨立樣本 t 檢定 (independent samples t-test) 或稱 two-sample t-test

平均數的比較—兩個獨立母體 (2) • 想驗證的假設為”兩獨立母體的平均值有差異”，若p-value小於0.05則假設成立 • 有差異(亦即雙尾檢定)，若是要驗證男>女，或男<女則屬於單尾檢定 • 以此例而言，我們想驗證男女生的平均身高有差異，因此執行 independent samples t-test • 分析  比較平均數法 獨立樣本 t 檢定 • 會提供兩組的敘述統計以及檢定結果及平均數差異值之信賴區間

SPSS 操作 T-TEST GROUPS=Sex(0 1) /MISSING=ANALYSIS /VARIABLES=height /CRITERIA=CI(.95).

Output 平均數差了4.6 cm，但是否達統計顯著，須看檢定結果 • t 檢定需假設變異數相等，若顯著性(即p-value)<0.05，表示變異數不相等 • 此時要採取框起的部份(不假設變異數相等那一列)為檢定結果，p-value<0.001，男女身高達統計上顯著 • 2. 男女身高差異的 95% CI為 (-6.79, -2.42)，不包含0，顯見男女身高有差異

有關敘述性統計 SUMMARIZE /TABLES=height BY Sex /FORMAT=NOLIST TOTAL /TITLE='觀察值摘要' /MISSING=VARIABLE /CELLS=COUNT MEAN MEDIAN GMEDIAN MIN MAX STDDEV. 若要更多詳細的敘述性統計量，則可在分析 報表 觀察值摘要不需勾選

Output: case summary 會比”Independent samples t-test”功能有更多統計量輸出可依照自己需要選取統計量

繪圖

GRAPH /ERRORBAR(CI 95)=height BY Sex.

或是盒型圖 EXAMINE VARIABLES=height BY Sex /PLOT=BOXPLOT /STATISTICS=NONE /NOTOTAL.

有關 Independent sample t-test • 其實也可以選擇 “分割點”，e.g. 想比較10歲以下孩童之平均身高與10歲以上孩童之平均身高有無差異，在分組變數改選擇Age，並於分割點輸入10即可。

T-TEST GROUPS=Age(10) /MISSING=ANALYSIS /VARIABLES=height /CRITERIA=CI(.95). 不同年齡層身高有統計上顯著差異，較長者(>=10 yr)高出20.3 cm. (p-value<0.001, 95%CI is (18.73, 21.92)

平均數的比較—三個獨立母體 • 目的在於比較2個以上母體的平均數，比如說想以年齡分組(<12、12-15、>15)，比較3組人的母體平均 FEV 值有無差異? • 要檢定的假設為 • H0: μ1=μ2=μ3 vs. H1: 至少有一組μi≠μj • 通常依變數為連續變數，而自變數為分類變數(也稱做是因子(factor)) • 分類變數的分類(組)個數，稱為因子的水準(level) • 依據因子的水準是固定的幾類、或是隨機抽出的類別，分別對應固定效果(fixed effect) 模式，以及隨機效果(random effect)模式

平均數的比較—三個獨立母體 (2) • 須採用變異數分析 (Analysis of variance, ANOVA) • 檢定結果若顯著，表示3組的FEV值至少有一組顯著不同於其他組。 • 下一個要問的問題是，哪幾組的差異是顯著的?? • 須用多重檢定方法(事後檢定又稱 post hoc)找出有差異的是哪幾組

SPSS操作:分析 比較平均數單因子 請先將Age分成三組(令為nage)再進行ANOVA分析依變數為FEV 因子為nage

ANOVA ONEWAY FEV BY nage /STATISTICS DESCRIPTIVES HOMOGENEITY /PLOT MEANS /MISSING ANALYSIS /POSTHOC=TUKEY LSD BONFERRONI ALPHA(0.05). 通常勾選描述性統計量變異數同質性檢定平均數圖

ANOVA 通常是在ANOVA檢定為顯著後，才需要進行 Post hoc 多重比較。較常使用的有 Fisher LSD, Bonferroni, Tukey等

Output: descriptive statistics 三組人數分別為537, 87, 30人，平均FEV值分別為2.42, 3.51及3.85 標示處通常是在投稿論文中會給的統計量，有的文章甚至會給最小、最大值或中位數

ANOVA table Levene test 主要是要檢定同質性假設，若 p-value>0.05 則同質性假設成立顯示ANOVA檢定結果可靠 ANOVA檢定結果 p-value<0.001顯示三組的平均FEV值有顯著差異

平均數圖 vs. 誤差圖 GRAPH /ERRORBAR(CI 95)=FEV BY nage. 平均數圖顯示出三組差異，高中之FEV最大誤差圖顯示三組的CI差異

多重比較 其實就是倆倆的平均數比較，總共有 3取2=3 種 e.g. 國小 vs. 國中, p<0.001 國中 vs. 高中, p<0.001 國小 vs. 高中, p=0.076 故只有國中與高中的FEV無統計顯著差異

多重比較會有偽陽率增加缺點 • 改善方式就是調整兩兩比較之顯著性水準為 0.05/M,分母M為檢定總數 • 以此例而言, M=3.調整顯著性水準為 0.05/3=0.016 語法修正 ONEWAY FEV BY nage /STATISTICS DESCRIPTIVES HOMOGENEITY /PLOT MEANS /MISSING ANALYSIS /POSTHOC=TUKEY LSD BONFERRONI ALPHA(0.016).

常態性假設 • 其實不管是 2 sample t-test或是 ANOVA都對資料有常態性假設，主因是檢定統計量的理論分配才會成立，也就是檢定結果才可信 • 如果常態性假設不成立時，可改採無母數統計方法，像是 Wilcoxon rank sum test或是Kruskal Wallis test. • 另一解決方案為轉換資料 e.g. 取 log轉換可使資料變得較像常態分配而使得t-test與ANOVA方法可行如果以上方式皆行不通，那就請跟 statistician 聯絡 (預約生統諮詢)。

如何檢測常態性 • 一般可以使用正規的檢定方式 e.g. K-S test 我們來試試檢驗一下三組不同年齡層的FEV是否服從常態分配?

常態性假設 • 只有國小這一組的FEV違反常態性假設…..how to deal with this? • 通常常態性假設不成立，會降低檢定力(power)

平均值的比較 ( 獨立母體 )

平均值的比較 ( 獨立母體 )

Presentation Transcript