570 likes | 925 Vues
第十章. F 分布與變方分析 F-Distribution and Analysis of Variance. F 分布 兩族群變方相等性檢定 變方分析 (ANOVA) 試驗設計. 10.1 F 分布. 兩個族群變方的比值稱為 F 值 即 若 F=1 ,即表示兩族群變方相等 。 而由 F 值所組成之次數分布即為 F 分布。 F 分布為紀念 R.A. Fisher 而命名,故又稱費氏 F 分布 (Fisher ’ s F distribution) 。
E N D
第十章.F分布與變方分析 F-Distribution and Analysis of Variance F分布 兩族群變方相等性檢定 變方分析(ANOVA) 試驗設計
10.1 F分布 • 兩個族群變方的比值稱為F值 • 即 • 若F=1,即表示兩族群變方相等 。 • 而由F值所組成之次數分布即為F分布。 • F分布為紀念 R.A. Fisher 而命名,故又稱費氏F分布(Fisher’s F distribution)。 • 若族群變方未知,而以樣品均方( )作為變方的估值,則F值亦可以兩樣品均方之比值表示為:
F分布 • F分布曲線是根據 自由度 及 之自由度 而定的一條分布曲線,故F分布曲線依 及 之不同而異。 • F分布之機率求法,已製有右尾積分10%、5%、1%之機率表(附表七)。
F分布 • 通常計算F值時,常把較大的均方放於分子,而較小的均方放於分母,因此F值均大於1,故F值也就採用右單尾檢定。但若欲計算左單尾F值所發生的機率,可採用 換算。
10.2 兩族群變方相等性檢定 例子10.2 設下列為人工與儀器測定成年人血液中尿酸含量之記錄,是檢定兩種測定法之變異是否相同。 (1)虛無假設 (2)對立假設 (3)設定顯著水準 (單尾) (4)計算 ,若 表示兩變方不相等。 mg% / ml mg% / ml
例子10.2 • 今實測 ,故拒絕H0的假設,表示兩種尿酸測定法之變方不相等。
10.4 變方分析(Analysis of Variance:ANOVA) • 針對數個樣品(處理)均值之比較檢定法,雖然也可以採用兩樣品均值差異的t檢定(兩兩成對比較),但此種方式結果犯第一型錯誤機率,要比我們設定的顯著水準(0.05)高很多,也就是可靠性會降低。 • 假設有四個樣品均值要互相比較,則共有 對樣品均值差異的比較檢定,若設每對比較檢定的顯著水準為 ,即其信賴水準為 。 • 故6對樣品均值差異獨立比較結果之正確率為: ,犯第一型錯誤率為 。
變方分析(ANOVA) • 而採用變方分析法,可維持在 的顯著水準下,同時比較數個樣品均值的相等性問題。 • 應用變方分析的前提: • 各樣品(處理)互相獨立。 • 各處理之試驗誤差應獨立 • 各處理之試驗誤差應同質(homogeneity)。 • 並且服從常態分佈。
變方分析之原理 • 一般試驗結果難免會發生誤差(error),有些誤差是可以控制,而有些則是不明原因所造成的。 • 我們以下面的例子來說明試驗資料之成因、試驗誤差以及變方分析之原理。 • 假設有一老祖父過96歲生日,他將美金96元分給12位孫子當零用錢,為求公平所以每人得8元,不過分配後祖父覺得這樣不妥,因為12位孫子中,四位為研究生、四位為大學生、另四位為中學生,根據不同年齡層消費會不同,因此祖父決定再重新分配,如下表所示:
今以三種飼料12隻天竺鼠增重比較試驗結果代替今以三種飼料12隻天竺鼠增重比較試驗結果代替
10.4.3 平方和劃分 兩邊取平方後總和為: + = 總平方和 (total sum of squares) 處理平方和 (treatment sum of squares) 誤差平方和 (error sum of squares)
各項平方和其均方之求法 總均方 處理均方 誤差均方
變方分析表 實測F值是以處理均方(MSt)除以誤差均方(MSE)而得,根據自由度 及 查得顯著水準 為0.05或0.01之F值,若實測 則表示處理均值不相等,處理效應存在,反之則不存在。或以P值表示,若P小於0.05或0.01,則處理效應存在。
處理均方期望值與誤差均方期望值之比值 • 若F=1, • 若F>1, • 至少有一對處理平均值不等
例子10.3 假設有A、B、C三種食品進行天竺鼠飼養,每種食品飼養四隻,經過兩週後每隻之增重(克)如下記錄,試以變方分析法檢定三種食品品質是否有差異。
影響天竺鼠2週增重變異的原因(變因) • 已知變因(Known Variation) • 飼料品牌 • 未知變因(Unknown Variation) • 試驗誤差(Experimental Error) • 其他所有可能的原因 • 天竺鼠起始體重 • 測量誤差 • 試驗環境 • …
(1)虛無假設 (2)對立假設 (3)設定顯著水準 (單尾) (4)計算F值 首先求各效應平方和:
三種食品對天竺鼠增重檢定變方分析表 實測 ,故接受H0的假設,表示三種食品品質相同。
例子10.4 假設有A、B、C三種食品進行天竺鼠飼養,每種食品飼養四隻,經過兩週後每隻之增重(克)如下記錄,試以變方分析法檢定三種食品品質是否有差異。
(1)虛無假設 (2)對立假設 (3)設定顯著水準 (單尾) (4)計算F值 首先求各效應平方和:
三種食品對天竺鼠增重檢定變方分析表 實測 ,故拒絕H0的假設,表示三種食品品質不完全相同。記兩個星號**通常表示處理均值間之差異達1%顯著水準,一個星號*表示處理均值間之差異達5%顯著水準。
10.4.6 成對處理均值間差異比較 • 一般Fisher 的最小顯著差異法(LSD) • Duncan 的多變域檢定法(DMRT) • Scheffe 的S值檢定法等多種 • Scheffe 之臨界值比LSD或DMRT都大,兩處理均值比較時,其差異值較不易達顯著水準,適合於較嚴格之比較測驗。 • S>DMRT>LSD
1. Fisher’s 最小顯著差異(Least Significance Difference, LSD) • 若實測處理i與i´之間的差異比理論的LSD大,表示處理i與i´之平均值間有顯著差異
鄧氏新多變域測驗法Duncan’s New Multiple Range Test(DMRT) • 其臨界值之計算式如下:(見附表8) • r=2, • r=3,
處理均值 實測差異值 • --------------------------------------- • C 11 - • B 7 4* - • A 6 5* 1 - • ---------------------------------------- • *號表示兩處理均值間的差異達到5%顯著水準
雪菲S法(Scheffe’s S Method) • 兩處理均值差之臨界值計算式:
處理均值 實測差異值 • --------------------------------------- • C 11 - • B 7 4* - • A 6 5* 1 - • ----------------------------------------
Bonferroni多重比較方法 • 顯著水準:α,兩兩比較個數:k • 調整顯著水準: α*=α/k • Bonferroni(1-α)%信賴區間 • 決策方法:若處理i與i´之Bonferroni(1-α)%信賴區間不包括0 處理i與i´之平均值間有顯著差異
Tukey忠誠顯著差異值(Honest SignificanceDistance,HSD) • Qα, m, dfE • 決策方法:若處理i與i´之HSD不包括0 處理i與i´之平均值間有顯著差異
10.5試驗設計(experimental design) • 設置重複(set up replication) • 隨機排列(random arrangement) • 誤差控制(error control) 一個好的研究必須要有嚴謹的設計 ,客觀的試驗過程及合理的推論。因此試驗時必須遵守下列三個原則
設置重複 同一處理(如食品、藥品、療法、品種)所使用的試驗單位數即為重複。 主要作用是估算試驗誤差以備統計推論之用。 若試驗只做一次(重複一次),則無法估算試驗誤差,也就無法做統計推論。 重複次數愈多,理論上試驗誤差愈小,試驗結果會愈準確可靠。 一般來說,計量資料,如果誤差控制得好,設計均衡,10~20次即可,甚至還可小一些;而計數資料,即使誤差控制得好,也需要30-100次左右。
隨機排列 哪一個處理被安排於哪個試驗單位要機會均等,不能有人為的主觀偏見。 隨機排列與重複相結合,試驗數據就能估算無偏的(unbiased)試驗誤差,統計推論才合理可靠。 隨機法有:拋硬幣,擲骰子,抽籤,利用隨機數字表
誤差控制 誤差來源有兩種(見2.7節) 系統誤差(systematic error) (知道原因的誤差,有方向) 隨機誤差(random error) (不知道原因的誤差)
10.5.1完全隨機設計(CRD)(one-way ANOVA) 採用本設計的條件(本設計只有隨機誤差) 各處理(如以A、B、C代表三種食品、藥品)所使用的試驗材料要同質(或同時或同環境)進行試驗 各處理要隨機排列如圖: 本設計之優點:試驗最簡單,試驗結果效力最高,適合任意處理數及重複數的試驗。
[例] 設今有A,B,C三種營養食品,以老鼠為試驗材料,每種食品飼養4隻老鼠(4重複),其試驗設計圖及一個月後之增重(克)如下圖
資料整理 • ---------------------------------------------- • 處理 觀測值 處理 和 處理均值 • ----------------------------------------------- • A 1.4 1.9 2.0 1.5 6.8 1.7 • B 2.0 2.4 1.8 2.2 8.4 2.1 • C 2.6 2.8 2.5 2.1 10.0 2.5 • -------------------------------------------------- • 25.2
各種平方和之計算 • SST= • SSt= • SSE=SST-SSt=2.00-1.28=.72
變方分析表 • 變 因 自由度 平方和 均方 實測F值 理論F值(0.05) • ------------------------------------------------- • 食品(t) 3-1=2 1.28 0.64 8.0 4.26 • 誤差(E) 11-2=9 .72 .08 • ------------------------------------------------- • 總計(T) 12-1=11 2.00 • 三種參試食品品質間有顯著差異
處理均值間比較 • 處理 均值 實測差異值 • ------------------------------------ • C 2.5 - • B 2.1 .4 - • A 1.7 .8 .4 - • ------------------------------------ • 比較結果C與B,B與A無差異,但C與A則有差異
10.5.2隨機完全區集設計(RCBD) (two-way ANOVA) 採用本設計條件 • 試驗材料為異質(或異時或異環境),但可明顯分成幾組,每組集合數個性質相同的試驗單位而成一區集(block)。 • 各區集內之試驗單位數必須等於處理數 • 在各區集內參試處理要隨機排列,形成同源配對
隨機完全區集設計(RCBD) 本設計優點: 可剔除試驗材料(或時間或環境)不同時之系統誤差,以減小試驗誤差。 任意處理數及區集數均可。 本設計缺點: 若試驗材料為同質,其試驗效果不如完全隨機設計(CRD)。 試驗結果資料有缺值時,資料分析比較複雜。
例子10.7假設有A、B、C、D四種血液凝結處理方法,如選取五位健康成人,每人抽血後分成四份,並隨機分配四種凝血處理方法,所得血液凝固時間如下圖,試比較何種處理方法較佳。例子10.7假設有A、B、C、D四種血液凝結處理方法,如選取五位健康成人,每人抽血後分成四份,並隨機分配四種凝血處理方法,所得血液凝固時間如下圖,試比較何種處理方法較佳。 • 試驗設計圖
(1)虛無假設 (2)對立假設 (3)設定顯著水準 (單尾) (4)計算F值 首先求各效應平方和:
雙向 變方分析表 實測 ,故拒絕H0的假設,表示四種凝血處理方法有差別。
成對處理均值間差異比較 • 處理均值間差異比較表 • 處理 均值 實測差異值 • ----------------------------------------------------- • D 11.58 - • B 10.68 0.90 - • C 9.46 2.12 1.22 - • A 9.00 2.58 1.68 0.46 - • ------------------------------------------------------ • D與B,A與C無差異,但D與B比A與C,血液凝固時間長