570 likes | 935 Vues
第 9 章 建立迴歸模型之一: 模型的選擇與驗證. 9.1 建模程序概觀. 資料蒐集 實驗控制 具有共變異的實驗控制 確定性的觀察研究 探索性的觀察研究 資料準備 模型預選之研究. 減少解釋變數 實驗控制 具有共變異的實驗控制 確定性的觀察研究 探索性的觀察研究 模型精煉與選擇 模型驗證. 9.2 外科單位案例. 9.3 選擇模型之準則. 假設子集中納入的預測變數有 p – 1 個,此一迴歸函數將有 p 個參數,同時 (9.1) 另外必須假設觀測值的個數必然大於最大的潛在參數個數: (9.2) 或 SSE p 準則
E N D
第 9 章 建立迴歸模型之一:模型的選擇與驗證
資料蒐集 • 實驗控制 • 具有共變異的實驗控制 • 確定性的觀察研究 • 探索性的觀察研究 • 資料準備 • 模型預選之研究
減少解釋變數 • 實驗控制 • 具有共變異的實驗控制 • 確定性的觀察研究 • 探索性的觀察研究 • 模型精煉與選擇 • 模型驗證
假設子集中納入的預測變數有p – 1個,此一迴歸函數將有p個參數,同時 (9.1) 另外必須假設觀測值的個數必然大於最大的潛在參數個數: (9.2) • 或SSEp準則 準則相當於採用誤差平方和SSEp當作評估準則,在SSEp準則下,SSEp越小表示該子集越好,兩者的等價性源自於(6.40): (9.3)
或MSEp準則 由於 的計算過程並未利用到迴歸模型的參數個數,且當參數個數p增加時,max( )並不會因此而減少,所以可以根據(6.42),另外定義一種經調整過的複判定係數準則 : (9.4) • Mallows’ Cp準則 此一準則係根據每一個被考慮的子集,其n個配適值的總均方誤差而定,均方誤差的概念與每一個配適值的總誤差有關: (9.5)
總誤差是由一個偏誤成份加上一個隨機誤差成份所總誤差是由一個偏誤成份加上一個隨機誤差成份所 組成: 1. 第i個配適值 的偏誤成份又稱為模型誤差成份,定義為: (9.5a) 其中, 是在給定模型下第i個配適值的期望值,當配適值不正確時, 將與真實平均反應值 不同,其差距則代表模型的配適偏誤。 2. 的隨機誤差成份定義為: (9.5b) 上式代表給定樣本其配適值 與本身期望值之離差,此處的期望值是以同一個迴歸模型下,配適出所有可能的樣本,所得到的第i個配適值之平均。
根據(9.5)可以定義出均方誤差,透過: 上式取期望值後為: (9.6) 其中,代表配適值的變異數。 因此n個配適值的總均方誤差為: (9.7)
我們用符號 表示此一準則量,然後將(9.7)的總均 方誤差除以真實的誤差變異數 : (9.8) 假設在所有P – 1個潛在的預測變數均為經過仔細考 慮下應納入的變數,則MSE(X1, …, Xp-1)為 的不 偏估計量,而可以證明出的估計量為: (9.9) 其中,SSEp為配適了p個參數後的迴歸模型之誤差 平方和,當p – 1個X變數之迴歸模型沒有偏誤時, ,則此時Cp的期望值將接近p:
(9.10) • AICp與SBCp準則 主要是用以判斷新增的預測變數是否適當,其定 義如下: (9.14) (9.15) • PRESSp準則 第i個個案的PRESS預測誤差為: (9.16) 而PRESSp準則是指n個個案之平方預測誤差總和, (9.17)
9.4選擇模型的自動搜尋程序 • 最佳子集演算法
前進逐步迴歸 1. 逐步迴歸習慣上是先對所有的P – 1個潛在X變數,一一配適簡單線性迴歸模型,在每一個簡單線性迴歸模型中,透過t*統計量(2.17)來一一檢定斜率是否為零: (9.18) 3.在我們的例題中,只有變數X7需要被考慮剔除,所以僅需使用一次t*統計量: (9.19) 在逐步迴歸重複不斷進行的過程中,統計量將可能會出現多個,這時我們將優先剔除具有最小統計量的變數,或是等價關係中最大P-值的變數。
其他逐步程序 • 前進選擇法 • 後退消去法
9.6模型驗證 • 利用蒐集新資料驗證模型 • 驗證效力的方法 衡量所選擇模型的真實預測能力,其中一個方法是用該模型來預測新資料下的每一個個案,然後計算均方預測誤差,也就是平方預測誤差之平均,用符號MSPR表示: (9.20) 其中, Yi 為第i個驗證個案的反應變數值 為根據建模資料下的第i個驗證個案之預測值 n*為驗證資料的個案數
重複研究的困難 • 理論、實證與模擬之比較 • 資料切割