線性迴歸模型

17 線性迴歸模型 Microsoft SQL Server中的資料採礦模型

17-1 基本概念 • 何謂「迴歸」 • 某公司業務部經理想要了解該公司影響銷售業績(y)之主要因素並希望能建立一預測模式。 • 案子交由市調部門做市場調查，發現有許多似乎都是很主要之變項因素(例如：廣告費、交際費、銷售員佣金…等)。如果該業務經理只想找出一個或數個重要的相關之變項因素(X1,X2,…,Xp)，如何尋找出？並如何建立預測模式？

17-1 基本概念 • 迴歸分析 • 建立變數關係的數學方程式之統計程序。是將研究的變數區分為因變數與自變數，並建立因變數為自變數之函數模型，其主要目的是用來解釋資料過去的現象及自由變數來預測因變數未來可能產生之數值。 • 自變數(Independent variable) • 由數學方程式預測的變數。 • 因變數(Dependent variable) • 據以預測因變數的值之變數。

17-1 基本概念 • 簡單線性迴歸(Simple Linear Regression) • 僅有一自變數與一因變數，且其關係大致上可用一直線表示。 • 複迴歸(Multiple Regression) • 兩個以上自變數的迴歸。 • 多變量迴歸(Multi-Variable Regression) • 用多個自變項預測數個因變數，建立之迴歸關係。

17-2 一元迴歸模型 殘差分析:檢定模型假設殘差：為因變數的觀察值與由迴歸方程式預測而得的值之差第個觀察值的殘差是以估計迴歸方程式預測值所產生的誤差之估計值。殘差分析可用來檢定迴歸分析的前提假定是否成立。在證實迴歸模型的前提假定是否成立時，需考慮兩個關鍵問題 1.有關誤差項的四個前提假定是否滿足？ 2.我們所假定的模型形式是否合適？

17-2 一元迴歸模型 殘差殘差是的估計值；迴歸分析中如有個n觀察值，就會有n個殘差。殘差圖可幫助我們判斷有關的前提假定是否滿足。三種最常見的殘差圖為： 1.殘差對自變數X的圖。 2.殘差對因變數的預測值的圖。 3.將殘差化為z分數(即減去其平均值，然後除以標準差)，再畫出標準化殘差的圖。

17-3 多元迴歸模型 • 複迴歸 • 用多個自變預測一個依變項，建立之迴歸關係稱之為複迴歸(multiple regression)。 • 複迴歸線性模式(multiple linear regression model) • 模型的公式是 y=β1x1+β2x2+‥‥+βpxp

17-3 多元迴歸模型 • 在複迴歸裡，除了符號較複雜之外，基本概念和簡單迴歸完全相同。 • 例如在簡單迴歸中是常態分布，在複迴歸中只是將之改成通通都是常態分布。SSE在簡單迴歸中是分布(乘上 )，這在複迴歸裡也是對的，唯一的不同點是自由度要用。而SSE和獨立，也是對的。因此

17-4 操作範例 • 選擇Microsoft 線性迴歸後，點選下一步。

17-4 操作範例 • 選取REGRESSION資料庫後，點選下一步。

17-4 操作範例 • 建模完成。建立模型時選擇的所有變數列出所有建立知採礦模型及分析使用變數情況

17-4 操作範例 • 在採礦模型上點選滑鼠右鍵，選擇「設定演算法參數」針對方法論的參數設定加以編輯。

17-4 操作範例 • 「採礦模型檢視器」則是呈現該採礦模型樣式，透過機率的方式呈現何種情形狀況下，對於預測變數的機率比重為何，加以了解。

17-4 操作範例 • 在「相依性網路」圖中，主要是呈現各輸入變數與預測變數間之相關程度。利用圖形呈現變數間相關性調整變數間相關係數利用不同顏色呈現變數關係

17-4 操作範例 • Microsoft 線性迴歸演算法是一種迴歸演算法，很適合迴歸模型。此演算法為 Microsoft 決策樹演算法的特定組態，經由停用分割取得 (整個迴歸公式是在單一根節點中建立)。此演算法支援連續屬性的預測。 • 迴歸樹的變形(樹深度=1) • 僅能輸入連續變數

17-4 操作範例 • 演算法參數 • Complexity_Penalty • Force_Regressor • Maximum_Input_Attributes • Maximum_Output_Attributes • Minimum_Support • Score_Method • Split_Method

17-4 操作範例 • Complexity_Penalty • 敘述： • 禁止決策樹成長。 • 預設值是依據給定模型的屬性數目而定: 如果有 1 到 9 個屬性，預設值為 0.5; 如果有 10 到 99 個屬性， • 預設值為 0.9; 而如果有 100 或更多個屬性，則預設值為 0.99。 • 範圍：0.0~1.0 • Force_Regressor • 1：標準迴歸。 • 0：逐步迴歸。

17-4 操作範例 • Maximum_Input_Attributes • 敘述：演算法可以處理輸入屬性的最大數目。 • 範圍：[0,65535] • 預設值：255 • Maximum_Output_Attributes • 敘述：演算法可以處理輸出屬性的最大數目。 • 範圍：[0,65535] • 預設值：255

17-4 操作範例 • Minimum_Support • 敘述： • 指定分葉節點必須包含的最小案例個數。 • 將此值設定為小於 1，代表最小案例數目為總案例的百分比。 • 將此值設定為大於 1 的整數，則代表最小案例數目為指定的絕對數目。

17-4 操作範例 • 分割準則 • Score_Method • 敘述： • Entropy(1) • Bayesian with K2 Prior(3) • Bayesian Dirichlet Equivalent with Uniform Prior(4) • 預設值： • Bayesian Dirichlet Equivalent with Uniform Prior(4)

17-4 操作範例 • 分割準則 • Split_Method • 敘述： • 二元分岔(1) • 完整分岔(2) • 自動偵測(3) • 預設值： • 自動偵測(3)

本章結束

線性迴 歸模型