1 / 19

異常點 (Outlier / 偏離值 / 離群值 )

異常點 (Outlier / 偏離值 / 離群值 ). 關志威博士 香港大學 統計及精算學系. 甚麼是異常點 ?. 運輸及房屋局於 2009/3/26 公布,可加可減方程式運算結果  3.03% ,超過  2% , 可望巴士公司平均減價毫半子。 統計處 2009/4/15 公布,該處在運算 2008 年 9 月及 12 月 的「運輸服務業」工資指數時出錯,巴士票價可加可減調整方程式運算結果應修訂為  1.26% 。未達致啟動檢討巴士票價機制的  2% 水平,即巴士未能減價。. 可加可減方程式. 票價調整幅度的方程式

jules
Télécharger la présentation

異常點 (Outlier / 偏離值 / 離群值 )

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 異常點(Outlier / 偏離值 / 離群值) 關志威博士 香港大學 統計及精算學系

  2. 甚麼是異常點? 運輸及房屋局於2009/3/26公布,可加可減方程式運算結果 3.03%,超過 2%,可望巴士公司平均減價毫半子。 統計處2009/4/15公布,該處在運算2008年9月及12月的「運輸服務業」工資指數時出錯,巴士票價可加可減調整方程式運算結果應修訂為 1.26%。未達致啟動檢討巴士票價機制的 2%水平,即巴士未能減價。

  3. 可加可減方程式 • 票價調整幅度的方程式 • 0.5  綜合消費物價指數變動 + 0.5 工資指數變動-0.5 生產力增幅 • 統計處早前公布的2008/12「運輸服務業」名義工資指數為145.1,而正確數字實為150.5。根據更正的數據,2008年第二季至第四季的工資指數變動應為 1.311%,而不是 4.852%。 • 修正前 • 0.5  (-0.817%) + 0.5  (-4.852%) – 0.3%  8 / 12 = -3.03% • 修正後 • 0.5  (-0.817%) + 0.5  (-1.311%) – 0.3%  8 / 12 = -1.26%

  4. 修正前

  5. 異常點是變數的觀察值明確與其他值有所不同 • 不能因此判決異常點好壞 • 輸入或編碼錯誤 • 異常事件發生 • 模型假設錯誤

  6. 異常點的影響 • 減價!不減價!可加不可減!名譽掃地!匪夷所思!名存實亡!形同虛設! • 平均值(mean) • 工資指數變動 • 修正前:0.377 • 修正後:0.673 修正後 修正前

  7. 如何檢測異常點? Boxplot

  8. Mean ± 3SD • Mean = 0.377, SD = 1.95 • Mean + 3SD = 6.23, Mean  3SD =  5.48

  9. Mean(i)±3SD(i) • Mean(12)=0.853, SD(12)=1.10 • Mean(12) + 3SD(12) =4.14, Mean(12)  3SD(12) =  2.44 • Median±3MAD • 中位數絕對離差 (Median absolute deviation)

  10. 個案刪除法 (Case-deletion)

  11. 殘差圖(Residual plot)

  12. 槓桿值(Leavage) • t* • where

  13. 臨界值(Cut-off)

  14. 如何處理異常點? • 不具代表性,刪除。 • 具代表性,保留。 • 穩健方法(robust method) • 中位數 (Median)

  15. 去頭尾平均數(Trimmed mean) • k = [na] is the smallest integer ≥ na • 5% trimmed mean • 12  5% = 0.6 • 1個最大,1個最小值去掉

  16. 溫塞平均數(Winsorized mean) • 最小中位數平方(Least median of squares) • 最小消去平方(Least trimmed squares)

  17. Further readings Cook, R.D. and Weisberg, S. (1982). Residuals and Influence in Regression. Chapman and Hall. Rousseeuw, P.J. and Leroy, A.M. (2003). Robust Regression and Outlier Detection. Wiley.

More Related