290 likes | 392 Vues
Data mining a diabetic data warehouse. Data Mining Presentation. Artificial Intelligence in Medicine 26 (2002) 37-54. 簡介. 資料的儲存 醫 - 病關係的過程 管理、診療、醫療、檢測、醫藥等 非常大量且複雜 糖尿病資料倉儲 預測病患的病情發展 找出高危險群 選擇本篇 具清楚的流程步驟. 問題描述. 糖尿病患占全美人口 5.9% ,且逐年增長 可能源於 肥胖 缺乏運動 經濟問題 每年花費成本約 10 億美金 佔醫療及保險預算的大部分比例.
E N D
Data mining a diabetic data warehouse Data Mining Presentation Artificial Intelligence in Medicine 26 (2002) 37-54
簡介 資料的儲存 醫-病關係的過程 管理、診療、醫療、檢測、醫藥等 非常大量且複雜 糖尿病資料倉儲 預測病患的病情發展 找出高危險群 選擇本篇 具清楚的流程步驟
問題描述 糖尿病患占全美人口5.9%,且逐年增長 可能源於 肥胖 缺乏運動 經濟問題 每年花費成本約10億美金 佔醫療及保險預算的大部分比例
問題描述(cont’) 健康及醫療問題 併發症多(盲眼、腎衰竭、截肢) 死亡率高 2-4倍的心臟病發 病患生產嬰兒較易有殘缺 2-3倍的新生兒死亡率
問題描述(cont’) 現有成果 減少盲眼率達九成 減少至少五成的洗腎及截肢治療 努力方向 改善醫護的成果 減少支出(省錢)
問題描述(cont’) 路易司安那州 全國第二差的健康指標(3.53%) 最高的糖尿病患死亡率(38.7/0.1M) 紐奧爾良 其所屬的一城市 最胖的城市(38%的成人)
資料來源 Integrated healthcare system 三級醫院、診所、健康計畫、研究所、研究部門 內容 到2001八月有30383個病患 42個月期間,病人平均有23.8個月的資料 但期間外的資料不納入
資料來源(cont’) 共10個資料表 管理及診療、醫療、檢測、醫藥五大項 僅取用管理、診療及檢測的部分資料 資料取得 了解資料的用途 了解如何取得 可能未能取得的資料 BMI、家族病史、病發時間、體重控制及運動習慣
資料轉換 必須要適當的轉換 在單一的資料表 稱為data mining data table 平面檔(flat file) 本研究 使用SQL取出 儲存 使用於CART
資料轉換(cont’) 步驟 檢視關聯資料庫中的資料表並選擇匯出的欄位 決定取得關聯資料厙中的哪些資料的交集(取關聯) 定義data mining data table的安排(layout) 詳列要包含及排除病患的規範,會決定資料的數量,例如紀錄的最大、最小值、每一病患的紀錄數等等 資料的粹取,包括了剔除可辯識病患的資料 檢查data mining data table,確保它具有客觀的意義
資料轉換(cont’) 篩選原則 每一病患歸為同一列 多個欄位聚合成匯總的資訊(減少sparse) 病患至少兩次診療及兩次檢測
資料轉換(cont’) Comorbidity index 合併症指數 17種類,記次 HgbA1c 血糖控制指標 取平均 分界點9.5
Data Mining • Mining方法 • 使用Salford System的CART來建分類樹 • 每個節點只用一個變數來切割 • 使用Gini來看亂度 • 為了防止overfitting,把資料隨機切分為test(7950)以及learning(7953) • 從learning產出的tree去與test sample進行預測,由其正確率看是否有overfitting現象
Data Mining • 目標 • Predictor variable:age, sex, ER, OV, CMI, lipid ( 體脂肪 ), HTN (高血壓 ), CV ( 心血管疾病 ), eye ( 視網膜 ), ESRD ( 腎衰竭 ) • Target variable:HgbA1c(糖化血色素) average(9.5) • 找出糖尿病患者中,哪些比較會有較差的血糖控制(HgbA1c > 9.5) • 血糖控制是控制糖尿病的基本步驟
變數權重 • 由CART來看10個變數中,哪些是最重要的分類變數 • 第一個中間節點是用AGE來切割(65.6) • Class=1 代表是對於血糖控制較差的人(HgbA1C > 9.5) • Node1~12代表中間節點,Node-1~-13代表葉節點(TN) • 原本learning sample中,控制較差的人有13.2%(1052/7953) • 經過第一個節點切割後變成19.4%(775/3987)
Age<=55.231 19.4% Age<=65.581 13.2%
Classfication error • 控制較差的病人在learning以及test皆有四分之一的估計誤差 • 增加變數可能可以減少其誤差 • 服用的藥物 • BMI值
Adjustment to defaults • 若將分類的方式作調整可以得到更好的結果 • 0.451(age) + 0.893 (CMI) <= 32.5576 • 但是要如何評估0.451age+ 0.893CMI <-32.5576 • 用單一屬性比較好評估
Evaluation of the discovered knowledge • 年齡比CMI是更為重要的因子 • 年齡在65.6歲以下且血色素較高的機率是其他人的三倍 • 以所有樣本而言 • 年輕且血色素較高的機率:0.241 • 年長且血色素較高的機率:0.0758
Using the discovered knowledge • 較年輕的病患比較不會控制自身血糖 • 因此必須對於年輕的病患進行有組織的控制或者教育 • 未來進一步研究 • 必須去看其他非NEW ORLEANS地區的資料,觀察這個現象是否跨地區 • 尋找其他的變數 • 分類的方法必須去衡量其cp值 • 年齡分類對於健康組織比較好評估 • 用其他線性或者合併的方式不一定較好,因為較不好執行
conclusion • 必須解決的問題 • 時間連續性 • 事件連續性 • 資料壓縮 • 時間連續性 • 常常看醫生的也許是因為併發症發作 • 一個人會有很多次檢測記錄,該選擇第一筆?最後一筆?還是平均值? • 如何把時間的資料轉換成單一欄位
conclusion • 事件連續性 • 當一個人剛看完醫生,他在短期時間內的控制較好 • 進急診室->看診 • 看診->進急診室 • 資料壓縮 • 當資料越多(如整個美國病人),用資料壓縮的方式將所有資料都放入CART會比使用隨機抽樣方式佳 • 如何抽取資料的同時又能夠保持時間連續性以及事件的連續性
Critics • 內容有些地方有錯誤(table以及n) • Mining的發現 • 較年輕的控制力較差是否是因為控制力較差者的平均年齡比控制力高者低(控制力差者比較不會活到65歲以上)