資料庫知識探索 Knowledge Discovery in Databases

資料庫知識探索Knowledge Discovery in Databases Prepared by: Dr. Tsung-Nan Tsai

Content • 了解資料庫知識探索程序之七個步驟 • 瞭解KDD之資料探勘步驟 • 了解標準化、轉換、修飾資料方法 • 瞭解資料屬性刪除與建立方法 • 認知資料遺漏處理方法之優點與缺點 • 熟悉CRISP-DM資料探勘標準

Data preprocessing Data Transformation

KDD步驟 • 資料庫知識探勘 (KDD Discovery in Database, KDD)為一種於資料庫中挖掘出內含事先未知且潛在有用知識之反覆交互運作程序。 • KDD七個步驟： • 定訂目標：了解知識探索領域與系統問題屬性，並敘述目標與提出可能假設。 • 建立目標資料集：藉由一個或多個專家與知識探索工具以選擇所需分析之初始資料。 • 資料前處理：運用有效方法處理資料所隱藏之雜訊、不一致、遺漏、重覆之資料，並了解時間演進所帶來效應。

KDD步驟 • 資料轉換：刪除或新增目標資料群屬性與資料，此步驟用以決並一些標準化、轉換、與修飾資料方法。 • 資料探勘：使用一個或多個資料探勘方法將資料處理成為最佳的模型表現。 • 解釋與評估：審查步驟5所呈現之資料探勘結果，找出有用、有趣、可實行之資料或特徵。 • 採取行動：直接應用至適當問題領域

KDD – 科學方法步驟

步驟1: 訂定目標 • 訂定目標主要作用在於清楚定義完成目標為何。 • 資源配置與成功的評量皆設在此步驟 • 此階段須考量之事項： • 清楚描述所要解決的問題 • 選定資料探勘工具，包括工具適用性、學習方式(supervised or supervised learning or in combination) • 人力與資源規劃 • 專案管理 • 成果之合法性 • 適當計畫以利於計畫持續運作

步驟2: 建立目標資料集 • 一組可用的資料集為資料探勘計畫是否成功與否之關鍵。 • 一個大型資料倉儲(Data warehouse) 、一個或多個可互相處理之資料庫、及純文字檔皆可為資料探勘資料來源。 • 資料庫管理系統(DBMS) • 關聯式資料庫 (Relational database) • Tuple • Relationship (1:∞, 1:1, ∞: ∞) • See next slide

資料倉儲結構 Client 1 Client 2 Client 3 Client m Data Warehouse Integrator Informational Data Extractor Extractor Extractor Extractor DB1 DB2 DB3 DBn

商業智慧流程

商業智慧 Data Mining OLAP Data Warehouse Integrator Purchase Inventory Supplier Data Customer Data Account Payables Purchase Data Service Records Order Records DBs in ERP DBs in SCM DBs in CRM

Data Mining評估 資料庫理論人工智慧資料倉儲統計方法機器學習 Data Mining

步驟3: 資料前處理 • Data preprocessing乃指處理資料中雜訊與遺漏資訊的資料清理(Data cleaning)程序。 • 大多數資料之前處理都在建立資料倉儲前執行之。 • 雜訊資料(Noisy data) • 重複紀錄 • 不正確屬性值 • 資料運算或權重重要性 • 偏離值(Outliers) • Examples, see page 164 to page 166

步驟3: 資料前處理 • 處理遺漏資料可能選項： • 刪除有遺漏值之紀錄 • 將遺漏數值資料以該類平均值取代之 • 找出高度相似資料範例，並以該範例填補之 • 某些軟體允許處理資料有遺漏情況： • 忽略遺漏值：類神經網路、貝氏分類器 • 以相同比較方法處理遺漏值 – Treat missing values as equal comparison. (以相同值取代之) • 以不同比較方法處理遺漏值 – Treat missing values as unequal comparisons (以不相同值取代之)

步驟4: 資料轉換 • 資料正規化：將數值轉換並落於一個特定範圍內。 • 十進位縮放法(decimal scaling): 將每一個數值型資料皆除以10個次方。例如一個屬性值範圍介於 [-1000, 1000]間，則將數值除以1000而轉換之。 • 最小-最大值正規化: • Z-score: • 對數正規化: see page 168

步驟4: 資料轉換 – 屬性選擇與消除 • 屬性選擇，See page 168, the method • 消除屬性： • 輸入屬性與其他屬性具有高度相關(擇1) • 對於類別型資料，若其屬性值vi，其隱含問題預測分數)大於設定門檻值，則可刪除之。(As the domain predictability score of vi increases, the ability of vi to differentiate the individual classes decreases) • 若於監督式學習，數值型屬性重要性可比較其類別平均值與標準差分數。 • 前兩個技術可用於監督與非監督式分群機制上。

步驟4: 資料轉換 – 屬性選擇與消除 • 利用基因學習用以選擇屬性。 • 1:被使用屬性 0:未被使用屬性 • 輸出屬性為壽險促銷，程序如下： • 選擇適當訓練資料與測試資料 • 隨機選擇以選取初始族群 • 對每一個元素族群建立一個監督式學習模型，see page. 170. • 利用同樣模型分析測試資料以評量每一個元素與計算出模型確度。 • 若結果吻合，則自屬性群中選取一個元素並由訓練資料建立出最終監督式模型。 • 若結果未達到預期，則運用基因運算元修改元素屬性群，並重複步驟3-5。 Input

建立屬性 • 一些部具有預測能力之屬性結合可能創造出另一個具高度預測能力的屬性。Examples see page. 171.例如Price/Earning rate, P/E 除以公司成長率。 • 可運用以下原則建立新的屬性值(資料轉換程序) ： • 一個屬性除以某個屬性值 • 該屬性為已存在屬性值之差異值 • 其值為兩個屬性值之增加百分比(Percent increase)或減少百分比。若存在兩個值v1與v2，且v1<v2，則v2對v1之增加百分比為：

步驟5: 資料探勘 • 建立監督式或非監督式學習模型方案： • 自獲取資料範例選出訓練資料與測試資料 • 指定一群輸入屬性 • 假使為監督式學習模型則選擇一個或多個輸出屬性 • 選擇學習參數 • 選用一個資料探勘工具用以建立資料歸納模型 • 若未獲取可接受結果，則重複以上程序。

步驟6: 解釋與評估 • 解釋與評估可採多種方法為之： • 統計分析：可利用 t-test or ANOVA 決定用不同屬性與資料範例所建立出模型間是否存在重大差異。 • 試探性分析：大部分資料探勘工具提供運算數值之試探法以協助使用者決定哪些資料已被探索。例如K-means演算法可利用ANOVA計算已探索資料(Tanagra) 。 • 實驗分析：ANN與K-means所建立出模型通常存在差異，可運用實驗矩陣用以選擇不同參數。 • 人性分析：可經由領域專家協助判定模型適用性。

步驟7: 採取行動 • See page. 174 to 175.

CRISP-DM程序 • Cross Industry Standard Process for Data Mining: • 了解企業需求：以企業觀點找出推動此方案之目的，先定義資料探勘問題並訂定初步計畫方案 • 瞭解資料特性：收集完整資料並建立假設 • 準備資料：篩選資料中之各項表格、記錄、與屬性。 • 設計模型：選擇一個或多個資料探勘技術建立模型 • 評估：鑑別模型是否符合企業需求與專案目的 • 建置：推動與執行計畫

Screening with Tanagra – 資料轉換

Screening with Tanagra – K-means & SOM

K-means

Screening with Tanagra

Screening with Tanagra - SOM

資料庫知識探索 Knowledge Discovery in Databases