第 16 組序列型樣導向之序列叢集化處理報告組員：蔡承融黃于庭蘇彥存

第16組序列型樣導向之序列叢集化處理報告組員：蔡承融黃于庭蘇彥存第16組序列型樣導向之序列叢集化處理報告組員：蔡承融黃于庭蘇彥存

第一章、緒論 • 研究背景 • 研究動機 • 研究的目的與重要性

研究背景 • 電子化時代來臨，企業競爭白熱化 • 資料探勘是企業從龐大的資料量中找出潛藏而有用的資訊的工具 • 直接對顧客交易資料進行探勘的序列型樣受到產業界和學術界的重視

研究背景 • 所謂探勘序列型樣就是從序列資料庫中找出所有被一定數量的序列所支援的序列型樣

研究背景 • 使用序列型樣仍會因數量太大而影響使用效率 • Tadeusz Morzy等人提出利用序列型樣對序列進行階層式的局部叢集(partial clustering) • 若產生的叢集數範圍較確定，階層式效能較不如分隔式(如k-means)

研究動機 • 資料庫經過探勘之後，產生繁多的序列型樣，使用者不易觀察和使用。 • 提出ㄧ序列型樣之叢集演算法可協助使用者發現蘊含的資訊 • 叢集處理的演算法的效能要高，過多的時間和成本進行計算，而失去企業的先機

研究的目的與重要性 • 提出序列型樣之硬式叢集之處理方法 • 提升序列型樣之叢集處理效能 • 提出序列型樣之叢集處理的平行化方法 • 解決序列型樣產生的資訊量龐大的問題

第二章、文獻探討 • 序列型樣之相關研究 • 叢集之相關研究 • 序列型樣支叢集處理相關研究

序列型樣之相關研究 • 序列型樣定義『序列型樣主要表示資料項目之間的發生順序亦即利用項目之間的先後順序，探勘出資料庫中隱含的資訊。』 • 序列型樣之研究最早由Agrawal和Srikant提出，之後加入階層等概念將序列型樣的定義加以延伸

序列型樣之相關研究 • 序列型樣之研究 (1)演算法速度的提升 (2)自訂序列型樣之規則 (3)序列型樣的更新維護 (4)模糊序列型樣處理 (5)事件之分析

叢集之相關研究 • 叢集定義叢集分為三大類：階層式、分割式、密度式 • 叢集能對資料集內未知特性之資料物件進行分群的動作

叢集之相關研究 • 叢集研究 (1)分割式叢集方法 (2)階層式叢集方法 (3)密度式叢集 (4)模糊叢集

序列型樣之叢集處理相關研究 • 1999年Tadeusz Morzy等人提出POPC演算法 • 2001年Tadeusz Morzy等人又提出POPC-J和POPO-GA改進先前所提的演算法 • 經學者比較POPC-GA較POPC-J執行效率更佳

第三章、研究方法與限制 • 問題與定義 • 研究步驟與流程

問題與定義 • 如表所示，本研究要解決的問題，就是將D中的序列，依其相似程度分配到不同的叢集之中，並使每一個序列只能分配到一個叢集之中

研究步驟與流程 • 本研究之步驟分為五個階段階段一：資料前置處理階段二：POHC演算法階段三：POHC平行處理方式階段四：其他改良方式階段五：POPC-GA演算法的平行處理

研究步驟與流程 階段一：資料前置處理 • 步驟一、計算每ㄧ序列所符合的序列型樣有哪些。產生如下資料

研究步驟與流程 • 步驟二、計算每ㄧ序列所符合之序列型樣有哪些，產生序列屬性表 • 步驟三、去除未支援任何序列型樣的序列，及屬性值為0的序列

研究步驟與流程 階段二：POHC演算法 • 步驟一、選定K個中心點(x1,x2,…,xk),分別為叢集(c1,c2,…ck)的中心點,並令每個中心點有(M/K)個屬性1,[(k-1)M/k]個屬性為0 • 步驟二、計算每一筆紀錄與各中心點的距離，將其分配至與其最近之中心點的叢集內，而計算距離的方法是先算出兩者各欄位間的距離，然後加總

研究步驟與流程 欄位距離的計算方式有下列兩種： • [POHC]使用AND方式：將中心點Xi和序列sj中所擁有的屬性p1, p2, p3 , …pm依序比對，當Xi 和sj 的屬性pl 皆為1 時，表示兩者皆具有相同型樣特徵，並令其相似度等於1，表示完全相似 • 當Xi 和sj 的屬性pl 為相異時(1 和0)，則令其相似度等於0，表示不相似;當Xi 和sj 的屬性pl 皆為0 時，表示兩者皆不支援此型樣，令其相似度為0。

研究步驟與流程

研究步驟與流程 • [POHC_B].直接計算方式：計算Xi 和sj 之屬性pl 的絕對差值，作為兩者屬性間的距離，在此作法中產生的距離值將介於0 到1 之間。

研究步驟與流程 • 步驟三：計算新的中心點位置X1, X2 … .. Xk，依據步驟二有兩種計算距離的方式，故在此亦有兩種不同方式計算新中心點的值，計算新中心點的方法如下： [POHC]:計算支援Xi 的pj 屬性其支持度是否有大於pj 屬性的臨界值，若是大於則令Xi 的pj 屬性值為1，否則為0。

研究步驟與流程 • CVij：序列型樣pj 在各叢集ci 的影響力，當CVij 愈大時，則表示pj 對ci愈重要。

研究步驟與流程 • ACVj：各叢集CVij 的平均值，表序列型樣pj 在各叢集中平均出現之序列比率。

研究步驟與流程 • CVVj：CVij 的變異數(序列型樣pj 對全部叢集)，表序列型樣pj 在各叢集中分佈skew 之情況。

研究步驟與流程 令á= ACVj + CVVj ，á為屬性pj 的臨界值，所以當Xi 的屬性pj 的支持度大於臨界值á，則設叢集中心點Xi 的屬性pj 值為1，否則為0。 • 步驟四：重複步驟二，直至中心點位置不再改變時，即各叢集達到收斂，則叢集結束。

研究步驟與流程 階段三：POHC平行處理方式 • 本節介紹序列型樣之叢集演算法的平行處理方式，並提出相對應的演算方法。 • 假設有w 個工作站其中一個負責coordinator 的工作，且每一個工作站都擁有如表3-3 的序列屬性資料表，令每一工作站分別負責部分序列型樣之叢集的計算，將可大大改善演算法的執行時間。分別描述如下：

研究步驟與流程 方法A：序列分割法將n 個序列分成w 等分，故每一個工作站處理n/w 個序列，並分別計算它們與叢集中心點X1,X2,…..Xk 的距離。演算法步驟如下： • 步驟一：coordinator 決定初始的叢集中心點X1,X2,…..Xk。 • 步驟二：coordinator 將X1,X2,…..Xk 的位置broadcast 到所有工作站。 • 步驟三：各工作站計算所分配到的序列和 X1,X2,… ..Xk 叢集的距離。

研究步驟與流程 • 例子請參考圖3-2

研究步驟與流程 • 步驟四：各工作站計算所分配之序列的最近距離，並將序列分派到與其最近的中心點之叢集，並傳下列矩陣(圖3-3)至coordinator 做運算。

研究步驟與流程 • 步驟五：在coordinator 收到所有工作站所傳回的矩陣之後，即全部序列被分派到與其最近的中心點之叢集(如圖3-4)，coordinator 便可計算新的叢集中心點位置。

研究步驟與流程 • 步驟六：若中心點位置不變，結束執行，否則，跳到步驟二繼續執行。此分割方式較適用於序列數目較多時使用。

研究步驟與流程 方法B：叢集分割法將k 個叢集分成w 等分，故每一個工作站需處理k/w 個叢集中心點的計算，演算法步驟如下： • 步驟一：coordinator 決定初始的叢集中心點X1,X2,…..Xk。 • 步驟二：coordinator 將k 個叢集分成w 等分，故每一個工作站需處理k/w 個叢集中心點，並分配至各工作站中。

研究步驟與流程 • 步驟三：各工作站計算所分配到的叢集中心點和全部序列的距離，並紀錄每一序列與其最近的中心點距離，每個工作站計算後的結果。

研究步驟與流程 • 步驟四：各工作站計算完成後，傳下列矩陣至coordinator 做運算。

研究步驟與流程 • 步驟五：在coordinator 收到w 個工作站傳回的矩陣後，便可比較出距離各序列最近的中心點，並計算出新的叢集中心點位置。 • 步驟六：若中心點位置不變，則結束執行 ; 否則，跳到步驟二繼續執行。此分割方式適用於序列型樣數目較多時。

研究步驟與流程 POPC-GA 演算法的平行處理 • 此演算法在計算任兩序列型樣相似程度時，將花費較多的時間，不過可透過平行化處理，完成相似矩陣的建立。 • 假設有w 個工作站，和一個負責coordinator 的工作站，詳細步驟如下：步驟一：coordinator 決定初始的叢集c1,c2,… ..ck，此演算的初始叢集為每一序列型樣所構成個叢集，故初始叢集數k =m。

研究步驟與流程 步驟二：coordinator 將k 個叢集分成w 等分，故每一個工作站需處理k/w 個叢集中心點，並分配至各工作站中。步驟三：各工作站計算所屬的叢集與其它全部叢集的相似度，其中並產生如下列矩陣圖

研究步驟與流程

研究步驟與流程 步驟四：各工作站計算完成後，只傳回相似度最高的兩個叢集。

研究步驟與流程 步驟五： coordinator 接收全部工作站傳回的陣列後，將相似度最高的叢集合併，則叢集數減1(k=k-1)，並紀錄更新後的叢集。如下圖3-9，則合併ca與ck 兩個叢集。

研究步驟與流程 步驟六：接著跳至步驟二，重複上述步驟二 ~六，直到叢集數到達為止。

第四章、實驗設計 實驗流程實驗平台測試資料描述系統程式架構叢集品質檢驗方式實驗結果

實驗設計 實驗流程 • 實驗流程先產生交易資料，接著產生序列資料庫，並透過探勘工具找出序列型樣，接下來進行序列型樣之叢集化演算法等一連串的動作。

實驗設計 實驗步驟 • 建立一交易資料庫平台 • 資料作探勘處理 • 撰寫程式 • 系統實作 • POPC_GA 演算法與本研究所提出的POHC 做比較。 • 實驗結果

實驗設計 實驗平台

實驗設計 測試資料描述 • 本實驗的使用的交易資料庫，是採用虛擬資料模擬器[AS94]所產生不同狀態的交易資料庫。

實驗設計 系統程式架構分為以下三部分： A.產生序列屬性對應 B.POHC 系統程式 C.POPC_GA 系統程式

實驗設計 叢集品質檢驗方式在計算品質的公式中，其中qi 代表第i 個叢集的叢品質，而ni 代表第i 個叢集的序列數目，nij 則代表第i 個叢集支援第j 個序列型樣的序列數目，而mi 代表第i 個叢集所支援的序列型樣數目; Q 代表叢集的總品質。故當Q 值越大時，表示支援序列型樣的序列越集中，則叢集品質越佳。

第 16 組序列型樣導向之序列叢集化處理報告組員：蔡承融黃于庭蘇彥存