第九章網際網路資料探勘

第九章網際網路資料探勘

內容概要 • 簡介 • 網頁結構探勘 (Web Structure Mining) • 網頁內容探勘 (Web Content Mining) • 網頁使用行為探勘 (Web Usage Mining) • 總結

簡介(1) • 網際網路資料探勘的目的是要從網際網路中發掘並且分析出有用的資訊，主要的探勘類型分為三大類： • 網頁結構探勘 (Web structure mining) • 網頁內容探勘 (Web content mining) • 網頁使用行為探勘 (Web usage mining)。

簡介(2) • 網頁結構探勘主要是著重在網頁連結架構的分析，藉此發掘出更多有意義的網頁。 • 網頁內容探勘的目的是從本文 (text)、影像 (image)、多媒體 (multimedia) 以及其它組成網頁內容的物件中發掘有意義的資訊。 • 網頁使用行為探勘是應用資料探勘的技術來發掘使用者經常存取的網頁樣式。 • 藉由分析使用者瀏覽網頁的記錄，可以了解使用者的瀏覽行為，進而提供更好的客製化服務。

網頁結構探勘(1) • 在超連結的網路環境中，網頁結構隱含著許多豐富的資訊來源。 • 藉由發掘網頁連結架構中的資訊，能夠更清楚地了解網頁之間的關係，進而發掘出在某些主題上最具 “權威性”的網頁(authoritative homepage)。 • 例如，考慮查詢： “尋找有關資料探勘的資訊”。 • 和這個查詢相關的網頁可能多到讓人難以處理。 • 為了提供使用者一個正確有用的查詢結果，我們必須要能夠從大量的相關網頁中，過濾出少數最具 “權威性” 的網頁。

網頁結構探勘(2) • 一個有趣的例子是 “尋找主要的WWW搜尋引擎的首頁”。 • 直覺地，我們會使用 “搜尋引擎” 來查詢，但是許多具權威性的搜尋引擎並不包含關鍵字 “搜尋引擎” 。 • 因此我們很難用一種客觀的方式來評估網頁的權威性。 • 超連結的建立基本上包含了大量潛在的人為判斷，而這種判斷對於 “權威” (authority) 的授予是非常重要的。 • 例如，在網頁p建立一個連結到網頁q，在意義上代表q被授予某種權威。當某個網頁被愈多其它的網頁連結時，則代表這個網頁的重要性愈高。

Kleinberg 的方法(1) • Kleinberg 提出一個以連結為基礎的模式來決定具有權威性的網頁。 • 一個連結到許多相關權威性頁面的網頁則被稱為 “聚集中心”網頁(hub homepage)。 • 網頁和超連結構成一個有向圖 (directed graph) G = (V, E)，其中，頂點 (vertex) 代表網頁，邊 (edge) 表示超連結。 • 有向邊 (a,b) E的意思是網頁a連結至網頁b。 • 頂點a的出分支度 (out-degree) 代表從頂點a連結出去的邊的個數。 • 頂點a的入分支度 (in-degree) 則代表連結至頂點a的邊的個數。

使用有向圖來表示網頁之間的連結關係

Kleinberg 的方法(2) • 假設使用者使用字串s來進行查詢。令Qs是所有包含關鍵字s的網頁所成的集合。有兩個問題必須特別留意： • Qs可能包含上百萬個網頁，因此後續的處理時間勢必非常冗長。 • 大多數具權威性的網頁可能不包含在Qs中。 • 理想上我們真正所要尋找的網頁集合Cs應該具備下列條件： • 條件(1)：Cs的大小要在合理的範圍之內。 • 條件(2)：Cs中的網頁要具備高度的相關性。 • 條件(3)：Cs要包含大多數具高度權威性的網頁。

Kleinberg 的方法(3) • 如何找到Cs呢？ • 首先，利用某一個搜尋引擎找出前p個和查詢字串相關的網頁。這p個網頁被稱之為 “根網頁群” (root set)，以Rs來表示。根網頁群Rs滿足上述條件(1) 和(2)，但是可能不滿足條件(3)。 • 具有高度權威性的網頁可能不被包含在Rs，但是有極高的可能性它至少會被Rs中某一個網頁利用超連結指向它。所以，我們可以將指向Rs的網頁和由Rs指向的網頁加入Cs，以增加Cs中高度權威性網頁的個數。 • 在這裡有一個限制：在Rs中的任何一個網頁h，最多只能將q個指向它的網頁加入Cs。這個限制的目的是為了控制Cs的大小在一個合理的範圍內。擴充後的Cs稱之為關鍵字s的 “基底網頁群” (base set)。

擴充根網頁群成為基底網頁群

產生基底網頁群的演算法 輸入: s: 查詢關鍵字；p, q: 自然數；步驟1：Rs =使用某一個搜尋引擎所找出來的前p個和查詢關鍵字相關的網頁；步驟2：Cs = Rs；步驟3：for each 網頁hRs do begin 步驟4：Out(h) = h直接連結到的網頁所成的集合；步驟5：In(h) =直接連結到h的網頁所成的集合；步驟6：將Out(h)所有網頁加入Cs中；步驟7：if | In(h)| q then 步驟8：將In(h)所有網頁加入Cs中；步驟9：else 從In(h)任選q個網頁加入Cs中；步驟10：end 步驟11：return Cs

Kleinberg 的方法(4) • 令Gs為基底網頁群所構成的圖形。一個尋找權威性網頁的簡單方法是將Gs所包含的網頁根據它們的入分支度做排序，入分支度愈高者表示它的權威性愈高。 • 使用入分支度排序的方法在某些情況可以得到不錯的結果，但是這種方法仍存在一些問題。 • 例如，輸入 “書籍線上購物” 進行查詢時，若以入分支度來決定權威性，“PChome線上購物” 網站可能具有最高的入分支度，但是和我們所想要的專業書商的網站仍有一段距離。 • 這是因為 “PChome線上購物” 是一個普遍受歡迎的網站，因此許多購物網站也會將它加入超連結，而造成它的入分支度非常的高。

Kleinberg 的方法(5) • 與查詢相關的權威性網頁不應該只以入分支度的大小來衡量。 • 同一個主題的權威性網頁，對於連結到它們的網頁應該有極高的比例是相同的。 • 也就是說，聚集中心網頁應該會同時連結到這些相關的權威性網頁。

聚集中心網頁、權威性網頁和受歡迎的網頁之間的關係聚集中心網頁、權威性網頁和受歡迎的網頁之間的關係

Kleinberg 的方法(6) • 聚集中心網頁和權威性網頁彼此之間有相互加強的關係。 • 一個好的聚集中心網頁會連結到許多好的權威性網頁。 • 同樣地，一個好的權威性網頁會被許多好的聚集中心網頁所連結。

Kleinberg 的方法(7) • 對於每一個網頁p，它有一個非負值的 “權威” 權值 (authority weight) xp和一個非負值的 “聚集中心” 權值 (hub weight) yp。 • 每一種型態的網頁權值經過標準化的動作之後必須滿足平方和等於1的條件：和，其中Cs是Gs所包含的網頁所成的集合。 • 具有較大x值和y值的網頁將分別被視為是較佳的權威性網頁和聚集中心網頁。

Kleinberg 的方法(8) • 聚集中心網頁和權威性網頁之間有相互增強的關係。 • 若p連結到許多具有較大x值的網頁，則它應該有一個較大的y值。 • 同樣地，若p被許多具有較大y值的網頁所連結，則它應該有一個較大的x值。 • Kleinberg的運算更新x值的方式如下：其中E是Gs中所有邊的集合。 • Kleinberg的運算更新y值的方式如下：

Kleinberg的運算

Kleinberg的運算

產生聚集中心網頁和權威網頁的演算法 輸入：Gs:包含n個網頁；k:自然數；步驟1：Z = vector (1, 1, 1, …, 1)；步驟2：X0 = Z；步驟3：Y0 = Z；步驟4：k = 1；步驟5：while (X值和Y值尚未達到收斂之前) do begin 步驟6：對(Xk-1,Yk-1) 進行運算，Xk-1更新後的權值向量為Xk’；步驟7：對(Xk’,Yk-1) 進行運算，Yk-1更新後的權值向量為Yk’；步驟8：對Xk’進行標準化後得到Xk；步驟9：對Yk’進行標準化後得到Yk；步驟10：k = k+1；步驟11：end 步驟12：return (Xk,Yk)

網頁內容探勘 • 我們可以使用 “資訊萃取” (information extraction) 的技術來進行網頁內容探勘。 • 資訊萃取是將文件(text) 轉換成一個結構化的格式，這對於要擷取具有某一個特定主題的文件有很大的幫助。 • 對於資訊萃取所得到的結果，可以使用 “反查”(recall) 和 “準度”(precision) 分別來評估它能夠提供的正確資訊的比例，以及所提供的資訊中正確資訊所佔的比例。

“反查” 和 “準度” 的定義 反查= 準度= • 使用資訊萃取技術在網際網路的環境中所得到的結果，也可以利用這兩個指標來衡量。 • 準度可以告訴我們在所找到的網頁中，正確符合搜尋主題的比例有多少。 • 而反查則是告訴我們，所搜尋到的正確網頁佔全體符合搜尋主題的網頁之比例。

記憶基礎推論 • 記憶基礎推論的基本觀念是先找出新資料的鄰近資料，然後再根據鄰近資料的特性對新資料進行分類和預測。 • 這個方法基本上必須要有一個歷史資料庫，它包含許多已知分類的網頁。 • 將新網頁和這些已知分類的網頁進行比較之後，可以從中找到k個和新網頁最近似的網頁。 • 再利用這些近似網頁所屬的分類類別來決定新網頁的類別。

範例一(1) • 假設我們要對新網頁“N”進行分類，根據記憶基礎推論的方法，先從歷史資料庫中找出k個和新網頁最近似的網頁。 • 假設k = 5，表9-1記錄新網頁和相似網頁間的相似度以及這些相似網頁所屬的已知類別。 • 根據所找出來的最近似的5個網頁，將它們和新網頁的相似度當作它們對於新網頁類別的決定上所給予的權重，如表9-2所示。

範例一(2) • 以網頁 “B”為例，網頁 “B”所屬的類別為 “汽車”、“娛樂” 和 “理財”，因此根據網頁 “B”和新網頁的相似度，在這三個類別上給予新網頁一個加權分數，其它依此類推。 • 將各類別的加權分數做累計，得到一個評分值，評分值愈高者，表示新網頁屬於這個類別的可能性愈高。 • 假設每一個網頁最多只能屬於三個不同的分類且評分值大於或等於2者才列入考慮。在這個例子中，新網頁最後被歸類屬於 “理財” 和 “娛樂” 這兩類。

範例一(3) • 假設以人工的方式請專家對新網頁做分類，得到的結果是新網頁屬於 “汽車”、“娛樂” 和 “理財” 這三類，我們將它視為正確的分類結果。 • 使用 “反查” 和 “準度” 來衡量記憶基礎推論的方法所得到的預測結果：反查= 且準度= = 1

相似網頁 相似度所屬類別 A 0.9 理財、娛樂、購物 B 0.8 汽車、娛樂、理財 C 0.7 購物、新聞 D 0.6 理財、娛樂 E 0.5 新聞、娛樂、藝術表9-1：與新網頁最近似的5個已知類別的網頁

類別 A B C D E 評分理財 0.9 0.8 0 0.6 0 2.3 娛樂 0.9 0.8 0 0.6 0.5 2.8 購物 0.9 0 0.7 0 0 1.6 汽車 0 0.8 0 0 0 0.8 新聞 0 0 0.7 0 0.5 1.2 藝術 0 0 0 0 0.5 0.5 表9-2：為新網頁所屬的類別做評分

網頁使用行為探勘 • 網頁使用行為探勘是從網頁伺服器中發掘使用者存取網頁樣式的過程。 • 這類資料的分析可以幫助企業了解顧客瀏覽網頁的模式，進而改善網頁結構的設計，以吸引更多的消費者。 • 一般網站瀏覽者的資訊如圖9-9所示，以第一筆資料為例，它包含了下列資訊：瀏覽者來源：dial38.20365189.gcn.net.tw 閱讀資訊：GET/DNS-basic/IP-dns.html HTTP/1.1 時間：[03/Sep/1997:17:46:49+8000] 訊息代號：200 來源proxy：1366

圖9-9：網站瀏覽者的資訊

網頁使用行為探勘的應用(1) • 使用路徑分析來發掘網際網路中經常被瀏覽的路徑。 • 例如：50%進入 “中央氣象局” 網站的使用者是從 “Yahoo!奇摩” 中的 “氣象” 超連結進入，再連結至 “中央氣象局” 的網站。 • 這條規則隱含著我們可以在 “Yahoo!奇摩” 的 “氣象” 這一頁放置一些相關資訊，或者是將 “中央氣象局” 網站中經常被存取的超連結直接放置在這個網頁中。

網頁使用行為探勘的應用(2) • 使用關連法則探勘的技術發掘使用者進入某一網站之後，經常會點選的超連結。 • 例如：50%連結 “Yahoo!奇摩” 網站中 “股市” 超連結的使用者，也會使用 “理財” 超連結。 • 這條規則隱含著 “股市” 和 “理財” 這兩個超連結的相關性，這將有助於網站設計者根據這些資訊來調整網站的架構，以提供使用者一個更舒適的瀏覽環境。

網頁使用行為探勘的應用(3) • 使用循序樣式探勘發掘被點選的網頁之間的先後關係。 • 例如：40%的使用者在某一個購物網站的 “B級產品” 網頁購物後一個月內，也會至該網站的 “A級產品” 網頁購物。 • 這條規則顯示網頁內容存在著某種程度的相關性，這將有助於我們對於瀏覽 “B級產品” 網頁的使用者進行目標行銷。

網頁使用行為探勘的應用(4) • 根據使用者的基本資料以及他們存取網頁的樣式，利用分類技術發掘使用者的網頁使用模型。 • 例如：60%職業屬於 “軍公教” 的使用者會使用 “Yahoo!奇摩” 進行資料搜尋。

發掘顧客的交易樣式 • WTM (Web Transaction Mining) 演算法的目的是在電子商務的環境中發掘顧客的交易樣式 (transaction patterns)。 • 每一筆網路交易記錄被表示為 <瀏覽路徑：所購買的產品項目>。 • 其中每一個被購買的產品項目被表示為Ok{i}，也就是說，項目i是在瀏覽路徑中的網頁Ok被購買的。

相關定義 • 令 <S1S2…Sk：O1{i1}, O2{i2}, …, Ox{ix}> 是一個交易樣式，其中 {O1, O2, …, Ox}{S1,S2,…,Sk}。 • <S1S2…Sk：O1{i1}, O2{i2}, …, Ox{ix}> 包含交易樣式 <T1T2…Tp：N1{j1}, N2{j2}, …, Ny{jy}> 若且惟若瀏覽路徑 <S1,S2,…,Sk> 包含瀏覽路徑 <T1,T2,…,Tp> 且 {O1{i1}, O2{i2}, …, Ox{ix}} 包含 {N1{j1}, N2{j2}, …, Ny{jy}}。 • 一個包含k個購買物品的交易樣式稱之為k-交易樣式。 • 若包含交易樣式P的交易數量大於或等於最小支持個數，則稱P為一個大型交易樣式。 • 令Ck代表候選k-交易樣式所成的集合且Tk表示所有大型k-交易樣式的集合。

WTM 演算法 步驟1：找出C1，計算在各個網頁所購買的商品次數。對同一個交易編號而言，同一項商品只能計算一次。步驟2：將所購買的商品次數大於或等於最小支持個數者，儲存至T1。步驟3：我們可以使用類似第七章候選項目集的產生方式，利用Tk-1來產生Ck (k2)。不過在考慮網頁項目的組合時，組合後所對應的瀏覽路徑必須被包含在網站可能的瀏覽路徑中。步驟4：將所購買的商品次數大於或等於最小支持個數者儲存至Tk。步驟5：重複步驟3和步驟4，直到Tk為空集合為止。

網路交易資料 網路交易編號路徑所購買的物品 100 ACE C{i3},E{i5} ABF B{i2},F{i6} AGKL G{i7},K{i8} 200 ACD C{i3},D{i4} ABF B{i2},F{i6} AG G{i7} 300 AGKL G{i7},K{i8} ABF B{i2},F{i6} ACD C{i3},D{i4} 400 AGKL G{i7},K{i8},L{i9} ACD C{i3},D{i4} ABF B{i2},F{i6} 網路交易資料範例

範例二(1) • 使用網路交易資料範例與下列網頁瀏覽樹狀圖，說明WTM演算法在每一個階段的執行過程。假設最小支持個數為3。

路徑所購買的物品支持個數 AB B{i2} 4 AC C{i3} 4 ACD D{i4} 3 ACE E{i5} 1 ABF F{i6} 4 AG G{i7} 4 AGK K{i8} 3 AGKL L{i9} 1 範例二(2) • 首先將交易資料中的每一個網頁項目都視為候選1-交易樣式。WTM 讀取資料庫中的所有交易之後，即可計算出在每一個候選1-交易樣式的支持個數。 C1

路徑所購買的物品支持個數 AB B{i2} 4 AC C{i3} 4 ACD D{i4} 3 ABF F{i6} 4 AG G{i7} 4 AGK K{i8} 3 範例二(3) • 刪除支持個數小於最小支持個數的候選1-交易樣式，即可得到大型1-交易樣式。 T1

路徑所購買的物品支持個數 ABF B{i2},F{i6} 4 ACD C{i3},D{i4} 3 AGK G{i7},K{i8} 3 範例二(4) • 從T1中考慮所購買的物品的組合，得到候選2-交易樣式的集合。 C2

路徑所購買的物品支持個數 ABF B{i2},F{i6} 4 ACD C{i3},D{i4} 3 AGK G{i7},K{i8} 3 範例二(5) • 刪除支持個數小於最小支持個數的候選2-交易樣式，即可得到大型2-交易樣式T2。從T2已無法組合出候選3-交易樣式，因此T3為空集合。 T2

總結 • 本章內容包括： • 網頁結構探勘：網頁連結架構的分析 • 網頁內容探勘：記憶基礎推論的方法 • 網頁使用行為探勘：使用者瀏覽路徑與在網站中所購買的物品之關連分析 • 相關的研究包括： • 網路流量分析 (network traffic analysis) • 網頁點選串流探勘 (Web click stream mining) • 網路入侵偵測 (network intrusion detection)

第九章 網際網路資料探勘