應用資料探勘於專利檢索建構具時序概念知識地圖之研究

應用資料探勘於專利檢索建構具時序概念知識地圖之研究應用資料探勘於專利檢索建構具時序概念知識地圖之研究專題討論(三) 科技管理所楊添智指導老師林高正 1

大綱研究目的知識地圖知識文字探勘研究流程 2

一、研究目的 視覺化的呈現公司專利知識地圖，讓使用者清楚得知哪些公司擁有哪些專利知識專長項目及強度值，並依時間的演進為主軸進行切割，將協助使用者更正確了解專利知識專長的分佈情形及演化過程 3

二、知識地圖 知識地圖（Knowledge Map）是一個典型能讓人發現適當的知識來源，一般只告知知識的所在，並不包含其內容（Davenport, 1998）常見的知識地圖主要目的在知道誰擁有知識，及擁有何種類型的知識，知識的分佈強度等 4

知識地圖 知識地圖扮演的角色已經轉變為尋找或呈現專家知識的工具地圖，讓使用者對某特殊知識領域的專家，進行一系列的搜尋（Davenport, 1998）知識地圖是呈現知識的一個整體架構，並且表達出該領域內知識與知識之間的關係；知識地圖可以幫助使用者尋找與理解專業領域的知識 5

知識地圖 Gartner Group（2000）認為知識地圖就是一種知識指南，顯示哪些資源可以用，幫助使用者在最短時間內找尋到所需的知識，讓管理者知道缺少哪些知識，並且隨時更新最新的知識地圖，其主要目的是當人們需要某種專業知識或方法時，透過分佈圖的指引，可以找到其所需要的知識，通常利用圖形方式來呈現各種知識的來源、專家的位置、知識的架構、知識彼此間關係等等 6

知識地圖 Holsapple（2002）即認為以圖形化的呈現方式建立知識地圖，讓使用者能更加了解知識且進一步利用知識來源 Jan Lanzing（1997）知識地圖是將知識以圖形的方式呈現 7

知識地圖的分類 Holaspple（2002）對知識地圖的分類，將知識地圖分為五類並加以說明：包括知識來源地圖（Knowledge source maps）、知識資產地圖（ Knowledge asset maps ）、知識結構地圖（ Knowledge structuremaps）、知識應用地圖（Knowledge application maps）、知識發展地圖（Knowledge development maps） 8

三、知識文字探勘 知識探勘（Knowledge Discovery, KD）是擷取隱晦、有用、未被發掘、有潛在價值的規則、資訊或知識的一種過程（Fayyad, 1996）知識探勘又可分為資料探勘（Data Mining, DM）與文字探勘（Text Mining, TM） 10

資料探勘 資料探勘在資訊科學中是一項創新且重要的技術，它是透過整合不同專業領域的知識技術，其中結合了資料庫、統計方法論、人工智慧及資料視覺化等功能資料探勘其主要貢獻在於，它能從資料庫中尋找到有意義的資訊或有用的關連準則，進而能具體提供企業進行決策時之重要參考政策 11

資料探勘 目前資料探勘的研究課題非常廣泛，比較重要常見的包括關連規則探勘、循序模式探勘、分類規則探勘群集化、類神經網路、基因演算法和線上分析處理等 13

文字探勘 文字知識挖掘（Knowledge Discovery in Text, KDT），可稱為文字探勘（Text Mining）或文件探勘（Document Mining）文字探勘（Text Mining），它是編輯、組織及分析大量文件的過程，以提供特定使用者（如：決策者，分析師）特定的資訊（如：摘要、關鍵字），及發現某些特定資訊的特性與之間的關聯（Dan Sullivan, 2001） 14

文字探勘 巫啟台（2001）的定義，文字探勘為「從非結構化或半結構化的文件資料中，發掘出有價值的片段、模型、方向、趨勢或規則」資料探勘運用的技術，文件資料需具有結構性，直接對資料進行分析，現今的文件資料中，大多具非結構性或半結構性的文件資料，無法進行分析，需要先對資料作前置處理 15

文字探勘 文字探勘整合傳統資訊檢索技術（Information Retrieval），包括關鍵字擷取、全文檢索、摘要自動萃取等，讓使用者從文件資料中找出隱含而有價值的資訊（Yuen-Hsien, 2005） 16

文字探勘 本研究擁有相當龐大的專利檢索資料量，且專利資料的內容，並沒有關鍵字詞彙欄位資訊，可以來代表該專利的研究主題將利用文字探勘來擷取論文中關鍵字處理的部份 18

四、關鍵字詞彙分析 學術論文內容與相關資訊中，以「摘要」與「關鍵字」最能簡單明要代表一篇論文之研究主題。論文撰寫者在選擇關鍵字詞彙時，會優先選擇與該論文研究主題最相關的詞彙（陳年興、謝盛文、黃琬婷，2007）該關鍵字詞彙亦隱含了論文指導教授的研究專業領域資訊本研究將以專利的關鍵字詞彙，代表該公司所擁有之知識領域專長項目 19

關鍵字詞彙分析 專利資料的內容，並沒有關鍵字詞彙欄位資訊，可以來代表該專利的研究主題利用專利摘要欄位資訊來尋找特徵詞彙篩選，而在特徵詞彙篩選處理流程中，包括中文斷詞（CKIP）和TFIDF 方法。 20 20

關鍵詞篩選流程圖 文件蒐集-以專利摘要為例中研院CKIP 斷詞程式 CKIP 斷詞後文件計算TF*IDF 關鍵詞篩選 21

中文斷詞 詞是中文語言上最基本的單位，通常是以兩個以上所組成的詞，其代表意義與使用性比單字來得高，且能降低逐字比對的誤判情形產生，因此，斷詞研究大部份都是以詞為基本單位（Nie et al., 2000）中文斷詞技術是將中文語言依照文法與語意的結構，分割成以詞為單位的過程。 22 22

中文斷詞 利用文字探勘所採用的中文斷詞（CKIP）為斷詞方法，將對專利摘要進行斷詞的動作採用的中文文件斷詞法方式為詞庫式斷詞法，並且以中央研究院詞庫小組所發展的CKIP 斷詞系統，斷詞正確率約為95% 斷詞系統所傳回來的結果，不一定為所謂的特徵詞，因此，需要採取權重上的判斷，本研究利用TFIDF 作為一個篩選方式。 23 23

斷詞結果 24 24

TFIDF TF-IDF（term frequency–inverse document frequency）是一種用於資訊檢索與文本文挖掘的常用加權技術 TFIDF 是由TF 詞彙頻率和IDF 文件頻率所組成 25 25

TFIDF TF 指某一詞彙出現於文件或資訊內容中的次數統計頻率，其詞彙出現頻率值愈高，代表此詞彙在文件中愈重要，愈具有代表性 IDF 則是指某一詞彙在所有文件集中出現的次數統計頻率，其詞彙出現於其他文件頻率值愈低，代表此詞彙愈具有代表性，亦能將文件與其他文件區別，又稱逆向文件頻率 26 26

公式 tf 是指詞彙i 在j 文件中所出現的頻率 N 是所有文件類別之總數 df 是指出現詞彙i 的文件類別數 27 27

例子假設我們要找的詞是：【演算法的範例】。按照斷詞切字的法則會把這個字串切割成三個短詞【演算法】【的】【範例】假設【演算法】在文章A中出現10次、【的】出現100次、【範例】出現30次，文章A總共有1000個詞，則三個短詞的TF(Trem Frequency)分別是0.01、0.1和0.03 如果我們資料庫中總共有10000篇文章，【演算法】總共出現在15篇文章、【的】出現在10000篇文章、【應用】出現在5000篇文章，則IDF分別是：2.82、0、0.30 28 28

TF 詞彙頻率表

IDF 權重值計算表

~謝謝大家的聆聽~ 31

應用資料探勘於專利檢索建構具時序概念知識地圖之研究

應用資料探勘於專利檢索建構具時序概念知識地圖之研究

Presentation Transcript