1 / 22

Wikipedia Mining

Wikipedia Mining. NTU NLP Lab Seminar Changhua Yang. WM Database 直接下載 , 免 Crawl. http://download.wikimedia.org/backup-index.html. 中文 Wiki 重要的 DB. XML 格式文字檔 Wikipedia 條目越來越多. XML, Content, Article Link, Category Link, Inter-Language Link. 抓中文人名集合. Category 當 Hint 某某姓 499 個姓 8945 筆人名

zorana
Télécharger la présentation

Wikipedia Mining

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Wikipedia Mining NTU NLP Lab Seminar Changhua Yang

  2. WM Database直接下載, 免Crawl • http://download.wikimedia.org/backup-index.html

  3. 中文Wiki重要的DB • XML格式文字檔 • Wikipedia條目越來越多

  4. XML, Content, Article Link, Category Link, Inter-Language Link

  5. 抓中文人名集合 • Category當Hint • 某某姓 • 499個姓 • 8945筆人名 • 例外

  6. 抓人名集合 • 符合以下任一條件 • 某某姓 • 某某年出生 • 某某年逝世 • 18,115筆 • 但是會多出外國人

  7. Political divisions, Locations • 符合以下任一條件 • 某某区划 • 某某區劃 • 某某城市 • 某某都市 • 11,030筆

  8. 人名辨識系統 • 將Wikipedia語料化 (BIO標記) • 关羽 是 concept、關公是appearance • 張作霖沒被標到

  9. Character-Base CRF • 抽了32,466句 • 有815,980個characters • 需要多一點features • 中文人名 • 中文姓 FSt-1 St-1 et-1 FSt St et FSt+1 St+1 et+1

  10. 人名偵測測試 總統馬英九昨透過發言人王郁琦發表聲明 去香港遇到楊昌樺和李佳穎在吃漢堡 總統楊昌樺昨透過發言人馬英九發表聲明 總統林敏順昨透過發言人李佳穎發表聲明 去香港遇到馬英九和李佳穎在吃漢堡 去北極遇到紀存希和楊昌樺在釣魚 去北極遇到楊昌樺和紀存希在釣魚 楊昌樺率領太平天國 跆拳道選手李佳穎 跆拳道選手紀存希 台大校長林敏順返國前 看來以Wikipedia自動產生的語料還堪用, 但句型仍有限,有加強空間

  11. Referencing Mining (hint [[关羽|關公]]) 唐玄宗 6 李隆基 玄宗 4 玄宗皇帝 但其實最有名的稱呼是 唐明皇 Pitfall: 藝人黑澀會團體人數太多 又互相以暱稱reference

  12. Referencing Mining (不限定人名) Samples Pitfall: 雜訊太多

  13. Referencing Mining 2 (Redirection) • Wikipedia共131,199筆redirection • 品質似乎比較好, 最後有2386組人物

  14. Referencing Mining 2 (不限定人物)

  15. Disambiguation (WM格式未統一)然而中文有歧義的不多,僅300多筆 • 最結構化格式 • 解釋 • 半結構化

  16. 跨語言Issue(1) • 지미 카터 1924년 태어남吉米·卡特 • 함석헌 1901년 태어남 1989년 죽음咸錫憲 • 백남준 2006년 죽음 1932년 태어남白南準 • 귄터 그라스 1927년 태어남君特·格拉斯 • 데니스 리치 1941년 태어남丹尼斯·里奇 • 토마스 만 1955년 죽음 1875년 태어남 • 하인리히 뵐 1985년 죽음 1917년 태어남 • 노무현 1946년 태어남 • 장국영 1956년 태어남 2003년 죽음 • 빅토르 최 1990년 죽음 1962년 태어남 • 막스 플랑크 1947년 죽음 1858년 태어남 從不熟的語言也可以找到類似的結構 10704筆韓文人名

  17. 跨語言Issue(2) • ソクラテス 紀元前399年没 • 士郎正宗 1961年生 • 高橋留美子 1957年生 • 村上もとか 1951年生 • 青木光恵 1969年生 • 赤塚不二夫 1935年生 • 一条ゆかり 1949年生 • うすた京介 1974年生 • 浦沢直樹 1960年生 • 車田正美 1953年生 • 高橋しん 1967年生 • 高屋奈月 1973年生 • 竹本泉 1959年生 • 寺沢武一 1955年生 • 冨樫義博 1966年生 • 鳥山明 1955年生 • 聖悠紀 1949年生 • 日渡早紀 1961年生 • 藤島康介 1964年生 日文可以抓到111,285筆人名

  18. 跨語言人名對應(四語都有)有3754筆

  19. 跨語言Issue(2) • 韓中日英的原始資料比大概是 1:4:16:64 • 各種知識mining量大概也成這種比例 人名對應 韓中日英 3754筆 (上一頁) 中日英 12375

  20. 跨語言Issue(3) • 地名對應仍有雜訊, 僅列Sample

  21. Conclusions • WM當材料優點 • 持續有更新 • 可把某語言方法套用到別語言 • 可以獲得跨語言綜合資訊 • 缺點 • 材料不齊全或不balanced, 在某些語系或model的建置上仍不robust • Future: 本土教學材料

  22. 本土教學材料

More Related