1 / 132

語言典藏

語言典藏. 張如瑩 中央研究院語言所籌備處 ruyng@gate.sinica.edu.tw. 大綱. 背景 語言典藏各子計畫 語言、文字相關技術和工具 語言典藏後設資料標準 OLAC. 目標. 人文與本土的關懷 弱勢語言的典藏傳承是其文化在資訊時代薪火相傳的前提。 國際化與國際競爭力 跨語言的典藏解讀與知識處理能力是知識經濟時代國際競爭力的前提。 科技與人文的契合 語言文字所蘊含的知識架構是人文素養與數位化數據間唯一隨時暢通的陽關大道。. 背景. 語言典藏. http://LanguageArchives.sinica.edu.tw.

azra
Télécharger la présentation

語言典藏

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 語言典藏 張如瑩 中央研究院語言所籌備處 ruyng@gate.sinica.edu.tw

  2. 大綱 • 背景 • 語言典藏各子計畫 • 語言、文字相關技術和工具 • 語言典藏後設資料標準OLAC

  3. 目標 • 人文與本土的關懷 • 弱勢語言的典藏傳承是其文化在資訊時代薪火相傳的前提。 • 國際化與國際競爭力 • 跨語言的典藏解讀與知識處理能力是知識經濟時代國際競爭力的前提。 • 科技與人文的契合 • 語言文字所蘊含的知識架構是人文素養與數位化數據間唯一隨時暢通的陽關大道。 背景

  4. 語言典藏 http://LanguageArchives.sinica.edu.tw

  5. 使用介面(1+2+B) 典藏工具(1+A+B) 典藏架構(1+A) 後設資料(A+B+C) 「語言典藏」與「語言座標--語料建置部份」關係圖 背景 當代通用語言文化(1.3) 閩客語言文化(1.5) 多媒體與流行語言文化(1.4) 原住民語言文化(2) 中華傳統語言文化(1.1) (1.2) 多語與多文化交流 • 人文關懷與多元文化之傳承

  6. 語言典藏各子計畫

  7. 語言典藏各子計畫 • 漢語典藏與典藏架構 • 1.1近代漢語詞彙庫 • 1.2先秦金文簡牘詞彙資料庫 • 1.3二十世紀漢語語料庫與句法結構資料庫 • 1.4新世紀語料庫--多媒體的語言呈現與典藏 • 1.5閩南語典藏--歷史語言與分布變遷資料庫 • 台灣南島語典藏:台灣南島語語料庫、詞彙庫、與語法 A. 語言座標 B. 技術支援 C. OLAC、ISLE、ISO等國際標準

  8. 近代漢語詞彙庫 • 近代漢語(約為自唐以至清代)的語言與現代漢語最為接近,其語料在漢語的歷史語言中是屬於比較容易閱讀與理解的,且在敘事上鋪陳豐富 • 作為建構漢語歷代詞彙庫的第一個目標 • 歷史語言研究工具,古代語言的認識更完整更系統,也可作其他人文社會科學的研究資源

  9. 近代漢語標記語料庫 #1 http://www.sinica.edu.tw/Early_Mandarin/ 近代漢語詞彙庫

  10. 近代漢語標記語料庫 #2 近代漢語詞彙庫

  11. 近代漢語標記語料庫 #3 近代漢語詞彙庫

  12. 近代漢語標記語料庫 #4 近代漢語詞彙庫

  13. 收集各類詞表 整合 所有詞表 自動斷詞程式 (分詞加上詞類標記) 新增書目 詞表更新 詞表抽取名詞類詞彙,與各類詞表進行比對 人工校正詞類標記 人名詞彙庫 地名詞彙庫 各分類詞彙庫 … 詞表更新 線上批次匯入 線上批次更新 線上更新及新增標記工作 原詞表與更新詞表比對:確認新增與刪除 從近代漢語標記語料庫到近代漢語詞彙庫 近代漢語詞彙庫

  14. 先秦金文簡牘詞彙資料庫 • 先秦出土文字資料日益眾多,包括殷商時期的甲骨卜辭、商周春秋青銅器銘文、戰國秦漢時期的簡牘,數量龐大、內容豐富、未經竄改,是多數時空座標清楚的一手資料,更是建構語文座標時不能忽略的材料 • 以殷周金文為例,光是《殷周金文集成》一書收入有銘銅器拓片共一萬兩千餘件,除了反映社會現象外,也是一部忠實的殷周歷史。 • 擬對青銅器銘文作有效的分析與標誌,完成殷周春秋金文詞彙庫。並擬對戰國簡牘詞彙作精確的標誌,以便上與春秋金文、下與秦漢文獻詞彙貫串。

  15. 先秦金文簡牘詞彙資料庫 #1 http://inscription.sinica.edu.tw/ 先秦金文簡牘 詞彙資料庫

  16. 先秦金文簡牘詞彙資料庫 #2 先秦金文簡牘 詞彙資料庫

  17. 先秦金文簡牘詞彙資料庫 #3 先秦金文簡牘 詞彙資料庫

  18. 先秦金文簡牘詞彙資料庫 #4 先秦金文簡牘 詞彙資料庫

  19. 先秦金文簡牘詞彙資料庫 #5 先秦金文簡牘 詞彙資料庫

  20. 先秦金文簡牘詞彙資料庫 #6 先秦金文簡牘 詞彙資料庫

  21. 金文缺字問題 • 形體多變為古文字的重要特質—秦統一文字之前普遍的現象 • 部件位置不定 • 部件多寡不定 eg.寶 • 古文字與小篆部件分析相異比較 • 小篆的字與形體基本上是一對一的對應,金文通常一個字有多種形體 eg.福,揚 • 小篆已有《說文》做好基本部件分析,金文需由研究者一一作字根分析。 eg.盤 • 小篆字根基本上都可以有對應的楷定,金文的部件還有許多是無法楷定的圖形 eg.易 • 小篆基本上是以單個形體代表一個字,金文中有許多複合的圖形字。 eg.亞 • 小篆字粗細、筆畫一致,金文筆畫粗細變化差異很大。 先秦金文簡牘 詞彙資料庫

  22. 過去缺字問題的處理方法 • 黑豆豆 eg.● • 留空手填 • 各造各的字 • 部件加減法 eg.[鬲口] • 以小畫家畫出圖形字 先秦金文簡牘 詞彙資料庫

  23. 金文缺字的問題和需求 • 每一個異構字都有一個相對應的楷定字形。 • 每一楷定字形都可據部件作檢索。 • 同一金文字形允許一種以上不同的分析 • 無法完全作字根分析者,可用已知部件作檢索。 • 若某一字形有一、二部件無法作完整的字根分析,如何呈現字形? • 完全無法分析的圖形字,怎麼辦? • 無法理解的部件如何處理? 先秦金文簡牘 詞彙資料庫

  24. 二十世紀漢語語料庫與句法結構資料庫 • 以1990年代語料及50到60年代早期語料為增加典藏之重點 • 「語料庫」為無窮語言資料之代表性,取樣使語料真正呈現某個時代語言中之多面向內容,必須在取樣時考慮到多樣參數的平衡,參數的平衡同時也可以保證語料庫以後做多層次內部對比研究時具有有效意義。 • 知識處理上,目前真正有迫切需求,且有較高附加價值之語料庫,是已加上語法或語意標記者,即所謂的句結構資料(Treebank)或語意資料庫(Semantic Corpus)。句結構資料庫」之建立,以利於資訊檢索、擷取、自動問答、摘要等典藏處理應用上的附加價值。

  25. 中研院現代漢語平衡語料庫 #1 http://www.sinica.edu.tw/SinicaCorpus/ 二十世紀漢語語料庫 與句法結構資料庫

  26. 中研院現代漢語平衡語料庫 #2 二十世紀漢語語料庫 與句法結構資料庫

  27. 中研院現代漢語平衡語料庫 #3 二十世紀漢語語料庫 與句法結構資料庫

  28. 中研院現代漢語平衡語料庫 #4 二十世紀漢語語料庫 與句法結構資料庫

  29. 中央研究院中文樹圖資料庫 #1 http://140.109.19.103/treesearch/ 二十世紀漢語語料庫 與句法結構資料庫

  30. 中央研究院中文樹圖資料庫 #2 二十世紀漢語語料庫 與句法結構資料庫

  31. 中央研究院中文樹圖資料庫 #3 二十世紀漢語語料庫 與句法結構資料庫

  32. 中央研究院中文樹圖資料庫 #4 二十世紀漢語語料庫 與句法結構資料庫

  33. 詞庫小組中文詞知識庫 二十世紀漢語語料庫 與句法結構資料庫

  34. 新世紀語料庫--多媒體的語言呈現與典藏 • 以數位錄音的記錄方式收集保存二十一世紀現代漢語在臺灣日常生活的使用情形 • 典藏內容包括了人類日常生活口語溝通、討論的主題、生活語言詞彙的使用以及配合口語使用其他相關的輔助溝通工具 • 語言學標記外,部份語料亦將人工切音,以作聲學研究之用。 新世紀語料庫 多媒體的語言呈現與典藏

  35. 新世紀語料庫--多媒體的語言呈現與典藏 http://mmc.sinica.edu.tw 新世紀語料庫 多媒體的語言呈現與典藏

  36. 語音資料標註例子 <recordplace>Taipei, Taiwan <recorddate>January 19, 2002 <speechtypei>Spontaneous <speechtypeii>dialogue <language>mandarin <samplingrate>48kHz <recordtype>stereo <segment> <voicefile>d:\數位典藏91語料庫-原始錄音\DA-2002-02.WAV <speaker>MISC-71-female-30 <start>000000 <end>020276 <translator>Lai <chinese> <b suggest_topic>YOU 我想跟你談就是(inhale) 最近A 我們看很多雜誌A 尤其是什麼最去有一個新的雜誌壹週刊有(pause)來台灣MA (inhale) 然後造成很多社會新聞NA 什麼影藝[xi] 有一些八卦炫風O </b suggest_topic> (inhale) <b question_request_answer>我覺得(pause) 不你你不曉得喜歡看這個雜誌</b question_request_answer>(exhale) </chinese> <english> YOU wo3 xiang3 gen1 ni3 tan2 jiu4 shi4 (inhale) zui4 jin4 A wo3 men5 kan4 hen3 duo1 za2 zhi4 A you2 qi2 shi4 she2 me5 zui4 qu4 you3 yi1 ge5 xin1 de5 za2 zhi4 yi1 zhou1 kan1 you3 (pause) lai2 tai2 wan1 MA (inhale) ran2 hou4 zao4 cheng2 hen3 duo1 she4 hui4 xin1 wen2 NA she2 me5 ying3 yi4 [xi] you3 yi1 xie1 ba1 gua4 xuan4 feng1 O (inhale) wo3 jue2 de2 (pause) bu2 ni3 ni3 bu2 xiao3 de2 xi3 huan1 kan4 zhe4 ge5 za2 zhi4 (exhale) </english> <comment> </comment> </segment> <segment> 新世紀語料庫 多媒體的語言呈現與典藏 head body comment

  37. 語音資料標註介面 新世紀語料庫 多媒體的語言呈現與典藏

  38. 閩南語典藏--歷史語言與分布變遷資料庫 • 建立明代到現代的閩南語文獻標記語料庫與檢索界面 • 語言分布變遷地理資訊系統可以更清楚地呈現語言分布、變遷的情況與族群遷徙、自然地理、人文地理、時間等各種因素的關係(以閩客雜居的新竹縣新豐鄉為對象 ) • 閩南語詞彙庫的建立與詞彙書寫用字的整理與考釋 • 典藏歌仔與戲曲反應常民文化

  39. 台灣南島語典藏:台灣南島語語料庫、詞彙庫、與語法台灣南島語典藏:台灣南島語語料庫、詞彙庫、與語法 • 台灣原住民語言屬於一個分佈廣,語言現象又很豐富的語族,我們稱為「南島語族」。台灣南島語不同於漢語,主要在於前者並沒有文字的記載。 • 目標 • 建立多種台灣南島語言長篇語料庫。 • 將上述中英文翻譯。 • 建立有聲音的檔案。 • 建構介地理資訊系統(GIS)

  40. 台灣南島語數位典藏 #1 http://www.ling.sinica.edu.tw/formosan/ 台灣南島語典藏: 台灣南島語語料庫、詞彙庫、與語法

  41. 台灣南島語數位典藏 #2 台灣南島語典藏: 台灣南島語語料庫、詞彙庫、與語法 Transcription English Translation Annotation Audio Output

  42. 台灣南島語數位典藏 #3 台灣南島語典藏: 台灣南島語語料庫、詞彙庫、與語法

  43. 台灣南島語數位典藏 #4 台灣南島語典藏: 台灣南島語語料庫、詞彙庫、與語法

  44. 台灣南島語數位典藏 #5 台灣南島語典藏: 台灣南島語語料庫、詞彙庫、與語法

  45. 語言、文字相關技術和工具

  46. 語料庫處理程序—以現代漢語語料庫為例

  47. 語料庫建置流程 網路(WWW) 原始文本 資料庫 (SQL) 語料蒐集介面 原始文本 原始文本 電子文字檔 原始文本 以及 未知詞 未知詞擷取模組 人工檢驗介面 未知詞編輯器 校正過後的未知詞 領域詞典 原始文本 斷詞標記模組 斷詞標記文本 斷詞標記編輯器 校正過後的斷詞標記文本

  48. 文本統計、修改、與收集工具(Corpus & Spider) 語料庫處理程序 以現代漢語平衡語料庫為例

  49. 未知詞辨識 若能搭配在毛利率以及營益率上維持良好成績 a sentence 語料庫處理程序 以現代漢語平衡語料庫為例 autotag autotag 若 能 搭配 在 毛利率 以及 營 益 率 上 維持 良好 成績 a set of tokens Unknown word detection Unknown word detection 若 能 搭配 在 毛利率 以及 營(?) 益(?) 率(?)上 維持 良好 成績 a set of tokens (some of them with ?) combination procedure combination procedure a segmented sentence 若 能 搭配 在 毛利率 以及 營益率 上 維持 良好 成績

  50. 台大(Nc) 本(Nes) 學期(Na) 舉辦(VC) 減重班(Na) 語料庫處理程序 以現代漢語平衡語料庫為例 領域詞典 通用詞典 文本的未知詞詞典 原始文本 斷詞標記模組 台大本學期舉辦 減重班 斷詞標記文本

More Related