1 / 15

語言資源建構與標記工作營 ─ 91 年 1 月 22 日

語言資源建構與標記工作營 ─ 91 年 1 月 22 日. 台灣南島語詞類與標記原則. 齊莉莎、華加婧. 語料內容. 每一筆長篇語料段落以句子為單位。 每一句都提供 glosses 和 translations 。 這些 glosses 和 translations 都有 中英文翻譯, 而中英文之 間的 翻譯 都有對應關係。 為了查詢方便,使用雙語介面,如:魯凱語─中文 或魯凱語─英文 為主。. 語料查詢內容 : 中英文比對. 例如:. 原則 ─ 以詞素為原則. (每一句的)每一個詞也以適當的斷詞處理。

ondrea
Télécharger la présentation

語言資源建構與標記工作營 ─ 91 年 1 月 22 日

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 語言資源建構與標記工作營 ─ 91年1月22日 台灣南島語詞類與標記原則 齊莉莎、華加婧

  2. 語料內容 • 每一筆長篇語料段落以句子為單位。 • 每一句都提供 glosses 和 translations。 • 這些glosses 和 translations 都有中英文翻譯, 而中英文之間的翻譯都有對應關係。 • 為了查詢方便,使用雙語介面,如:魯凱語─中文 或魯凱語─英文 為主。

  3. 語料查詢內容:中英文比對 例如:

  4. 原則 ─ 以詞素為原則 • (每一句的)每一個詞也以適當的斷詞處理。 • 詞之認定以「詞素」(morpheme)為原則。 • 台灣南島語的詞素可分為:詞根、詞綴、依附詞。

  5. 原則 ─詞義、詞綴、詞類 • 注意: • 詞根可能:  為自由式(free)或附著式(bound) 因而附加其他成分將產生詞音轉換。 • 因此除了glosses提供詞義及句法功能之外(如: 是否動詞為限定或非限定,代名詞為屬格或主格等), 我們提供其他兩種查詢方式:詞綴分析及詞類別分析。

  6. 原則─詞綴分析及詞類標記 詞綴 AFFIXES 詞根 HOST 衍生詞之功能 FUNCTION_OF_DERIVED_WORD 詞綴之語意 MEANING_OF_THE_AFFIX 查詢 Search a- a- 動詞[非限定] V[NFin] 名詞 N 當(分句名物化) when...(clausal nominal) 分句名物化 ClsNom a- a- 動詞[非限定] V[NFin] 名詞 N 動態名物化 action nominal 動態名物化 ActNom a- a- 動詞[非限定] V[NFin] 名詞 N 狀態名物化 state nominal 狀態名物化 StatNom • 詞綴分析:  原則為利用構詞規則  搜尋詞庫時,可顯示所有關聯的詞彙與句子。 • 例如:

  7. 原則─詞類標記 • 詞類標記:  表示詞類、語意、構詞上之特色(如:名詞是否指 的是人[+ pers ] 或非人 [- pers ])  說明詞根是否為自由式或附著式  可找出詞類別及相關詞彙

  8. 原則─詞類標記 MORPHEMES Bound root Free root Root Stem Gloss Tagging Tagging2 ð + - -ða -ða his, hers P [-vis] -vis ðəŋətə - + ðəŋətə ðəŋətə decoration(s) on head ornament N [-pers] -pers ðəɭəhə - + ðəɭəhə ðəɭəhə back N [-pers] -pers • 例如:

  9. 詞類標記─漢語語料庫及台灣南島語料庫標記之比較詞類標記─漢語語料庫及台灣南島語料庫標記之比較 普及化標記英文名稱魯凱語語詞類其他台灣南島語 1. A Adjective () 2. C Conjunction   3. ADV Adverb () 4. ASP Aspect   5. N Noun   6. DET Determiner  7. M Measure   8. T Particle  9. P Preposition   10.Vi Intransitive Verb  說明: 11.Vt Transitive Verb   (): rare 12.POST Postposition   : 利用其他分別或名稱,如:動態13.FW Foreign Words   及狀態動詞 14.U Undecided : 無 : 以*來表示

  10. 缺少的詞類標記 標記英文名稱魯凱語語詞類其他南島語 1. AUX Auxiliary verb () 2. NEG Negator   3. TOP Topic   4. MOD Modality   5.Tns Tense ()

  11. 構詞及句法互動 注意: • 在台灣南島語中建構詞類標記時,無法分開構詞 及句法功能

  12. 詞類標記─以魯凱語萬山方言為例 ActNom Ligature 動態名物化 連繫詞 Action nominalization Ligature AgtNom LocNom 主事名物化 處所名物化 Agentive nominalization Locative nominalization Nom Caus 使役 主格 Causative Nominative Neg ClsNom 分句名物化 否定 Clausal nominalization Negation Cnc NFin 讓步 非限定 Concessive Non Finite Cntrfct ObjNom 違反事實 受事名物化 Counterfactual Objective nominalization Dyn Obl 動態 斜格 Dynamic Oblique plur Fin 限定 複數 Finite plural Genitive Ref 屬格 反身 Genitive Reflexive Rec Imp 祈使 相互 Imperative Reciprocal Imprs Red 無人稱 重疊 Impersonal pronoun Reduplication InstNom Stat 工具名物化 狀態 Instrument nominalization Stative StatNom 狀態名物化 State nominalization Subj 虛擬式 Subjunctive Sup 最高級 Superlative TmpNom (TempNom) 時間名物化 Temporal nominalization Top 主題 Topic

  13. 詞類標記─以魯凱語萬山方言為例 1S 我 I 2S 你 you (sing.) 3S 他 he 1PE 我們 we 2P 你們 you (pl.) 3P 他們 they 1PI 咱們 us 代名詞:

  14. 詞類標記集─統計摘要(以魯凱語萬山方言)

  15. 結論 • 目前已完整收錄並分析近800句(約6600字)萬山方言(魯凱語) • 台灣南島語有本身之詞類標記原則 • 詞類標記將可能視語言之不同而有增減情形 • 利用電腦有效查詢可得到語料分析後的成果

More Related