1 / 28

《知网》与意义的计算

《知网》与意义的计算. 董振东 董强 dzd@keenage.com dongqiang@keenage.com http://www.keenage.com 北京 2008-05. 提纲. 1. 引言 5. 语义角色 2. 意义论 6. 知网的知识库 3. 知网综述 7. 关系的揭示与计算 4. 论义原 8 . 应用研讨 . 1. 引言. 需求牵引,还是技术牵引 知识资源是根本

palani
Télécharger la présentation

《知网》与意义的计算

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 《知网》与意义的计算 董振东 董强 dzd@keenage.com dongqiang@keenage.com http://www.keenage.com 北京 2008-05

  2. 提纲 1.引言 5. 语义角色 2. 意义论 6. 知网的知识库 3. 知网综述 7.关系的揭示与计算 4. 论义原 8. 应用研讨

  3. 1.引言 • 需求牵引,还是技术牵引 • 知识资源是根本 • 我们的专著 -- “HowNet and the Computation of Meaning”

  4. 知网概貌 – 统计 (1) NO.=180888 W_C=汶川 G_C=noun [wen4 chuan1] S_C= E_C= W_E=Wenchuan G_E=noun [3 Wenchuannoun,-0,static ] S_E= E_E= DEF={place|地方:PlaceSect={county|县},belong=“China|中国”, modifier={ProperName|专}} RMK=2008年5月12日14时28分,四川汶川发生7.8级地震。On May 12, 2008, the area was the epicentre of a major earthquake.

  5. 知网概貌 – 统计 (2) Chinese Character 7178 Chinese Word & Expression 95718 English Word & Expression 92791 Chinese Meaning 110331 English Meaning 117309 Definition 28667 Record 186944 [参考附录]

  6. 2. 意义论 • 意义的本质 – 关系 • 概念间的关系 • 概念的属性间的关系

  7. 多层语义关系网络(MLRN)

  8. 3. 知网综述 • 历史的回顾 • 知网的性质 • 知网的架构

  9. 《知网》的性质 • 描述概念与概念之间的关系,以及概念 的属性与属性之间的关系的知识库 -- Dong Zhendong, "Knowledge Description: What, How and who?", Proceedings of International Symposium on Electronic Dictionary, Tokyo, 1988, p.18

  10. 《知网》的哲学 • 知识是关系的系统,是概念与概念之间的 关系,概念的属性与属性之间的关系的系统 • 万物都在特定的时空中变化,从一种状态 转变为另一种状态,这样的转变体现于它的 属性的变化 • 本质属性或非本质属性的差别决定概念之间 的差别

  11. 4. 论义原 • 义原是否存在 • 义原在哪里 • 义原的提取 • 汉字的启示和利用 • 义原的表达

  12. 《知网》的知识获取与表达 -- 义原 • 义原的认定 • 义原的提取 • 中文字义为基础 4,000汉字  2,200义原 • 英文词义为对照 • 义原的范畴

  13. 义原的范畴 义原 2088 实体 152 万物 (物质、精神、事情) 部分 (部件、配件) 时间 空间 (方向、位置) 事件 (关系/状态、动作) 805 属性(外观、量度、特性、关系、状况、数量) 245 属性值 (外观、量度、特性、关系、状况、数量)886

  14. 次要特征 Secondary Feature 126 ├ {domain|领域} │ ├ {economy|经济} │ ├ {sport|体育} │ │ ├ {TableTennis|乒乓球} │ └ {physics|物理} ├ {PartPosition|部件位置} │ ├ {head|头} │ ├ {body|身} ├ {TimeSect|时间段} │ └ {year|年} │ └ {month|月} ├ {TimeFeature|时间特性} ├ {PlaceSect|地域} │ ├ {country|国家} ├ {PersonPro|人称} ├ {adjunct|修饰语}

  15. 5. 论分类 • 分类仅是组织知识的一种手段 • 分类仅提供知识的一个有限的侧面 • 分类的主观性和目的性

  16. 6. 语义角色 • 什么是语义角色 • 汉语的词语构成 -- 语义角色的手册 • 货运、客运; • 海运、空运; • 船运、车运; • 多少语义角色为合适 • 语义角色细一些好还是粗一些好

  17. 角色的应用 原词 原形 父 子 角色 06The the 08 demo 07Yellow yellow 08river river 09 06 relevant 09Is be 00 12 08 1020 20 quantity 11kilometers kilometer 12 thanquantity 12longer long 09 11 13 descriptive 13than than 12 15 contrast 14this this 15 quantity 15river river 13 14 16. .

  18. 概念描述的举例 睡: DEF={sleep|睡} 床: DEF={furniture|家具:{sleep|睡:location={~}}} 棉被:DEF={tool|用具:{cover|遮盖:instrument={~}, time={sleep|睡}}} 安眠药: DEF={medicine|药物:modifier={able|能: scope={urge|促使:ResultEvent={sleep|睡}}}} 香: DEF={BehaviorValue|举止值: CoEvent={joyful|喜悦:scope={sleep|睡}}}

  19. 《知网》的灵魂 – 关系 1. 上下位 7. 整体-部件 2. 事件必要角色框架 8. 宿主-属性 3. 事件关系与角色转换 9. 属性-属性值 4. 同类 10. 实体-相应事件 5. 同义 11. 制成品-材料 6. 反义 12. 事件-动态角色 --------- 相关性 相似性

  20. 知网的获取与表达的特点 • 关系基于概念 • 关系主要是计算取得 • 处理单元的不同 • 词/概念 vs 义原 • 词/概念间的相关 vs义原的相关 • 关系形式的不同 • 树型 vs 网型 语言层次连续性的不同 • 词-短语-句-篇章分离 vs 统一 • 激活机制的不同 – 语义互感 • 动态地激活静态孤立的人工描述 – (相关性实例: “香”)

  21. 语言各层次描述体系一致性(1) W_C=劫 W_C=飞机 G_C=V G_C=N E_C= E_C= W_E=rob W_E=plane G_E=V G_E=N E_E= E_E= DEF={rob|抢} DEF={aircraft|飞行器}

  22. 语言各层次描述体系一致性(2) W_C=劫机 G_C=V E_C= W_E=hijack a plane G_E=V E_E= DEF={rob|抢:possession={aircraft|飞行器}}

  23. 语言各层次描述体系一致性(3) W_C=劫机犯 G_C=N E_C= W_E=hijacker G_E=N E_E= DEF={human|人:{rob|抢:agent={~}, possession={aircraft|飞行器}}}

  24. 语言各层次描述体系一致性 (4) W_C=抓获劫机犯 G_C=V E_C= W_E=catch a hijacker G_E=V E_E= DEF={catch|捉住:patient={human|人: {rob|抢:agent={~}, possession={wealth|钱财}}}}

  25. 语言各层次描述体系一致性(5) W_C=机敏地抓获女劫机犯 G_C=V E_C= W_E=catch a woman hijacker cleverly G_E=V E_E= DEF={catch|捉住:manner={clever|灵}, patient={human|人:{rob|抢:agent={~}, possession={wealth|钱财}}, modifier={female|女}}}

  26. 知网的应用 1. 语料库语义标注:香港科技大、清华 2. WSD,Sense Pruning:山大、台湾中研院、 厦大、香港科技大 3.敏感信息发现:解放军某部 4. 信息过滤:厦大 5.Personalized IR:计算所 6.Semantic Web:台湾工研院 7.与WordNet比较研究:马里兰大学、霍普金斯大学、香港科技大

  27. 知网的未来 • 资源建设 • 增加数据量 – 建设 English HowNet • 中文信息结构库建设 • 增加基于语料的实例 • 增加语言种类(Big5、法、韩、俄) • 拓宽应用 以下列为试验场 • 中文歧义判别系统 • 英中机译系统

  28. 欢迎提问和批评

More Related