1 / 19

中文概念词典的研究与开发

中文概念词典的研究与开发. 刘 扬 北京大学计算语言学研究所 Nov 13, 2005. 报告提纲. WordNet(WN) 的理论与方法 中文概念词典( CCD) vs. WordNet CCD 研究与开发的实践 “热”问题的“冷”思考. 报告提纲. WordNet(WN) 的理论与方法 中文概念词典( CCD) vs. WordNet CCD 研究与开发的实践 “热”问题的“冷”思考. WordNet(WN) 的理论与方法. 从词法分析、句法分析到语义分析 语义分析 vs. 概念 vs. 知识本体( Ontology)

kimn
Télécharger la présentation

中文概念词典的研究与开发

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 中文概念词典的研究与开发 刘 扬 北京大学计算语言学研究所 Nov 13, 2005

  2. 报告提纲 • WordNet(WN)的理论与方法 • 中文概念词典(CCD)vs. WordNet • CCD研究与开发的实践 • “热”问题的“冷”思考

  3. 报告提纲 • WordNet(WN)的理论与方法 • 中文概念词典(CCD)vs. WordNet • CCD研究与开发的实践 • “热”问题的“冷”思考

  4. WordNet(WN)的理论与方法 • 从词法分析、句法分析到语义分析 • 语义分析 vs. 概念 vs. 知识本体(Ontology) • 如何表征概念?语义分析、计算的基础在哪里? • Princeton大学WordNet的理论与方法 • 概念:由同义词集(Synset)来表示,概念即同义词集 • {教师、教员、老师、先生、师傅、师爷、孩子王、臭老九、阿姨、导师、老板} • 知识本体:概念及概念之间多种语义关系,形成概念网络 • 一个高度形式化的、通用/跨语言的知识表示方法 • HowNet对词义的内涵式定义:意在定义,关注个体,建立在义素分析及格语法上 • WordNet对词义的外延式定义:意在区分,关注系统,建立在词义系统结构分析上 • 比如,添加一个词的新义项/概念,只需…… • 一个可以对语义进行分析、计算的基础,一个形-义系统

  5. WordNet(WN)的理论与方法 词形 词义

  6. 名词概念及其 关系指针 动词概念及其 关系指针 形容词概念及其 关系指针 副词概念及其 关系指针 反义关系 Antonymy ! 反义关系 Antonymy ! 反义关系 Antonymy ! 反义关系 Antonymy ! 下位关系 Hyponymy ~ 下位关系 Troponymy ~ 近义关系 Similar & 导出形式 Derived From \ 上位关系 Hypernymy @ 上位关系 Hypernymy @ 关系性形容词 Relational Adj. \ 部分关系 Meronymy # 蕴涵关系 Entailment * 又见 Also See ˆ 整体关系 Holonymy % 致使关系 Cause > 属性 Attribute = 属性 Attribute = 又见 Also See ˆ WordNet(WN)的理论与方法

  7. WordNet(WN)的理论与方法

  8. WordNet(WN)的理论与方法 • WordNet家族(WordNets)的发展 • George A. Miller等人于1985启动语言工程 • 描述开放词类:名、动、形、副词概念 • 描述语义关系:同义, 反义, 上下位, 整体部分, 致使, 蕴涵, 属性 • 1997年PWN 1.6含99,642 个概念、238,442个语义关系 • 双语WN(bilingual WN) 、多语WN(multilingual WN) • WN国际组织和国际会议(GWA02, GWA04, GWA06, …) • Google上1,190,000项研究与应用WordNet的检索内容 • 目前,NLP领域最重要的公用语义资源

  9. 报告提纲 • WordNet(WN)的理论与方法 • 中文概念词典(CCD)vs. WordNet • CCD研究与开发的实践 • “热”问题的“冷”思考

  10. 中文概念词典(CCD)vs. WordNet • CCD: Chinese Concept Dictionary • CCD作为一个双语WordNet • 提供汉英双语的概念对应 • 可以直接复用现有的WordNet的理论、方法、技术 • 全球WordNet资源建设的组成部分 • CCD不仅仅是双语WordNet • 必须反映汉语的实际情况,对中文信息处理有切实帮助 • 对概念、概念关系的调整和发展 • 增添汉语特有的语义属性和特征 • 涉及对PWN的复杂结构的调整和规划 • 分类原则、概念粒度等

  11. 报告提纲 • WordNet(WN)的理论与方法 • 中文概念词典(CCD)vs. WordNet • CCD研究与开发的实践 • “热”问题的“冷”思考

  12. CCD研究与开发的实践 • 构造双语WordNet的难点分析 • 两类不同的知识体系和概念映射 • 大规模的复杂双子网结构(105概念节点、106语义关系) • 双语词典如何演化 • 实用、高效的双语WordNet的构造模型 • 强调双语词典的演化 • 强调双语词典构造中的继承与转换(复用与调整) • 模型特点 • 演化模型 • 通用的双语WordNet解决方案(与特定语言无关)

  13. CCD研究与开发的实践 • 实现演化模型的辅助构造软件 • 实现继承:WN语义信息抽取 • 上下位关系形成的树结构 • 树结构信息编码(例如“005001002”)的可计算性 • 优化搜索算法 • 二路扫描过程( two-way scanning process) • 收集过滤编码过程( gathering, sieving & encoding process ) • 实现转换:可视化的、数据敏感的语义树及其操作 • 可用的语言资源与计算方法(内容的改变:机器+人工的方式) • 词典:汉英、英汉、 现汉、词林、语法词典、语义词典、SUMO、HowNet 等 • 语料库:动态词汇语义知识获取,如共现与搭配、聚类等 • 可视化的、数据敏感的语义树及其操作(结构的改变:纯人工的方式) • 节点添加、修改、删除 • 子树迁移

  14. CCD研究与开发的实践

  15. CCD研究与开发的实践 • CCD与WordNet概念对应的3条语义原则 • 成词及词性原则 • *the group followingandattending to someimportant person • {cortege retinue suite entourage} • {随从 随员 左右 跟随随行人员} • 准确性原则 • *a very attractive or seductive looking woman • {smasher stunner knockout beauty sweetheart peach lulu looker mantrap dish} • {佳人 美人 美女 宝贝心肝 绝色美女 佳丽 绝代佳人 玉女 出水芙蓉貂婵 天姿国色 狐狸精} • 完备性原则 • *someone who is very highly skilled • {ace adept sensation maven virtuoso genius hotshot star whiz whizz wizard wiz} • {专家 内行 大师 高手 巨匠 好手} 加入: 大牛、牛人、腕、大腕?

  16. CCD研究与开发的实践 • CCD研究与开发的现状与计划 • CCD的现状 • 作为双语WordNet ,对PWN 1.6的覆盖率在94%以上 • 66025个名词概念 • 12127个名词概念 • 17915个形容词概念 • 3575个副词概念 • 基本符合概念对应的语义原则 • 使用和转让 • CCD的计划 • 作为双语WordNet的语义质量的持续提高 • 充分考虑WSD、语义网、信息检索、文本分类等情况和应用 • 在高层,强调通用、强势的概念体系 • 采取理性原则:考虑逻辑,也考虑语言使用 • 在低层,强调词的不同义项的区分手段和描写信息 • 采取经验方法:强调义项区分,强调一些必要的组合关系信息

  17. 报告提纲 • WordNet(WN)的理论与方法 • 中文概念词典(CCD)vs. WordNet • CCD研究与开发的实践 • “热”问题的“冷”思考

  18. “热”问题的“冷”思考 • 如何评价语义知识库 • 知识表达方法的因素 • 该方法在语义知识获取、表示、表达环节的特点 • 该方法表达的语义知识是否够用、易用 • 该方法表达的语义知识是否可扩展(语言内、跨语言) • 强调“通用”?强调“特色”? • 与词法不同,从认知角度看,跨语言的语义交流能力和框架很重要 • 是否是一种新的知识表达方法、不同表示方法下知识的转化 • 工程实施情况的因素 • 时间?投资?高质量?低质量? • 从应用评测角度,是否有持续的生命力 • 客观评价一个具体的语义知识库 • 不混同知识表达方法与语言工程实施情况 • 在没明确结论前,兼容并包的态度很重要

  19. 谢谢各位,请批评指正!

More Related