1 / 30

全信息理论与中文信息处理

全信息理论与中文信息处理. 钟义信 智能科学技术研究中心 北京邮电大学 2006-8-24 yxzhong@ieee.org. 目 录. 一,问题的提出. 二,解决的方法. 三,研究的重点. 一,问题的提出. 中文信息(自然语言)处理的重大社会需求. 1 ,人际交往 -- 多种语言的存在 -- 全球交往的进程 -- 学习语言的困难 -- 机器翻译的前景. 2 ,人机合作 -- 人类操作能力的局限 -- 机器工作性能的威力 -- 机器认知能力的潜力 -- 人机能力的天然互补. 中文信息(自然语言)处理的核心目标.

nayda-hines
Télécharger la présentation

全信息理论与中文信息处理

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 全信息理论与中文信息处理 钟义信 智能科学技术研究中心 北京邮电大学 2006-8-24 yxzhong@ieee.org

  2. 目 录 一,问题的提出 二,解决的方法 三,研究的重点

  3. 一,问题的提出

  4. 中文信息(自然语言)处理的重大社会需求 1,人际交往 -- 多种语言的存在 -- 全球交往的进程 -- 学习语言的困难 -- 机器翻译的前景 2,人机合作 -- 人类操作能力的局限 -- 机器工作性能的威力 -- 机器认知能力的潜力 -- 人机能力的天然互补

  5. 中文信息(自然语言)处理的核心目标 表面上看,“中文信息处理”研究工作的着眼点和落 脚点应是中文信息的“处理” – 如词语切分,词形标注, 语句分析,专名识别,词语消岐,等等。 实质上看,研究工作的目标是“使机器能够在一定 程度上理解中文信息”,或对中文信息实现一定认知。 无论从 “人际通信” 还是 “人机合作” 的需求来看, 处理都是手段,理解(认知)才是目的。

  6. 自然语言 “理解” 与人工智能 1,智能的核心是思维;语言是思维的表达;因此语 言也是智能的表达。 2,理解(认知),是智能的内核;因此自然语言理 解是人工智能的基本研究方向。 3,自然语言理解本质上是人工智能、信息科学、 认 知科学和语言学的交叉科学。 4,自然语言理解系统本质上是一类智能系统。

  7. 智能系统的核心机制:信息-知识-智能转换 有序信息 目标 思维 器官 知识 预处理 认知 决策 实得 信息 智能 策略 知识库 传导 系统 传导 系统 信息传递 信息传递 感觉 器官 效应 器官 信息获取 需求/约束 需求/约束 信息执行 智能行为 本体 信息

  8. 信息-知识-智能转换:自然语言理解通用方法论信息-知识-智能转换:自然语言理解通用方法论 信息(问题与约束) 结果(性能与评价) 智能行为 信息-知识转换 知识-智能转换 信息知识转换 归纳 演绎 归纳 知识库 目的

  9. 中文信息处理研究的现状 中文信息处理研究领域取得了许多重要进展和重 要成果;但基本理论、基础资源、基本工具、基本方 法和性能水平离实际应用的要求还有相当差距。 中文信息理解的研究基本上突破了纯粹语法分析 的层次,正在走向语法与语义分析相结合的新阶段。 但是,还少有语用要素的考虑:还没有真正到位。

  10. 自然语言“机器认知”的两种基本方法 统计方法(归纳)基于大数定律,方法论上是“从众”, 不要求真正达到理解。是初级认知方法。 缺点:假设难满足;结论平均性;真理常在少数人手中。 优点:容易操作,尤其是有了计算和网络技术的支持。 规则方法(演绎)基于理解和规则推理,是处理新问题 和复杂问题不可避免的高级认知方法。 缺点:规则难建立;规则难完备;规则不灵活。 优点:可信(如果规则和前提均可信) 两种方法性质互补,谁也不能单独包打天下。问题是如 何实现 “统计与规则方法的有效结合:大统计,小规则”。

  11. 自然语言理解(机器认知)的困难和意义 自然语言理解是人工智能的典型应用,它的困难充 分表现在:一方面是自然语言表达的多样性、灵活性、 复杂性、动态性,一方面是机器“理解”能力的机械性、 被动性与局限性。 即使是人(更不要说机器)对自然语言的理解也需 要经过长时间的训练和学习,需要在大量“记忆+模仿” 实践的基础上才能逐渐生长出“自主理解”的能力。 自然语言理解是世界级难题,至今没有得到满意 的解决。如果有所进展,将是具有世界意义的贡献。

  12. 二,解决的方法

  13. 全信息理论与自然语言理解 语言是信息的载体;信息是语言的内核。理解自然 语言的本质是理解它所载荷的信息,因此要用信息论。 但现有信息论不能解决问题。 “全信息理论”是北京邮电大学智能研究中心创建的 信息理论[1, 2, 3],拥有自主知识产权。 [1] 钟义信,全信息理论,北京邮电大学学报,1984 [2] 钟义信,信息科学原理,北京邮电大学出版社, 1988第一版,1996 第二版,2002第三版 [3] 钟义信等,信息科学教程,北京市研究生教育重点 精品教材,北京邮电大学出版社,2004

  14. 为什么Shannon Information不能解决问题? Shannon信息论只关心“噪声中的信号波形复制” 问题: X = {xn} 信号状态(是0还是1?) P = {pn} 各种信号状态的出现方式 n (1,N) D X Y I(X;Y) = H(X) – H(X|Y) H(X) = -  pn log pn n

  15. 全信息与“认知能力要素” 人的认知能力包括:观察力,理解力,目的性。观察事物的 外部形式,理解事物的内在含义,判断与自身的利害关系。 符号序列 (形式结构) 语法信息 序列内容 序列价值 客体 符号 主体 语义信息 语用信息 在给定语境(包括主体、客体、文本、环境和常识)下, 语言理解要包含该语境下的语法、语义、语用三要素。 只当语境足够深广,语法、语义、语用分析才有唯一解。

  16. 全信息自然语言理解的“认知机理” 幼儿识字教学过程:如,教学生认识“树”这个字。 先教怎么写(符号的笔划结构);再告诉“树”的真实 样子(事物的形态结构) ,接着告诉“树”的基本特征及树 与草、与花的区别(语义);再告诉“树”的用途(语用)。 明确了用途或害处(语用),人们才会去关注它。 此后,见到“树”这个字或真的树(语法),就会在脑海 中联想到它的语义和语用;才算理解了这个字。 这就是由“语法”调用“全信息词典”的过程。机器可以 模拟这种认知过程。

  17. An Example for “Understanding” Learning the Concept “Tree” Form Sensing Content Thinking Experiencing Value The Mechanism of Understanding Form  Value  Content

  18. 全信息与语言理解的层次 对于自然语言的理解,存在三个相依的层次: (1)了解它的语法信息 (2)了解它的语义信息 (3)了解它的语用信息 浅层理解 中层理解 深层理解 从语法分析走向语义分析,是自然语言处理的重要 进步;但对自然语言理解而言,仍然没有到位! 语法、语义、语用“三位一体”的分析是自然语言理解方法的基本要求(门槛);“两位一体”还不够。

  19. 骨架捕获 –自然语言认知的基本技巧 人类对自然语言的理解(认知)过程既有层次性,又有 灵活性。重要的方法是“快速捕获骨架”(剪枝技巧)。 (1)对浅显而熟悉的部分一扫而过(其实就是剪枝), 只对重要而又困难的部分才做必要的分析。 (2)“必要的分析”主要是“骨架分析”:篇章的骨架,段 落的骨架,语句的骨架。 (3)对于人来说,“一扫而过”也做了“语法-语义-语用” 分析,只是因为熟悉和容易,做的极快(由下意识处理), 以致自己都没有意识到。

  20. 全信息自然语言理解的基本模型 合法 骨架? 真实 逻辑? 符合 目的? + + + 预 处理 语法 分析 语义 分析 语用 分析 后 处理 全信息-知识库 学习扩展 人工奠基

  21. “基本模型”的特色 1,目的性 明确地面向“理解”需求。 2,包容性 包容了规则方法和统计方法两种规范。在规则模式下, 序列是语句;在统计模式下,序列是特征集合。 而且可以包容其它基于语言行为特征的方法。 3,灵活性 整体框架是语言学风格,包含语法分析、语义分析和语 用分析;实际分析深度可依问题需求而有所不同。 模块实现可以是规则的、统计的、规则统计交互补足的。 4,开放性: 模型能够适应各种“理解”应用;能够随着信息表示与处 理方法的进步而不断改进自己的性能。

  22. 关于灵活性的一个说明 规则分析 N 统计分析 OK? OK? Y 根据实际问题求解的需要,规则方法与统计方法 两者可以灵活地互相调用和互相支持(嵌套)。

  23. Applications of CIM-NLU Abstract Content Analyzer ML- Dialog IR IE Mobile Service Internet

  24. 三,研究的重点

  25. 基本特色 1,以中文为起始对象 2,以“全信息自然语言理解”为基本方法 3,以领域相关为研究基点 4,以超越Semantic Web为基本目标

  26. An Example for “The Base” Recalling The Concept “Tree” Form  { Content; Value } The Structure of Information Base for Retrieval {Form | Content; Value}

  27. (一)全信息的表示:全信息资源库建设的框架(一)全信息的表示:全信息资源库建设的框架 以语句为单位 以骨架为对象 树的深度有限 项(概念,词) 语法特征 语义特征 语用特征 #1 #m #1 #n #1 #p 项 … … …

  28. (二)基于全信息理解的搜索引擎 核心技术参考《基本模型》:p.20 (三)应用:特定领域的智能网 (基于理解/认知的信息检索网) CI-Web = CI-base • NLU-SE

  29. Domain Specific CI-Web World-Wide Web = {Syntax} • Match-based SE + Semantics + Semantics Semantic Web = {Ontology} • Semantic SE + Pragmatic + Pragmatic CI-Web = {CI Bases} • NLU-SE

  30. 请多批评,谢谢!

More Related