全信息理论与中文信息处理

全信息理论与中文信息处理 钟义信智能科学技术研究中心北京邮电大学 2006-8-24 yxzhong@ieee.org

目录 一，问题的提出二，解决的方法三，研究的重点

一，问题的提出

中文信息（自然语言）处理的重大社会需求 1，人际交往 -- 多种语言的存在 -- 全球交往的进程 -- 学习语言的困难 -- 机器翻译的前景 2，人机合作 -- 人类操作能力的局限 -- 机器工作性能的威力 -- 机器认知能力的潜力 -- 人机能力的天然互补

中文信息（自然语言）处理的核心目标 表面上看，“中文信息处理”研究工作的着眼点和落脚点应是中文信息的“处理” – 如词语切分，词形标注，语句分析，专名识别，词语消岐，等等。实质上看，研究工作的目标是“使机器能够在一定程度上理解中文信息”，或对中文信息实现一定认知。无论从 “人际通信” 还是 “人机合作” 的需求来看，处理都是手段，理解（认知）才是目的。

自然语言 “理解” 与人工智能 1，智能的核心是思维；语言是思维的表达；因此语言也是智能的表达。 2，理解（认知），是智能的内核；因此自然语言理解是人工智能的基本研究方向。 3，自然语言理解本质上是人工智能、信息科学、认知科学和语言学的交叉科学。 4，自然语言理解系统本质上是一类智能系统。

智能系统的核心机制：信息-知识-智能转换 有序信息目标思维器官知识预处理认知决策实得信息智能策略知识库传导系统传导系统信息传递信息传递感觉器官效应器官信息获取需求/约束需求/约束信息执行智能行为本体信息

信息-知识-智能转换：自然语言理解通用方法论信息-知识-智能转换：自然语言理解通用方法论信息（问题与约束）结果（性能与评价）智能行为信息-知识转换知识-智能转换信息知识转换归纳演绎归纳知识库目的

中文信息处理研究的现状 中文信息处理研究领域取得了许多重要进展和重要成果；但基本理论、基础资源、基本工具、基本方法和性能水平离实际应用的要求还有相当差距。中文信息理解的研究基本上突破了纯粹语法分析的层次，正在走向语法与语义分析相结合的新阶段。但是，还少有语用要素的考虑：还没有真正到位。

自然语言“机器认知”的两种基本方法 统计方法（归纳）基于大数定律，方法论上是“从众”，不要求真正达到理解。是初级认知方法。缺点：假设难满足；结论平均性；真理常在少数人手中。优点：容易操作，尤其是有了计算和网络技术的支持。规则方法（演绎）基于理解和规则推理，是处理新问题和复杂问题不可避免的高级认知方法。缺点：规则难建立；规则难完备；规则不灵活。优点：可信（如果规则和前提均可信）两种方法性质互补，谁也不能单独包打天下。问题是如何实现 “统计与规则方法的有效结合：大统计，小规则”。

自然语言理解（机器认知）的困难和意义 自然语言理解是人工智能的典型应用，它的困难充分表现在：一方面是自然语言表达的多样性、灵活性、复杂性、动态性，一方面是机器“理解”能力的机械性、被动性与局限性。即使是人（更不要说机器）对自然语言的理解也需要经过长时间的训练和学习，需要在大量“记忆+模仿” 实践的基础上才能逐渐生长出“自主理解”的能力。自然语言理解是世界级难题，至今没有得到满意的解决。如果有所进展，将是具有世界意义的贡献。

二，解决的方法

全信息理论与自然语言理解 语言是信息的载体；信息是语言的内核。理解自然语言的本质是理解它所载荷的信息，因此要用信息论。但现有信息论不能解决问题。 “全信息理论”是北京邮电大学智能研究中心创建的信息理论[1, 2, 3]，拥有自主知识产权。 [1] 钟义信，全信息理论，北京邮电大学学报，1984 [2] 钟义信，信息科学原理，北京邮电大学出版社， 1988第一版，1996 第二版，2002第三版 [3] 钟义信等，信息科学教程，北京市研究生教育重点精品教材，北京邮电大学出版社，2004

为什么Shannon Information不能解决问题？ Shannon信息论只关心“噪声中的信号波形复制” 问题： X = {xn} 信号状态（是0还是1？） P = {pn} 各种信号状态的出现方式 n (1,N) D X Y I(X;Y) = H(X) – H(X|Y) H(X) = -  pn log pn n

全信息与“认知能力要素” 人的认知能力包括：观察力，理解力，目的性。观察事物的外部形式，理解事物的内在含义，判断与自身的利害关系。符号序列（形式结构）语法信息序列内容序列价值客体符号主体语义信息语用信息在给定语境（包括主体、客体、文本、环境和常识）下，语言理解要包含该语境下的语法、语义、语用三要素。只当语境足够深广，语法、语义、语用分析才有唯一解。

全信息自然语言理解的“认知机理” 幼儿识字教学过程：如，教学生认识“树”这个字。先教怎么写（符号的笔划结构）；再告诉“树”的真实样子（事物的形态结构），接着告诉“树”的基本特征及树与草、与花的区别（语义）；再告诉“树”的用途（语用）。明确了用途或害处（语用），人们才会去关注它。此后，见到“树”这个字或真的树（语法），就会在脑海中联想到它的语义和语用；才算理解了这个字。这就是由“语法”调用“全信息词典”的过程。机器可以模拟这种认知过程。

An Example for “Understanding” Learning the Concept “Tree” Form Sensing Content Thinking Experiencing Value The Mechanism of Understanding Form  Value  Content

全信息与语言理解的层次 对于自然语言的理解，存在三个相依的层次：（1）了解它的语法信息（2）了解它的语义信息（3）了解它的语用信息浅层理解中层理解深层理解从语法分析走向语义分析，是自然语言处理的重要进步；但对自然语言理解而言，仍然没有到位！语法、语义、语用“三位一体”的分析是自然语言理解方法的基本要求（门槛）；“两位一体”还不够。

骨架捕获 –自然语言认知的基本技巧 人类对自然语言的理解（认知）过程既有层次性，又有灵活性。重要的方法是“快速捕获骨架”（剪枝技巧）。（1）对浅显而熟悉的部分一扫而过（其实就是剪枝），只对重要而又困难的部分才做必要的分析。（2）“必要的分析”主要是“骨架分析”：篇章的骨架，段落的骨架，语句的骨架。（3）对于人来说，“一扫而过”也做了“语法-语义-语用” 分析，只是因为熟悉和容易，做的极快（由下意识处理），以致自己都没有意识到。

全信息自然语言理解的基本模型 合法骨架？真实逻辑？符合目的？ + + + 预处理语法分析语义分析语用分析后处理全信息-知识库学习扩展人工奠基

“基本模型”的特色 1，目的性明确地面向“理解”需求。 2，包容性包容了规则方法和统计方法两种规范。在规则模式下，序列是语句；在统计模式下，序列是特征集合。而且可以包容其它基于语言行为特征的方法。 3，灵活性整体框架是语言学风格，包含语法分析、语义分析和语用分析；实际分析深度可依问题需求而有所不同。模块实现可以是规则的、统计的、规则统计交互补足的。 4，开放性：模型能够适应各种“理解”应用；能够随着信息表示与处理方法的进步而不断改进自己的性能。

关于灵活性的一个说明 规则分析 N 统计分析 OK? OK? Y 根据实际问题求解的需要，规则方法与统计方法两者可以灵活地互相调用和互相支持（嵌套）。

Applications of CIM-NLU Abstract Content Analyzer ML- Dialog IR IE Mobile Service Internet

三，研究的重点

基本特色 1，以中文为起始对象 2，以“全信息自然语言理解”为基本方法 3，以领域相关为研究基点 4，以超越Semantic Web为基本目标

An Example for “The Base” Recalling The Concept “Tree” Form  { Content; Value } The Structure of Information Base for Retrieval {Form | Content; Value}

（一）全信息的表示：全信息资源库建设的框架（一）全信息的表示：全信息资源库建设的框架以语句为单位以骨架为对象树的深度有限项（概念，词）语法特征语义特征语用特征 #1 #m #1 #n #1 #p 项 … … …

（二）基于全信息理解的搜索引擎 核心技术参考《基本模型》：p.20 （三）应用：特定领域的智能网（基于理解/认知的信息检索网） CI-Web = CI-base • NLU-SE

Domain Specific CI-Web World-Wide Web = {Syntax} • Match-based SE + Semantics + Semantics Semantic Web = {Ontology} • Semantic SE + Pragmatic + Pragmatic CI-Web = {CI Bases} • NLU-SE

请多批评，谢谢！

全信息理论与中文信息处理

全信息理论与中文信息处理

Presentation Transcript