1 / 60

第二章 语 言知识的表示和处理

自然语言处理. 第二章 语 言知识的表示和处理. 主要内容. 语言知识 语言知识的表示 句法知识 (Syntactic knowledge) 语义知识 (Semantic knowledge). 语言知识. 语音知识 (Phonological knowledge) 词法知识 (Morphological knowledge) 句法知识 (Syntactic knowledge) 语义知识 (Semantic knowledge). 背景:基本研究方法. 理性主义: 人类首先本能地掌握一些基本原则,如几何法则,随后可以依据这些推理出其余知识

Télécharger la présentation

第二章 语 言知识的表示和处理

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 自然语言处理 第二章 语言知识的表示和处理

  2. 主要内容 • 语言知识 • 语言知识的表示 • 句法知识(Syntactic knowledge) • 语义知识(Semantic knowledge) 《自然语言处理》 国防科学技术大学 唐晋韬

  3. 语言知识 • 语音知识(Phonological knowledge) • 词法知识(Morphological knowledge) • 句法知识(Syntactic knowledge) • 语义知识(Semantic knowledge) 《自然语言处理》 国防科学技术大学 唐晋韬

  4. 背景:基本研究方法 • 理性主义:人类首先本能地掌握一些基本原则,如几何法则,随后可以依据这些推理出其余知识 • 经验主义:认为理论应建立于对于事物的观察,而不是直觉或迷信。意即通过实验研究而后进行理论归纳优于单纯的逻辑推理 《自然语言处理》 国防科学技术大学 唐晋韬

  5. 背景:基本研究方法 • 理性主义与经验主义的哲学分野: • 对语言知识来源的不同认识 • 理性主义认为:人的很大一部分语言知识是与生俱来的,由遗传决定的 乔姆斯基 :内在语言官能理论 1960s – 1980s中期 《自然语言处理》 国防科学技术大学 唐晋韬

  6. 背景:基本研究方法 • 理性主义与经验主义的哲学分野: • 对语言知识来源的不同认识 • 经验主义认为:人的语言知识是通过感官输入,经过一些简单的联想与通用化(泛化)的操作而得到的 • 大量的语言数据中获得语言的知识结构 1920s-1950s,1980s中期- ? 《自然语言处理》 国防科学技术大学 唐晋韬

  7. 背景:基本研究方法 • 研究对象的差异 • 理性主义方法:研究人的语言知识结构 (语言能力),实际的语言数据(语言行为)只提供了这种内在知识的间接证据 • 经验主义方法:直接研究实际的语言数据 《自然语言处理》 国防科学技术大学 唐晋韬

  8. 背景:基本研究方法 • 运用理论的差异 • 理性主义:通常基于 Chomsky 的语言原则(principles),通过语言所必须遵守的一系列原则来描述语言 • 经验主义:通常基于 Shannon的信息论 《自然语言处理》 国防科学技术大学 唐晋韬

  9. 背景:基本研究方法 • 处理方法上的差异 • 理性主义:通常通过一些特殊的语句或语言现象的研究来得到对人的语言能力的认识。基于规则的分析方法,建立符号处理系统 • 经验主义:偏重于对大规模语言数据中人们所实际使用的普通语句的统计。基于大规模真实语料,建立统计模型 《自然语言处理》 国防科学技术大学 唐晋韬

  10. 背景:基本研究方法 • 研究方法的流变 • 1920s,经验主义的方法 • 1950s,乔姆斯基提出句法理论,理性主义迎来黄金三十年 • 1990s,经验主义复苏,摘得所有唾手可得的果实 肯尼斯.丘吉:《钟摆摆得太远》 《自然语言处理》 国防科学技术大学 唐晋韬

  11. 语言知识的表示-句法知识 • 当代形式语法理论 • 上下文无关语法(Context Free Grammar) • 扩充转换网络(Augmented Transition Network) • 依存语法(Dependency Grammar) • 转移语法(TG), 支配约束理论(GB), 词汇功能语法(LFG), 广义短语结构语法(GPSG), 中心词驱动的短语结构语法(HPSG)定子句语法(DCG), 功能合一语法(FUG), 树邻接语法(TAG) , 链语法(Link Grammar) , 范畴语法(Categorial Grammar) , 词语法(Word Grammar) …… 《自然语言处理》 国防科学技术大学 唐晋韬

  12. 语言知识的表示-句法知识 • 《当代西方语法理论》 • 俞如珍 金顺德 • 上海外语教育出版社, 1994 《自然语言处理》 国防科学技术大学 唐晋韬

  13. 文法 • 文法: 描述语言的语法结构的形式规则 • He gave me a book. • <句子>  <主语><谓语><间接宾语><直接宾语> • <主语>  <代词> • <谓语>  <动词> • <间接宾语>  <代词> • <直接宾语>  <冠词> <名词> • <代词>  He • <代词>  me • <名词>  book • <冠词>  a • <动词>  gave 《自然语言处理》 国防科学技术大学 唐晋韬

  14. 文法 <句子><主语><谓语><间接宾语><直接宾语> <代词><谓语><间接宾语><直接宾语> He <谓语><间接宾语><直接宾语> He <动词><间接宾语><直接宾语> He gave <间接宾语><直接宾语> He gave <代词><直接宾语> He gave me <直接宾语> He gave me <冠词><名词> He gave me a <名词> He gave me a book 《自然语言处理》 国防科学技术大学 唐晋韬

  15. 上下文无关文法(CFG) • 一个上下文无关文法G是一个四元式 G=(VT,VN,S,P),其中 • VT:终结符集合(非空) • VN:非终结符集合(非空),且VT VN= • S:文法的开始符号,SVN • P:产生式集合(有限),每个产生式形式为 P, PVN,   (VT VN)* • 开始符S至少必须在某个产生式的左部出现一次。 《自然语言处理》 国防科学技术大学 唐晋韬

  16. 上下文无关文法 • 例,定义只含+,*的算术表达式的文法 G=<{i,+,*,(,)},{E},E, P>, 其中,P由下列产生式组成: E  i E  E+E E  E*E E  (E) 《自然语言处理》 国防科学技术大学 唐晋韬

  17. 推导 • 定义:称A直接推出,即 A 仅当A  是一个产生式,且,  (VT VN)*。 • 如果12 n,则我们称这个序列是从1到n的一个推导。若存在一个从1到n的推导,则称1可以推导出n。 • 例:对文法(1) E  (E)  (E+E) (i+E) (i+i) 《自然语言处理》 国防科学技术大学 唐晋韬

  18. 通常,用 表示:从1出发,经过一步或若干步,可以推出n。 用 表示:从1出发,经过0步或若干步,可以推出n。 所以 : 即 或 推导 《自然语言处理》 国防科学技术大学 唐晋韬

  19. 句型、句子和语言 • 定义:假定G是一个文法,S 是它的开始符号。如果 ,则称是一个句型。仅含终结符号的句型是一个句子。文法G所产生的句子的全体是一个语言,将它记为 L(G)。 《自然语言处理》 国防科学技术大学 唐晋韬

  20. 语法树与二义性 • 用一张图表示一个句型的推导,称为语法树 • (i*i+i)的语法树 E (E) (E+E) (E*E+E) (i*E+E) (i*i+E) (i*i+i) E (E) (E+E) (E+i) (E*E+i) (E*i+i) (i*i+i) • 一棵语法树是不同推导过程的共性抽象 《自然语言处理》 国防科学技术大学 唐晋韬

  21. 语法树与二义性 • 如果使用最左(右)推导,则一个最左(右)推导与语法树一一对应。 • 一个句型是否只对应唯一一棵语法树? 《自然语言处理》 国防科学技术大学 唐晋韬

  22. 文法的二义性 vs. 语言的二义性 • 定义:如果一个文法存在某个句子对应两颗不同的语法树,则说这个文法是二义的 • G(E): E i|E+E|E*E|(E) 是二义文法 • 语言的二义性:一个语言是二义性的,如果对它不存在无二义性的文法 • 可能存在G和G’,一个为二义的,一个为无二义的。但L(G)=L(G’) • 二义性问题是不可判定问题,即不存在一个算法,它能在有限步骤内,确切地判定一个文法是否是二义的 • 可以找到一组无二义文法的充分条件 《自然语言处理》 国防科学技术大学 唐晋韬

  23. Chomsky 形式语言体系 • Chomsky于1956年建立形式语言体系,他把文法分成四种类型:0,1,2,3型。 • 与上下文无关文法一样,它们都由四部分组成,但对产生式的限制有所不同。 《自然语言处理》 国防科学技术大学 唐晋韬

  24. Chomsky 形式语言体系 • 3型(正规文法,有限自动机) • 产生式形如:A  B 或 A   • 其中:  VT*;A,BVN • 2型(上下文无关文法,非确定下推自动机) • 产生式形如:A   • 其中:A VN; (VT VN)* 将所有包含奇数个1的0、1数字串作为合法句的正则语言,就可建立以下正则文法(3型文法): P->0P, P->1Q, Q->1P, Q->OQ 《自然语言处理》 国防科学技术大学 唐晋韬

  25. Chomsky 形式语言体系 • 1型(上下文有关文法,线性界限自动机) • 产生式形如:    • 其中:||  ||,仅 S 例外 • 0型(短语文法,图灵机) • 产生式形如:    • 其中: (VT VN)*且至少含有一个非终结符; (VT VN)* 《自然语言处理》 国防科学技术大学 唐晋韬

  26. 四种类型描述能力比较 0型 1型 2型 3型 《自然语言处理》 国防科学技术大学 唐晋韬

  27. 用CFG描述自然语言 N  printers V  clean V  cleans AUX  should DET  the DET  a P  with S  NP (AUX) VP VP  V (NP) PP* NP (DET) (ADJ) N PP* PP  P NP N  user N  users N  printer 《自然语言处理》 国防科学技术大学 唐晋韬

  28. noun noun noun verb 2 3 1 扩充转换网络(Augmented Transition Network) • 转换网络与有限自动机 • 弧上标记为终结符 语言结构中的递归嵌套? 《自然语言处理》 国防科学技术大学 唐晋韬

  29. 扩充转换网络(Augmented Transition Network) • 转换网络与有限自动机 • 语言结构中的递归嵌套 • The book is very interesting. • The book that I bought yesterday is very interesting. • The book that I bought from the store that just opened yesterday is very interesting. 《自然语言处理》 国防科学技术大学 唐晋韬

  30. 扩充转换网络(Augmented Transition Network) • 递归转换网络 • 由一组网络所构成的,每个网络都有一个网络名(非终结符) • 弧上标记为终结符或非终结符 《自然语言处理》 国防科学技术大学 唐晋韬

  31. NP 2 VP 3 S 1 3 noun det NP PP 2 4 NP 1 verb VP 1 2 noun prep NP 2 3 PP 1 扩充转换网络(Augmented Transition Network) • 递归转换网络 • S -> NP VP • VP -> VP NP • NP -> NP PP • VP -> verb • NP -> noun • NP -> det noun • PP -> prep NP 《自然语言处理》 国防科学技术大学 唐晋韬

  32. 扩充转换网络(Augmented Transition Network) • 递归转换网络 • 记录成分结构 • 语言中的上下文相关信息处理:人称、时态、数的一致性 • The player is the champion. • The player are the champion. 《自然语言处理》 国防科学技术大学 唐晋韬

  33. ADJS←ADJS + * adj NOUN← * DET← * 2 noun NP det 3 1 扩充转换网络(Augmented Transition Network) Woods, William A (1970). "Transition Network Grammars for Natural Language Analysis". Communications of the ACM 13 (10): 591–606. • 扩充转换网络 • 伍兹(Woods)在1970年提出的 • 每条弧上的条件扩展为条件加上动作 *弧的返回结果 《自然语言处理》 国防科学技术大学 唐晋韬

  34. 扩充转换网络 • 扩充转换网络 • 弧上添加必要的条件和动作 • 条件:对弧的限制 • 动作:执行特征标志和构造操作 • 条件和动作利用成分和特征向量 • 成分:词或短语在句子中的语法成分 • 特征:句子的语气、语态、人称、时态、数、问题和类型 《自然语言处理》 国防科学技术大学 唐晋韬

  35. 扩充转换网络 • 扩充转换网络 • 条件和操作采用寄存器的方法来实现 • 在分析树的各个成分结构上都放上寄存器 • 存放句法功能和句法特征 • 条件和操作访问和设置寄存器 • ATN的每个寄存器由两部分构成 • 句法特征寄存器:每一维特征都有一个特征名和一组特征值,以及一个缺省值来表示 • 句法功能寄存器:反映句法成分之间的关系和功能 《自然语言处理》 国防科学技术大学 唐晋韬

  36. ADJS←ADJS + * adj NOUN← * DET← * 2 noun NP det 3 1 扩充转换网络 • 扩充转换网络示例 *弧的返回结果 • the lovely baby • DET = the • ADJS = lovely • NOUN = baby (NP (DET the) (ADJS lovely) (NOUN baby)) 《自然语言处理》 国防科学技术大学 唐晋韬

  37. 扩充转换网络 • NP一致性示例 • NP-1:fg A:Number*Number • NP-3:gh    C:Number=* Number or φ A:Number*Number det noun:3 det:1 noun 1 2 3 Thebook Thisbook Thesebooks Thebooks Thisbooks Thesebook adj:2 《自然语言处理》 国防科学技术大学 唐晋韬

  38. ADJS←ADJS + * adj NOUN← * DET← * 2 noun NP det 3 1 SUBJ← * OBJ← * VERB← * 4 S NP 3 NP 2 verb 1 The lovely baby ate the sweet cookie. (lexicon (the (CAT det)) (lovely (CAT adj)) (baby (CAT noun)) (ate (CAT verb)) (sweet (CAT adj)) (cookie (CAT noun))) (S (SUBJ (NP (DET the) (ADJS lovely) (NOUN baby))) (VERB ate) (OBJ (NP (DET the) (ADJS sweet) (NOUN cookie)))) 《自然语言处理》 国防科学技术大学 唐晋韬

  39. ADJS←ADJS + * adj NUM ← NUM.* DET← * NUM ← NUM ∩NUM.* NOUN← * noun 2 NP det 3 1 NUM.SUBJ ← NUM.* SUBJ← * NUM.OBJ ← NUM.* OBJ← * 4 S NP 3 NP 2 verb 1 NUM ←NUM.SUBJ ∩NUM.* VERB← * The lovely baby eat the sweet cookie. (lexicon (the (CAT det) (NUM 3s 3p)) (lovely (CAT adj)) (baby (CAT noun) (NUM 3s)) (ate (CAT verb) (NUM 1s 2s 3s 1p 2p 3p)) (eat (CAT verb) (NUM 1s 2s 1p 2p 3p)) (eats (CAT verb) (NUM 3s)) (sweet (CAT adj)) (cookie (CAT noun) (NUM 3s))) 《自然语言处理》 国防科学技术大学 唐晋韬

  40. 扩充转换网络 • 扩充转换网络 • 作为一完整的ATN是相当复杂的,在实现过程中还必须解决许多问题,如非确定性分析、弧的顺序、非直接支配关系的处理等等 • ATN方法在自然语言理解的研究中得到了广泛的应用 《自然语言处理》 国防科学技术大学 唐晋韬

  41. 依存文法(Dependency Grammar) • 法国著名语言学家Tesniere.L 《结构句法基础》(1959) • 主张主要动词作为一个句子的中心,支配其它成分,而它本身不受任何其它成分支配 • 1970年,Robinson J.J提出了依存关系四大公理,为依存语法奠定了基础 • Conference on Computational Natural Language Learning (CoNLL) • Shared Task: Multi-lingual Dependency Parsing 《自然语言处理》 国防科学技术大学 唐晋韬

  42. 依存结构 • 没有构成块(constituent) ——不同于短语结构 • 依存关系(Dependency relation)存在于词(lexical items, tokens)之间 • 图示: punc ROOT comp subj det This is a test . 《自然语言处理》 国防科学技术大学 唐晋韬

  43. 依存结构 • Child • Dependent • Modifier • Label subj This is • Parent • Governor • Head Note: 也有箭头是从head指向child的 ! 《自然语言处理》 国防科学技术大学 唐晋韬

  44. 依存文法(Dependency Grammar) • 四条公理 • 一个句子中只有一个成分是独立的; • 其他成分直接依存于某一成分; • 任何一个成分都不能依存于两个或两个以上的成分; • 如果A成分直接依存于B成分,而C成分在句子中位于A和B之间的话,那么,C或者直接依存于A成分,或者直接依存于B成分,或者直接依存于A和B之间的某一成分; • 进入90年代,我国学者结合汉语的语法实践,提出依存关系的第五条公理 • 中心成分左右两边的其他成分相互不发生依存关系 《自然语言处理》 国防科学技术大学 唐晋韬

  45. 依存文法(Dependency Grammar) • 四条公理对依存树的形式约束 • 单一父节点 • 连通 • 无环 • 可投射 保证了句子的依存分析树是一棵有根的树结构 《自然语言处理》 国防科学技术大学 唐晋韬

  46. 可投射的含义 《自然语言处理》 国防科学技术大学 唐晋韬

  47. 依存文法(Dependency Grammar) • 依存语法描述的是句子中词与词之间直接的句法关系 • 这种句法关系是有方向性的,通常是一个词支配另一个词,或者说,一个词受另一个词的支配(也即依存关系)。这种支配和被支配关系体现了词在句中的关系。 • 同时,这种支配关系是不对称的,而这种不对称体现了自然语言的实际情况。只有通过这种不对称,才能有效地表达自然语言的结构。 《自然语言处理》 国防科学技术大学 唐晋韬

  48. 依存文法(Dependency Grammar) • 周明、黄昌宁,面向语料库标注的汉语依存体系的探讨,中文信息学报,1994/03 • 考虑了依存关系,也都使用了“ 中心词” 或“ 支配者” 的概念 • 重视句法的功能方面,重视句法角色的表达 • 认为句法应由词汇限制,而把大量句法信息放于词汇描写中 • 基于合一原则建立分析算法,在句法体系中, 复杂特征集起到很重要作用 《自然语言处理》 国防科学技术大学 唐晋韬

  49. 依存文法(Dependency Grammar) • 利用依存语法进行分析得到依存树,简称DRT(Dependency Relation Tree) • DRT与短语结构语法得到的句法结构树PST(Phrase Structure Tree)不同 《自然语言处理》 国防科学技术大学 唐晋韬

  50. OBJ SUBJ SV 我 同学 V0 ATTA ADJ NP 的 好 NP DE DEP 他 我 是 他 的 好 同学 “我是他的好同学。”的依存分析树 《自然语言处理》 国防科学技术大学 唐晋韬

More Related