神经信息学

神经信息学 平行分布式理论框架史忠植 shizz@ics.ict.ac.cn 中科院计算所

目录 1. 神经计算 2. 并行分布式理论框架 3. 交互与竞争神经网络 4. 误差反向传播神经网络 5.Hopfield神经网络

神经网络 • 一个神经网络是由简单处理元构成的规模宏大的并行分布处理器。天然具有存储经验知识和使之可用的特性。 • 神经网络从两个方面上模拟大脑： 神经网络获取的知识是从外界环境中学习得来的。 内部神经元的连接强度，即突触权值，用于储存获取的知识。

发展历史 • 萌芽期（20世纪40年代）人工神经网络的研究最早可以追溯到人类开始研究自己的智能的时期，到1949年止。 1943年，心理学家McCulloch和数学家Pitts建立起了著名的阈值加权和模型，简称为M-P模型。发表于数学生物物理学会刊《Bulletin of Methematical Biophysics》  949年，心理学家D. O. Hebb提出神经元之间突触联系是可变的假说——Hebb学习律。

发展历史 • 第一高潮期（1950~1968） 以Marvin Minsky，Frank Rosenblatt，Bernard Widrow等为代表人物，代表作是单级感知器（Perceptron）。 可用电子线路模拟。 人们乐观地认为几乎已经找到了智能的关键。许多部门都开始大批地投入此项研究，希望尽快占领制高点。

发展历史 • 反思期（1969~1982） M. L. Minsky和S. Papert，《Perceptron》，MIT Press，1969年 异或”运算不可表示 二十世纪70年代和80年代早期的研究结果

发展历史 • 第二高潮期（1983~1990） 1982年，J. Hopfield提出Hopfield网络 • 用Lyapunov函数作为网络性能判定的能量函数，建立ANN稳定性的判别依据 • 阐明了ANN与动力学的关系 • 用非线性动力学的方法来研究ANN的特性 • 指出信息被存放在网络中神经元的联接上

发展历史 • 第二高潮期（1983~1990） 1984年，J. Hopfield设计研制了后来被人们称为Hopfield网-Tank电路。较好地解决了著名的TSP问题，找到了最佳解的近似解，引起了较大的轰动。 1985年，UCSD的Hinton、Sejnowsky、Rumelhart等人所在的并行分布处理（PDP）小组的研究者在Hopfield网络中引入了随机机制，提出所谓的Boltzmann机。

发展历史  1986年，并行分布处理小组的Rumelhart等研究者重新独立地提出多层网络的学习算法——BP算法，较好地解决了多层网络的学习问题。（Paker1982和Werbos1974年） 自适应共振理论（ART） 自组织特征映射理论

发展历史  Hinton 等人最近提出了 Helmboltz 机  徐雷提出的 Ying-Yang 机理论模型  甘利俊一( S.Amari) 开创和发展的基于统计流形的方法应用于人工神经网络的研究, • 国内首届神经网络大会是1990年12月在北京举行的。

并行分布式理论框架 1986年，美国加州大学圣地亚哥分校（UCSD）Rumellhart，McClelland，Hinton：Parallel and Distributed Processing, MIT Press, Cambridge

并行分布式理论框架 PDP模型 1）一组处理单元（PE或AN） 2）处理单元的激活状态（ai） 3）每个处理单元的输出函数（fi） 4）处理单元之间的连接模式 5）传递规则（∑wijoi） 6）把处理单元的输入及当前状态结合起来产生激活值的激活规则（Fi） 7）通过经验修改连接强度的学习规则 8）系统运行的环境（样本集合）

神经网络的维数 • Various types of neurons • Various network architectures • Various learning algorithms • Various applications

竞争层 输入层交互与竞争IAC神经网络自组织神经网络的典型结构

竞争学习 相似性测量＿欧式距离法

竞争学习 相似性测量＿余弦法

竞争学习原理 竞争学习规则——Winner-Take-All 网络的输出神经元之间相互竞争以求被激活，结果在每一时刻只有一个输出神经元被激活。这个被激活的神经元称为竞争获胜神经元，而其它神经元的状态被抑制，故称为Winner Take All。

竞争学习原理 寻找获胜神经元当网络得到一个输入模式向量时，竞争层的所有神经元对应的内星权向量均与其进行相似性比较，并将最相似的内星权向量判为竞争获胜神经元。欲使两单位向量最相似，须使其点积最大。即：

竞争学习原理 从上式可以看出，欲使两单位向量的欧式距离最小，须使两向量的点积最大。即：

jj* 竞争学习原理 3.网络输出与权值调整步骤3完成后回到步骤1继续训练，直到学习率衰减到0。

j=1,2,…,m 前馈神经网络单层感知器模型

x1 oj … xn -1 单层感知器净输入：输出：

x1 oj x2 -1 输出：单层感知器感知器的功能单计算节点感知器 (1)设输入向量X=(x1 ,x2)T 则由方程 w1jx1+w2jx2-Tj=0 确定了二维平面上的一条分界线。

单层感知器 感知器的功能

x1 x2 oj x3 -1 输出：单层感知器感知器的功能 (2)设输入向量X=(x1,x2,x3)T 则由方程 w1jx1+w2jx2+w3jx3–Tj=0 (3.4) 确定了三维空间上的一个分界平面。

单层感知器 感知器的功能

o1 x1 W(1) W(2) W(3) W(L) o2 x2 … … … … … … … xn om 输入层隐藏层输出层多层感知器网络的拓扑结构

双层感知器 “异或”问题分类多层感知器 “异或”的真值表用两计算层感知器解决“异或”问题。

双层感知器 “异或”问题分类多层感知器 “异或”的真值表用两计算层感知器解决“异或”问题

双层感知器 “异或”问题分类多层感知器 “异或”的真值表用两计算层感知器解决“异或”问题。

双层感知器 “异或”问题分类多层感知器 “异或”的真值表例四用两计算层感知器解决“异或”问题。

多层感知器 具有不同隐层数的感知器的分类能力对比

误差反向传播（BP）网路 基于BP算法的多层前馈网络模型

误差反向传播（BP）网路 基于BP算法的多层前馈网络模型输入向量：X=(x1,x2,…,xi,…,xn)T 隐层输出向量：Y=(y1,y2,…,yj,…,ym)T 输出层输出向量：O=(o1,o2,…,ok,…,ol)T 期望输出向量：d=(d1, d2,…,dk,…,dl)T 输入层到隐层之间的权值矩阵：V=(V1,V2,…,Vj,…,Vm) 隐层到输出层之间的权值矩阵：W=(W1,W2,…,Wk,…,Wl)

对于输出层： k=1,2,…,l k=1,2,…,l 对于隐层： j=1,2,…,m j=1,2,…,m 误差反向传播（BP）网路 3.4.1 基于BP算法的多层前馈网络模型

单极性Sigmoid函数： 双极性Sigmoid函数：误差反向传播（BP）网路 3.4.1 基于BP算法的多层前馈网络模型

输出误差E定义： BP学习算法一、网络误差定义与权值调整思路将以上误差定义式展开至隐层：

BP学习算法 一、网络误差与权值调整进一步展开至输入层：

j=0,1,2,…,m; k=1,2,…,l i=0,1,2,…,n; j=1,2,…,m BP学习算法 BP学习算法式中负号表示梯度下降，常数η∈(0,1)表示比例系数。在全部推导过程中，对输出层有j=0,1,2,…,m; k=1,2,…,l 对隐层有 i=0,1,2,…,n; j=1,2,…,m

yj xi 对隐层，式(3.4.9b)可写为对输出层和隐层各定义一个误差信号，令 (3.4.11a) BP算法推导对于输出层，式(3.4.9a)可写为

BP算法的程序实现 (1)初始化； (2)输入训练样本对X Xp、d dp 计算各层输出； (3)计算网络输出误差； (4)计算各层误差信号； (5)调整各层权值； (6)检查是否对所有样本完成一次轮训； (7)检查网络总误差是否达到精度要求。

另一种方法是在所有样本输入之后，计算网络的总误差：另一种方法是在所有样本输入之后，计算网络的总误差： BP算法的程序实现然后根据总误差计算各层的误差信号并调整权值。

多层前馈网(感知器)的主要能力 (1)非线性映射能力多层前馈网能学习和存贮大量输入-输出模式映射关系，而无需事先了解描述这种映射关系的数学方程。只要能提供足够多的样本模式对供BP网络进行学习训练，它便能完成由n维输入空间到m维输出空间的非线性映射。

多层前馈网(感知器)的主要能力 (2)泛化能力当向网络输入训练时未曾见过的非样本数据时，网络也能完成由输入空间向输出空间的正确映射。这种能力称为多层前馈网的泛化能力。 (3)容错能力输入样本中带有较大的误差甚至个别错误对网络的输入输出规律影响很小。

BP算法的局限性 误差函数的可调整参数的个数 nw 等于各层权值数加上阈值数，即：误差 E 是 nw+1 维空间中一个形状极为复杂的曲面，该曲面上的每个点的“高度”对应于一个误差值，每个点的坐标向量对应着 nw 个权值，因此称这样的空间为误差的权空间。

BP算法的局限性 误差曲面的分布有两个特点：特点之一：存在平坦区域

BP算法的局限性 特点之二：存在多个极小点多数极小点都是局部极小，即使是全局极小往往也不是唯一的，但其特点都是误差梯度为零。误差曲面的平坦区域会使训练次数大大增加，从而影响了收敛速度；而误差曲面的多极小点会使训练陷入局部极小，从而使训练无法收敛于给定误差。

标准BP算法的改进 标准的BP算法在应用中暴露出不少内在的缺陷： ⑴ 易形成局部极小而得不到全局最优； ⑵ 训练次数多使得学习效率低，收敛速度慢； ⑶ 隐节点的选取缺乏理论指导； ⑷ 训练时学习新样本有遗忘旧样本的趋势。针对上述问题，国内外已提出不少有效的改进算法，下面仅介绍其中3种较常用的方法。

α为动量系数，一般有α∈(0，1) 标准BP算法的改进 1 增加动量项 2 自适应调节学习率设一初始学习率，若经过一批次权值调整后使总误差↑，则本次调整无效，且=β(β<1 )；若经过一批次权值调整后使总误差↓，则本次调整有效，且=θ (θ>1 )。

标准BP算法的改进 3 引入陡度因子实现这一思路的具体作法是，在原转移函数中引入一个陡度因子λ

神经信息学

神经信息学

Presentation Transcript