440 likes | 621 Views
人工智能 Artificial Intelligence. 计算智能(一) Computational Intelligence. 本课程前面的内容以知识为基础,通过符号推理,进行问题求解,通常把这些称为符号智能 本章是以数据为基础,通过训练建立联系,进行问题求解,一般称为计算智能 计算智能一般包括:人工神经网络、遗传算法、模糊系统、进化程序设计、人工生命等. Agenda. 神经网络概述 感知机 前馈神经网络 Hopfield 网络 随机神经网络 遗传算法 人工生命. 神经网络概述( 1 ). 什么是神经网络?
E N D
计算智能(一) Computational Intelligence
本课程前面的内容以知识为基础,通过符号推理,进行问题求解,通常把这些称为符号智能本课程前面的内容以知识为基础,通过符号推理,进行问题求解,通常把这些称为符号智能 • 本章是以数据为基础,通过训练建立联系,进行问题求解,一般称为计算智能 • 计算智能一般包括:人工神经网络、遗传算法、模糊系统、进化程序设计、人工生命等
Agenda 神经网络概述 感知机 前馈神经网络 Hopfield网络 随机神经网络 遗传算法 人工生命
神经网络概述(1) • 什么是神经网络? • 个神经网络是一个由简单处理元构成的规模宏大的并行分布处理器,具有存储经验知识和使之可用的特性。 • 神经网络从两个方面上模拟大脑: • 神经网络获取的知识是从外界环境中学习得来的。 • 内部神经元的连接强度,即突触权值,用于储存获取的知识。 • 学习算法是用于完成学习过程的程序,其功能是以有序的方式改变系统权值以获得想要的设计目标。突触权值的修改提供了神经网络的一种设计方法。
神经网络概述(2) 六个基本特征: • 1)神经元及其联接; • 2)神经元之间的联接强度决定信号传递的强弱; • 3)神经元之间的联接强度是可以随训练改变的; • 4)信号可以是起刺激作用的,也可以是起抑制作用的; • 5)一个神经元接受的信号的累积效果决定该神经元的状态; • 6) 每个神经元可以有一个“阈值”
神经网络概述(3) • 非线性: 非线性关系是自然界的普遍特性。大脑的智慧就是一种非线性现象。人工神经元处于激活或抑制两种不同的状态。这种行为在数学上表现为一种非线性。 • 非局域性: 一个神经网络通常由多个神经元广泛联接而成。一个系统的整体行为不仅取决于单个神经元的特征,而且可能主要由单元之间的相互作用、相互联接所决定。通过单元之间的大量联接模拟大脑的非局域性。 • 非定常性: 人工神经网络具有自适应、自组织、自学习能力。神经网络不但处理的信息有各种各样,而且在处理信息的同时,非线性动力系统本身也在不断变化。经常采用迭代过程描写动力系统的演化过程。 • 非凸性: 一个系统的演化方向,在一定条件下,将取决于某个特定的状态函数,如能量函数,它的极值相应于系统比较稳定的状态。非凸性是指这种函数有多个极值,故系统具有多个较稳定的平衡态,这将导致系统演化的多样性。
神经网络概述(4) • 发展史 • 1943年McCulloch(心理学家)和Pitts(数理逻辑学家)发表文章,提出M-P模型。描述了一个简单的人工神经元模型的活动是服从二值(兴奋和抑制)变化的。总结了神经元的基本生理特性,提出了神经元的数学描述和网络的结构方法。——标志神经计算时代的开始 输出表达式 MP模型的意义: • M-P模型能完成一定的逻辑运算 • 第一个采用集体并行计算结构来描述人工神经元和网络工作。 • 为进一步的研究提供了依据 (可以完成布尔逻辑计算)
神经网络概述(5) • 发展史 • 1949年Donala U.Hebb(心理学家)论著《The Organization of Behavior(行为自组织)》,提出突触联系强度可变的假设,认为学习的过程最终发生在神经元之间的突触部位,突触的联系强度随着突触前后神经元的活动而变化。 ——赫布规则 多用于自组织网络的学习。即:若两个神经元输出兴奋,则它们之间的连接权加强,反之减少。 赫布规则意义(提出了变化的概念) • 提出了一个神经网络里信息是储藏在突触连接的权中 • 连接权的学习律是正比于两个被连接神经细胞的活动状态值的乘积 • 假设权是对称的 • 细胞的互相连接的结构是他们权的改变创造出来的
神经网络概述(6) • 发展史 • 1957年Frank Rosenblatt定义了一个神经网络结构,称为感知器(Perceptron) 。 规则学习 意义:第一次把神经网络研究从纯理论的探讨推向工程实现,在IBM704计算机上进行了模拟,证明了该模型有能力通过调整权的学习达到正确分类的结果。掀起了神经网络研究高潮。
神经网络概述(7) • 发展史 • 1969M.Minsky和S. Papert发表了《Perceptrons》的论著,指出感知器仅能解决一阶谓词逻辑,只能做线性划分。对于非线性或其他分类会遇到很大困难。一个简单的XOR问题的例子就证明了这一点。——神经网络研究一度达到低潮。原因还有:计算机不够发达、VLSI还没出现、而人工智能和专家系统正处于发展高潮。
神经网络概述(8) • 发展史 • 1982年John J. Hopfield(物理学家)提出了全联接网络,离散的神经网络模型。——全新的具有完整理论基础的神经网络模型。基本思想是对于一个给定的神经网络,对于一个能量函数,这个能量函数是正比于每一个神经元的活动值和神经元之间的联接权。而活动值的改变算法是向能量函数减少的方向进行,一直达到一个极小值为止。证明了网络可达到稳定的离散和连续两种情况。3年后AT&T等做出了半导体芯片。——神经网络复兴时期开始
神经网络概述(9) • 发展史 • 1986年美国的一个平行计算研究小组提出了前项反馈神经网络的Back Propagation(BP)学习算法。成为当今应用最广泛的方法之一。该方法克服了感知器非线性不可分类问题,给神经网络研究带来了新的希望。
神经网络概述(10) • 发展史 • 1990年汉森(L.K. Hansen)和萨拉蒙(P. Salamon)提出了神经网络集成(neural network ensemble)方法。 • 他们证明,可以简单地通过训练多个神经网络并将其结果进行拟合,显著地提高神经网络系统的泛化能力。神经网络集成可以定义为用有限个神经网络对同一个问题进行学习,集成在某输入示例下的输出由构成集成的各神经网络在该示例下的输出共同决定。
神经网络概述(11) • 发展史 再认识与应用研究(1991~) • 问题: 1)应用面还不够宽 2)结果不够精确 3)存在可信度的问题 • 研究: 1)开发现有模型的应用,并在应用中根据实际运行情况对模型、算法加以改造,以提高网络的训练速度和运行的准确度。 2)充分发挥两种技术各自的优势是一个有效方法 3)希望在理论上寻找新的突破,建立新的专用/通用模型和算法。 4)进一步对生物神经系统进行研究,不断地丰富对人脑的认识。
神经网络概述(12) • 基本的神经网络模型: • 主要有三类网络结构 • single-layer feed-forward神经元被组成 • multi-layer feed-forward非循环的层次 • recurrent • 神经网络的结构是和用于训练的学习算法相关的。
3-4-2 Network Input layer of source nodes Output layer of neurons Output layer Input layer Hidden Layer 神经网络概述(13)
z-1 z-1 z-1 神经网络概述(14) Recurrent Network with hidden neuron:
神经网络概述(15) • 前馈型神经网络是数据挖掘中广为应用的一种网络,其原理或算法也是其它一些网络的基础。径向基函数(RBF)神经网络也是一种前馈型神经网络,由于RBF 网络学习收敛速度较快,近年来在数据挖掘中受到重视 • Hopfield 神经网络是反馈型网络的代表。网络的运行是一个非线性的动力学系统,已在联想记忆和优化计算中得到成功应用。 • 具有随机性值的模拟退火(SA)算法是针对优化计算过程中陷入局部极小一直问题而提出来的。Boltzmann 机是具有随机输出值单元的随机神经网络,串行的Boltzmann机可以看作对二次组合优化问题的模拟退火算法的具体实现,同时它还可以模拟外界的概率分布,实现概率意义上的联想记忆 • 自组织竞争型神经网络的特点是能识别环境的特征,并自动聚类。它们在特征抽取和大规模数据处理中已有极为成功的应用
神经网络概述(16) • 神经网络的学习算法:神经网络的性质主要取决于以下两个因素:一个是网络的拓扑结构;另一个是网络的权值、工作规则。二者结合起来就可以构成一个网络的主要特征。 • 神经网络的学习问题就是网络的权值调整问题。神经网络的连接权值的确定一般有两种方式: • 一种是通过设计计算确定,即所谓死记式学习;Hopfield 网络作联想记忆和优化计算时就是属于这种情况。 • 另一种是网络按一定的规则通过学习(训练)得到的。大多数神经网络使用后一种方法确定其网络权值。如自组织学习、有/无监督学习、Boltzmann学习等。
Agenda 神经网络概述 感知机 前馈神经网络 Hopfield网络 随机神经网络 遗传算法 人工生命
感知机 (1) • 基本神经元: 人工神经网络中的神经元通常简化为一个多输入单输出的非线性阈值器件:
感知机 (2) 神经元的工作过程: xi(i=1,2,…,n)是输入,wi为该神经元与各输入间的连接权值,为阈值,s外部输入的控制信号,y为输出 (1)从各输入端接收输入信号xi 。 (2)根据各连接权值wi ,求出所有输入的加权和: =ni=1wixi + s- (3)利用某一特征函数f进行变换,得到输出y: y= f()=f(ni=1wixi + s- )
感知机 (3) • 连接权wij通常在[-1,1]之间取值: wij>0,称为正连接,表示神经元uj对ui有激活作用 wij<0,称为负连接,表示神经元uj对ui有抑制作用 • 神经网络的各种学习算法的不同特点反映在调整权值的原则、方法、步骤和迭代过程的参数选择上。
感知机 (4) 激励函数:通常选取下列函数之一:
感知机 (5) 人工神经网络的训练 • 人工神经网络最具有吸引力的特点是它的学习能力。 • 1962年,Rosenblatt给出了人工神经网络著名的学习定理:人工神经网络可以学会它可以表达的任何东西。 • 人工神经网络的学习过程就是对它的训练过程 • 人工神经网络中的权矩阵又被称为网络的长期存储(Long Term Memory,简记为LTM)。 网络在正常工作阶段,神经元的状态表示的模式为短期存储(Short Term Memory,简记为STM)
感知机 (6) • 什么是感知器: • 感知器模型由输入层和输出层两层构成,不失一般性,可以假设输出层仅有一个神经元 • 这里假定神经元之间的连接强度是可变的,这样就可以进行学习 • 学习的目的是调整权值,以使网络对任何的输入都能得到期望的输出
感知机 (8) • 例子1 构建一个神经元,它能够计算逻辑操作:AND
感知机 (9) • 例子2 异或XOR,异或的真值表如下: 在二维空间中没有可分离点集 { (0,0),(1,1)}和{(0,1),(1,0)}的直线
感知机 (10) • 考虑这样一个感知机,其输入为X1,X2;权值为 W1 ,W2 ; 阀值是t。为了学习这个函数,这个神经网络必须找到这样一组值,它满足如下的不等式方程: W1*1 + W2*1 < t, 真值表的第一行; W1*1 + 0 > t, 真值表的第二行; 0 + W2*1 > t, 真值表的第三行; 0 + 0 < t 或t为正数, 最后一行。 这组关于W1 ,W2和 t 的不等式方程组没有解,这就证明了感知机不能解决异或问题。 • 待识别的类别不是线性可分,这是异或问题不能用感知机来解决的原因
感知机 (11) • 线性不可分函数
感知机 (12) • 线性不可分函数 :R. O. Windner 1960年
Agenda 神经网络概述 感知机 前馈神经网络 Hopfield网络 随机神经网络 遗传算法 人工生命
前馈神经网络(1) • BP网络是一种前馈网络,即误差反向传播神经网络 • 一般的前馈网络包括一个输入层和一个输出层,若干隐单元。隐单元可以分层也可以不分层,若分层,则称为多层前馈网络。网络的输入、输出神经元其激活函数一般取为线性函数,而隐单元则为非线性函数。任意的前馈网络,不一定是分层网络或全连接的网络。
前馈神经网络(2) • 实验:增加隐藏层的层数和隐藏层神经元个数不一定总能够提高网络精度和表达能力。 • BP网一般都选用二级网络。 结点的激励函数要求是可微的,通常选S型。
前馈神经网络(3) • 多层前馈网络的每一层都是单层的网络,却无法用单层感知器的学习方法。 • 其解决方法:通过误差函数求导使误差沿网络向后传播 • BP网络的学习算法是算法的推广和发展,是一种有教师的学习。
前馈神经网络(4) • BP模型学习算法的基本思想为: (1)从训练样例中取出一样例,把输入信息输入到网络中 (2)由网络分别计算各层节点的输出 (3)计算网络的实际输出和期望输出的误差 (4)从输出层反向计算到第一隐层,根据一定原则向减小误差方向调整网络的各个连接权值 (5)对训练样例集中的每一个样例重复以上步骤,直到对整个训练样集的误差达到要求为止
前馈神经网络(5) • B-P模型学习公式推导: BP网络表示为: Oi。:结点i的输出 netj :结点j的输入 wij,结点i到结点j的连接权值 yk、 :分别表示输出层上结点k的 实际输出和期望输出。
前馈神经网络(6) • 在BP算法中,为了使学习以尽可能快的减少误差的方式进行,对误差采用基于梯度法极小化二次性能的指标函数: • 连接权值的修正公式为:
前馈神经网络(7) 结论: 输出结点: 权值调整 为增益因子 隐结点: 权值调整
前馈神经网络(8) • BP算法的不足: (1)该学习算法收敛速度太慢,常常需要成千上万次的迭代,而且随着训练样例维数的增加,网络性能会变差 (2)从数学上看该算法是一梯度最速下降法,这就有可能出现局部极小问题,这样算法所求得的就不是问题的解,所以BP算法是不完备的 (3)网络中隐节点个数的选取还没有理论的指导 (4)当有新样例加入时,将影响到已学习过的样例,而且要求刻画每个输入样例的特征数目相同
前馈神经网络(9) • BP算法的改进: 取值较大时,学习速度快,但收敛性差,可能导致学习过程的振荡;取小,可能影响学习速度。 • 有经验决定的值 • 在权值调整中增加惯性项: