人工神经网络-深度学习PPT学习课件.ppt

资源描述

,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,人工神经网络及其应用,第七讲深度学习,主讲人：方涛,1,第,七,讲,深度学习,主讲内容,7,.1,研究背景,7,.2,从,B,P,网络看深度学习,7,.,3,几种典型的深度学习模型,7,.,4,开源深度学习框架,7,.,5,深度学习的未来,2,7,.1,研究背景,约翰,麦卡锡（,1927-2011,）,LISP,之父,不走寻常路的常识逻辑学家,1956,年，约翰,.,麦卡锡召集了一次会议来讨论人工智能未来的发展方向，开启了,AI,的发展,2016,年,-,人工智能（,AI,）奠基,60,周年,21,世纪初，,“,深度学习,”,的出现，,AI,研究获得了长足的进步,没有大数据，没有,“,大计算,”,，就没有人工智能的今天！,3,Marvin Minsky,人工智能之父和框架理论的创立者,1927-2016,MIT AI Lab,创始人之一,1970,年获得图灵奖,美国工程院和美国科学院院士,在近,60,年的人工智能历史中，马文,-,明斯基一直是一位闪耀着耀眼光彩的杰出的人工智能权威，是当之无愧的人工智能之父。（李德毅院士）,明斯基在,1950,年进入普林斯顿大学攻读数学系的博士研究生学位，比我晚一年。我们很快意识到，我们两人都对人工智能很感兴趣。事实上，当时明斯基已经对如何实现人工智能颇有想法了，这一点在之后他设计和建造的世界上,第一个神经网络模拟器,Snare,上得到了证实。,（,John McCarthy,人工智能先驱，,LISP,语言之父，图灵奖获得者）,1969,：,Perceptron,（感知器）,-,神经网络的局限性（深度学习的前身）,7,.1,研究背景,4,2016,年,阿尔法狗（,AlphaGo,）,4:1,大胜围棋,9,段李世石高手，,AI,重大历史时刻,“,监督学习的策略网络（,Policy Network,）,”,通过,13,层全连接网络，反复训练围棋棋盘布局，调整参数，以最佳概率预测落子选择（,Move Picker,），如何下棋子,“,价值网络（,Value Network,）,”,给定棋子位置，预测每一个棋手赢棋的可能，就是计算局面,7,.1,研究背景,主要设计者,-,位于伦敦,Google,旗下,DeepMind,公司,大卫,席尔瓦（,David Silver,）,-,剑桥大学计算机科学学士，硕士，加拿大阿尔伯塔大学计算机科学博士,黄士杰（,Aja Huang,）,，台湾交通大学计算机科学学士，台湾师范大学计算机科学硕士和博士，加拿大阿尔伯塔大学计算机科学博士后,5,7,.1,研究背景,Geoffrey E.Hinton,加拿大多伦多大学教授,专注于神经网络几十年，,1985,年，提出,Boltzmann,机,1986,年，提出受限,Boltzmann,机、,BP,算法,2006,年，提出神经网络进行降维,开启了深度学习时代，并在随后的,ImageNet,图片识别的比赛，取得了非常有说服力的结果（,74%-85%,），震撼了学术界,Hinton,G.and Salakhutdinov,R.(2006).,Reducing the dimensionality of data,with neural network,s.Science,313(5786):504507.,Hinton,G.E.(2002).Training products of experts by minimizing contrastive,divergence.Neural Comp.,14(8):17711800,Hinton,G.E.,Dayan,P.,Frey,B.J.,and Neal,R.M.(1995).The wake-sleep,algorithm for unsupervised neural networks.Science,268:11581160,Hinton,G.E.and Sejnowski,T.E.(1986).Learning and relearning in Boltzmann,machines.In Parallel Distributed Processing,volume 1,pages 282317.MIT Press,Rumelhart,Hinton,Williams,Learning Representations by Back-propagating,error,s,Nature,1986,323(6088):533-536,6,Andrew Ng,斯坦福大学教授,2012,年,6,月,纽约时报,披露了,Google Brain,项目,大规模计算机系统方面的世界顶尖专家,JeffDean,用,16000,个,CPU Core,的并行计算平台训练一种称为,“,深度神经网络,”,（,DNN,，,Deep Neural Networks,）的机器学习模型（内部共有,10,亿个节点,),在语音识别和图像识别等领域获得了巨大的成功,7,.1,研究背景,7,2012,年,11,月，微软公开演示,全自动同声传译系统,深度学习,讲演者用英文演讲，后台的计算机一气呵成自动完成语音识别、英中机器翻译和中文语音合成，效果非常流畅,7,.1,研究背景,8,2013,年,1,月，百度创始人兼,CEO,李彦宏高调宣布成立,“,深度学习研究所,”,（,IDL,，,Institue of Deep Learning,7,.1,研究背景,9,机器学习解决目标识别与分类问题的思路,三个主要组成部分,中间的特征提取部分将很大程度上决定最终的效果，如何提取特征？,“,巧妇难为无米之炊,”,7,.1,研究背景,10,SIFT,HOG,DoG+Gabor,7,.1,研究背景,Sift,被认为是局部图像特征描述子研究领域一项,里程碑式,的工作，对尺度、旋转以及一定视角和光照变化等图像变化都具有不变性，还,SIFT,具有很强的可区分性,特征抽取非常费力，需要领域知识启发式提取,最大的问题？,-,人工设计,BOW,11,7,.1,研究背景,待检测图像,行人模型,图像金字塔,适应目标尺度变化,局部滤波器变形,动态规划求解,可变形部件模型行人检测,12,1981,年的诺贝尔医学奖，颁发给了,David Hubel,和,TorstenWiesel(JohnHopkins University),，以及,Roger Sperry,。前两位的主要贡献，是,“,发现了视觉系统的信息处理,”,：可视皮层是分级的：,这个发现激发了人们对于神经系统的进一步思考,神经,-,中枢,-,大脑的工作过程，,”,或许,”,是一个不断迭代、不断抽象的过程,7,.1,研究背景,人脑视觉系统如何提取特征？,13,关键在于抽象和迭代，从原始信号开始进行低级抽象，逐渐向高级抽象迭代,从低层到高层的特征表示越来越抽象，生物视觉特征分层抽象的过程，就是一个计算机建模过程,7,.1,研究背景,人脑视觉系统如何提取特征？,14,7,.1,研究背景,15,7,.1,研究背景,HMAX,Neocognitron,VisNet,16,7,.1,研究背景,从层次增加看深度学习发展简史,2020,年又是冰河期？,17,7,.1,研究背景,18,浅层机器学习模型,(,第二次浪潮,),-1-2,层隐层的,BP,网络（,20,世纪,80,年代末期）,-SVM,、,Boosting,等，模型的结构可视为带一层隐层节点或没有隐层节点（,20,世纪,90,年代）,Neural Network,问题,-,比较容易过拟合，参数比较难,tune,，而且需要不少技巧,-,训练速度比较慢，,-,有限样本和计算单元情况下对复杂函数的表示能力有限,-,梯度越来越稀疏：从输出层越往输入层，误差校正信号越来越小,-,收敛到局部极小值,近,20,多年，主要,SVM,和,boosting,算法,7,.1,研究背景,19,深度机器学习模型,(,第三次浪潮,),Geoffrey Hinton,（加拿大多伦多大学教授、机器学习领域的泰斗）及其学生,2006,年在科学杂志发表,”,Deep Learning,”,文章，开启了深度学习在学术界和工业界的浪潮。,-,多隐层的人工神经网络具有优异的特征学习能力,-,通过无监督学习的,“,逐层初始化,”,（,layer-wise pre-training,）来有效克服深度神经网络在训练上的难度,-,深度学习可通过学习一种深层非线性网络结构，实现复杂函数逼近，表征输入数据分布式表示，并展现了强大的从少数样本集中学习数据集本质特征的能力。,-,强调了模型结构的深度，通常有,5,层、,6,层，甚至,10,多层的隐层节点,-,深度学习就是特征学习，通过逐层特征变换，将样本在原空间的特征表示变换到一个新特征空间，从而使分类或预测更加容易,“,深度学习,”,通过多层次抽象来实现特征的表达,7,.1,研究背景,20,Deep Learning,以多层次神经网络为基础发展起来的一种新的机器学习方法，被认为是,AI,的新的前沿,Theoretical:,“well-known depth-breadth tradeoff in circuits,design Hastad 1987.This suggests many,functions can be much more efficiently,represented with deeper architectures”Bengio,&LeCun 2007,Biological:,Visual cortex is hierarchical(Hubel and Wiesel).,7,.1,研究背景,21,7,.2,从,B,P,网络看深度学习,7.2.1 BP,网络,仅适合浅层网络,梯度下降算法,梯度逐层反向,计算,，,直到梯度接近零,为,止,22,7,.2,从,B,P,网络看深度学习,为什么,BP,网络只适合浅层网络？,训练速度慢问题,易于过拟合问题,在学习训练中,网络对学习样本达到非常高的逼近精度,但对测试样本逼近误差随网络训练次数而呈现先下降,后反而上升的奇异现象,全局优化问题,BP,网络深度较深时，会涉及到求解一个高阶非凸优化问题，容易陷入很坏的局部极小,梯度弥散问题,BP,网络深度较深时，梯度随着深度向前而显著下降，误差反传到更前面的隐含层时已非常小，使得前几层不能有效进行调节，训练速度很慢,23,7,.2,从,B,P,网络看深度学习,7.2.2,深度学习的基本思想,加拿大多伦多大学的,Geoffery Hinton,教授,2006,年,首次提出了,“,深度信念网络,”,的概念。与传统的训练方式不同，,为,大幅度减少了训练多层神经网络的时间,，采用两个技术,“,预训练,”,（,pre-training,）,：,无监督学习参数初始值,逐层,贪婪训练，就是先训练网络第,1,个隐含层，再训练第,2,个,，最后,将训练好的网络参数作为整个网络参数的初值（,预训练，,找到神经网,络中一个接近最优解的权值,）,“,微调,”,(fine-tuning),：,监督学习,进一步,优化训练整个网络,，对神经网络参数（权值）改变很小,24,7,.2,从,B,P,网络看深度学习,7.2.2,深度学习的基本思想,层数保持不变，神经网络的参数数量增加，从而带来了更好的表示（,represention,）能力,增加更多层次，更深入的特征表示，以及更强的函数模拟能力,随着网络的层数增加，每一层对于前一层次的抽象表示更深入。即每一层神经元学习到的是前一层神经元值的更抽象的表示,第,1,隐,含,层学习到的,特征,-,“,边缘,”,第,2,隐,含,层学习到的,特征,-,由,“,边缘,”,组成的,“,形状,”,第,3,隐,含,层学习到的,特征,-,由,“,形状,”,组成的,“,图案,”,。,最后隐,含,层学习到的,特征,-,由,“,图案,”,组成的,“,目标,”,神经网络本质,-,模拟特征与目标之间函数映射关系。层数多，参数多，模拟映射函数更复杂、更多容量,25,Deep learning,与,Neural Network,深度学习,-,是模拟人脑进行分析学习，称,Unsupervised Feature Learning,-,源于人工神经网络，含多隐层的多层感知器就是一种深度学习结构,-,用深度网络结构来抽象和迭代组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。,深度网络训练的主要思想是用非标签数据进行逐层贪婪训练和用有,标记数据来进行整个网络的微调,相同之处,-,采用分层结构：输入层、隐层（多层）、输出层,-,连接方式：相邻层节点之间有连接，同一层以及跨层节点之间相互无连接,不同之处,-,训练机制不同：,ANN,采用后向传播机制,DL layer-wise,的训练机制,-,层数多，,BP,残差传播到最前面的层已经变得太小（梯度扩散）,7,.2,从,B,P,网络看深度学习,26,7.2.3,深度学习流行的激励函数,7,.2,从,B,P,网络看深度学习,传统激,励,函数,-,Sigmoid,系,非线性的,Sigmoid,函数对中央区域的信号增益较大，对两侧区域的信号增益小，特征空间映射效果好,从神经科学看，中央区域类似神经元兴奋态，两侧区域类似神经元抑制态,问题：（,1,）,sigmoid,函数在实际梯度下降中，容易,饱和,和,终止梯度传递,（,2,）,同时近乎有一半的神经元被激活,27,7,.2,从,B,P,网络看深度学习,类似,生物神经,元,激,励,函数,与,Sigmoid,系,的不同：,（,1,）,单侧抑制（红框里前端全没激活）,（,2,）,相对宽阔的兴奋边界,（,3,）,稀疏激活性,神经科学家,Dayan,、,Abott 2001,年模拟脑神经元接受信号更精确的激,励,模型,Softplus(x)=log(1+ex),具有（,1,）与（,2,）特性,ReLU,（修正线性单元：,Rectified Linear Unit),：,f(x)=max(0,x),具有三个特性,可极大提升随机梯度下降的收敛速度,梯度计算非常简单,应用很多,神经元的生物特性,具有生物特性的激励函数,28,假定神经网络的输出,O,等于输入,I,，即输入,I,经过这个系统变化之后没有任何的信息损失，保持了不变，这意味着输入,I,经过每一层都没有任何的信息损失,训练调整网络参数（连接权）,每层的输出就是输入的另外一种表示,-,特征,system,输出,O,输入,I,i=o,7.3.1,自动编码器,(AutoEncoder),7,.,3,几种典型的深度学习模型,29,7,.,4,几种典型的深度学习模型,有标签数据的特征学习,无标签数据的无监督特征学习,编码器产生特征,标签,/,无标签编码,30,无标签数据的无监督特征学习,编码器产生特征,增加分类器,7,.,3,几种典型的深度学习模型,31,稀疏自动编码器,7,.,3,几种典型的深度学习模型,32,7,.,4,几种典型的深度学习模型,自动编码器,(AutoEncoder),33,7.3.2,深度信任网络,DBN,受限,可视层各节点间无连接,隐含层各节点间无连接,可视层作为向量输入,隐含层作为特征检测器,可为二值节点（可取,0,或,1,）或实数节点（,0,1,）,可视层、隐含层的节点数量不定,7,.,3,几种典型的深度学习模型,Restricted Boltzman Machine(RBM),34,RBM,的能量,对特定的,(v,h),，其能量函数定义为,对每种可能的,p(v,h),分布满足,Boltzmann,分布,7,.,3,几种典型的深度学习模型,35,RBM,的状态更新,/,重采样,给定可视层每个节点,v,，隐含层的每个节点,h,j,依下式确定的概率取,1,（条件独立）,同样，给定隐含层每个节点,h,，可依下式确定的概率获得可视层各结点的的无偏估计样本（条件独立）,7,.,3,几种典型的深度学习模型,36,7,.,3,几种典型的深度学习模型,将多个,RBM,层叠在一起,前一层,RBM,的隐含层作为后一层,RBM,可视层的输入,深度信任网络,DBN,的构成,概率生成模型,多个受限玻尔兹曼机,RBM,层组成,37,7,.,3,几种典型的深度学习模型,深度信任网络,DBN,的训练,对比散度,CD,算法,Contrastive Divergence(Hinton,2002),预训练获得生成模型的连接权（,训练,RBM-,可视层节点和隐节点间的权值,）,利用,Gibbs Sampling,已知,v,重采样,h,已知,h,重采样,v,定义上述操作为一轮，可多轮,依据下式修正连接权,w,ij,38,DBN,每层,RBM,内,-,隐含层对可见层进行特征提取,层与层之间,每层对前一层提取出的特征进行再提取,第,3,层,第,2,层,第,1,层,7,.,4,几种典型的深度学习模型,39,Yann LeCun,In 1995,Yann LeCun,and,Yoshua Bengio,introduced the concept of convolutional neural networks.,Yoshua Bengio,7.3.3,深度卷积网络,7,.,3,几种典型的深度学习模型,在贝尔实验室的研究,-,提高手写识别,滤波,池化,40,7,.,3,几种典型的深度学习模型,输入图像通过多个可训练的滤波器组进行,非线性卷积,，卷积后在每一层产生,特征映射图,，再特征映射图中每组,池化（亚采样）,，最终得到输出值,41,7,.,3,几种典型的深度学习模型,层间局部连接,稀疏连接方式,深度卷积网络,-,多层感知器,(MLP),的变种,卷积神经网络中，层间的神经元不是全连接，利用层间局部空间相关性,，通过局部连接方式，上,层的神经元只与和它相近的,下,层神经元,相,连，,以,大大降低神经网络的参数规模,42,7,.,3,几种典型的深度学习模型,每个卷积滤波器共享相同的参数。卷积神经网络中，卷积层的每个卷积滤波器重复作用于整个感受野中，对输入图像进行卷积，卷积结果构成输入图像的特征图，提取出图像的局部特征,神经元共享权值,-,一个特征映射面上的神经元共享权值，大大降低学习的卷积神经网络模型参数数量,特征映射结构采用,sigmoid,函数作为卷积网络的激活函数,共享权值,43,7,.,3,几种典型的深度学习模型,最大池化采样,非线性降采样方法,最大池采样方法对卷积特征进行降维，具有平移不变性,Softmax,回归,有监督学习算法，解决多分类问题,训练样本集由,m,个带标签样本构成：,最小化代价函数,44,7,.,3,几种典型的深度学习模型,深度卷积网络训练,与,BP,网络的向前传播和反向调整权矩阵类似的,一种多层的监督学习神经网络，隐含层的卷积层和池化采样层是实现卷积神经网络特征提取功能的核心,卷积神经网络的低隐含层是由卷积层和最大池化采样层交替组成，高层是全连接层对应传统多层感知器的隐含层和逻辑回归分类器,45,7,.,3,几种典型的深度学习模型,46,7,.,4,开源深度学习框架,Caffe,源自加州伯克利分校的,Caffe,被广泛应用，包括,Pinterest,这样的,web,大户。与,TensorFlow,一样，,Caffe,也是由,C+,开发，,Caffe,也是,Google,今年早些时候发布的,DeepDream,项目（可以识别喵星人的人工智能神经网络）的基础。,Theano,2008,年诞生于蒙特利尔理工学院，,Theano,派生出了大量深度学习,Python,软件包，最著名的包括,Blocks,和,Keras,。,47,7,.,4,开源深度学习框架,Torch,Torch,诞生已经有十年之久，但是真正起势得益于去年,Facebook,开源了大量,Torch,的深度学习模块和扩展。,Torch,另外一个特殊之处是采用了不怎么流行的编程语言,Lua,（该语言曾被用来开发视频游戏）。,Brainstorm,来自瑞士人工智能实验室,IDSIA,的一个非常发展前景很不错的深度学习软件包，,Brainstorm,能够处理上百层的超级深度神经网络,所谓的公路网络,Highway Networks,。,48,7,.,4,开源深度学习框架,DeepLearning4j,创业公司,Skymind,于,2014,年,6,月发布的一个面向生产环境和商业应用的高成熟度深度学习开源库，是,”,for Java,”,的深度学习框架，可与,Hadoop,和,Spark,集成，即插即用，方便开发者在,APP,中快速集成深度学习功能，可用于：人脸,/,图像识别；语音搜索；语音转文字（,Speech to text,）,;,垃圾信息过滤（异常侦测）；电商欺诈侦测。埃森哲、雪弗兰、博斯咨询和,IBM,等明星企业都在使用。,Marvin,是普林斯顿大学视觉工作组新推出的,C+,框架。该团队还提供了一个文件用于将,Caffe,模型转化成语,Marvin,兼容的模式。,49,7,.,4,开源深度学习框架,ConvNetJS,斯坦福大学博士生,Andrej Karpathy,开发浏览器插件，基于,JavaScript,可以在游览器中训练神经网络。,。,50,20,世纪,90,年代人类脑计划（,Human Brain Project,HBP),继人类基因计划后，又一国际性科研大计划,2013,年,1,月欧盟启动,“,人类大脑计划,”,(Human Brain Project),巨型计算机模拟整个人类大脑（,10,亿欧元）,2013,年,4,月美国,“,大脑活动图谱计划,”,(Brain Activity Map Project,，或称,Brain Initiative),研究大脑活动中的所有神经元，探索神经元、神经回路与大脑功能间的关系（,38,亿美元）,2014,年科技部脑科学信息化重大专项,“,类人脑工程,”,2014,年诺贝尔奖生理学医学奖,大脑的定位系统,-,“,位置细胞,”,与,“,网格细胞,”,发现,7,.,5,深度学习的未来,随着神经网络研究的不断变迁，其,连接及其,计算,与,生物神经元的连接模型,其实,渐,行,渐,远？！,51,开启计算机“高智商”新时代,IBM成功构建模拟人脑功能的认知计算机芯片,（2011-8-18）,通过模拟大脑结构，首次成功构建出两个具有感知认知能力的硅芯片原型，可以像大脑一样具有学习和处理信息的能力。,两个计算机芯片结合了神经元的计算能力、突触（或神经节）的记忆能力和轴突的通信能力,开发新一代计算机,模仿大脑构建智能计算机的曲折挑战,以冯,诺依曼架构为基础，内存和处理器分开，以总线作为数据通道。利用软件实现人工智能一个更大的局限，就是受限于计算机的结构，,被计算机科学家称为,“,冯,诺依曼瓶颈,”,。,类脑芯片-目前最接近复杂的认知计算机,新的计算机芯片的核心是其构造与大脑类似，有,“,神经元,”,，有,“,突触,”,，还有,“,轴突,”,。,“,神经元,”,是计算机的数字信息处理器；,“,突触,”,是学习和记忆的基础；,“,轴突,”,则是数据通道,新芯片采用45纳米工艺，晶体管构造，设计模仿大脑神经元和突触组织。两个芯片均有256个数字神经元和256个轴突，数字神经元为10兆赫，具有芯片的标准功能，如存储器、通信控制器等，可基于输入动态连接突触，神经元可记住最近的活动，引发突触。使用量大的轴突，其权重较大。其中一个芯片拥有262144个可编程突触；而另一个芯片拥有65356个学习突触，这种芯片最令人感兴趣。理论上,每个数字神经元可同时与另外255个数字神经元连接，对于拥有65356个学习突触的芯片而言，可产生1700个不同的组合,模仿大脑构建智能计算机的曲折挑战,IBM完成本次一代类脑芯片原型，就动用了6个实验室，联合了来自康奈尔大学、威斯康星大学、加州大学、哥伦比亚大学和政府研究机构的上百位研究人员。不算IBM的投入，仅美国国防部高级研究计划局就资助了4100万美元的研究经费。即使这样，该研究也历时6年，耗费人工高达数百万小时,52,距离实用又进一步,IBM,公布仿人脑功能的芯片,（201,4-8-8,）,已研制出一款能模拟人脑神经元、突触功能以及其他脑功能的微芯片，从而完成计算功能，这是模拟人脑芯片领域所取得的又一大进展。,IBM,表示这款名为,TrueNorth,的微芯片擅长完成模式识别和物体分类等繁琐任务，而且功耗还远低于传统硬件。,由三星电子为,IBM,生产,制造技术与三星电子生产智能手机及其他移动设备使用的微处理器制造技术一致,在仿人脑功能芯片技术方面实现重大进展,IBM,阿尔马登研究中心（,Almaden Research Center,）研究员、脑灵感计算首席科学家哈门德拉,莫得哈（,Dharmendra Modha,）：,“,我们拥有极具野心的商业化目标。,”,不过他也表示，,TrueNorth,不会取代传统电脑芯片，他们是互补的关系。,TrueNorth,微芯片,(,左,),的热成像图,53,距离实用又进一步,IBM,公布,人造纳米尺度随机相变神经元,芯片,（201,6-8-4,）,54,

展开阅读全文