深神经网络.pptx_咨信网zixin.com.cn

资源描述

深度神经网络IDeep Neural Networks中国科学院自动化研究所吴高巍2016-12-6内容深度神经网络发展历史、背景动机WhyDeepLearning?深度学习常用模型NeuralnetworkBackpropagation1986解决了一般性学习问题与生物系统相联系Nature历史NeuralnetworkBackpropagation1986Nature历史x1x2x3w1w2w3NeuralnetworkBackpropagation1986解决了一般性学习问题与生物系统相联系Nature历史ButitisgivenupSVMBoostingDecisiontree2006NeuralnetworkBackpropagation1986Nature历史2006DeepbeliefnetScienceUnsupervised&Layer-wisedpre-trainingBetterdesignsformodelingandtraining(normalization,nonlinearity,dropout)NewdevelopmentofcomputerarchitecturesGPUMulti-corecomputersystemsLargescaledatabasesBig Data!Neuralnetworksiscomingback！深度学习浪潮ITCompaniesareRacingintoDeepLearningNeuralnetworkBackpropagation1986SolvegenerallearningproblemsTiedwithbiologicalsystemButitisgivenup2006DeepbeliefnetSciencedeeplearningresultsSpeech2011NatureObjectrecognitionover1,000,000imagesand1,000categories(2GPU)NeuralnetworkBackpropagation19862006DeepbeliefnetScienceSpeech20112012NatureA.Krizhevsky,L.Sutskever,andG.E.Hinton,“ImageNetClassificationwithDeepConvolutionalNeuralNetworks,”NIPS,2012.RankNameError rateDescription1U.Toronto0.15315Deeplearning2U.Tokyo0.26172Hand-craftedfeaturesandlearningmodels.Bottleneck.3U.Oxford0.269794Xerox/INRIA0.27058NeuralnetworkBackpropagation19862006DeepbeliefnetScienceSpeech20112012ImageNet2013imageclassificationchallengeRankNameError rateDescription1NYU0.11197Deeplearning2NUS0.12535Deeplearning3Oxford0.13555DeeplearningMSRA,IBM,Adobe,NEC,Clarifai,Berkley,U.Tokyo,UCLA,UIUC,Toronto.Top20groupsalluseddeeplearningImageNet 2013 object detection challengeRankNameMean Average PrecisionDescription1UvA-Euvision0.22581Hand-craftedfeatures2NEC-MU0.20895Hand-craftedfeatures3NYU0.19400DeeplearningNeuralnetworkBackpropagation19862006DeepbeliefnetScienceSpeech20112012ImageNet2014ImageclassificationchallengeRankNameError rateDescription1Google0.06656Deeplearning2Oxford0.07325Deeplearning3MSRA0.08062DeeplearningImageNet2014objectdetectionchallengeRankNameMean Average PrecisionDescription1Google0.43933Deeplearning2CUHK0.40656Deeplearning3DeepInsight0.40452Deeplearning4UvA-Euvision0.35421Deeplearning5BerkleyVision0.34521DeeplearningNeuralnetworkBackpropagation19862006DeepbeliefnetScienceSpeech20112012GoogleandBaiduannouncedtheirdeeplearningbasedvisualsearchengines(2013)Google“onourtestsetwesawdouble the average precision whencomparedtootherapproacheswehadtried.WeacquiredtherightstothetechnologyandwentfullspeedaheadadaptingittorunatlargescaleonGooglescomputers.Wetookcuttingedgeresearchstraightoutofanacademicresearchlabandlaunchedit,injustalittleoversixmonths.”BaiduNeuralnetworkBackpropagation19862006DeepbeliefnetScienceSpeech20112012Facerecognition2014Deeplearningachieves99.53%faceverificationaccuracyonLabeledFacesintheWild(LFW),higherthanhumanperformanceY.Sun,X.Wang,andX.Tang.DeepLearningFaceRepresentationbyJointIdentification-Verification.NIPS,2014.Y.Sun,X.Wang,andX.Tang.Deeplylearnedfacerepresentationsaresparse,selective,androbust.CVPR,2015.深度学习浪潮DeepLearning深度学习浪潮时代背景-数据爆炸还存在很多没有良好解决的问题，例如图像识别、语音识别、自然语言理解、天气预测、基因表达、内容推荐等。深度学习浪潮时代背景-计算性能提升动机WhyDeepLearning?深度学习WhatisDeepLearning?“Deeplearningisasetofalgorithmsinmachinelearningthatattempttolearninmultiplelevels,correspondingtodifferentlevelsofabstraction.Ittypicallyusesartificialneuralnetworks.Thelevelsintheselearnedstatisticalmodelscorrespondtodistinctlevelsofconcepts,wherehigher-levelconceptsaredefinedfromlower-levelones,andthesamelower-levelconceptscanhelptodefinemanyhigher-levelconcepts.”(Oct.2013.)“Deeplearningisasetofalgorithmsinmachinelearningthatattempttomodelhigh-levelabstractionsindatabyusingmodelarchitecturescomposedofmultiplenon-lineartransformations.”(Aug.2014)传统机器学习解决这些问题的思路良好的特征表达，对最终算法的准确性起了非常关键的作用，而且系统主要的计算和测试工作都耗在这一大部分。但实际中一般都是人工完成的。特征表达能不能自动地学习一些特征呢？能！DeepLearning生物学启示人脑视觉机理“视觉系统的信息处理”：可视皮层是分级的神经-中枢-大脑的工作过程，或许是一个不断迭代、不断抽象的过程。关键词：一个是抽象，一个是迭代。从原始信号，做低级抽象，逐渐向高级抽象迭代。人类的逻辑思维，经常使用高度抽象的概念。不同水平的抽象层次化表示脑的深层结构whygodeep?深层结构能够有效被表达对相同的函数需要更少的计算单元深层结构可产生层次化特征表达允许非局部扩展可解释性多层隐变量允许统计上的组合共享深层结构有效（vision,audio,NLP等）！ComputerVisionFeaturesAudioFeaturesDeepLearning基本思想自动地学习特征假设有一堆输入I（如图像或者文本），我们设计了一个系统S（有n层），通过调整系统中参数，使得它的输出仍然是输入I，那么我们就可以自动地获取得到输入I的一系列层次特征，即S1，,Sn。对于深度学习来说，其思想就是堆叠多个层也就是说这一层的输出作为下一层的输入。通过这种方式，就可以实现对输入信息进行分级表达了。可以略微地放松“输出等于输入”的限制深层vs浅层神经网络多隐层的人工神经网络具有优异的特征学习能力，学习得到的特征对数据有更本质的刻画，从而有利于可视化或分类深层网络结构中，高层可以综合应用低层信息低层关注“局部”，高层关注“全局”、更具有语义化深度神经网络在训练上的难度，可以通过“逐层初始化”（layer-wisepre-training）来有效克服。为自适应地学习非线性处理过程提供了一种可能的简洁、普适的结构模型深层vs浅层神经网络“深度模型”是手段，“特征学习”是目的。强调了模型结构的深度，通常有5层、6层，甚至10多层的隐层节点；明确突出了特征学习的重要性，也就是说，通过逐层特征变换，将样本在原空间的特征表示变换到一个新特征空间，从而使分类或预测更加容易。与人工规则构造特征的方法相比，利用大数据来学习特征，更能够刻画数据的丰富内在信息。BP算法的问题需要带标签训练数据几乎所有的数据是无标签的人脑可以从无标签数据中学习局部极小对深层网络远离了最优解学习时间不适合大数据梯度消失Belowtopfewlayers,correctionsignalisminimal克服BP的限制梯度方法对输入的结构建模建立产生输入的生成式模型，调整参数使得生成式模型的概率最大Learnp(image)notp(label|image)Whatkindofgenerativemodelshouldwelearn?Deeplearning训练自下向上的非监督学习（greedylayer-wisetraining）自顶向下的监督学习就是通过带标签的数据去训练，误差自顶向下传输，对网络进行微调微调特征（中间层），使得与问题更相关。DeepLearning的常用模型AutoEncoder自动编码器AutoEncoder自动编码器DeepLearning最简单的一种方法利用人工神经网络本身的层次结构特点如果给定一个神经网络，假设其输出与输入是相同的，然后训练调整其参数，得到每一层中的权重。自然地，就得到了输入I的几种不同表示（每一层代表一种表示），这些表示就是特征。自动编码器就是一种尽可能复现输入信号的神经网络。为了实现这种复现，自动编码器就必须捕捉可以代表输入数据的最重要的因素，就像PCA那样，找到可以代表原信息的主要成分AutoEncoder自动编码器学习过程无标签数据，用非监督学习学习特征在之前的前向神经网络中，如左图，输入的样本是有标签的，即（input,target），这样根据当前输出和target（label）之间的差去改变前面各层的参数，直到收敛。但现在我们只有无标签数据，也就是右边的图。那么这个误差怎么得到呢？AutoEncoder自动编码器将input输入一个encoder编码器，就会得到一个code，这个code也就是输入的一个表示那么我们怎么知道这个code表示的就是input呢？增加一个decoder解码器decoder输出的信息vs开始的输入信号input通过调整encoder和decoder的参数，使得重构误差最小，这样就得到输入input信号的一个表示了，也就是编码code。因为是无标签数据，所以误差的来源就是直接重构后与原输入相比得到。AutoEncoder自动编码器网络结构三层结构输入层，隐藏层，输出层神经元模型限定神经元的数量输入层神经元数=输出层神经元数隐层神经元数量输入层神经元数量意义：迫使隐藏层节点学习得到输入数据的压缩表示方法AutoEncoder自动编码器利用类似神经网络的双隐层的方式，简单粗暴地提取了样本的特征。TiedWeights(Vincent,2010)W=WT只训练单组W就可以若W-1=WT的话，W就是个正交矩阵了，即W是可以训成近似正交阵的。AutoEncoder自动编码器Deep结构逐层训练自编码器“栈化”通过编码器产生特征，然后训练下一层。得到第一层的code，重构误差最小让我们相信这个code就是原输入信号的良好表达了，或者牵强点说，它和原信号是一模一样的（表达不一样，反映的是一个东西）。那第二层和第一层的训练方式就没有差别了，将第一层输出的code当成第二层的输入信号，同样最小化重构误差，就会得到第二层的参数，并且得到第二层输入的code，也就是原输入信息的第二个表达了。其他层也以同样的方法进行。AutoEncoder自动编码器监督学习Deep结构，每一层都会得到原始输入的不同层次的表达。有监督微调为了实现分类，可以在AutoEncoder的最顶的编码层添加一个分类器（例如Logistic回归、SVM等），然后通过标准的多层神经网络的监督训练方法（梯度下降法）去训练。AutoEncoder自动编码器监督学习最后层的特征code输入到分类器中，基于有标签样本，通过监督学习对网络进行微调1、只调整分类器2、通过有标签样本，微调整个系统：（如果有足够多的数据，end-to-endlearning端对端学习）AutoEncoder扩展SparseAutoEncoder稀疏自动编码器限制得到的表达code尽量稀疏DenoisingAutoEncoders降噪自动编码器数据存在噪声SparseAutoEncoder稀疏自动编码器限制得到的表达code尽量稀疏在AutoEncoder的基础上加上L1的Regularity限制人脑好像也是这样的，某个输入只是刺激某些神经元，其他的大部分的神经元是受到抑制的DenoisingAutoEncoders降噪自动编码器若训练数据中存在噪声，自动编码器必须学习去除这种噪声而获得真正的没有被噪声污染过的输入。迫使编码器去学习输入信号的更加鲁棒的表达。就是以一定概率分布（通常使用二项分布）去擦除原始input矩阵，即每个值都随机置0,这样看起来部分数据的部分特征是丢失了。以这丢失的数据x去计算y，计算z，并将z与原始x做误差迭代，这样，网络就学习了这个破损（Corruputed）的数据。DenoisingAE降噪自动编码器破损数据的作用通过与非破损数据训练的对比，破损数据训练出来的Weight噪声比较小。破损数据一定程度上减轻了训练数据与测试数据的代沟。这样胡乱擦除原始input真的很科学？真的没问题？Vincent又从大脑认知角度给了解释：人类具有认知被阻挡的破损图像能力，此源于我们高等的联想记忆感受机能。我们能以多种形式去记忆（比如图像、声音），所以即便是数据破损丢失，我们也能回想起来。两隐层自编码网络MNIST手写数字识别训练一个包含两个隐含层的栈式自编码网络，用来进行MNIST手写数字分类1.用原始输入x(k)训练第一个自编码器，学习得到原始输入的一阶特征表示h(1)(k)http:/ufldl.stanford.edu/wiki/index.php/栈式自编码算法两隐层自编码网络MNIST手写数字识别2.把上一层的一阶特征作为另一个稀疏自编码器的输入，使用它们来学习二阶特征h(2)(k)两隐层自编码网络MNIST手写数字识别3.将二阶特征作为softmax分类器的输入，训练得到一个能将二阶特征映射到数字标签的模型两隐层自编码网络MNIST手写数字识别4.将这三层结合起来构成一个栈式自编码网络，通过反向传播算法(BP)同时调整所有层的参数以改善学习结果(称为整体细调fine-tuning)栈式自编码器神经网络栈式自编码神经网络具有强大的表达能力及深度神经网络的所有优点。通常能够获取到输入的“层次型分组”或者“部分-整体分解”结构。学习方式：前层的输出作为下一层输入的方式依次训练。如果网络的输入数据是图像，网络的第一层会学习如何去识别边，第二层一般会学习如何去组合边，从而构成轮廓、角等。更高层会学习如何去组合更形象且有意义的特征。如果输入数据集包含人脸图像，更高层会学习如何识别或组合眼睛、鼻子、嘴等人脸器官。DeepLearning的常用模型DeepBeliefNetworks(DBN)发展历程HopfieldnetworkBoltzmanmachineRestrictedBoltzmanmachineDBNHopfieldNetwork结构单层全互连、对称权值的反馈网络状态：-1(0)，+1网络演化Hopfield网络按动力学方式运行。，其工作过程为状态的演化过程，即从初始状态按能量减小的方向进行演化，直到达到稳定状态。稳定状态即为网络的输出52二值随机神经元(Bernoullivariables)Thesehaveastateof1or0.Theprobabilityofturningonisdeterminedbytheweightedinputfromotherunits(plusabias)001波尔兹曼机BoltzmannMachine结构类似于Hopfield网络，但它是具有隐单元的反馈互联网络遵循波尔兹曼分布，学习数据的固有内在表示BM基本原理1.Hopfield网网络络的的神神经经元元的的结结构构功功能能及及其其在在网网络络中中的的地地位位是是一一样样的的。但但BM中中一一部部分分神神经经元元与与外外部部相相连连,可可以以起起到到网网络络的的输输入入、输输出出功功能能,或或者者严严格格地地说说可可以以受受到到外外部部条条件件的的约束。约束。另一部分神经元则不与外部相连，因而属于隐单元另一部分神经元则不与外部相连，因而属于隐单元2.每个神经元只取每个神经元只取1或或0这两种状态：这两种状态：状状态态1代代表表该该神神经经元元处处于于接接通通状状态态，状状态态0代代表表该该神神经经元元处于断开状态处于断开状态wji=wij,wii=0网络结构复杂、训练代价大、局部极小受限波尔兹曼机RestrictedBoltzmannMachinesRestrictedBoltzmannMachine(RBM)通过输入数据集学习概率分布的随机生成神经网络RBM结构：一个可见层一个可见层一个隐层一个隐层层内无连接层内无连接二层图：一层是可视层，即输入数据层一层是可视层，即输入数据层(v)一层是隐藏层一层是隐藏层(h)所有的节点都是二值变量所有的节点都是二值变量RBM中，隐单元在给定可视单元情况下，条件独立中，隐单元在给定可视单元情况下，条件独立55受限波尔兹曼机RBM的的参参数数，均均为为实实数数，Wij表表示示可可见见单单元元i和和隐隐单单元元j之之间间的的连连接接权权重重，bi和和aj分别表示可见单元分别表示可见单元i和隐单元和隐单元j的偏置。的偏置。定义联合组态（jointconfiguration）能量：当参数确定时，基于该能量函数，得到当参数确定时，基于该能量函数，得到(v,h)的联合概率分布的联合概率分布受限波尔兹曼机受限波尔兹曼机学习目标：极大似然给定N个样本RBM极大似然v为观测变量，h为隐变量，其能量函数为：E(v,h;)概率值：p(v,h),p(v),p(h),p(v|h),p(h|v)RBM极大似然RBMCD算法思想(Hinton,2002)ContrastiveDivergence观测分布真实分布RBM具体参数W,a,bRBM的能量：E(v,h)=vTWhbTvaTh概率形式RBM具体参数RBM对于hj0;1,vi0;1,可进一步化简：RBM通过采样来计算第二项：CD-K算法再回顾ML算法目标RBM算法流程(CD-1)：输入样本为v1,v2,vn，设观测变量v,隐变量h将对各参数的偏导数初始化为wij=0,aj=0,bi=0;Fork=1,N:v(0)vnForj=1,.,m,dosample：Fori=1,.,n,dosample：计算梯度，最后平均（样本数）（隐结点数）（维数）RBMCD-1算法RBM图解RBM训练技巧（结构已定）将数据分成Batch,在每个batch内并行计算将CD-算法折衷成CD-1算法监控学习过程防止overfitting监控学习率增加动力机制（选样）增加稀疏机制（联接）G.Hinton.APracticalGuidetoTrainingRestrictedBoltzmannMachines,TechReport,No.UTMLTR2010-003,DepartmentofComputerScience,UniversityofToronto,CanadaDeepBeliefNetworks(DBNs)概率生成模型深层结构多层非监督的预学习提供了网络好的初始化maximizingthelower-boundofthelog-likelihoodofthedata监督微调(fine-tuning)Generative:Up-downalgorithmDiscriminative:backpropagationDBN结构Hintonetal.,2006DBNGreedytraining第一步ConstructanRBMwithaninputlayervandahiddenlayerhTraintheRBMDBNGreedytraining第二步StackanotherhiddenlayerontopoftheRBMtoformanewRBMFixW1,sampleh1fromQ(h1|v)asinput.TrainW2asRBM.DBNGreedytraining第三步Continuetostacklayersontopofthenetwork,trainitaspreviousstep,withsamplesampledfromQ(h2|h1)AndsoonFine-tuningTrainingforclassification逐层贪婪训练RBMspecifiesP(v,h)fromP(v|h)andP(h|v)ImplicitlydefinesP(v)andP(h)KeyideaofstackingKeepP(v|h)from1stRBMReplaceP(h)bythedistributiongeneratedby2ndlevelRBM逐层贪婪训练EasyapproximateinferenceP(hk+1|hk)approximatedfromtheassociatedRBMApproximationbecauseP(hk+1)differsbetweenRBMandDBNTraining:VariationalboundjustifiesgreedylayerwisetrainingofRBMsDBN识别手写数字待识别数字的黑白位图隐性神经元识别结果关闭状态的神经元开启状态的神经元Resultisrighterrorrate：DBN1.2%,ComparewithSVM1.4%DBN提取音频特征DBN训练一个5层的深度网络提取音乐的特征，用于音乐风格的分类参考文献：参考文献：Philippe Hamel and Douglas Eck,LEARNING FEATURES FROM MUSIC AUDIO WITH DEEP BELIEF NETWORKS.3个隐藏层输入的原始数据是经过分帧，加窗之后的信号的频谱分类器采用的是支持向量机SVM对比的方法是MFCCs，分类器同样采用SVMDBN提取音频特征具有不同流派音频的不同表示的2维映射和输入Inputs、MFCCs相比，DBN算法中隐藏层的激活的聚类表达更明确，分类的准确度更高。小结深度神经网络发展历史、背景动机WhyDeepLearning?深度学习常用模型ReferencesG.Hinton.APracticalGuidetoTrainingRestrictedBoltzmannMachines,TechReport,No.UTMLTR2010-003,DepartmentofComputerScience,UniversityofToronto,CanadaG.HintonandR.Salakhutdinov.ReducingtheDimensionalityofDatawithNeuralNetworks.Science,2006Vincent,Pascal,etal.StackedDenoisingAutoencoders:LearningUsefulRepresentationsinaDeepNetworkwithaLocalDenoisingCriterion.Journal of Machine Learning Research11.12(2010):3371-3408.YoshuaBengio:LearningDeeparchitecturesforAI,FoundationsandTrendsinMachineLearning,2(1),2009http:/

展开阅读全文