卷积神经网络PPT优质课件.pptx

资源描述

,卷积神经网络,主要内容,卷积神经网络,诞生背景与历程,卷积神经网络的结构,卷积神经网络应用,LeNet-5,手写数字识别,深度学习的优势,深度学习通过学习一种深层非线性网络结构，只需简单的网络结构即可实现复杂函数的逼近，并展现了强大的从大量无标注样本集中学习数据集本质特征的能力。,深度学习能够获得可更好地表示数据的特征，同时由于模型的层次深）、表达能力强，因此有能力表示大规模数据。,对于图像、语音这种特征不明显（需要手工设计且很多没有直观的物理含义）的问题，深度模型能够在大规模训练数据上取得更好的效果。,卷积神经网络(ConvolutionalNeuralNetworks：CNN)是人工神经网络(ANN)的一种，是深度学习的一种学习算法。它在图像识别和分类、自然语言处理广告系统中都有应用。,CNNs它利用空间关系减少需要学习的参数数目以提高一般前向BP算法的训练性能。CNNs作为一个深度学习架构提出是为了最小化数据的预处理要求。在CNN中，图像的一小部分（局部感受区域）作为层级结构的最低层的输入，信息再依次传输到不同的层，每层通过一个数字滤波器去获得观测数据的最显著的特征。这个方法能够获取对平移、缩放和旋转不变的观测数据的显著特征，因为图像的局部感受区域允许神经元或者处理单元可以访问到最基础的特征，例如定向边缘,。,卷积神经网络的结构,卷积神经网络是一个多层的神经网络，每层由多个二维平面组成，而每个平面由多个独立神经元组成。,输入图像通过和三个可训练的滤波器和可加偏置进行卷积，滤波过程如图，卷积后在C1层产生三个特征映射图，然后特征映射图中每组的四个像素再进行求和，加权值，加偏置，通过一个Sigmoid函数得到三个S2层的特征映射图。这些映射图再进过滤波得到C3层。这个层级结构再和S2一样产生S4。最终，这些像素值被光栅化，并连接成一个向量输入到传统的神经网络，得到输出。,C层为卷积层,(,Convolution,),，每个神经元的输入与前一层的局部感受野相连，并提取该局部的特征，一旦该局部特征被提取后，它与其他特征间的位置关系也随之确定下来,S层是采样层（subsampling）也叫池化层（,pooling,），网络的每个计算层由多个特征映射组成，每个特征映射为一个平面，平面上所有神经元的权值相等。pooling的目的就是为了使参数量减少，使得特征映射具有某种不变性（旋转、平移、伸缩等）。,mean-pooling，即对邻域内特征点只求平均，max-pooling，即对邻域内特征点取最大。根据相关理论，特征提取的误差主要来自两个方面：（1）邻域大小受限造成的估计值方差增大；（2）卷积层参数误差造成估计均值的偏移。一般来说，mean-pooling能减小第一种误差，更多的保留图像的背景信息，max-pooling能减小第二种误差，更多的保留纹理信息。,参数减少与权值共享,如果我们有,1000 x1000,像素的图像，有,1,百万个隐层神经元，那么他们全连接的话（每个隐层神经元都连接图像的每一个像素点），就有,1000 x1000 x1000000=1012,个连接，也就是,1012,个权值参数。然而图像的空间联系是局部的，就像人是通过一个局部的感受野去感受外界图像一样，每一个神经元都不需要对全局图像做感受，每个神经元只感受局部的图像区域，然后在更高层，将这些感受不同局部的神经元综合起来就可以得到全局的信息了。这样，我们就可以减少连接的数目，也就是减少神经网络需要训练的权值参数的个数了。假如局部感受野是,10 x10,，隐层每个感受野只需要和这,10 x10,的局部图像相连接，所以,1,百万个隐层神经元就只有一亿个连接，即,108,个参数。比原来减少了四个,0,（数量级），这样训练起来就没那么费力了。,隐含层的每一个神经元都连接10 x10个图像区域，也就是说每一个神经元存在10 x10=100个连接权值参数。那如果我们每个神经元这100个参数是相同，每个神经元用的是同一个卷积核去卷积图像，这就是权值共享。,一方面，重复单元能够对特征进行识别，而不考虑它在可视域中的位置。另一方面，权值共享使得我们能更有效的进行特征抽取，因为它极大的减少了需要学习的自由变量的个数。通过控制模型的规模，卷积网络对视觉问题可以具有很好的泛化能力。,权值共享的优点：,卷积神经网络应用,LeNet-5,手写数字识别,C1,层：,输入图片大小：,32,*,32,卷积窗大小：,5,*,5,卷积窗种类：,6,输出特征图数量：,6,输出特征图大小：,28,*,28,神经元数量：,4707,连接数：,122304,可训练参数：,156,C1层是一个卷积层，卷积运算一个重要的特点就是，通过卷积运算，可以使原信号特征增强，并且降低干扰，由6个特征图Feature Map构成。特征图中每个神经元与输入中5*5的邻域相连。特征图的大小为28*28，这样能防止输入的连接掉到边界之外。C1有156个可训练参数（每个滤波器5*5=25个unit参数和一个bias参数，一共6个滤波器，共(5*5+1)*6=156个参数），共,(5*5+1)*6,*(28*28)=122,304个连接。,S2,层：,输入图片大小：,(28*28)*6,卷积窗大小：,2*2,卷积窗种类：,6,输出下采样图数量：,6,输出下采样图大小：,(14*14)*6,神经元数量：,1176,连接数：,5880,可训练参数：,12,S2层是一个采样层，利用图像局部相关性的原理，对图像进行子抽样，可以减少数据处理量同时保留有用信息，有6个14*14的特征图。特征图中的每个单元与C1中相对应特征图的2*2邻域相连接。6个2*2的小方框,每个有一个参数,加上一个偏置,也就是(1+1)*6=12个可训练参数，对于S2层的每一个图的每一个点,连接数是(2*2+1)=5,总共是14*14*6*(2*2+1)=5880个连接。,卷积和子采样过程：,卷积过程包括：用一个可训练的滤波器,f,x,去卷积一个输入的图像（第一阶段是输入的图像，后面的阶段就是卷积特征,map,了），然后加一个偏置,b,x,，得到卷积层,C,x,。,子采样过程包括：每邻域四个像素求和变为一个像素，然后通过标量,W,x+1,加权，再增加偏置,b,x+1,，然后通过一个,sigmoid,激活函数，产生一个大概缩小四倍的特征映射图,S,x+1,。,C3,层：,输入图片大小：,(14*14)*6,卷积窗大小：,5*5,卷积窗种类：,16,输出特征图数量：,16,输出特征图大小：,10*10,神经元数量：,1600,连接数：,151600,可训练参数：,1516,C3层也是一个卷积层，它同样通过5x5的卷积核去卷积层S2，然后得到的特征map就只有10 x10个神经元，但是它有16种不同的卷积核，所以就存在16个特征map了。C3的前6个特征图以S2中3个相邻的特征图子集为输入。接下来6个特征图以S2中4个相邻特征图子集为输入。然后的3个以不相邻的4个特征图子集为输入。最后一个将S2中所有特征图为输入。,C3的角度看,它有16个图.把每个图对应的参数加起来,6*(3*25+1)+6*(4*25+1)+3*(4*25+1)+1*(6*25+1)=1516个可训练参数,1516*10*10=151600个连接,S4,层：,输入图片大小：,(10*10)*16,卷积窗大小：,2*2,卷积窗种类：,16,输出下采样图数量：,16,输出下采样图大小：,(5*5)*16,神经元数量：,400,连接数：,2000,可训练参数：,32,S4层是一个采样层，由16个5*5大小的特征图构成。特征图中的每个单元与C3中相应特征图的2*2邻域相连接，跟C1和S2之间的连接一样。S4层有32个可训练参数（每个特征图1个因子和一个偏置）和5*5*16*(2*2+1)=2000个连接。,C5,层：,输入图片大小：,(5*5)*16,卷积窗大小：,5*5,卷积窗种类：,120,输出特征图数量：,120,输出特征图大小：,1*1,神经元数量：,120,连接数：,48120(,全连接）,可训练参数：,48120,C5层是一个卷积层，有120个特征图。每个单元与S4层的全部16个单元的5*5邻域相连。由于S4层特征图的大小也为5*5（同滤波器一样），故C5特征图的大小为1*1：这构成了S4和C5之间的全连接。之所以仍将C5标示为卷积层而非全相联层，是因为如果LeNet-5的输入变大，而其他的保持不变，那么此时特征图的维数就会比1*1大。C5层有120*(5*5*16+1)=48120个可训练连接。,F6,层：,输入图片大小：,(1*1)*120,卷积窗大小：,1*1,卷积窗种类：,84,输出特征图数量：,84,输出特征图大小：,1,神经元数量：,84,连接数：,10164,（全连接）,可训练参数：,10164,F6层有84个单元（之所以选这个数字的原因来自于输出层的设计），与C5层全相连。有84*(120+1)=10164个可训练参数。如同经典神经网络，F6层计算输入向量和权重向量之间的点积，再加上一个偏置。然后将其传递给sigmoid函数产生单元i的一个状态。,最后，输出层由欧式径向基函数（,Euclidean Radial Basis Function,）单元组成，每类一个单元，每个有,84,个输入。换句话说，每个输出,RBF,单元计算输入向量和参数向量之间的欧式距离。输入离参数向量越远，,RBF,输出的越大。一个,RBF,输出可以被理解为衡量输入模式和与,RBF,相关联类的一个模型的匹配程度的惩罚项。用概率术语来说，即模式的的期望分类足够接近。,简而言之，通过噪音过滤和特征提取，强化出真正有用的笔画拓扑关系，以此为基础，识别字母。通过大量的训练，能把不同字母的各种区分特征识别出来，只要足以区分不同字母，跳出非字母，就可以实现识别。,第一阶段，向前传播阶段：,a,）从样本集中取一个样本,(X,Y,p,),，将,X,输入网络；,b,）计算相应的实际输出,O,p,。,在此阶段，信息从输入层经过逐级的变换，传送到输出层。这个过程也是网络在完成训练后正常运行时执行的过程。在此过程中，网络执行的是计算（实际上就是输入与每层的权值矩阵相点乘，得到最后的输出结果）：,O,p,=F,n,（,（,F,2,（,F,1,（,X,p,W,（,1,）,）,W,（,2,）,）,）,W,（,n,）,）,第二阶段，向后传播阶段,a,）算实际输出,O,p,与相应的理想输出,Y,p,的差；,b,）按极小化误差的方法反向传播调整权矩阵。,训练算法分为两个阶段,卷积神经网络,CNN,主要用来识别位移、缩放及其他形式扭曲不变性的二维图形。由于,CNN,的特征检测层通过训练数据进行学习，所以在使用,CNN,时，避免了显式的特征抽取，而隐式地从训练数据中进行学习；再者由于同一特征映射面上的神经元权值相同，所以网络可以并行学习，这也是卷积网络相对于神经元彼此相连网络的一大优势。卷积神经网络以其局部权值共享的特殊结构在语音识别和图像处理方面有着独特的优越性，其布局更接近于实际的生物神经网络，权值共享降低了网络的复杂性，特别是多维输入向量的图像可以直接输入网络这一特点避免了特征提取和分类过程中数据重建的复杂度。,卷积网络较一般神经网络在图像处理方面有如下优点：a）输入图像和网络的拓扑结构能很好的吻合；b）特征提取和模式分类同时进行，并同时在训练中产生；c）权重共享可以减少网络的训练参数，使神经网络结构变得更简单，适应性更强。,卷积神经网络的优点,一维卷积神经网络：时序信号，文本,文本分类,音乐体裁分类,用于语音识别的声学模型,时间序列预测,二维卷积神经网络：图像，时间-频率表征（语音与音频）,物体检测，定位，识别,三维卷积神经网络：视频，立体图像，层析成像,视频识别/理解,生物医学图像分析,高光谱图像分析,cnn,应用,谢谢！,

展开阅读全文