深度学习神经网络学习.ppt

资源描述

单击此处编辑母版标题样式,编辑母版文本样式,第二级,第三级,第四级,第五级,*,深度学习,1,一、深度学习简介,10/28/2025,2,1,、智能的定义,目前假设宇宙还没有产生生命，我们来想象一种生存游戏。这个生存游戏就是规避危险从而生存下来。,但这时我们追加另一种规则，环境会变。即便个体非常幸运的产生了可以满足生存的关联f，也会在下一次环境变化之际化为无机物。假如还用随机生成的方式，生命永远只能在最初始的阶段停留半晌，无法进入下一种阶段。,因此生命想要延续，就需要一种能力，可以适应变化的能力。,Intelligence is the ability to adapt to change.,10/28/2025,3,进化关键:繁殖、变异、筛选的动态循环,关键在于，关联的更新速度环境的变化速度。,10/28/2025,4,刚刚的描述是蛋白质层面上的低等智能，通过自我繁殖来进行进化。自然界无法瞬间产生尤其复杂的功能，高等智能都是由低等智能迭代生成的。高等智能最具代表性的就是可以思索。不过思索的原理实在难以解读。还是用老措施，转而问为何会进化出意识容许我们思索，它可以处理什么问题？,由于环境的变化是随机的，因此进化并没有方向，不过却有增长差异性的趋势。通过自我复制的方式，可以产生的差异性还是较弱。因此自然界慢慢的开始形成了有性繁殖，两个不一样的个体进行交配，增长子代的差异性。不过有性繁殖使得大范围移动成为了必然需求。环境会伴随移动而变化，个体在上一环境中通过自然学习所学习到的关联，在下一种环境并不合用。,10/28/2025,5,需要新的学习方式：,生长周期：无法自然选择试错,大脑模拟：预测未来事件,神经网络：寻找过去事件到未来事件的关联,f,(,任意两个空间,),10/28/2025,6,2,、神经网络,2.1,、神经元,10/28/2025,7,10/28/2025,8,10/28/2025,9,每层神经网络的数学理解：用线性变换跟伴随非线性变化，将输入空间投向另一种空间。,10/28/2025,10,每层神经网络的物理理解：通过既有的不一样物质的组合形成新物质。,10/28/2025,11,2.2、理解视角,目前我们懂得了每一层的行为，但这种行为又是怎样完毕识别任务的呢？,2.2.1、数学视角：“线性可分”,二维情景：,平面的四个象限也是线性可分。但上图的红蓝两条线就无法找到一超平面去分割。,神经网络的处理措施是用所说的5种空间变换操作转换到此外一种空间下。例如通过放大、平移、旋转、扭曲原二维空间后，在三维空间下就可以成功找到一种超平面分割红蓝两线(同SVM的思绪同样)。,10/28/2025,12,上面是一层神经网络可以做到的，假如把一层神经网络的输出当做新的输入再次用这5种操作进行第二遍空间变换的话，网络也就变为了二层。设想网络拥有诸多层时，对原始输入空间的“扭曲力”会大幅增长，如下图，最终我们可以轻松找到一种超平面分割空间。,当然也有如下图失败的时候，关键在于“怎样扭曲空间”。所谓监督学习就是予以神经网络网络大量的训练例子，让网络从训练例子中学会怎样变换空间。每一层的权重W就控制着怎样变换空间，我们最终需要的也就是训练好的神经网络的所有层的权重矩阵。,线性可分视角：神经网络的学习就是学习怎样运用矩阵的线性变换加激活函数的非线性变换，将原始输入空间投向线性可分/稀疏的空间去分类/回归。,增长节点数：增长维度，即增长线性转换能力。,增长层数：增长激活函数的次数，即增长非线性转换次数。,10/28/2025,13,2.2.2、物理视角：“物质构成”,回忆上文由碳氧原子通过不一样组合形成若干分子的例子。从分子层面继续迭代这种组合思想，可以形成DNA，细胞，组织，器官，最终可以形成一种完整的人。不一样层级之间都是以类似的几种规则再不停形成新物质。,例子：人脸识别,10/28/2025,14,物质构成视角：神经网络的学习过程就是学习物质构成方式的过程。,增长节点数：增长同一层物质的种类，例如118个元素的原子层就有118个节点。,增长层数：增长更多层级，例如分子层，原子层，器官层，并通过判断更抽象的概念来识别物体。,10/28/2025,15,2.3、神经网络的训练,神经网络的学习过程就是学习控制着空间变换方式（物质构成方式）的权重矩阵 W，那怎样学习每一层的权重矩阵 W 呢？,2.3.1、激活函数,激活函数的重要作用是提供网络的非线性建模能力。假如没有激活函数，那么该网络仅可以体现线性映射，此时即便有再多的隐藏层，其整个网络跟单层神经网络也是等价的。因此也可以认为，只有加入了激活函数之后，深度神经网络才具有了分层的非线性映射学习能力。,可微性：当优化措施是基于梯度的时候，这个性质是必须的。,单调性：当激活函数是单调的时候，单层网络可以保证是凸函数。,输出值的范围：当激活函数输出值是有限的时候，基于梯度的优化措施会愈加稳定，由于特性的表达受有限权值的影响更明显;当激活函数的输出是无限的时候，模型的训练会愈加高效。,10/28/2025,16,Sigmoid,此外，sigmoid函数的输出均不小于0，使得输,出不是0均值，这称为偏移现象，这会导致后,一层的神经元将得到上一层输出的非0均值的,信号作为输入。,10/28/2025,17,Tanh,tanh也是一种非常常见的激活函数。与sigmoid相比，它的输出均值是0，使得其收敛速度要比sigmoid快，减少迭代次数。然而，从途中可以看出，tanh同样具有软饱和性，从而导致梯度消失。,ReLU,可以看到，当x0时，则不存在饱和问题。因此，ReLU 可以在x0时保持梯度不衰减，从而缓和梯度消失问题。然而，伴随训练的推进，部分输入会落入硬饱和区，导致对应权重无法更新。这种现象被称为“神经元死亡”。,10/28/2025,18,ELU,融合了sigmoid和ReLU，左侧具有软饱和性，右侧无饱和性。右侧线性部分使得ELU可以缓和梯度消失，而左侧软饱可以让ELU对输入变化或噪声更敏感。ELU的输出均值靠近于零，因此收敛速度更快。,Maxout,这个激活函数有点大一统的感觉，由于maxout网络可以近似任意持续函数，且当w2,b2,wn,bn为0时，退化为ReLU。Maxout可以缓和梯度消失，同步又规避了ReLU神经元死亡的缺陷，但增长了参数和计算量。,10/28/2025,19,2.3.2、损失函数,我们但愿网络的输出尽量的靠近真正想要预测的值。那么就可以通过比较目前网络的预测值和我们真正想要的目的值，再根据两者的差异状况来更新每一层的权重矩阵。因此就需要先定义“怎样比较预测值和目的值的差异”，这便是损失函数或目的函数，用于衡量预测值和目的值的差异的方程。,损失函数分为经验风险损失函数和构造风险损失函数。经验风险损失函数指预测成果和实际成果的差异，构造风险损失函数是指经验风险损失函数加上正则项。一般表达为如下：,10/28/2025,20,0-1损失函数,绝对值损失函数,log对数损失函数逻辑回归算法,平方损失函数,指数损失函数 AdaBoost算法,Hinge损失函数,y是预测值，在-1到+1之间，t为目的值（-1或+1）。多用于SVM。,10/28/2025,21,10/28/2025,22,梯度下降的问题,梯度的计算：怎样迅速计算梯度+怎样更新隐藏层的权重,反向传播算法,局部极小值,梯度下降不一定可以找到全局的最优解，有也许是一种局部最优解。,10/28/2025,23,处理措施：,1.调整步伐：调整学习速率，使每一次的更新“步伐”不一样。,（1）随机梯度下降(SGD)：每次只更新一种样本所计算的梯度,（2）小批量梯度下降（MGD）：每次更新若干样本所计算的梯度的平均值,（3）动量（Momentum）：不仅仅考虑目前样本所计算的梯度，还考虑到Nesterov动量（4）Adagrad、RMSProp、Adadelta、Adam：这些措施都是训练过程中根据规则减少学习速率，部分也综合动量,2.优化起点：合理初始化权重、预训练网络，使网络获得一种很好的“起始点”。,常用措施有：,高斯分布初始权重（Gaussian distribution）,均匀分布初始权重（Uniform distribution）,Glorot 初始权重、,He初始权重,稀疏矩阵初始权重（sparse matrix）,10/28/2025,24,3.2.4、详细流程,10/28/2025,25,搜集训练集：也就是同步有输入数据以及对应标签的数据。,设计网络构造：确定层数、每一隐藏层的节点数和激活函数，以及输出层的激活函数和损失函数。,数据预处理：将所有样本的输入数据和标签处理成可以使用神经网络的数据，标签的值域符合激活函数的值域。,权重初始化：每层的权重在训练前不能为空，要初始化才可以计算损失值从而来减少。,训练网络：训练过程就是用训练数据的输入通过网络计算出输出，再和标签计算出损失，再计算出梯度来更新权重的过程。,预测新值：训练过所有样本后，打乱样本次序再次训练若干次。训练完毕后，当再来新的数据输入，就可以运用训练的网络来预测了。,10/28/2025,26,三、单层神经网络,感知机（perceptron）是由两层神经元构成的构造，输入层用于接受外界输入信号，输出层（也被称为是感知机的功能层）就是M-P神经元。,感知机能轻易的实现逻辑与、或、非运算。,一般的，对于给定训练集，所需的权重以及阈值都可以通过学习得到。,10/28/2025,27,感知器只能做简朴的线性分类任务。,10/28/2025,28,四、多层神经网络,4.1多层前馈神经网络,要处理非线性可分问题，就要使用多层神经网络。最基础的多层神经网络就是多层前馈神经网络。,10/28/2025,29,4.2、BP算法,多层网络的学习能力显然要比单层感知机强的多。不过简朴的感知机学习就不够了，需要更强大的学习算法。不得不提其中最杰出、最成功的代表误差逆传播（error BackPropagation，简称BP）算法。,10/28/2025,30,10/28/2025,31,10/28/2025,32,10/28/2025,33,10/28/2025,34,运用,BP,算法的多层前馈神经网络神经网络实例：,10/28/2025,35,1,0,1,0.2,0.4,-0.5,-0.3,0.1,0.2,-0.3,-0.2,-0.4,0.2,0.1,10/28/2025,36,10/28/2025,37,10/28/2025,38,省去中间计算过程，最终得到第一轮训练之后的新的权重与阈值：,0.192,-0.306,0.4,0.1,-0.508,0.194,-0.261,-0.138,0.218,0.194,-0.408,10/28/2025,39,四、卷积神经网络,4.1、视觉感知,4.1.1、画面识别是什么任务？,卷积神经网络最初是服务于画面识别的，因此我们先来看看画面识别的实质是什么。,10/28/2025,40,通过上面的两组对比图可以懂得，即便是相似的图片通过不一样的视觉系统，也会得到不一样的感知。,任何视觉系统都是将图像反光与脑中所看到的概念进行关联。,画面识别实际上是寻找（学习）人类的视觉关联方式，并再次应用。,10/28/2025,41,4.1.2、图片被识别成什么取决于哪些原因？,图片被识别成什么不仅仅取决于图片自身，还取决于图片是怎样被观测的。,10/28/2025,42,10/28/2025,43,10/28/2025,44,画面不变性,在决定怎样处理“数字长方体”之前，需要清晰所建立的网络拥有什么样的特点。我们懂得一种物体不管在画面左侧还是右侧，都会被识别为同一物体，这一特点就是不变性，如下图所示：,10/28/2025,45,我们但愿所建立的网络可以尽量的满足这些不变性特点。,为了理解卷积神经网络对这些不变性特点的奉献，我们将用不具有这些不变性特点的前馈神经网络来进行比较。,10/28/2025,46,图片识别-前馈神经网络,以便起见，我们用depth只有1的灰度图来举例。想要完毕的任务是：在宽长为4x4的图片中识别与否有下图所示的“横折”。图中，黄色圆点表达值为0的像素，深色圆点表达值为1的像素。我们懂得不管这个横折在图片中的什么位置，都会被认为是相似的横折。,10/28/2025,47,若训练前馈神经网络来完毕该任务，那么体现图像的三维张量将会被摊平成一种向量，作为网络的输入，即(width,height,depth)为(4,4,1)的图片会被展成维度为16的向量作为网络的输入层。再通过几层不一样节点个数的隐藏层，最终输出两个节点，分别表达“有横折的概率”和“没有横折的概率”，如下图所示。,10/28/2025,48,处理措施是用大量物体位于不一样位置的数据训练，同步增长网络的隐藏层个数从而扩大网络学习这些变体的能力。,然而这样做十分不效率，由于我们懂得在左侧的“横折”也好，还是在右侧的“横折”也罢，大家都是“横折”。为何相似的东西在位置变了之后要重新学习？有无什么措施可以将中间所学到的规律也运用在其他的位置？换句话说，也就是让不一样位置用相似的权重。,10/28/2025,49,图片识别-卷积神经网络,卷积神经网络就是让权重在不一样位置共享的神经网络。,局部连接,10/28/2025,50,空间共享,过滤器是共享的。,10/28/2025,51,输出体现,如先前在图像体现中提到的，图片不用向量去表达是为了保留图片平面构造的信息。同样的，卷积后的输出若用上图的排列方式则丢失了平面构造信息。因此我们仍然用矩阵的方式排列它们，就得到了下图所展示的连接：,10/28/2025,52,深度维的处理,过滤器在张量的width维,height维上是局部连接，在depth维上是贯串所有层次的。,不过，过滤器在每个层次上的权重矩阵是不共享的，即每一层均有一种独立的权重矩阵。,10/28/2025,53,0边界,0边界可以协助控制Feature Map的输出尺寸，同步防止边缘信息被一步步舍弃的问题。,一般大家都想要在卷积时保持图片的原始尺寸。选择3x3的过滤器和1的0边界，或5x5的过滤器和2的0边界可以保持图片的原始尺寸。另一种原因是3x3的过滤器考虑到了像素与其距离为1以内的所有其他像素的关系，而5x5则是考虑像素与其距离为2以内的所有其他像素的关系。,10/28/2025,54,过滤器的作用,不一样权值矩阵的过滤器可以探测不一样的特性,从右边这幅图可以看出，不一样数值的过滤器所卷,积过后的Feature Map可以探测边缘，棱角，模糊,，突出等概念。,10/28/2025,55,如我们先前所提，图片被识别成什么不仅仅取决于图片自身，还取决于图片是怎样被观测的。,而过滤器内的权重矩阵W是网络根据数据学习得到的，也就是说，我们让神经网络自己学习以什么样的方式去观测图片。因此在反复的网络训练过程中，CNN可以探测到的特点和概念也会越来越复杂。,10/28/2025,56,10/28/2025,57,10/28/2025,58,多过滤器,每一种过滤器都可以探测特定形状的特性，我们可以用多种过滤器组合来探测比较复杂的特性。同步也可以增长过滤器来探测更多的特性。,10/28/2025,59,这样卷积层的输出也不再是深度为1的一种平面，而是和输入同样是深度为复数的长方体。,10/28/2025,60,加入激活函数,和前馈神经网络同样，通过线性组合和偏移后，会加入非线性增强模型的拟合能力。,10/28/2025,61,10/28/2025,62,池化层,对输入的特性图进行压缩，首先使特性图变小，简化网络计算复杂度；首先进行特性压缩，提取重要特性。,常用的池化措施有：,（1）最大池化,（2）均值池化,（3）高斯池化,（4）训练池化,其中最常用的是最大池化措施。,10/28/2025,63,Max pooling：,整个图片被不重叠的分割成若干个同样大小的小块（pooling size）。每个小块内只取最大的数字，再舍弃其他节点后，保持原有的平面构造得出输出。,10/28/2025,64,Max pooling 的作用就是清除冗余信息，那么清除了这些信息之后，不会对最终的训练成果产生影响吗？,10/28/2025,65,10/28/2025,66,全连接层,全连接层（fully connected layers，FC）在整个卷积神经网络中起到“分类器”的作用。假如说卷积层、池化层和激活函数层等操作是将原始数据映射到隐层特性空间的话，全连接层则起到将学到的“分布式特性表达”映射到样本标识空间的作用。一般卷积网络的最终会将末端得到的长方体平摊(flatten)成一种长长的向量，并送入全连接层配合输出层进行分类。,10/28/2025,67,未完待续。,10/28/2025,68,

展开阅读全文