资源描述
单击此处编辑母版标题样式,编辑母版文本样式,第二级,第三级,第四级,第五级,2022/1/4,#,单击此处编辑母版标题样式,编辑母版文本样式,第二级,第三级,第四级,第五级,2022/1/4,#,计算机视觉,Computer Vision,第一章,绪论,目录,背景介绍,Contents,1,小节介绍,2,本章总结,3,背景介绍,BACKGROUND,Every image tells a story.Computer vision develops theories and methods to allow computers to extract relevant information from digital images or videos.,ONE,背 景 介 绍,作为人类,我们可以轻松感知周围的三维世界。,相比之下,不管近年来计算机视觉已经取得多么令人瞩目的成果,但要让计算机能像人类那样理解和解释图像,却仍然是一个遥远的梦想。,为什么计算机视觉会成为如此富有挑战性的难题?,它的发展历史与现状又是怎样的?,小节介绍,SECTION INTRODUCTION,Every image tells a story.Computer vision develops theories and methods to allow computers to extract relevant information from digital images or videos.,TWO,1.1,计算机视觉简史,美国计算机科学家拉里,罗伯茨在麻省理工大学的博士毕业论文,Machine Perception of Three-Dimensional Solids,1963,年,热点偏向于图像内容的建模,如三维建模、立体视觉等,20,世纪,70,年代,主动视觉理论和定性视觉理论等被提出,进入了最蓬勃发展的一个时期,20,世纪,80,年代,机器学习开始成为计算机视觉,尤其是识别、检测和分类等应用中一个不可分割的重要工具,成为计算机领域的一个大学科,21,世纪,20,世纪,90,年代,基于神经网络的深度学习算法,2012,年,,Hinton,的小组参加了,ImageNet,竞赛,提出卷积神经网络,AlexNet,取得十个百分点的改进,完胜第二名,冲击传统计算机视觉分类算法,更深的网络结构,校正线性单元(,Rectified Linear Unit,ReLU),、,Dropout,等方法的应用,GPU,训练网络,三点改进,自从,2012,年后,基于深度学习的检测和识别、基于深度学习的图像分割、基于深度学习的立体视觉等如雨后春笋般一夜之间全冒了出来。,在各领域发挥作用,1.2,计算机视觉发展的新起点,现实生活应用,安防,交通,工业生产,在线购物,信息检索,游戏娱乐,摄影摄像,机器人无人机,体育,医疗,1.3,计算机视觉应用,相对其他许多传统的机器学习方法,深度神经网络本身就是一个消耗计算量的大户。另一方面,由于多层神经网络本身极强的表达能力,对数据量也提出了很高的要求。,20,世纪,80,年代,使用专门的,运算单元,负责对三维模型形成的图像进行渲染。,1999,年,NVIDTA,发布,GeForce 256,,,正式提出,了,GPU,的概念。,2000,年,尝试,用,GPU,来加速通用高密度、大吞吐量的计算任务。,2001,年,,通用图形处理器,(,General-Purpose computing on CPU,GPGPU,)的概念被,正式提出,。,2002,年,多伦多大学的,James Fung,发布了,Open VIDIA,,,利用,GPU,实现,了一些计算机视觉库的,加速,,这是,第一次,正式将,GPU,用到了渲染以外的用途上。,2006,年,,NVIDIA,推出了利用,GPU,进行通用计算的平台,CUDA,很快就流行开并成为了,GPU,通用计算的主流框架,。,2012,年,,Alex,一战成名,同时,GPU,也成为了训练深度神经网络的标配。,1.4 GPU,与并行技术,图像搜索,图像分割,生成对抗网络,图像描述,图像分类,物体检测,人脸识别,卷积神经网络,01,02,03,04,05,1.5,基于卷积神经网络的计算机视觉应用,本章总结,CHAPTER SUMMARY,Every image tells a story.Computer vision develops theories and methods to allow computers to extract relevant information from digital images or videos.,Three,本书从基本的,视觉色彩原理,到,神经网络模型,,再到之后的,卷积模型,与具体应用,对计算机视觉领域的知识进行了较为系统的介绍。,全书共分为八个章节:,第二、三章介绍,基础的图像色彩表示,及,传统特征提取方法,;,第四章介绍,深度学习神经网络方法及卷积、循环神经网络,;,第五至八章介绍,图像分类、目标检测与分割、图片描述与关系识别及生成对抗网络,等主要任务及算法。,1.6,全书章节简介,计算机视觉,Computer Vision,第二章,图像的表示,目录,背景介绍,Contents,1,章节概述,2,小节介绍,3,本章总结,4,背景介绍,BACKGROUND,Every image tells a story.Computer vision develops theories and methods to allow computers to extract relevant information fro,ONE,背 景 介 绍,彩色是光的一种属性,没有光就没有彩色。在光的照射下,人们通过眼睛感觉到各种物体的彩色,这些彩色是人眼特性和物体客观特性的综合效果。,一般而言,一个完整的图像处理系统输入和显示的都是便于人眼观察的物理图像(模拟图像)。而物理图像(模拟图像)是不能直接用数字计算机来处理。,图像分析中,图像质量的好坏直接影响识别算法的设计与效果的精度,因此在图像分析(特征提取、分割、匹配和识别等)前,需要进行预处理。,图像的表示,自然表示,数字化,表示,计算机识别预处理,章节概述,CHAPTER OVERVIEW,Every image tells a story.Computer vision develops theories and methods to allow computers to extract relevant information fro,TWO,本章主要介绍了色彩和图像的基础知识,这些内容与计算机视觉有紧密的关系,是后续章节的基础。首先介绍了与图像有关的,色彩学基础,,包括,电磁波谱、三基色原理和彩色模型,;接着介绍了图像,数字化的表示方法,和有关概念,包括,采样、量化和图像的性质,;最后介绍了图像的,预处理方法,,包括,灰度化、几何变换和图像增强,。,章 节 概 述,小节介绍,SECTION INTRODUCTION,Every image tells a story.Computer vision develops theories and methods to allow computers to extract relevant information fro,THREE,欲要处理图像,先学色彩基础,红(,R,)、绿(,G,)、蓝(,B,)这,3,种颜色被称为三基色。,3,种基色是相互独立的,任何一种基色都不能由其他两种颜色合成。,根据人眼的三基色吸收特性,人眼所感受到的颜色其实是,3,种基色按照不同比例的组合。,国际照明委员会(,CIE,)为了建立统一的标准,于,1931,年制定了特定波长的三基色标准:蓝(,B=435.8nm,)、绿(,G=546.1nm,)、红(,R=700nm,)。这样,任一色彩均可由这三种基色来表示。,2.1.1,三基色原理,色彩如何感知与处理,2.1.2,彩色模型,2.1,色彩学基础,常见彩色图像处理流程,可见光电磁波谱,本节介绍图像处理方面所需要的最基础的颜色表示,;,通过,光的电磁波谱到三基色原理,再到常见的彩色模型,把颜色用一种科学的方法表示出来,;,建立一种能够用数学表达的模型,为计算机能够处理图像提供了最基本的数学前提。,2.1,色彩学基础,图像的数字化,物理图像(模拟图像)是不能直接用数字计算机来处理。首先必须将各类图像(如照片、图形、,X,光照片等)转化为数字图像。,2.2.1,采样,将空间上连续的图像变成离散点的操作,2.2.2,量化,将图像函数的连续数值转变为其数字等价量,方法有两种:一种是等间隔量化,另一种是非等间隔量化。,图像数字化矩阵,2.2,图像的数字化,图像性质,像素的相邻和领域,像素间距离的度量,像素的连通性,像素间的关系,对比度是亮度的局部变化,定义为物体亮度的平均值与背景亮度的比值,对比度,敏锐度是觉察图像细节的能力,敏锐度,实际的图像常受一些随机误差的影响而退化,通常称这个退化为噪声。,在图像的捕获、传输或处理过程中都可能出现噪声,噪声可能依赖于图像内容,也可能与其无关。噪声一般由其概率特征来描述,图像中的噪声,2.2,图像的数字化,2.2.3,图像的性质,本节介绍图像在计算机中如何存储和如何表示;,介绍图像在数字化后的一些基本性质,包括像素间关系、对比度、敏锐度以及图像中的噪声。,2.2,图像的数字化,01,02,03,为提高整个应用系统的处理速度,减少所需处理的数据量,灰度化,通过平移、转置、镜像、旋转、缩放等变换处理采集的图像,改正图像采集系统的系统误差和仪器位置的随机误差,几何变换,增强图像中的有用信息,改善图像的视觉效果,图像增强,2.3,图像预处理,灰度化,分量法,最大,值法,平均,值法,加权,平均法,将彩色图像中的三分量的亮度作为三个灰度图像的灰度值,可根据应用需要选取一种灰度图像。,对,R,、,G,、,B,求出平均值,采用平均法对彩色图像进行灰度化处理会形成比较柔和的灰度图像。,使,R,、,G,、,B,的值等于三个值中最大的一个,用最大值法对彩色图像进行灰度化处理会使图像的整体亮度增强。,根据重要性及其它指标,将三个分量以不同的权值进行加权平均。,2.3,图像预处理,2.3.1,灰度化,最邻近插值,:选择离它所映射到的位置最近的输入像素的灰度值为插值结果,双线性插值,:输出像素的灰度值是该像素在输入图像中,2*2,领域采样点的平均值,利用周围四个相邻像素的灰度值在垂直和水平两个方向上做线性插值,双三次插值,:利用三次多项式来逼近理论上的最佳正弦插值函数,插值领域的大小为,4*4,2.3,图像预处理,2.3.2,几何变换,图像增强算法目的是要,改善图像的视觉效果,,有目的地强调图像的,整体或局部特性,,,扩大,图像中不同物体特征之间的,差别,,抑制不感兴趣的特征,,改善图像质量、丰富信息量,,,加强图像判读和识别效果,。,注意:,不能增加原始图像的信息,只能增强对某种信息的辨别能力,会损失一些其它信息。,强调根据具体应用而言,更“好”更“有用”的视觉效果图像。,难以定量描述。,2.3,图像预处理,2.3.3,图像增强,对图像中的每一个点单独地进行处理,或使图像成像均匀,或扩大图像动态范围,扩展对比度。,强调对图像整体进行调整。,灰度变换,(对比度拉伸),灰度求反:将原图灰度值翻转,增强对比度:增强原图的各部分的反差,动态图像压缩:对原图进行灰度压缩,灰度切分(和增强对比度类似):将某个灰度值范围变得比较突出,直方图修正,直方图均衡化:把原始图像的直方图变换成均匀分布的形式,增加图像灰度值的动态范围。本质是扩大量化间隔,而量化级别反而减少。,直方图规定化:有选择地增强某个灰度值范围的对比度。,2.3,图像预处理,2.3.3.1,空间域法,空域变换增强(点运算算法),强调对图像局部进行改善,(,比如增强边缘和纹理信息,),图像平滑:,用于消除图像噪声,但是也容易引起边缘的模糊,均值滤波,中值滤波,空域滤波,图像锐化:,突出物体的边缘轮廓,便于目标识别,梯度算子法,二阶导数算子法,高通滤波,掩模匹配法,2.3,图像预处理,2.3.3.1,空间域法,空域滤波增强(邻域增强算法),低通滤波(,):抑制高频成分,通过低频成分,然后再进行逆傅立叶变换获得滤波图像,就可达到平滑图像的目的。,理想低通滤波器:,巴特沃斯低通滤波器:,高斯低通滤波器:,指数滤波器:,2.3,图像预处理,2.3.3.2,频率域法,图像平滑,高通滤波:使高频分量顺利通过,而消弱低频,理想高通滤波器:,巴特沃斯高通滤波器:,高斯高通滤波器:,指数滤波器:,2.3,图像预处理,2.3.3.2,频率域法,图像锐化,本节主要介绍图像预处理过程中常用的方法。,几何变换用于改正图像采集系统的系统误差和仪器位置的随机误差;,平滑消除图像中的随机噪声,同时不使图像轮廓或线条变得模糊;,增强对图像中的信息有选择地加强或抑制,达到改善图像视觉效果的目的,或将图像转变为更适合于机器处理的形式,以便于数据抽取或识别。,2.3,图像预处理,本章总结,CHAPTER SUMMARY,Every image tells a story.Computer vision develops theories and methods to allow computers to extract relevant information fro,FOUR,预处理基本方法,色彩学基础,表示方法及基本性质,包括像素的距离、像素的连通性、像素的领域,以及对比度、敏锐度和噪声的基本知识。这些在图像的处理中都是最基本的要素,也是进行图像处理的基础。,图像的表示方法及基本性质,包括基本的灰度化和几何变换以及进一步的图像空域增强和图像频域增强。,图像预处理基本方法,2.4,本 章 总 结,介绍了最常用的,RGB,模型和,HSI,模型的基本原理。,图像处理中的色彩学基础,计算机视觉,Computer Vision,第三章,特征提取,目录,背景介绍,Contents,1,章节概述,2,小节介绍,3,本章总结,4,背景介绍,BACKGROUND,在传统的图形学中,凡是能反映图像某种潜在规律的就被称作图像特征,譬如颜色特征、纹理特征、形状特征和空间关系特征等等。在计算机视觉领域中,最具价值的图像特征主要是局部特征点和边缘特征,前者主要被应用在图像定位、图像识别等,而后者主要被应用在图像分割上。,ONE,图像特征的局部表达,它只能反映图像上具有的局部特殊性,譬如图像的线条、交叉、轮廓等等。在图像发生光线或位置的变化时,局部特征点往往具有稳定不变性。,局部特征点,边缘检测,背 景 介 绍,角点,斑点,特征描述子,特征描述子(,Feature Descriptors,)指的是检测图像的局部特征(比如边缘、角点、轮廓等),然后据匹配目标的需要进行特征的组合、变换,以形成易于匹配、稳定性好的特征向量,从而把图像匹配问题转化为特征的匹配问题,进而将特征的匹配问题转化为特征空间向量的聚类问题。,边缘是不同区域的分界线,是周围(局部)灰度值有显著变化的像素点的集合,有幅值与方向两个属性。,阶跃型、屋脊型、斜坡型、脉冲型,边缘,一阶边缘算子,二阶边缘算子,窗口模板算子,章节概述,CHAPTER OVERVIEW,本章主要介绍两种最重要的图像特征,一种是局部特征点,另一种是边缘特征。对于局部特征点提取,本章介绍了角点、斑点和基于特征描述子的检测方法。对于边缘检测,本章主要介绍了基于一阶,/,二阶的微分边缘算子和基于窗口模板的检测方法,以及简略提及部分新兴的边缘检测方法。,TWO,章 节 概 述,小节介绍,SECTION INTRODUCTION,3.1,角点检测算法,3.2,斑点检测算法,3.3,特征描述子,3.4,边缘检测算法,3.5,一阶微分边缘算子,3.6,二阶微分边缘算子,3.7,窗口模板的检测方法,3.8,新兴的边缘检测算法,THREE,3.1,角点检测算法,3.1.1 Harris,角点,Harris,角点定义为:,如果在各个方向上移动这个特征的小窗口,窗口内区域的灰度发生了较大的变化,那么就认为在窗口内遇到了角点。,其中,,W(x,y),是以点,(x,y),为中心的窗口,,w(u,v),为加权函数,它既可是常数,也可以是高斯加权函数。,u,v,是窗口的偏移量;,(x,y),是窗口内所对应的像素坐标位置,窗口有多大,就有多少个位置;,w(x,y),是窗口函数,最简单情形就是窗口内的所有像素所对应的,w,权重系数均为,1,,但有时候,我们会将,w(x,y),函数设定为以窗口中心为原点的二元正态分布。,3.1.1 Harris,角点,椭圆的长短轴是与结构张量M的两个特征值,相对应的量。通过判断,的情况我们就可以区分出flat,edge,corner这三种区域,因为最直观的印象:,corner:在水平、竖直两个方向上变化均较大的点,即Ix、Iy都较大;edge:仅在水平、或者仅在竖直方向有较大的点,即Ix和Iy只有其一较大;flat:在水平、竖直方向的变化量均较小的点,即Ix、Iy都较小;,至此,我们就可以通过判断,R,的值来判断某个点是不是角点了。,角点:,R,为大数值整数,边缘:,R,为大数值负数,平坦区:绝对值,R,是小数值,3.1,角点检测算法,3.1.1 Harris,角点,实际使用,Harris,角点检测算法共需要,5,步:,1.,计算图像,I(x,y),在,X,和,Y,两个方向的梯度,Ix,、,Iy,。,2.,计算图像两个方向梯度的乘积。,3.,使用高斯函数对,、,和,进行高斯加权(取,=1,),生成矩阵,M,的元素,A,、,B,和,C,。,4.,计算每个像素的,Harris,响应值,R,,并对小于某一阈值,t,的,R,置为零。,5.,在,33,或,55,的邻域内进行非最大值抑制,局部最大值点即为图像中的角点。,3.1,角点检测算法,FAST,角点定义:,若某像素点与其周围领域内足够多的像素点处于不同的区域,则该像素点可能为角点。也就是某些属性与众不同,考虑灰度图像,即若该点的灰度值比其周围领域内足够多的像素点的灰度值大或者小,则该点可能为角点。,3.1.2 Fast,角点,FAST,角点的算法步骤如下:,1.,从图片中选取一个像素,P,,下面我们将判断它是否是一个特征点。我们首先把它的亮度值设为,Ip,。,2.,设定一个合适的阈值,t,。,3.,考虑以该像素点为中心的一个半径等于,3,像素的离散化的,Bresenham,圆,这个圆的边界上有,16,个像素(如,上,图所示)。,4.,如,上,图,3,所示,如果在这个大小为,16,个像素的圆上有,n,个连续的像素点,它们的像素值要么都比,Ip+t,大,要么都比,Ip-t,小,那么它就是一个角点(如图中的白色虚线所示)。,n,的值可以设置为,12,或者,9,,实验证明选择,9,可能会有更好的效果。,3.1,角点检测算法,3.2.1 LOG,斑点检测,利用高斯拉普通拉斯(,Laplace of Gaussian,LOG,)算子检测图像斑点是一种十分常用的方法,对于二维高斯函数:,它的拉普拉斯变换为,:,规范化的高斯拉普变换为:,规范化算法子在二维图像上显示是一个圆对称函数。,我们可以用这个算子来检测图像中的斑点,并且可以通过改变,的值,可以检测不同尺寸的二维斑点。,3.2,斑点检测算法,3.2.1 LOG,斑点检测,从更直观的角度去解释为什么,LOG,算子可以检测图像中的斑点:,1,、,图像与某一个二维函数进行卷积运算实际就是求取图像与这一函数的相似性。同理,图像与高斯拉普拉斯函数的卷积实际就是求取图像与高斯拉普拉斯函数的相似性。当图像中的斑点尺寸与高斯拉普拉斯函数的形状趋近一致时,图像的拉普拉斯响应达到最大。,2,、,从概率的角度解释为:假设原图像是一个与位置有关的随机变量,X,的密度函数,而,LOG,为随机变量,Y,的密度函数,则随机变量,X+Y,的密度分布函数即为两个函数的卷积形式。如果想让,X+Y,能取到最大值,则,X,与,Y,能保持步调一致最好,即,X,上升时,,Y,也上升,,X,最大时,,Y,也最大。,3.2,斑点检测算法,3.2.1 LOG,斑点检测,LOG,算子,的具体计算过程,:,先对图像,f(x,y),用方差为,的高斯核进行高斯滤波,去除图像中的噪点。,然后对图像的拉普拉斯图像则为:,而实际上有下面等式:,所以,我们可以先求高斯核的拉普拉斯算子,再对图像进行卷积。也就是一开始描述的步骤。,3.2,斑点检测算法,3.2.2 DOG,斑点检测,前面介绍的微分算子在近圆的斑点检测方面效果很好,但是这些检测算子被限定于只能检测圆形斑点,而且不能估计斑点的方向,因为,LOG,算子等都是中心对称的。如果我们定义一种二维高斯核的变形,记它在,X,方向与,Y,方向上具有不同的方差,则这种算子可以用来检测带有方向的斑点。,如左图所示,,DOG,可以看作为,LOG,的一个近似,,但是它比,LOG,的效率更高,上式是算子的计算方法,,其中,A,是规一性因子。,3.2,斑点检测算法,3.2.3 SIFT,斑点检测,SIFT,算法分为,4,个阶段:,1,、尺度空间极值检测:该阶段是在图像的全部尺度和全部位置上进行搜索,并通过应用高斯差分函数可以有效地识别出尺度不变性和旋转不变性的潜在特征点来;,2,、特征点的定位:在每个候选特征点上,一个精细的模型被拟合出来用于确定特性点的位置和尺度。而特征点的最后选取依赖的是它们的稳定程度;,3,、方向角度的确定:基于图像的局部梯度方向,为每个特性点分配一个或多个方向角度。所有后续的操作都是相对于所确定下来的特征点的角度、尺度和位置的基础上进行的,因此特征点具有这些角度、尺度和位置的不变性;,4,、特征点的描述符:在所选定的尺度空间内,测量特征点邻域区域的局部图像梯度,将这些梯度转换成一种允许局部较大程度的形状变形和亮度变化的描述符形式。,SIFT,斑点检测流程,3.2,斑点检测算法,3.2.4 SURF,斑点检测,SURF,算法包括下面几个阶段:,第一部分:特征点检测,1,、基于,Hessian,矩阵的特征点检测,2,、尺度空间表示,3,、特征点定位,第二部分:特征点描述,1,、方向角度的分配,2,、基于,Haar,小波的特征点描述符,积分图像,Hessian,矩阵特征点表示,尺度空间,3.2,斑点检测算法,3.3.1 BRIEF,描述子,BRIEF(Binary Robust Independent Elementary Features),与传统的利用图像局部邻域的灰度直方图或梯度直方图提取特征的方式不同,,BRIEF,是一种二进制编码的特征描述子,既降低了存储空间的需求,提升了特征描述子生成的速度,也减少了特征匹配时所需的时间,。,值得注意的是,对于,BRIEF,,,它仅仅是一种特征描述符,它不提供提取特征点的方法,。所以,如果你必须使用一种特征点定位的方法,如,FAST,、,SIFT,、,SURF,等。这里,我们将使用,CenSurE,方法来提取关键点,对,BRIEF,来说,,CenSurE,的表现比,SURF,特征点稍好一些。,3.3,特征描述子,3.3.1 BRIEF,描述子,BRIEF,的算法步骤如下:,先平滑图像,然后在特征点周围选择一个,Patch,,在这个,Patch,内通过一种选定的方法来挑选出来,个点对。然后对于每一个点对,(p,q),,我们来比较这两个点的亮度值,如果,I(p)I(q),则这个点对生成了二值串中一个的值为,1,,如果,I(p)I(q),,则对应在二值串中的值为,-1,,否则为,0,。所有,个点对,都进行比较之间,我们就生成了一个,长的二进制串,。,对于,的选择,我们可以设置为,128,,,256,或,512,,这三种参数在,OpenCV,中都有提供,但是,OpenCV,中默认的参数是,256,,这种情况下,非匹配点的汉明距离呈现均值为,128,比特的高斯分布。一旦维数选定了,我们就可以用汉明距离来匹配这些描述子了。,3.3,特征描述子,3.3.2 ORB,特征提取算法,ORB,对,BRIEF,的改进:,ORB,在计算,BRIEF,描述子时建立的坐标系是以关键点为圆心,以关键点和取点区域的形心(圆形)的连线为,X,轴建立坐标系;,计算形心时,圆形区域上每个点的质量是其对应的像素值。,ORB,特征,从它的名字中可以看出,它是对,FAST,特征点与,BREIF,特征描述子的一种结合与改进,,这个算法是由,Ethan Rublee,Vincent Rabaud,Kurt Konolige,以及,Gary R.Bradski,在,2011,年一篇名为,“ORB,:,An Efficient Alternative to SIFT or SURF”,的文章中提出。就像文章题目所写一样,,ORB,是除了,SIFT,与,SURF,外一个很好的选择,而且它有很高的效率,最重要的一点是它是免费的,,SIFT,与,SURF,都是有专利的,你如果在商业软件中使用,需要购买许可。,ORB,特征是将,FAST,特征点的检测方法与,BRIEF,特征描述子结合起来,并在它们原来的基础上做了改进与优化。,3.3,特征描述子,3.3.3 BRISK,特征提取算法,BRISK,的算法步骤如下:,第一步进行特征点检测,,,主要分为建立尺度空间、特征点检测、非极大值抑制和亚像素差值这四个部分;,第二步进行特征点描述,主要分为高斯滤波、局部梯度计算、特征描述符和匹配方法这四个部分。,BRISK,算法是,2011,年,ICCV,上,BRISK:Binary Robust Invariant Scalable Keypoints,文章中,提出来的一种特征提取算法,,也是一种二进制的特征描述算子。它具有较好的旋转不变性、尺度不变性,较好的鲁棒性等,。在图像配准应用中,速度比较:,SIFTSURFBRISKFREAK,卷积层,-,线性整流层,*N-,池化层,?*M-,全连接层,-,线性整流层,*K-,全连接层,堆叠几个卷积和整流层,再加一个池化层,然后再用全连接层控制输出。,上述表达式中,问号符号代表,0,次或,1,次,符号,N,和,M,则代表具体的数值。通常情况下,取,N=0&N=0,K=0&K,隐藏单元 隐藏单元,-,输出单元,在隐藏层增加了上下文单元,,上下文单元节点与隐藏层中的节点的连接是固定的,并且权值也是固定的,其实是一个上下文节点与隐藏层节点一一对应,并且值是确定的。,Simple-RNN,循环神经网络拓展与改进,双向神经网络的隐藏层要保存两个值,一个参与正向计算,另一个值则参与反向计算。双向循环神经网络的改进之处便是,假设,当前的输出不仅仅与前面的序列有关,并且还与后面的序列有关,。它是由两个循环神经网络上下叠加在一起组成的,而其输出则由这两个循环神经网络的隐藏层状态共同决定。,双向循环神经网络,循环神经网络拓展与改进,叠两个以上的隐藏层,,对于每一步的输入有多层网络。这样,该网络便有更强大的表达与学习能力,但是复杂性也提高了,同时需要更多的训练数据。,深度循环神经网络,循环神经网络拓展与改进,在长短期记忆网络中,最基本的结构单位被称为,cells,,可以把,cells,看作是黑盒用以保存当前输入,x_t,之前的保存的状态,h_(t-1),,这些,cells,更加一定的条件决定哪些,cell,抑制,哪些,cell,兴奋。它们结合前面的状态、当前的记忆与当前的输入。已经证明,该网络结构在,长序列依赖问题,中非常有效。,长短期记忆网络与门控循环单元网络,循环神经网络拓展与改进,可以看到它们之间非常相像,不同点在于:,(,1,)新生成的记忆的计算方法都是根据之前的状态及输入进行计算,但是门控循环单元中有一个重置门控制之前状态的进入量,而在长短期记忆里没有这个门;,(,2,)产生新的状态的方式不同,长短期记忆有两个不同的门,分别是遗忘门和输入门,而门控循环单元的结构相对简单,只有一个更新门;,(,3,)长短期记忆对新产生的状态有一个输出门可以调节大小,而门控循环单元直接输出无任何调节。,长短期记忆网络与门控循环单元网络,循环神经网络拓展与改进,本章总结,CHAPTER SUMMARY,FOUR,本章总结,本章首先介绍了,神经网络的基础感知器模型的原理及激活函数,相关内容,之后从原理及公式推导方面讲解了,神经网络的结构与前向传播及反向传播算法,,最后在普通神经网络的基础之上,详细介绍了,卷积神经网络,及,循环神经网络,的原理、结构、应用及,演变模型,。,作为深度学习及计算机视觉的基础及重要组成部分,,神经网络及卷积神经网络等是利用深度学习解决计算机视觉相关问题及应用的有力工具,,在对本章进行了充分的学习后,将会为之后章节有关计算机视觉具体任务及应用的学习做好准备。,计算机视觉,Computer Vision,第五章,物体分类与识别,目录,背景介绍,Contents,1,章节概述,2,小节介绍,3,本章总结,4,背景介绍,BACKGROUND,Every image tells a story.Computer vision develops theories and methods to allow computers to extract relevant information from digital images or videos.,ONE,S,W,Q,T,输入图像,图像特征提取,分类器,输出类别概率分布,图像分类基本流程,人工设计的图像描述符,如HOG,SIFT,SVM,决策树等,图像特征的设计难度很大,准确率提升难度大,传统机器学习方法,图像特征,分类器,缺点,图像分类方法,深度卷积神经网络,全连接神经网络(多层感知机),参数量大,学习能力强,但容易过拟合,需要大量计算资源,在大规模数据集和强大的GPU的支持下效率远高于传统机器学习方法,深度学习方法,图像特征,分类器,特点,图像分类方法,章节概述,CHAPTER OVERVIEW,Every image tells a story.Computer vision develops theories and methods to allow computers to extract relevant information from digital images or videos.,TWO,章节概述,本章将介绍深度学习复兴以来的经典的深度卷积神经网络,包括 DCNN 的开山之作 AlexNet、深度更深而结构优雅的 VGG 网络、性能优良的 GoogLeNet,以及大大提高网络深度的 ResNet,并针对这些网络的创新点、改进思路等逐一做分析。在最后对迁移学习做简要的介绍,从中了解使用迁移学习进行图像分类的两种常用策略。,小节介绍,SECTION INTRODUCTION,Every image tells a story.Computer vision develops theories and methods to allow computers to extract relevant information from digital images or videos.,THREE,5.1 从AlexNet到GoogLeNet,AlexNet、VGGNet 和 GoogLeNet 是早期深度卷积神经网络的典型代表,相较于更早之前的浅层网络,它们的网络深度有了相当大的提高,同时也针对网络加深带来的一系列问题,提出了一系列改进、优化的方法,奠定了深度学习的基础。,01,02,03,深度学习里程碑,AlexNet,大大提高了网络深度,VGGNet,增加网络深度的同时降低了模型复杂度,GoogLeNet,AlexNet,2006 年深度学习复兴以来,卷积神经网络应用到了许多任务中,包括图像分类和识别、人脸检测和语义分割等,同时也在场景解析、无人驾驶和手势识别中有很不错的应用。,尽管如此,早期深度学习仍然不是计算机视觉和机器学习的主流,直到 2012 年 ILSVRC上,Alex Krizhevsky 等人的全监督的深度卷积神经网络模型打破了分类任务的准确度记录,以高出第二名 10%的性能取得了冠军,Alex 将它起名为 AlexNet。AlexNet 是计算机视觉领域的革命性成果,从此深度卷积神经网络成为大多数视觉任务的主导的结构。,AlexNet 的创新点,Relu 激活函数,局部响应归一化,重叠池化(Overlap pooling),Relu 激活函数,与使用传统的 sigmoid 或者 tanh 作为激活函数不同,AlexNet 使用 Relu 作为激活函数,大大加快了训练速度。,sigmoid 或者 tanh 这两种函数最大的缺点就是其饱和性,当输入的 x 过大或过小时,函数的输出会非常接近+1 与-1,在这里斜率会非常小,那么在训练时,应用,梯度下降时,其饱和性会使梯度非常小,严重降低了网络的训练速度。,而 ReLU 的函数表达 式为 max(0,x),当 x0 时输出为 x,斜率恒为 1,在实际使用时,神经网络的收敛速度要快 过传统的激活函数数十倍。对于一个四层的神经网络,利用 CIFAR-10 数据集进行训练,使用ReLU 函数达到 25%错误率需要的迭代数是 tanh 函数所需迭代数的六分之一。而对于大型的数据集,使用更深的神经网络,ReLU 对训练的加速更为明显。,局部响应归一化,受到局部对比归一化的启发,AlexNet 使用了局部响应归一化(Local Response Normalization)。,在使用饱和型的激活函数时,通常需要对输入进行归一化处理,以利用激活函数在 0 附近的线性特性与非线性特性,并避免饱和,但对于 ReLU 函数,不需要输入归 一化。然而,Alex 等人发现通过 LRN 这种归一化方式可以帮助提高网络的泛化性能。,LRN 的作用就是,对位置(x,y)处的像素计算其与几个相邻的 kernel maps 的像素值的和,并除以这个和来归一化。kernel maps 的顺序可以是任意的,在训练开始前确定顺序即可。在 AlexNet 中,LRN 层位于 ReLU 之后。在论文中,Alex 指出应用 LRN 后 top-1 与 top-5 错误率分别提升了1.4%与 1.2%。,重叠池化(Overlap pooling),通过 overlapping pooling(池化的大小大于步进),Alexnet 进一步降低了分类误差。作者提到,使用这种池化可以一定程度上减小过拟合现象。,AlexNet 的总体结构,AlexNet包括由5个卷积层组成的特征特征提取网络和3个全连接层组成的分类器,数据增强,Dropout,AlexNet 整个网络一共有六千万个参数,很容易产生过拟合的现象。,对抗过拟合,数据增强,1.随机裁剪和水平翻转,对原始的 256x256 大小的图片随机裁剪为 224x224 大小,并进行随机翻转,这两种操作相当于把训练集扩大了 32x32x2=2048 倍。,在测试时,AlexNet 把输入图片与其水平翻转在四个角处与正中心共五个地方各裁剪下 224x224 大小的子图,即共裁剪出 10 个子图,均送入 AlexNet 中,并把 10 个 softmax 输出求平均。,如果没有这些操作,AlexNet 将出现严重 的过拟合,使网络的深度不能达到这么深。,2.主成分分析,AlexNet 对 RGB 通道使用了 PCA(主成分分析),对每个训练图片的每个像素,提取出 RGB 三个通道的特征向量与特征值,对每个特征值乘以一个,是一个均值 0.1 方差服从 高斯分布的随机变量。,Dropout,对每个神经元设置一个,被,保留的概率keep_prob,如果神经元没被保留,那么这个神经元的输出将被设置为 0,在梯度反向传播时,传播到该神经元的值也为 0,因此可以认为神经网络中不
展开阅读全文