基于中层特征的精细图像分类论文-学位论文.doc-资源下载-咨信网-让知识获取变得高效

基于中层特征的精细图像分类论文-学位论文.doc

1、基于中层特征的精细图像分类摘要现如今，图像处理中目标分类与检测越来越多的得到了人们的关注与研究。目标分类一般分为两种，一种是基础图像分类，另一种是越来越受到人们关注的精细图像分类。基础图像分类是为了区分具有不同形状以及视觉特征的物体（例如给出一个鸟的图片，基础图像分类就是为了要区分出这张图片是鸟的图片还是狗的图片）。精细图像分类则是要区分具有相似形状以及外貌特征的物体（例如给出一副鸟的图片，精细分类就是要判断出这只鸟究竟属于哪一类鸟）。在这篇文章中，我们主要研究了图像的精细分类问题，在现实生活中它比图像的基础分类更加具有实用性。我们所使用的数据库是目前比较有挑战性的CUB-200

2、以及Stanford_Dogs数据库。我们结合了高效匹配核函数（EMK）与带有权重的空间金字塔以达到最优的分类表现。实验用EMK与词包（BoW）作对比，其中，BoW也可以看做是一种核函数匹配方法，EMK是找出词表主要成分的相互关系，并且在核函数的框架中找到一种新的映射。EMK是通过映射，将局部特征映射到一个低维的特征空间并且将结果向量平均化以形成一个特征层集合。实验结果表明，这可以很好的改进系统的性能。关键词：高效匹配核函数（EMK）；词包（BoW）；细粒度图像分类 ABSTRACT In recent days, object classification and detecti

3、on in image processing are getting more and more attention and research. Object classification include two sides, one is basic classification, another is fine-grained classification which attract more and more people to study. basic classification is to classify the object which have the different s

4、hapes and visual appearance(e.g.: for a picture of bird,the basic classification is to identify the object in the picture is a bird or dog ). Fine-grained classification is to classification the object with the similar shapes and visual appearance(e.g.: for a picture of bird,the fine-grained classif

5、ication is to identify which kind of birds it belongs to). In this paper, we study the problem of fine-grained image categorization, which is much more useful in real applications than basic image classification. Based on the most challenge dataset, CUB-200, Stanford_Dogs_Dataset. We combine Effici

6、ent match kernel (EMK) with the weighted spatial pyramid to achieve state-of-art performance. Comparison with BoW, which can also be viewed as kernel matching approach, EMK digs the relations among vocabulary bases and finds a new mapping in kernel framework. By it, local features are mapped to a lo

7、w dimensional feature space and average the resulting vectors to form a set level feature in EMK. It is proved that it is helpful to improve the system performance. 第1章绪论 1.1精细图像分类的研究背景及意义伴随着网络和多媒体技术的飞速发展，越来越多的声音、图形、图像、视频和动画等数字信息越来越多的出现在人们的工作、学习和生活当中。而图像作为一种内容丰富、表现生动的媒体信息，也越来越受到了人们的关注。在现实生活中，时时

8、刻刻都会有大量的图像产生，对于如何从这些给定的图像信息中找出符合人们所需求的图像就是研究者们需要解决的问题。图像分类其实就是模式识别的过程，它是利用计算机来对图像进行定量分析，把图像中的每个像素元或区域转化成一种计算机识别的特征类别，用来代替人的视觉判读。现如今百度、google等网络公司使用的都是传统的图像分类方法，为了能够实现图像更精确的分类也都有做图像精细分类方面的研究，如果可以实现图像的精细分类，那么在网络搜索中，我们可以快速的实现图像的匹配，以此来实现精确图像的搜索。而不会像在传统的图像分类中那样，在图像匹配方面只能实现粗略的匹配而使得图像搜索结果多而不精。随着智能机器的不断

9、发展进步，人们对于图像分类的要求越来越高，它要求我们对于图像能够实现越来越精细的分类。而传统的图像分类只能进行粗略的图像分类，它一般都是利用图像的纹理、灰度、形状位置等底层特征对图像进行分类，而在图像的搜索查找方面一般都是选用关键词来进行查找。而在本文中，我们所要实现的是图像分类能够根据图像的底层特征以及利用中层特征思想的方法来实现图像的精细分类，并且可以根据未知图片来搜索相关信息。 1.2国内外研究现状基于精细图像分类的研究是从11年以后才开始有相关研究的，且只有斯坦福大学、加利福尼亚大学等少数的学校在做。其中以斯坦福大学Li Fei-Fei等人在2011年、2012年在CVPR上发表

10、的Combining Randomization and Discrimination for Fine-Grained Image Categorization以及A Codebook-Free and Annotation-Free Approach for Fine-Grained Image Categorization最为突出。下面我们介绍几种图像分类的方法。 1、基于编码簿（code book）的编码方法现如今大多数的最优的图像分类系统是基于局部图像块编码的视觉代码，但是这种视觉代码是经常导致图像块详细信息丢失的粗糙编码。现如今，一些最新的研究开始使用稀疏编码SC（Sparc

11、e Code）来获得更准确的图像块编码，并且这种方法已被证明在许多的图像分类的任务中使得分类性能得到了改进。但是在这种方法中，图像信息的丢失也是没有办法避免的。 2、基于注释的方法图像分类中，为了在细粒度分类问题中说明重要目标的特性以及与其它的相似目标的细微区别，越来越多的工作都试图从人类方面来吸收更多的输入信息，包括要求人们点击目标区域、回答关于目标特性问题的人类循环方法。它是一个关于鸟类识别的改进的postlet-like算法，并且在Caltech-UCSD鸟类数据库中获得了良好的性能。但是这种方法需要人们对于目标特性或者关键点位置的冗长的注释，这对那些需要全自动学习来进行区分图像信

12、息的情况构成了严峻的考验。而且将这种方法使用到新的细粒度目标层中所需要付出的代价是很昂贵的，因为特征查询和目标关键点通常需要由领域的专家仔细设计，尤其是那些没有明显关键区域或者直接特性的目标，例如树、水、食物等等。 3、基于模板的方法基于模板的算法是一个需要获得带有大量随机生成的映像模板来匹配图像特征响应的映射。这种方法在思想上类似于最近大量使用的各种预定义滤波器来生成图像响应特征的研究，例如目标检测，人体部分探测器以及图像区域的聚类中心。虽然这些方法在基础层目标和场景分类任务中已经展现了很好的结果，但是它们仍然面临着粗糙编码或者冗长的人类注释的问题，而且这些代表方法目前还没有一个用在细

13、粒度图像分类上。 4、细粒度图像分类方法细粒度图像分类方法是用各种数据库来进行细粒度图像分类，它是最近研究比较多的。这种方法可以识别数据中的具有相似外表的图像。这也是我们这次设计的主要思想，具体详见下文。 5、其它图像分类方法这些超出了我们这篇文章的讨论大型目标分类工作的范畴，例如一些基于局部模型工作在最小范围的分类目标或从背景中局部化目标可以完成的很好。然而，在怎样使用这些方法来区分那些有相似视觉外表的细粒度目标并且展示这些目标的的重要部分还不清楚。 1.3文章框架精细图像分类是解决限制人类视觉效能以达到区分相似目标的有效方法。例如当人看到一种自己并不认识的花或鸟时，很想知

14、道这种花或鸟的具体名称以及其相关信息，但是人的视觉以及学识可能会不能帮助人们区分这种花或鸟，这时，细粒度图像分类就会帮助人们来解决这个问题。而在文章中，我们主要想做的也是细粒度图像分类，这种方法亦可以广泛扩展到其它领域中，并且其分类范围也可以广泛运用到任何的数据库中。在文章中，为了实现图像的细粒度图像分类，整个实验步骤如图1-1： BoW SVM 空间金字塔特征提取使用包围盒截取图片图片 RF EMK 图1-1 细粒度图像分类实验过程文章我们采用了以下框架： 1、特征提取在文章的第二章中我们介绍了整个程序中的特征提取，而在特

15、征提取的过程中，我们采用了两种特征描述子来提取图片的特征信息以作后续分类结果的对比。而这两个特征我们采取了尺度不变特征转换（SIFT）特征以及方向梯度直方图（HOG）特征。对全文的精细图像分类起到基础作用。 2、使用中层特征在文章的第三章中，我们介绍了将第二章中所提取的特征进一步处理以达到我们的精细图像分类要求。在这一章中，我们介绍了我们在实验过程中所用到过的词包（BoW，Bag of Word），高效匹配核函数（EMK，Efficient Match Kernel）以及空间金字塔（SP，Spatial Pyramid）。对比了相互之间的关系以及差别，对全文的精细图像分类起到很重要的作用

16、 3、分类器介绍在文章的第四章中，我们介绍了本实验的最后一步匹配环节，在这一环节中，我们使用了支持向量机（SVM，Support Vector Machine）以及随机森林（RF，Random Forest）这两种方法。在第四章中，我们重点介绍了每种分类器的特点、结构以及优缺点。 4、实验环节在文章的第五章中，我们介绍了整个文章的实验环节。首先介绍了我们实验中所使用的数据库，之后介绍了实验结果以及实验结果分析。第2章底层特征文章中对于底层特征的描述，我们采用了局部描述子SIFT特征以及HOG特征，对于这两种基本特征的详细描述如下。 2.1 SIFT算法介绍尺度不变

17、特征转换(Scale-invariant feature transform或SIFT)是David Lowe在1999年提出的一种局部特征描述子算法，并且在2004年进行了更深入的发展和完善。SIFT算法是一种电脑视觉的算法，它可以用来检测与描述图像中的局部性特征。该算法通过求一幅图片中的特征点（interest points,or corner points），包括这些特征点的尺度（scale）以及方向（orientation）的描述子来得到特征描述子，并进行图像特征点匹配，这种方法获得了良好效果。 SIFT特征不仅仅具有尺度不变性，即使改变其图像亮度、旋转角度或拍摄视角，仍然能够得到好

18、的检测效果。而且对视角变化、噪声也能够保持一定的稳定性。整个SIFT算法分为以下几个部分： 1、尺度空间的极值检测：第一阶段的计算搜索了所有的尺度和图片位置信息。通过使用差分高斯（difference-of-Gaussian或DoG）函数来有效的区分具有潜在的尺度以及方向不变的兴趣点； 2、关键点定位：在每一个可能的位置，找出具有决定性的位置和尺度所匹配的详细模型，然后基于它们的稳定性来选择关键点； 3、分配方向：基于局部图像的梯度方向，每一个关键点位置都被分配了一个活多个方向。对于图像数据都会转换成相应的特征点，而每个特征点都会分配尺度、方向以及位置信息，这些是以后我们图像分类操

19、作的基础，因此，我们应提供这些转换过程一个不变性； 4、关键点描述子：局部图像的梯度是由我们所选择的在每个关键点周围区域的尺度得出来的，这些使得在光照改变以及发生局部形变时这些特征点仍具有代表性。 2.1.1SIFT算法的具体步骤： 1、构建尺度空间首先，要构建一个尺度空间，这是一个初始化的操作，该尺度空间理论的目的在于模拟图像数据的多尺度特征。Koenderink (1984) and Lindeberg (1994)已经证明，在各种合理的假设下，高斯函数是唯一可能的尺度空间函数。由于高斯卷积核是实现尺度变换的唯一线性核，因此，我们可以将一副图像的尺度空间定义为：

20、 (2-1) 其中，‘*’代表卷积运算，是尺度可变高斯函数，在公式（2-1）中（x，y）是空间坐标，同时也是尺度坐标。值的大小决定图像的平滑程度，大尺度对应图像的概貌特征，小尺度则对应图像的细节特征。大的值对应粗糙尺度（低分辨率），反之，则对应精细尺度（高分辨率）。不同所对应的尺度空间如下图：图2-1 不同所对应的尺度空间为了能够有效的在尺度空间检测稳定的关键点坐标，Lowe于1999年提出了使用高斯差分尺度空间（DOG scale-space）来计算尺度空间的极值。它是利用不同尺度的高斯差分核函数来卷积图像I生成。可以由两个被一常量因子所分开的相邻尺度间的

21、差别来计算。即 (2-2) 对于选择这个函数的方法有很多种。首先，这个函数要是一个能计算出来的有效函数，例如给出一副平滑图像，我们需要在任意尺度空间特征描述子情况下都能计算出L,而D能由简单的图像差分来计算。除此之外，由Lindeberg (1994).的研究我们可以得到，高斯差分函数可以近似的看做一种高斯函数的拉普拉斯标准尺度变换，。Lindeberg研究表明，带有因子的拉普拉斯变换的标准化需要尺度不变性。在详细的实验对比中，Mikolajczyk (2002)发现，的最大值和最小值相比于其它的如梯度或者Harris角函数这些可能的图片函数所得到的图片特征更加稳定。和之间的关系就

22、参数而言可以从热扩散方程方面理解。即（2-3）从公式（2-3）可以看到，可以由有限差分逼近来计算，这就利用了在以及这两个相邻出度空间的的不同处，即（2-4）因此有：（2-5）公式2-5表明，当差分高斯函数具有尺度而不同于一个常量时，它就已经包含了标准化所需的拉普拉斯尺度不变性。方程中的在所有的尺度中都是一个常数，因此不会影响到极值的定位。近似误差也会由0到1，但是在实际实验中，近似误差对极值检测的稳定性或在尺度中显著差异的定位几乎没有影响。在SIFT算法过程中，一般要建立图像金字塔：如何建立图像金字塔如下：对于一幅图像I，需要建立其在不同尺度（scale）的图像

23、也称为塔或子八度（octave），这是为了图像能够具有尺度不变性（scale-invariant），也就是在任何尺度都能有对应的特征点，第一层子八度的尺度为原图大小，后面的每一层子八度都为其上一层子八度降采样的结果，即为原图的1/4（长宽分别减半），构成了下一个子八度（高一层的金字塔）。例如1塔的第0层可以由0塔的第3层down sample得到，然后进行与0塔类似的高斯卷积操作。如何建立一个有效的可以由图2-2得到：图2-2：图像的左侧表示对于每一个尺度空间的子八度，初始化后的图片就会由高斯函数不停的卷积以生成图像尺度空间的集合。图的右侧表示，相邻的高斯图像依次相减以生成差分高

24、斯图像。在每一个八度后，高斯图像进行降采样。之后过程重复。首先，最初的图像逐渐由高斯函数进行卷积，生成被常数在尺度空间内分割的图像，即图2-2的左边部分。我们选择将尺度空间中的每一个子八度分成s层，所以就有，而对于每一个子八度中的大量模糊图片，我们必须生成幅图片，这样最后的极值检测才能覆盖整个的子八度。相邻的图像尺度相减后得到图2-2中右面的差分高斯图像。在完成该尺度空间的处理后，我们就会以重新采样高斯图像。关于的采样准确率和之前子八度的采样准确率是没有差别的。但是计算却简单了很多。一般来说，我们由图片的大小来决定建几个子八度，每层子八度几层图像(S一般为3-5层)。0层子八度的第0层

25、是原始图像(或是我们取双精度（double）后的图像)，往上每一层是对其下一层进行差分高斯卷积变换（其中σ值是越来越大的，例如可以是, , 等等），从直观上看，越往上图片就越模糊。 2、局部极值点检测为了检测局部的极大值与极小值，每一个样本点都要和它周围所有的相邻点比较，看其是否比它的图像域和尺度域的相邻点的大或者小。即每个样本点都要和它周围同尺度的八个点以及上下相邻两层的个点，共26个点进行比较，以确保在尺度空间和二维图像空间都检测到极值点。一个点如果在DOG尺度空间本层以及上下两层的26个领域中是最大或最小值时，就认为该点是图像在该尺度下的一个特征点,如图所示。图2-3：

26、差分高斯图像的极大值与极小值的检测，是通过比较一个像素点在的区域内与其相邻的26个相邻像素点的比较得来的在极值比较的过程中，同一组中的相邻尺度（由于k的取值关系）肯定是上下层之间进行寻找，每一组图像的首末两层是无法进行极值比较的，为了满足尺度变化的连续性，我们在每一组图像的顶层继续用高斯模糊生成了3幅图像，高斯金字塔有每组S+3层图像。DOG金字塔每组有S+2层图像。 3、关键点定位一个可能的关键点已经经由对比像素周围的值得到，第二步就是要形成一个详细的适合位置、尺度和主曲率的数据。这就允许我们放弃一些具有低对比度（对噪声比较敏感）的点，或者在图像边缘的边缘响应点。这种方法的初

27、步实现仅仅是定位在某一位置、尺度的中央采样点处确定关键点。然而，最近Brown提出了一个新的方法来确定关键点。它通过拟和三维的二次函数到局部采样点，以检测最大值的曲线位置。实验证明，这个方法对图像的匹配和稳定性具有实质性的改进。（1）去除低对比度的点这个方法使用了尺度空间函数泰勒展开式（展开到二次项），所以在采样点处，公式（2-2）可以转换成：（2-6）其中D和它的一维及二维导数在采样点处均可求，是采样点处的补偿。将公式（2-6）对x求导，并令导数为0，得到的即可得到精确位置，即：（2-7）正如Brown 提出的那样，Hessian 和D的导数在通过使用不同的相邻的采样

28、点是近似的。的线性系统可以以最小的消耗来得到解决。如果在任一维度的值大于0.5，这就说明极值点考进来一个不同的采样点，这种情况下，采样点就会由插入的采样点代替。最后的代入采样点的位置以获得插值的极值点。将公式（2-7）代入公式（2-6）中即可得到极值，它可以有效的去除低对比度的关键点和不稳定的点。为：（2-8）若，该特征点就保留下来，否则就舍去。（2）去除边缘响应点为了特征点的稳定，光去除低对比度的点是不够的，边缘点对于高斯差分函数有强烈的影响。因为边缘响应点是不容易确定的，因此，即使一点点的噪声也会对边缘点残生很大的干扰。一个定义不好的高斯差分函数的极值在横跨边缘的

29、地方有较大的主曲率，而在垂直边缘的方向有较小的主曲率。主曲率可以通过一个的Hessian矩阵H求出: （2-9） D的主曲率和H的特征值成正比，借用Harris and Stephens (1988)的方法，我们可以避免明确的结算特征值，因为我们只需要考虑它们的比例问题。令α为较大特征值，β为较小的特征值，我们可以从H以及行列式中计算出特征值的和：（2-10）（2-11）令r为最大特征值与最小特征值之间的比率，即令，有；（2-12）由此可见，这个公式仅取决于特征最大值与最小值的比例r，的值在两个特征值相等的时候最小，随着r的增大而增大，因此，为了检测主曲率是否在某域值

30、r下，只需检测（2-13）如果则舍掉，对于本文章来说，我们通常按Lowe文章中的经验值取。 4、方向分配上一步中我们确定了每幅图中的特征点，接下来要为每个特征点计算一个方向，对于每一个基于局部图像特性的关键点分配一个一直的方向，则关键点描述子就会由它的方向表示，这个方法和Schmid andMohr (1997)的方向不变描述子具有相似性。在这里，每一幅图片的特性都是由旋转不变性测量来的。关键点的尺度用来寻找高斯平滑图像L，依照这个方向做进一步的计算，对每一幅图像在某一尺度进行采样得，梯度幅值为和方向。利用关键点邻域像素的梯度方向分布特性为每个关键点指定方向参数，使算子具备

31、旋转不变性。（2-14）公式（2-14）为(x,y)处梯度的模值和方向公式。其中L所用的尺度为每个关键点各自所在的尺度。至此，图像的关键点已经检测完毕，每个关键点有三个信息：位置，所处尺度、方向，由此可以确定一个SIFT特征区域。由关键点区域内的梯度方向的采样点可以形成梯度直方图。梯度直方图的范围是0～360度，其中每10度一个柱，总共36个柱。随着距离中心点越远的领域其对直方图的贡献也响应减小. 在实际计算时，我们在以关键点为中心的邻域窗口内采样，并用直方图统计邻域像素的梯度方向。梯度直方图的范围是0～360度，其中每45度一个柱，总共8个柱, 或者每10度一个柱，总共36个柱

32、直方图的峰值则代表了该关键点处邻域梯度的主方向，即作为该关键点的方向。图2-4直方图中的峰值就是主方向，其它的达到最大值80%的方向可作为辅助方向图2-5由梯度方向直方图确定主梯度方向图2-6通过对关键点周围图像区域分块，计算块内梯度直方图，生成具有独特性的向量，这个向量是该区域图像信息的一种抽象，具有唯一性。 5、局部图像描述子首先将坐标轴旋转为关键点的方向，以确保旋转不变性。以关键点为中心取8×8的窗口。图2-7：16*16的图中其中1/4的特征点梯度方向及scale，右图为其加权到8个主方向后的效果。图中的左部分的中央为当前关键点的位置，每个

33、小格代表关键点邻域所在尺度空间的一个像素，利用公式求得每个像素的梯度幅值与梯度方向，箭头方向代表该像素的梯度方向，箭头长度代表梯度模值，然后用高斯窗口对其进行加权运算。图中蓝色的圈代表高斯加权的范围（越靠近关键点的像素梯度方向信息贡献越大）。然后在每4×4的小块上计算8个方向的梯度方向直方图，绘制每个梯度方向的累加值，即可形成一个种子点，如图右部分示。此图中一个关键点由2×2共4个种子点组成，每个种子点有8个方向向量信息。这种邻域方向性信息联合的思想增强了算法抗噪声的效能，同时对于含有定位误差的特征匹配也提供了较好的容错性。计算关键点周围的16*16的窗口中每一个像素的梯度，而且使用高

34、斯下降函数降低远离中心的权重。图2-8：在每个4*4的1/16象限中，通过加权梯度值加到直方图8个方向区间中的一个，计算出一个梯度方向直方图。这样每个特征就可以形成一个维的描述子，每一维都可以表示个格子中一个的尺度或方向。将这个向量归一化之后，就进一步去除了光照的影响。最后经过SIFT运算后得到的图像特征点如图所示：图2-9 狗和鸟类的特征点提取 2.1.2 SIFT算法的特点： SIFT特征作为局部特征，它是基于物体上的一些局部外观的兴趣点形成的，与影像的大小和旋转无关。对于光线、噪声、些微视角改变的容忍

35、度也相当高。它的信息量大，适合在大亮点数据库中做快速准确匹配。SIFT算法的优缺点： 1. SIFT特征是图像的局部特征，其对旋转、尺度缩放、亮度变化保持不变性，对视角变化、仿射变换、噪声也保持一定程度的稳定性； 2. 独特性（Distinctiveness）好，信息量丰富，适用于在海量特征数据库中进行快速、准确的匹配； 3. 多量性，即使少数的几个物体也可以产生大量的SIFT特征向量； 4. 高速性，经优化的SIFT匹配算法甚至可以达到实时的要求； 5. 可扩展性，可以很方便的与其它形式的特征向量进行联合； 6、缺点是SIFT特征为128维，维数高、且是不完全的仿射不变。 2.

36、2 HOG特征方向梯度直方图（Histogram of Oriented Gradient, HOG）特征是一种在计算机视觉和图像处理中用来进行物体检测的特征描述子。它通过计算和统计图像局部区域的梯度方向直方图来构成特征。 HOG特征是一种局部区域描述符,它通过计算局部区域上的梯度方向直方图来构成人体特征,能够很好地描述人体的边缘。而且它对光照变化和小量的偏移不敏感。 2.2.1 36维HOG特征提取算法的实现 HOG特征提取步骤如下：（1）颜色空间灰度化在HOG算法中由于颜色信息的作用不大，所以我们通常将所要检测的图像先转化为灰度图像（即将要检测的图像看作一个灰度的三维图

37、像）在进行HOG特征提取。（2）标准化gamma空间为了减少光照因素的影响，首先需要将整个图像进行规范化（归一化）。在图像的纹理强度中，局部的表层曝光贡献的比重较大，所以，这种压缩处理能够有效地降低图像局部的阴影和光照变化。在文中采用Gamma校正法对输入图像进行颜色空间的标准化（归一化）；目的是调节图像的对比度，降低图像局部的阴影和光照变化所造成的影响，同时可以抑制噪音的干扰；压缩图像的方法是将院图像进行（gamma）幂指数处理。即Gamma压缩公式为：（2-15）一般可以取Gamma=1/2。（3）梯度计算检测器的性能对梯度的计算方法是非常敏感的，但是最简单的方法被

38、证明也是最好的方法。我们在一个离散导数后使用高斯平滑计算图像横坐标和纵坐标方向的梯度，并据此计算每个像素位置的梯度方向值。求导操作不仅能够捕获图像的轮廓，人影和一些纹理信息，还能进一步减弱光照对此的影响。在一幅图像中像素点(x,y)的水平以及垂直梯度为：（2-16）式中分别表示输入图像中像素点处的水平方向梯度、垂直方向梯度和像素值。像素点处的梯度幅值和梯度方向分别为：（2-17）一般来说，最常用的求梯度的方法是：首先用[-1,0,1]梯度算子对原图像做卷积运算，得到x轴方向（水平方向，以向右为正方向）的梯度分量的梯度，然后用[1,0,-1]T梯度算子对原图像做卷积运算，

39、得到y轴方向（竖直方向，以向上为正方向）的梯度分量的梯度y。然后再利用公式（2-17）计算该像素点的梯度大小和方向。（4）为每个细胞单元构建梯度方向直方图我们将图像分成若干个“单元格（cell）”，例如一个单元格为6*6个像素。假设我们采用9个通道的直方图来统计这6*6个像素的梯度信息。那么也就是将单元格的梯度方向360度分成9个方向块。起初令方向块的每一个的值都为0，当单元格内的像素的梯度方向在某一方向块内，则这一方块的值加1。例如，如果这个像素的梯度方向是20-40度，符合直方图的第二个方向块，则直方图的第2个方向块内的计数就加一。这样，对单元格内每个像素用梯度方向在直方图中进行加

40、权投影（映射到固定的角度范围），就可以得到这个单元格的梯度方向直方图了，就是该单元格对应的9维特征向量（因为有9个方向块）。如图所示：图2-10将360度分成9个方向块梯度大小就是作为投影的权值的。例如：某一像素的梯度方向是20-40度，假设它的梯度大小是2，那么直方图第2个方向块的计数就是加2。（5）合并细胞单元，归一化梯度直方图由于局部光照的变化以及前景-背景对比度的变化，使得梯度强度的变化范围非常大。这就需要对梯度强度做归一化。归一化能够进一步地对光照、阴影和边缘进行压缩。我们所采取的办法是：将各个细胞单元组合成一个大的、空间上连通的区域块（b

41、locks）。在我们的实验中，一般采用Dalal提出的Hog特征提取，也就是每相邻的4个细胞单元构成一个区域块（block）。通常情况下，我们所使用HOG特征中一般都采用9个方向块，即每个细胞单元有9个特征。所以每个区域块内就有个特征向量。这样由于每个细胞单元这样，一个块内所有单元格的特征向量串联起来便能得到这个块内的HOG特征。但是这些区域块有些是相互重叠的，这也就意味着：每一个单元格的特征会以不同的结果，重复出现在最后的特征向量中。我们将归一化之后的块描述子（向量）就称之为HOG描述子。（6）合并HOG特征将各个区域块中的特征描述子串联起来就可以得到该图像的HOG特征描述子，即最后

42、的HOG特征向量。例如一副64*128维的图像，以8个像素点为步长，那么在该图像的水平方向将会有8个扫描窗口，垂直方向将会有16个扫描窗口，则该图像所能得到的HOG特征向量为8*16*36，共有8*16*36=4608个特征。图像36维HOG特征示意图如下：图2-11 狗和鸟的36维HOG特征 2.2.2 HOG特征的降维在本实验中，我们采用的是31维的HOG特征。这一特征是从大量各种分辨率的图片中收集了很多36维的HOG特征，并在这些特征向量上进行主成分分析（PCA）分析得来的。图2-12展示了分析出的主成分，从中我们发现了很多有趣

43、的现象。图2-12HOG特征的PCA分析。由图2-12可以看到，每个特征向量(eigenvector)都显示为的矩阵，所以每一特征向量的一行对应一个归一化因子，每一列对应一个方向块。每个特征向量所对应的特征值在特征向量上方。由前11个主特征向量所定义的线性子空间基本上包含了HOG特征的所有信息。注意到，所有主特征向量沿着其矩阵表达的行或列是定值。由前11个主特征向量(eigenvector)所定义的线性子空间基本上间包含了HOG特征的所有信息。实际上，我们用起初的36维特征以及向主特征向量投影所得到的11维特征在目标分类上所得到的结果都差不多。而且使用低维特征可以产生参数较少

44、的模型，并且能够加速学习和检测算法。但是由于在计算特征金字塔的时候需要相对比较耗时的投影步骤，这就减少了获得的加速优势。 36维的HOG特征向量是来自4个不同的归一化的9维方向直方图，所以36维的HOG特征向量也可以很自然地看做一个的矩阵。而在图2-12中的主特征向量中，有一个非常特殊的结构：它们沿其矩阵表达的行或列(近似)是定值。所以主特征向量所依赖的线性子空间可由沿其矩阵表达的某一行或列为定值的稀疏向量定义。令，其中和都是36维向量，其的矩阵表达式满足下列条件：（2-18）（2-19），例如，，定义一个13维向量，其中的元素是36维HOG特征与每个和的点积。HOG

45、特征向每个的投影并通过计算对应方向的4个归一化值的和(即矩阵表达的某列的和)来获得，HOG特征向每个的投影通过计算对应归一化方法的9个方向值的和(即矩阵表达的某行的和)来获得。(注：13维特征并不是36维特征向量V的线性投影，因为和不是正交的。事实上，由V定义的线性子空间的维数是12) 使用11维PCA特征和使用36维HOG特征或由V定义的13维特征进行图像分类可以获得同样的性能表现。然而，由于和是稀疏向量，所以计算由V定义的13维特征比计算向PCA主特征向量的投影要简单的多。此外，13维特征有还可以看做是9个方向特征和反应单元格周围区域的梯度能量的4个特征。我们也可以定义对比度敏感的

46、低维特征。我们发现有些目标类别适合使用对比度敏感特征，有些目标类别又适合用对比度不敏感特征。所以在实际中我们既使用对比度敏感特征又使用对比度不敏感特征。设C是聚合有9个对比度不敏感方向的像素级特征映射而获得的基于单元格的特征映射，D是聚合有18个对比度敏感方向的像素级特征而获得的基于单元格的特征映射。定义C和D的4种归一化因子。可以获得一个4*(9+18)=108维的特征向量F(i,j)。实际中我们使用的是此108维向量的一个解析投影，此投影由下面几个统计量定义：27个在不同归一化因子上的累加和(即列的和)，F中的每个方向通道对应一个；以及4个在不同方向(9维对比度不敏感方向)上的累加和(

47、即行的和)，每个归一化因子对应一个。最终的特征映射是31维向量 G(i,j)，其中27维对应不同的方向通道(9个对比度不敏感方向和18个对比度敏感方向)，其中4维捕获(i,j)周围4个单元格组成的block的梯度能量。形成31维特征向量的解释图如图：图2-13 31维特征向量解释图下图为利用31维HOG特征所提取的狗和鸟的图像特征示意图：图2-14 狗和鸟的31维HOG特征 2.2.3 HOG特征优缺点：与其它的特征描述方法相比，HOG有很多优点。 1、 HOG表示的是边缘梯度的结构特征，因此可以用来描述局部形状信息；

48、2、 HOG特征在位置和方向空间的量化，在一定程度上可以抑制图像旋转和平移所带来的影响； 3、 HOG特征将局部区域也归一化成直方图，这样可以减弱光照变化所带来的影响； 4、由于在HOG特征中可以忽略光照对图像的影响，使得图像所需要表示特征的数据位数降低； 5、由于HOG特征有将数据进行分块和分单元格的处理方式，使得图像的局部像素点之间的关系得到很好的表达。 HOG的缺点： 1、 HOG的特征描述子生成过程比较长，这样就使得提取特征的速度较慢，实时性差； 2、 HOG特征很难处理遮挡的图像； 3、由于梯度自身的性质，HOG特征对噪声比较敏感。 2.3 小结 HOG及SI

49、FT算法都是局部特征，其中Hog没有旋转和尺度不变性，因此计算量小；而SIFT中每个特征需要用128维的向量来描述，因此计算量相对很大。对于两种不同的底层特征，各有其自身优势。所以我们选用这两个特征作为本实验的底层特征。 3、中层特征目前，基于局部特征的模型在视觉目标分类中都取得了较好的结果。而中层特征就是利用这些原始的图像的特征向量将其进行整理，以使原始图像的局部特征向量更具有代表性，能更好的实现目标分类。在这一章中，我们重点介绍了我们所使用的中层特征有：词包（BoW）模型以及高效匹配核函数（EMK）模型。具体介绍见下文。 3.1 BoW（Bag of Word）模型 BoW

50、模型的全称为Bag of Words，早先是为了处理文本数据而在文本处理领域提出的一种简单有效的分类方法。由于其简单易行的原理，图像分类领域中也开始使用这种分类模型。本节我们将对BoW这一经典模型的概念以及具体实现进行详细的阐述。由于图像可以类比为文档(document), 图像中的单词(words)可以定义为一个图像块(image patch)的特征向量. 那么图像的BoW模型即是 “图像中所有图像块的特征向量得到的直方图”。将图像表达为BoW模型的类似于图像3-1：图3-1 对于图像的BoW模型表示示意图 BoW的关键之处在于将局部特征描述子映射到一个新的特征空间空间中去，而

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？