行人检测综述报告.doc_咨信网zixin.com.cn

资源描述

1、(完整word)行人检测综述报告基于深度神经网络的行人检测综述摘要:行人检测是汽车自动驾驶的基础技术之一。基于深度神经网络模型的行人检测方法取得的效果已经远超于使用传统特征经行识别得到的效果。仿生物视觉系统的卷积神经网络作为深度学习的重要组成、在图像、语音等领域得到了成功应用.其局部感受野、权值共享和降采样三个特点使之成为智能机器视觉领域的研究热点.通过增加网络层数所构造的深层神经网络使机器能够获得抽象概念能力,在诸多领域都取得了巨大的成功，又掀起了神经网络研究的一个新高潮.本文回顾了神经网络的发展历程，综述了其当前研究进展以及存在的问题，展望了未来神经网络的发展方向.关键词：行人检测；卷积神

2、经网络；深度学习Survey of Pedestrian detection based on Deep Neural NetworkYin Guangchuan，Zhangshuai，Qi ShuaihuiAbstract：Pedestrian detection is one of the basic technologies of unmanned vehicles. The pedestrian detection method based on the deep neural network model has achieved much more effect than the t

3、raditional one。 Convolutional neural network which imitates the biological vision system has made great success on image and audio, which is the important component of deep learning。 Local receptive field， sharing weights and down sampling are three important characteristics of CNN which lead it to

4、be the hotspot in the field of intelligent machine visionWith the increasing number of layers, deep neural network entitles machines the capability to capture “abstract concepts” and it has achieved great success in various fields， leading a new and advanced trend in neural network research。 This pa

5、per recalls the development of neural network， summarizes the latest progress and existing problems considering neural network and points out its possible future directions。 Keywords： pedestrian detection; convolutional neural network; deep learning1 引言行人兼具刚性和柔性物体的特性，外观易受穿着、尺度、遮挡、姿态和视角等影响，使得行人检测成为计算

6、机视觉的研究难点与热点。行人检测技术由于应用的广泛性使其在计算机视觉领域成为一个重要分支,对视频监控、车辆辅助驾驶、智能机器人等多个领域提供了重要的技术支持。近几年来，深度学习在大规模图像分类方面取得的了重大突破，表明深度学习可以从多媒体内容中提取具有很强表达能力的特征。卷积神经网络（ Convolutional NeuralNetwork，CNN)1提供了一种端到端的学习模型,模型中的参数可以通过传统的梯度下降方法进行训练，经过训练的卷积神经网络能够学习到图像中的特征，并且完成对图像特征的提取和分类.作为神经网络领域的一个重要研究分支，卷积神经网络的特点在于其每一层的特征都由上一层的局部区

7、域通过共享权值的卷积核激励得到.这一特点使得卷积神经网络相比于其他神经网络方法更适合应用于图像特征的学习与表达。CNN 把特征提取归入模型学习，把特征学习和分类学习有机结合起来, 更有效地实现对图像的识别特别是近两年，卷积神经网络受到了更为广泛地关注CNN 可能是机器学习领域近十年最成功的研究方向，因此本文拟对 CNN 的发展和其在行人检测上的研究成果进行了介绍，并对其预期研究方向进行展望。2 卷积神经网络的研究历史20 世纪60年代，Hubel等2的生物学研究表明，视觉信息从视网膜传递到大脑中是通过多个层次的感受野 ( Receptive Field ) 激发完成的；1980 年，Fukus

8、hima3第一次提出了一个基于感受野理论模型Neocognitron。Neocognitron 是一个自组织的多层神经网络模型,每一层的响应都由上一层的局部感受野激发得到，对于模式的识别不受位置、较小形状变化以及尺度大小的影响。Neocognitron 采用的无监督学习也是卷积神经网络早期研究中占据主导地位的学习方式.1998 年,Lecun 等提出的 LeNet- 51采用了基于梯度的反向传播算法对网络进行有监督的训练。经过训练的网络通过交替连接的卷积层和下采样层将原始图像转换成一系列的特征图，最后，通过全连接的神经网络针对图像的特征表达进行分类。卷积层的卷积核完成了感受野的功能,可以将低层

9、的局部区域信息通过卷积核激发到更高的层次.LeNet 5在手写字符识别领域的成功应用引起了学术界对于卷积神经网络的关注。同一时期，卷积神经网络在语音识别4、物体检测5、人脸识别6等方面的研究也逐渐开展起来。2006年,机器学习领域的泰斗 Hinton7指出多层的神经网络结构能够学习到更深刻更本质的特征,并通过“逐层初始化”的训练办法克服了传统神经网络训练瓶颈问题，引领了深度学习的发展方向。从此，深度学习受到了各国学者的广泛关注，谷歌、微软、IBM、百度等拥有大数据的高科技公司相继投入大量资源进行深度学习理论研究。2011年以来，微软研究院和谷歌的语音识别人员采用深度神经网络（ deep ne

10、ural network， DNN) 技术，使语音识别有了突破性进展，识别误差可降低20 30.2012 年， Krizhevsky 等8提出的AlexNet在大型图像数据库ImageNet9的图像分类竞赛中以准确度超越第二名11%的巨大优势夺得了冠军，使得卷积神经网络成为了学术界的焦点。2014 年的大型视觉辨识挑战赛（ ImageNet Large Scale Visual Recognition Challenge,ILSVRC) 中，几乎所有的参赛队伍都采用了卷积神经网络及其变形方法。2015 年国际机器学习大会上来自工业界和学术界的各位专家对深度学习展开激烈讨论,指出深度学习在人类

11、擅长的领域已经取得了令人振奋的成功, 未来的探索方向是人类并不擅长的任务、数据集。2015 年国际计算机视觉与模式识别会议上关于 DL 和 CNN 的研究成果较往年有大幅的提升。2015 年 9 月，微软亚洲研究院的“深层残差网络”（ deep residual networks ）在ILSVRC 中获得图像分类、定位以及检测全部项目的冠军，如分类方面将错误率降低至 494%，比人眼辨识( 错误率 51%）更精确10 。在大数据时代, 各领域争先占领 DL 的技术制高点，希望找出更强大的模型来揭示海量数据所承载的丰富信息，对未知事件更精准地预测。3 卷积神经网络结构与改进

12、3.1 卷积神经网络结构Lecun 等1提出的LeNet-5模型采用了交替连接的卷积层和下采样层对输入图像进行前向传导，并且最终通过全连接层输出概率分布的结构是当前普遍采用的卷积神经网络结构的原型。卷积神经网络是一种多层的监督学习网络,有输入层、隐含层(包括卷积层和下采样层）和输出层，通过误差反传算法优化网络结构，求解未知参数，其网络结构如图1 所示.图1 卷积神经网络框架在卷积层，特征图（Feature Map）的每一个神经元与前一层的局部感受野相连，经过卷积操作提取局部特征。A卷积层中有多个Feature Map，每个Feature Map 提取一种特征,在提取特征时，同一个Feature

13、 Map 的神经元共享一组权值（即卷积核)，不同的Feature Map 权值不同，从而提取不同的特征,在训练过程中不断地调整权值参数，使特征提取朝着有利于分类的方向进行，卷积操作示意图如图2 所示,一般卷积的公式如公式1所示（1) 其中，l 代表层数，k 代表卷积核，输入层的感受野，b 代表偏置。图2 卷积操作示意图在下采样层中，输入的Feature Map 经过池化（Pooling）后其个数不变，大小变为原来的1/n（假设池化尺寸为n）。池化操作的主要作用是减小特征图的分辨率，降低特征维数,同时在一定程度上增加网络对位移、缩放、扭曲的鲁棒性。池化分为最大池化和平均池化.下采样层的形式如公

14、式2所示：（2）其中down() 为池化函数，为权重系数。LeNet- 5虽然在手写字符识别领域取得了成功，但是其存在的缺点也比较明显,包括难以寻找到合适的大型训练集对网络进行训练以适应更为复杂的应用需求；过拟合问题使得 LeNet- 5 的泛化能力较弱;网络的训练开销非常大，硬件性能支持的不足使得网络结构的研究非常困难。以上三大制约卷积神经网络发展的重要因素在近期的研究中取得了突破性的进展是卷积神经网络成为一个新的研究热点的重要原因。并且,近期针对卷积神经网络的深度和结构优化方面的研究进一步提升了网络的数据拟合能力。3 。2 卷积神经网络模型的改进3。2.1 CNN卷积层的改进在增加模型

15、深度可以有效增加网络性能的理论基础上，Krizhevsky 等11把 CNN的卷积层数加至5层，构成了深度卷积神经网络( deep convolutionalneural network， DCNN）；zegedy等组成GoogLeNet小组构建了22层深度网络12，该网络比 2012 ILSVRC获胜者的网络参数少了12倍,却能更精确的分类和检测，在2014 年的ILSVRC一举夺冠。如何构建更深网络一直是CNN的研究热点，2015 ILSVRC的152层“深层残差网络”13采用了一个全新的“残差学习原则指导学习，并重新定向了深层 CNN中的信息流，高效地解决了深层神经网络准确度与层数之间的

16、矛盾.王冠皓14提出了多级金字塔卷积神经网（ multilevel pyramid CNN），CNN每层先使用稀疏自编码器预训练，再使用金字塔卷积神经网络对整个网络训练，将低层的滤波权值共享到高层,保证训练时的卷积滤波只在小尺寸图像上进行，大尺度图像只进行一次向前传播，加快训练速度.此外，Zhang在ImageNet上训练具有7层的快速非线性卷积神经网络15，对每层加速以达到对整个网络加速的目的，速度可达到与“AlexNet”16一致的同时，分类精度也提高了4。 7。 3。2。2 CNN 降采样层的改进常规 DCNN 只能对尺度固定的图像进行处理，对尺度不同的输入图像需人工裁剪或拉伸之后才输入

17、网络，会造成图像失真而影响分类的准确率.DCNN的卷积层尾端引入空间金字塔降采样层去除固定尺度的约束，降采样获得与全连接层相匹配的特征。多尺度训练得到的空间金字塔降采样网络（ spatial pyramid poolingnetwork SPP-net ）17可处理任意尺度的图像。Rippel等18提出了频谱池化的方法,将CNN进行傅里叶变换来把耗时的卷积操作替换为乘积操作可加速网络训练，通过截取信号在频域特征表示来降低维度，不仅可以保留更多的信息，还比其它的池化方法更灵活，提高了利用傅里叶变换计算卷积效率。Zeiler等19提出了反卷积神经网络（ deconvolutional netwo

18、rks，DN)，采用非监督方法对自然图像自顶向下进行卷积分解，再组合滤波器组学习到的卷积特征，获得一个特征丰富具有鲁棒性的图像表征.但大量卷积操作也DN比自底向上的编码模型耗时,因而Zeiler在DN每层之间采用3D最大池化层，引入一组潜在开关变量，使得模型可以根据多种输入模式自适应调整，构建了由卷积稀疏编码层和最大降采样层交替的自适应反卷积神经网络（ adaptive deconvolutionalnetworks,ADN)20，在中间层和高层特征学习都能取得不错的效果。3.2.3 CNN全连接层的改进为了克服过拟合问题, Krizhevsky在CNN两个全连接层采用了“Dropout 策略

19、20,每次迭代以0.5概率使一些随机分布的节点不工作但权值保留，之后又可能参与训练。略可以防止某些特征仅在其它特殊特征出现下才产生作用的情况，从而有效地避免了网络中特征之间的相互依赖性。孙艳丰21提出了基于改进 Fisher 准则的深CNN识别算法( fisher-based convolution neural network，FCNN)，反向传播采用 Fisher 的约束准则，加入判别准则的能量函数，在迭代求解权值的搜索空间受到判别条件约束影响,从全局搜索缩小到更有利于分类的局部空间,从而使权值更快地逼近便于分类的最优值。Girshick等22提出基于区域卷积神经网络（Regions wi

20、th CNN features,RCNN)，先找兴趣区域再进行检测和分割.由于RCNN兴趣区域中心点的运算量大而耗时，提出fast R-CNN( FRCN）,把全连接层的矩阵进行SVD分解，速度提高了30对于给定的图像和目标框方案,FRCN 进行目标检测耗时60330 ms,忽略了在区域方案提取所需的时间( 约 1。51 s） .无论卷积层的改进，还是降采样层及全连接层的改进,都是针对网络的学习能力及学习效率两方面的改进。因为 CNN 的学习能力可以通过调节网络的深度来增强，增加模型深度可以有效增加网络性能。为了使 CNN 更好地模拟大脑复杂的深层次神经网络，增加网络深度逐渐成为一种趋势。另外

21、，CNN 的卷积核相当于特征提取器，可以有效地提取输入信号的有用信息,但是耗时是卷积操作必须重视的问题,针对这个问题，提出了一系列的加速方法，在一定程度上降低了训练和测试的时间。但整体上，与传统的非神经网络方法相比,CNN 的耗时还是比较大，需要进一步改善。如何在提高网络学习能力和减少耗时之间找到一个平衡点，依旧是 CNN 面临的问题。4 卷积神经网络算法在行人检测上的应用4.1 行人检测现状行人检测主要分为四部分：特征提取、形变处理、遮挡处理和分类。特征提取的应该是行人最有判别力的特征，比较有名的特征描述子有:Haarlike、SIFT、HOG等等；其次，可变形模型应该可以处理人体的各个部分

22、，例如躯干、头、腿等等。最有名的DPM（可变形部件模型）使得各部件具有连接性约束。形变处理是人体姿态的多样性，给行人的准确识别带来了一定的困难，为克服形变带来的难题，在深度学习的框架中加入了形变处理层,采用混合形变模型,针对卷积产生的部位图生成对应的形变特征，把部位图与形变特征结合形成混合特征图，用最大化函数处理混合特征,生成对应的部位检测。遮挡处理是运动目标检测中的一个难点问题，遮挡处理的结果将直接影响运动目标检测的准确性，因此，遮挡处理是行人检测过程中极其重要的一步，在遮挡处理的过程中可视度的估计是非常关键的，针对例如检测Blocks或Parts的得分以及采用线索：图像分割、深度图等.分类

23、器决定候选窗选中的为一个行人，如:SVM、boosted classifiers、随机森林等等。在这些方法中,分类器是由训练数据来调整的，但是特征是手工设计的。如果有用的信息在特征提取阶段遗漏了，那么在分类阶段不可能在恢复。实际上，应该是分类器应该引导特征的学习。用深度学习的方法将行人检测的几个方面进行系统的联合训练，避免每个步骤单一练造成的局部最优化问题，使得整个检测系统达到全局最优。随着深度学习的提出以及这几年的大热，越来越多的研究人员将其应用到行人检测领域，例如:Pierre Sermant23等人提出了用无监督的多特征学习法，应用稀疏卷积神经网络自动学习图像的所有特征,提高了检测的准确

24、度；Ping Luo等人提出了用可切换的深度网络检测行人，将RBM模型与卷积神经网络连接在一块，可针对图像中不同的行人部位选择更合适的模型，能有效的处理人体部位形变的问题； CNN是当前语音分析和图像检测、识别领域的研究热点，它的整个结构更加类似于人的神经网络结构，降低了网络模型的复杂度，具有权值共享性24,避免了传统识别算法中复杂的数据重建过程。Wanli Ouyang等人提出了联合深度学习（UDN）的概念，将行人检测的几个重要的部分进行了联合学习，在处理大量的视频图像方面取得了很好的效果。联合深度学习将行人检测中的图像预处理、卷积采样、形变处理、遮挡处理和分类几个部分进行结合，深度网络可以

25、将各部分放到不同的网络层并使用BP进行优化。这种联合性质的深度学习算法相比于最初的深度学习算法在准确性上有了大幅的提升，能学习到更多更具判别力的特征，而且可以根据行人的部分身体而推断被遮挡行人的大体位置。4.2 行人检测DataSets到目前为止，行人检测研究除提出了大量的行人检测方法外，另一个成果是收集了多个行人数据库以供不同方法进行测试和比较。（1）MIT 行人数据库25该数据库为较早公开的行人数据库，共924张行人图片（ppm格式,宽高为64x128)，肩到脚的距离约80象素。该数据库只含正面和背面两个视角，无负样本,未区分训练集和测试集。Dalal等采用“HOG+SVM”，在该数据库

26、上的检测准确率接近100%。该库在 2005 年以前使用较多，因图像背景简单,目前较少被人使用。(2）INRIA 行人数据库26是目前使用较多的静态行人数据库,提供原始图片及相应的标注文件.训练集有正样本614张（包含2416个行人），负样本1218张；测试集有正样本288张（包含1126个行人）,负样本453张。图片中人体大部分为站立姿势且高度大于100个象素，部分标注可能不正确。图片主要来源于GRAZ-01、个人照片及google，因此图片的清晰度较高。该库行人所处背景复杂，人的姿态也较多，而且含有光照等环境因素的变化，更加符合实际场景(3）Daimer 行人数据库的图像来源于车载摄像机，

27、分为检测数据集( Classification Benchmark）27,28和分类数据集（ Detection Benchmark）29，图片均是灰度图像。每个数据集均由训练集和测试集组成.测试集是一段大约27 min的视频，其中包含完整的以及被部分遮挡的行人。数据库中还包含 3 个辅助的非行人图像的数据集,即这 3个附加库只包含负样本。该库中大量的正样本由较少的正样本经过移位和镜像生成，所以训练分类器时重要特征会出现在相邻的多个位置上，从而产生模糊效应,分类效果不佳。（4）Caltech 行人数据库30是目前规模较大的行人数据库，库中的图像来源于车载摄像机,

28、与现实生活中图像的实际遮挡频率一致，其中包含质量不太好的图像，约10个小时左右，视频的分辨率为640x480,30帧/秒。标注了约250,000帧(约137分钟），350000个矩形框，2300个行人，另外还对矩形框之间的时间对应关系及其遮挡的情况进行标注。数据集分为set00set10，其中set00set05为训练集,set06set10为测试集（标注信息尚未公开）。该数据库为评估已有的行人检测器的性能提供了一个较好的平台。（5）TUD 行人数据库31提供图像对以便计算光流信息，该数据集的训练集提供了行人的矩形框信息、分割掩膜及其各部位（脚、小腿、大腿、躯干和头部)的大小和位置信息。主要用

29、于评估运动信息在行人检测中的作用，常用于行人检测及跟踪研究中。（6)NICTA 行人数据库32是目前规模较大的静态图像行人数据库，包含 25 551 张单人的图像和 5 207 张高分辨率非行人图像，但不包含运动信息，数据库中已分好训练集和测试集，方便不同分类器的比较.（7)ETH 行人数据库33是基于双目视觉的行人数据.该数据库采用一对车载的AVT Marlins F033C摄像头进行拍摄，分辨率为640x480，帧率13-14fps，给出标定信息和行人标注信息，深度信息采用置信度传播方法获取.该数据库主要用于多个行人的检测与跟踪研究。(8）CVC行人数据库目前包含3个数据集: CVC013

30、4,CVC0235和 CVCVirtual36。其中,CVC02 包含3个子数据集，分别针对行人检测的 3 个不同任务: 感兴趣区域的产生、分类和系统性能评估。CVCVirtual是通过 HalfLife2图像引擎产生的虚拟行人数据集以用于测试。该数据库主要用于车辆辅助驾驶中的行人检测研究.(9）USC 行人数据库37的图像大部分来源于监控视频，是一个比较小的行人数据库，该数据库包含三组数据集(USCA、USC-B和USC-C），以XML格式提供标注信息.USC-A的图片来自于网络，共205张图片，313个站立的行人，行人间不存在相互遮挡,拍摄角度为正面或者背面；USCB的图片主要来自于CAV

31、IAR视频库,包括各种视角的行人,行人之间有的相互遮挡，共54张图片，271个行人；USC-C有100张图片来自网络的图片，232个行人（多角度),行人之间无相互遮挡.该数据库主要用于存在遮挡和多视角情况下的行人检测研究。4.3 卷积神经网络进行行人检测的分析利用更具深度的卷积神经网络提取复杂行人特征，完成行人检测，避免了复杂的人工特征提取和数据重建过程。卷积神经网络最早应用于手写字符识别,并在Mnist 样本集上得到了非常好的结果。其经典结构分为5 层，包括2 个卷积层，2 个下采样层，卷积核大小为55。如果直接将此经典网络模型用于测试行人检测样本集，训练样本大小为12864，发现网络无法收

32、敛,不能完成行人检测的二分类问题。经过分析研究，其主要原因有以下几点：(1）Mnist 样本集图像内容相对单一,近乎于二值图像,而行人检测样本集中行人姿态与图像背景十分复杂，场景、光线不断变化,复杂的图像信息要求更深度的网络结构来提取高层的特征表达，5 层结构已经无法完成有效的特征提取。（2）经典网络结构中卷积核大小为55，对Mnist 样本集图像能够有效提取局部特征，但相对于尺寸为12864 的图像来说，卷积核过小，卷积的结果无法包含表达局部特征的有效信息。（3）Mnist 样本集图像尺寸为2828，而行人检测样本集图像尺寸为12864，图像尺寸增大导致隐含层输出特征维数过高，分类器不能根据

33、描述能力有限的高维特征做出正确的分类。经典卷积神经网络不能有效完成行人检测任务，网络深度、卷积核大小、最终提取特征维数是影响结果的主要因素。因此需要针对行人检测问题的具体特点，对卷积神经网络的结构进行重新的设计。设计过程中重点考虑了以下问题。（1）卷积核的影响。卷积核是卷积神经网络模型中最具特性的部分，可以理解为生物视觉中感受野的模型化表示。它的性质直接决定了特征提取的好坏、网络收敛的速度等。卷积核的大小决定了感受野的大小，感受野过大,提取的特征超出卷积核的表达范围，而感受野过小，则无法提取有效的局部特征。因此,卷积核大小对整个网络的性能有着至关重要的影响。（2）深度的影响。相比传统人工神经网

34、络，卷积神经网络具有更深层的结构框架。深度学习中最核心的内容之一就是“无监督特征学习”，这种特征学习过程正是通过具有一定深度的网络结构在逐层抽象中完成的。通过增加网络的层数，其特征信息表达能力逐步增强，但层数过多也会致使网络结构过于复杂，训练时间增加，易出现过拟合现象。因此，选择合适的层数对提高网络训练效率和检测结果有重要影响.(3）分类器输入特征维数的影响。在卷积神经网络中,训练过程采用BP 训练策略38，因此最后一层的分类器本质上是BP 分类器，输入维数的高低对最终结果也有影响。同时，一个隐含层特征提取的好坏决定着网络的总体性能,而隐含层输出的特征维数则是影响网络收敛和收敛速度的一个重要因

35、素，在有限样本集的情况下，过高的特征维数会产生冗余，无法提取有效信息,过低则无法完整表达特征。5 总结与展望本文对卷积神经网络的历史、原理进行了简要的介绍，卷积神经网络结构对于行人检测具有很好的表现。深度卷积神经网络在图像处理和机器学习领域的应用，取得了突破性的进展，体现了深度CNN处理图像数据的优势。目前，卷积神经网络正处于研究热度非常高的阶段,该领域仍然存在的一些问题以及发展方向，包括：（1）多输入卷积神经网络构造多图像输入的深度 CNN 具有极高的理论和应用价值另外不同卷积层能够代表不同层次的图像特征信息，通过构造不同层次的信息融合分层,可以方便地实现多传感视觉系统像素级、特征级和决策

36、级的信息融合.（2)卷积神经网络的结构研究还具有很大的空间。目前的研究表明，仅仅通过简单地增加网络的复杂程度，会遇到一系列的瓶颈，如: 过拟合问题，网络退化问题等。卷积神经网络性能的提升需要依靠更加合理的网络结构设计。（3）卷积神经网络的参数众多，但是目前的相关设置大多基于经验和实践，参数的量化分析与研究是卷积神经网络的一个有待解决的问题。（4)卷积神经网络应用的扩展。近几年,CNN在目标检测、图像识别及处理等领域已经显示了巨大的优势。然而，CNN 的应用领域还可以大大扩展.正如2015 年国际机器学习大会上的各国专家所指出，CNN应用研究的中心未来将转移到模式识别以外的更广泛领域.参考文献

37、1 LECUN Y,BOTTOU L，BENGIO Y,et alGradientbased learningapplied to document recognitionJ/Proceedings of the IEEE，1998，86（ 11）：227823242 HUBEL D H，WIESEL T NReceptive fields，binocular interaction， and functional architecture in the cats visual cortex J/ Journal of hysiology,1962, 160（ 1）：1061543 FUK

38、USHIMA KNeocognitron： a selforganizing neural networkmodel for a mechanism of pattern recognition unaffected by shift in position J/Biological Cybernetics，1980，36（ 4) ： 193-2024 WAIBEL A，HANAZAWA T，HINTON G，et al。 Phoneme recognition using timedelay neural networks M/Readings in Speech RecognitionAm

39、sterdam: Elsvier，1990： 393-4045 VAILLANT R，MONROCQ C,LE CUN YOriginal approach for the localization of objects in images J/IEE Proceedings-Vision,Image and Signal Processing,1994，141（ 4）： 2452506 LAWRENCE S，GILES C L，TSOI A C,et alFace recognition： a convolutional neural-network approach J/IEEE Tra

40、nsactions on Neural Networks， 1997， 8( 1) ： 981137 Hinton G E,Salakhutdinov R RReducing the dimensionality of data with neural networksJ/Science,2006，313( 5786) ： 504-5078 KRIZHEVSKY A，SUTSKEVER I，HINTON G EImageNet classification with deep convolutional neural networks C /Proceedingsof Advances in

41、Neural Information Processing SystemsCambridge，MA: MIT Press，2012: 1106 -11149 DENG J,DONG W，SOCHER R，et alImageNet: a largescale hierarchical image database C / Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern RecognitionWashington，DC: IEEE Computer Society，2009: 248-25510 He

42、K M,Zhang X，Ren S，et alDeep residual learning for image recognition C / Proceedings of the International Conference on Computer Vision and Pattern RecognitionLas Vegas，NevadaIEEE，2016： 77077811 Krizhevsky A，Sutskever I，Hinton G EImagenet classification with deep convolutional neural networks C/Proce

43、eding of 26th Annual Conference on Neural Information Processing SystemLake Tahoe,USA： MIT Press，2012： 1097-110512 Szegedy C，Liu W，Jia Y，et alGoing deeper with convolutionsC / Proceedings of International Conference on Computer Vision and Pattern ecognitionBoston,USA: IEEE Computer Society,2015： 1-9

44、13 He K M，Zhang X，en S，et alDeep residual learning for image recognition C/Proceedings of the International Conference on Computer Vision and Pattern ecognitionLas Vegas，NevadaIEEE，2016： 770-77814 王冠皓，徐军基于多级金字塔卷积神经网络（ MLPCNN) 的快速特征表示方法 J/计算机应用研究,2015,32（ 8）： 2492249515 Zhang X，Zou J，Ming X，et alEff

45、icient and accurate approximations of nonlinear convolutional networks C /Proceedings of the Conference on Computer Vision and Pattern Recognition Columbus, USA: IEEE，2014:1984199216 Girshick R，Donahue J，Darrell T，et alRich feature hierarchies for accurate object detection and semantic segmentation

46、C/Proceedings of the Conference on Computer Vision and Pattern RecognitionColumbus，USA: IEEE，2014： 58058717 He K，Zhang X，Ren S,et alSpatial pyramid pooling in deep convolutional networks for visual recognition JIEEE Transactions on Pattern Analysis & Machine Intelligence，2015，37(9) : 1904191618 Ripp

47、el O，Snoek J,Adams R PSpectral representations for convolutional neural networks JAdvances in Neural Information Processing Systems，2015，28 （1)：2440-244819 Zeiler M D，Krishnan D，Taylor G W，et alDeconvolutional networks C/Proceedings of the IEEE Conference on Computer Vision and Pattern RecognitionCa

48、lifornia，USA: IEEE,2010： 2528253520 Zeiler M D，Krishnan D,Taylor G W, et alAdaptive deconvolutional networks for mid and high level feature learning C/Proceedings of the International Conference on Computer VisionColorado Springs，USA： IEEE,2011:2018-202521 孙艳丰,齐光磊,胡永利基于改进 Fisher 准则的深度卷积神经网络识别算法 J/北京工业大学学报,2015，41( 6) ： 835841

展开阅读全文