深度残差网在图像分类上的应用(DeepResidualLearningforImageRecognition”).doc

资源描述

深度残差网学习在图像分类上的应用何凯明张翔宇任少卿孙剑微软研究院 {kahe, v-xiangz, v-shren,jiansun}@ 摘要当前，深度神经网络比普通神经网络更难训练。我们提出了一种减轻网络训练负担的残差学习框架，这种网络比以前使用过的网络本质上层次更深。我们明确地重定义这层为学习输入层相关的残差函数，而不是学习未知的函数。同时，我们提供了全面经验数据，这些数据证明残差网络更容易优化，并且可以从深度增加中大大提高精度。我们在ImageNet数据集用152 层--比VGG网络[41]深8倍的深度神经网络来评估残差网络，但它仍具有较低的复杂度。在ImageNet测试集中，这些残差网络整体达到了3.57%的误差。该结果在2015年大规模视觉识别挑战赛分类任务中赢得了第一。此外，我们还用了100到1000层深度分析了的CIFAR-10。对于大部分视觉识别任务，深度表示是非常重要的。正式由于使用极深的表示，在COCO对象检查数据集上，我们就得到了近28%相关的改进。深度残差网络是我们提交给ILSVRC和COCO 2015竞赛[1]的基础，而且在ImageNet检测任务，ImageNet定位，COCO检测和COCO分割等领域赢我们也都获得了第一。 1. 简介深度卷积网络[21,22]引领了一系列图像分类上的突破[21,50,40]。深度网络通过层的叠加(深度)，自然而然的以一种端到端的多层模式集成了低/中/高级的特征[50]和分类器，并且特征的“水平”都能变得更加丰富。最近证据[41,44]表明网络深度非常重要，并且ImageNet数据集[36]挑战赛中领先的结果[41,44,13,16]都是在探索“很深”[41]的模型，这些模型从16层[41]到30层[16]。许多其他的重大的视觉识别任务[8,12,7,32,27]也都从深度模型中获益良多。在深度的意义驱使下，一个问题出现了：学习更好的网络是不是和叠加层数一样容易呢？解决这个问题的一个障碍就是那个重名昭著的梯度消失/爆炸[1,9]问题，他从一开始就阻碍了网络的收敛。然而，这个问题很大程度上被归一的初始化[23,9,37,13]和中间层归一化[16]解决了，它们确保数10层的网络开始用反向传播算法以随机梯度下降(SGD)的方式收敛[22]。当更深的网络能够开始收敛时，降级问题的问题开始出现：随着网络深度的增加，精准度开始饱和（这并不令人吃惊），然后迅速下降。预料之外的是，在[11,42]中报道并且经过我们实验验证发现，精准度的下降并不是由过度拟合造成的，而且在合适的深度模型中增加更多的层数，会造成更高的训练误差。图1展示了一个经典的实例。图 1 CIFAR-10数据集上的20层和56层的“平”网络的训练误差（左）和测试误差（右）。更深的网络有更高的训练误差和测试误差，图4显示了在ImageNet也有相似的现象（在训练集上精度）降级显示并不是所有的系统都容易去优化。我们考虑一个较浅的体系结构与在深度增加了更多层的体系结构。这里存在一个方案是去构造一个更深的模型：这个增加的层是一个恒等映射，其它的层是从学习到的浅的模型里面复制过来的。这个构造方案的存在表明一个更深的模型应该不会产生毕浅层模型更高的训练误差。但是实验结果表明我们当前不能找到一个与之前的构造方案一样好或者更好的解决方案（或者不能在可行时间内做到）。图 2 残差学习：构造块在本论文中，我们引入了一个深层次的残差学习框架来解决精准度下降问题。我们明确地让这些层适合残差映射，而不是寄希望于每一个堆叠层直接适合一个所需的底层映射。形式上，把作为所需的基本映射，让堆叠的非线性层适合另一个映射。那么原映射便转化成：。我们假设优化残差的映射，比优化原来未引用的映射更容易。极端情况下，如果恒等映射是最佳的，那么将残差的映射推为零，就比用一堆非线性层来适应恒等映射更容易。公式可以通过“快捷连接”前馈神经网络实现（图2）。快捷连接[2,34,49]是那些跳过中的一层或更多层。在我们的情景中，快捷连接简单的执行恒等映射，并将它们的输出添加到叠加层的输出（图2）。恒等快捷连接既不产生额外的参数，也会增加不计算的复杂度。整个网络仍然可以完全使用反向传播的SGD，并且可以在不修改结构的情况下很容易的使用通用库来实现（例如Caffe）。我们在ImageNet[36]上进行了综合性的实验展示精准度下降问题，并评估我们的方法。我们发现：（1）我们的特别深的残差网很容易优化，但深度增加时，对应的“平面”网（即简单的堆栈层）表现出更高的训练误差。（2）深度残差网络能够在大大增加深度中获得高精准度，产生的结果本质上优于以前的网络。相似的现象同样出现在了CIFAR-10集[20]中，这表明了优化的难度，以及我们方法影响的不仅仅是类似于一个特定的数据集。我们在这个训练集中成功训练了超过100层的网络，并探讨了超过1000层的模型。在ImageNet分类数据集[36]中，通过极深的残差网络，我们得到了非常好的结果。我们152层的残差网络在ImageNet中是最深层的网络，同时相比于VGG网络仍然具有较低的复杂性。我们的集成方案在ImageNet测试集中有3.57%的top-5的误差，并且在2015ILSVRC分类竞争中取得第一名。这种极深的表征在其它识别任务方面也有出色的泛化性能，并带领我们进一步赢得了其他比赛的冠军：ImageNet检测，ImageNet定位，COCO检测，和COCO分割(ILSVRC%COC02015竞赛)。这有力的证据表明，残差的学习的原则是通用的，我们期望它适用于其它的视觉和非视觉问题。 2. 相关工作残差表示。在图像识别中，VLAD[18]是一个象征，通过关于字典的残差向量进行编程，而且费舍尔向量可以被制定成VLAD的概率版本。它们两个对于图像检索与分类都是有效的浅表示。对于矢量化，编码残差向量比编码原始向量更有效。在低层次视觉和计算机图形学中，为了解决偏微分方程（PDEs），它们广泛的使用多重网格法，将系统重构成多尺度的子问题，每个子问题负责更粗和更细规模之间的残差解答。多重网格的一种替代方法是分层的基础预处理，它依赖于表示两个尺度之间的残差向量的变量。这些收敛解法比不知道残差性质的标准解法快得多。这些方法表明，一个好的方法或预处理可以简化优化。快捷连接。导致快捷连接的方法和理论已经被研究了很长时间。训练多层感知器早期的实践是从网络的输入到输出添加一个线性层。在[44,24]中，一些中间层直接连接到辅助分类器，来解决梯度的爆发与消失问题。论文的[39,38,31,47]提出用于中心层响应，梯度和传播误差了的方法，该方法通过快捷连接实现。在[ 44 ]，一个“开始”层是由一个快捷的分支和一些更深的分支组成。并发我们的工作，“highway network”提出了门控功能的快捷连接。这些门依赖于数据和已有的参数，而我们的恒等快捷键无需参数。当一个门控的快捷方式“关闭”（接近零时），highway network中的层代表非残差函数。相反的是，我们的想法总是学习残差函数，我们的恒等快捷方式从来没有关闭，而且所有的信息通过时，总是需要学习额外的残差函数。此外，highway network并没有表现出，精准度并没有随着深度的大大增加而提高（例如，超过100层）。 3. 深度残差学习 3.1 残差学习我们将假设为由几个堆叠层匹配的（不一定是整个网）基础映射，用表示这些第一层的输入。假设多元非线性层能逼近复杂的函数2，也就相当于假设它们可以逼近残差函数，例如（假设输入和输出在相同规模）。因此我们非常明确的让这些层近似于残差函数，而并非期待堆叠层近似于。所以原函数变成了：。尽管两种形式都能逼近期望函数（假设），但它的学习难易度可能不同。新的构思源于反常的精准度下降问题[图1.左图]。如我们在简介中讨论的一样，如果添加的层可以被构造为恒等映射，那么一个更深度模型的训练误差，不应大于与其相应的更浅的模型训练误差。精准度下降问题表明，求解器在通过多个非线性层近似于恒等映射方面有困难。随着残差学习重构，如果恒等映射是最佳的方法，那么求解器可以简单地驱动多个非线性层的权重趋向于零，以便逼近恒等映射。在现实情况中，恒等映射不可能是最优的，但我们的方法可能有助于事先处理该问题。如果最优函数与趋近于零映射相比更趋近于恒等函数，那么与学习一个新函数相比，求解器更容易找到关于恒等映射的干扰。我们通过实验展示（图7）所学到的剩余函数一般有小的响应，这表明恒等映射提供了合理的预处理。 3.2快捷方式的恒等映射我们对每一个堆叠层都采用残差学习，一个构建模块如图2所示。正式地说，本文构建模块定义为： (1) 其中x和y是考虑到的层的输入和输出向量。函数代表学习的残差函数。如图2所示有两个层，中表示ReLU，为了简化注释，我们忽略了偏置。的操作是由快捷连接和逐个元素相加完成的。在增加之后我门采用了第二非线性特性（例如如图2）。公式（1）中介绍的快捷连接，没有引入额外的参数和复杂的计算。这不仅在实践中有吸引力，它在对比普通和残差网络方面也同样重要。有着相同数量的参数，深度，宽度和计算成本时（除了可以忽略不计的逐个元素的添加），我们可以对普通和残差网络进行简单的对比。在式（1）中x和的大小必须相同。如果不同（例如改变输入和输出渠道）我们可以通过快捷连接线性投影来匹配维度： (2) 我们也可以在式（1）中使用一个正方形矩阵。但我们会通过实验表明，恒等映射足以用于解决精准度下降问题并且是非常合算的，因此只有在匹配维度时，才使用。残差函数的形式是灵活的，本文的实验涉及一个有两层或三层（图5）或者更多层的函数。但如果仅仅只有单层，式（1）就类似于线性层：，我们不能发现它的优势。我们还注意到，虽然上面的符号是为了简化表示关于完全连接的层，但它们适用于卷积层。函数可以代表多个卷积层。逐个增加的元素在两个特征映射上通过通道对通道的方式进行。 3.3网络构架我们测试了不同的普通的和残差网络，并且观察到一致现象。为了给论述提供实例，我们下面描述两个ImageNet模型。普通网络。我们的普通基准（图3,中）主要受启于VGG网[41]理论（图3,左）。卷积层主要有的过滤器并遵循两个简单的设计规则：（i）对于相同的输出特征映射大小，图层有相同数量的滤波器；（ii）如果特征映射的大小被减半，过滤器的数量增加一倍，以保持每层的时间复杂度。我们通过有一个跨度为2的卷积层，直接进行下采样。网络以一个全局平均池化层和的1000路全连接层结尾（激活函数为softmax）。图3（中间）中加权层的总数是34。值得注意的是，我们的模型比VGG网[41]（图3，左）有着更少的过滤器和更低的复杂度。我们的34层基线有3.6亿个浮点运算（乘加），这只有VGG-19的18%（19.6亿触发器）。残差网络。基于上面的普通网络，我们插入快捷连接（图3，右），将网络转变成其对应的残差版本。当输入，输出大小维度的时候（图3中实线快捷连接线），快捷特性（公式（1））可以直接使用。当尺寸增加时（图3中的虚线快捷连接）中，我们考虑了两个选项：（A）快捷方式仍然执行恒等映射，用额外的零来填充以便增加尺寸。该选项不会引入额外的参数；（B）公式（2）中的投影捷径，用于匹配尺寸（完成1×1卷积）。当快捷键的特征映射是两个大小时，这两个选项都使用了2跨度。 3.4实现我们遵循了[21,41]中的方法来做ImageNet分类。图像的大小在[ 256，480 ]范围内（以短边为基准）随机采样而调整，以便增大规模[ 41 ]。通过从一副图像中随机采样或者与每个像素的均值相减的水平抖动，得到一个大小的图片。按照文件[ 21 ]中的方法增强了标准色。在每一个卷积之后和激活之前，我们采用了批量标准化(BN)算法[16]。我们如[ 13]中一样初始化权重，并从零开始训练所有的普通和残差网。我们使用了一大小图 3 Imagenet的示范网络架构。左：VGG-19模型（19.6百万浮点值）作为参考，中间：一个34个参数层的普通网络（3.6编完浮点值）。右：一个34层的残差网（3.6百万浮点值）。虚线快捷连接增加维度。表1显示了这些模型以及其它模型的更多细节。为256的最小批量，使用SGD方法训练。学习率从0.1开始，并在误差稳定时学习率除以10份，而且我们训练该模型高达60x104次迭代。我们使用权重衰减为0.0001，动量为0.9。我们没有跟随[16]中提到的那样使用dropout[14]。测试中，为了对比我们采用标准的10-crop试验[21]。为达到最佳效果，我们采用完全卷积形式如[ 41，13 ]中所用的那样，并且平均多尺度大小的成绩（短侧图像的大小调整在{ 224，256，384，480，640 }中）。 4.实验 4.1图像分类我们在ImageNet 2012分类数据集中评估了我们的方法，该数据集由1000种类别组成。我们在128万训练图像中训练模型，并且在50K验证图像进行了评估。我们也在100k的测试图像中获得了最终结果。我们评估了top-1和top-5误差。普通网络。我们首先评估了18层和34层普通网络。34层的普通网在图3（中间）中。18层普通网形式是类似。详细架构见表1。表2显示的结果表明，较深的34层平面网具有比浅18层平面网更高的验证错误。为了揭示原因，在图4（左）中，我们比较了训练过程中的训练和验证错误。我们观察到了精度下降的问题—34层的网络在整个训练过程中有更高的训练误差，即使这个18层的普通网络是那个34层普通网络的一部分。表 1表 1 ImageNet的架构。构造块的数量在括号中显示（也可以参见图5），下采样2步幅是在卷积层3_1,4_1,5_1中。图 4在ImageNet上训练。细线表示训练误差，粗线表示模型的验证误差。左：一个18和34层的普通网络；右：18和34层的残差网络。本图中，残差网与普通网相比没有耕读的参数。表 2ImageNet验证集Top-1误差（%，10-cop测试）。这里残差网相比他们对应的普通网，没有更多的参数。图4显示了训练过程。图 5在ImageNet模型的一个深度残差函数F。左：一个构造模块（在56*56特征映射），如图3的残差网所示。右：一个“瓶颈”构造模块，对应残差网50/ 101/ 152 我们会争论优化困难不太可能是由梯度消失问题导致的。所有的普通网络都是通过BN训练的，而这也保证了向前传播的信号有非零方差性。此外我们也要保证前向传播梯度在BN中表现出良好。所以无论是向前或是向后信号都不会消失。事实上，34层的普通网络仍旧拥有一定的精度（见表3），而这在一定的程度上也证实了求解器在工作。我们猜想深度普通网络可能会有指数较低的收敛率，这影响了降低训练错误[3]。此类优化问题会在未来进行研究。残差网络。接下来我们会18层和34层的残差网络。残差网络的基本框架基与普通网络一样，处理每一对3×3过滤器有增加快捷连接（图3，右）。在第一个比较中（表2和图4，右），所有用于增加维度的捷径和补零都用使用恒等定位。所以残差网络与普通网络的参数并无区别。我们从表2和图4中得出3个重大发现。第一，与残差学习模式相反的情况----34层网络比18层网络表现要好（2.8%左右）。更重要的是，34层残差网络比18层残差网络错误率更低，并且使用于验证数据。而这也表明退化问题能在此设置中解决且我们能从更深层次中获得准确率。第二，与普通网络相比，34层残差网络将最低错误率降低了3.5%（如图2所示），成功的降低了训练误差（图4右vs左）。这一比较证实了残差网络在极深系统中的优越性。表 3Imagenet验证集错误率（%，10-crop测试）。VGG-16是我们测试的基准。残差网-50/101/152是B选项，它只使用了映射来增加维度表 4 ImageNet验证集的到单个模型的错误率（%）（除了在测试集上的报告）表 5集成模型的错误率（%）。在ImageNet服务器评估的测试集的top-5误差最后，我们注意到18层的普通和残差网络是比较准确的（表2），但是18层的残差网络收敛速度更快（图4右VS左）。当网络没有“过深”（如18层），当前的SGD求解程序依然可以在普通网络找到好的解决方法。在此情况下，在早期阶段，ResNet提供了一种加快收敛速度的优化。恒等式vs映射快捷。我们发现无参数和一致性快捷能帮助训练。接下来我们会研究映射捷径（等式（2））。在表3中我们比较了三种选择：（A）使用补零快捷来增加维度，且所有的维度都无参数（如表2和图4，右）；（B）使用映射快捷来增加维度，而其他的快捷都是恒等式；（C）所有的捷径都是映射的。表3显示三个方案与普通网络比较而言都表现得更出色。B比A表现更好。我们估计这是因为A中的零填充维度不具备残差学习模式。C比B表现稍好，我们将此归功于许多（13个）映射快捷方式引入许多其他因素。但只有在A/B/C之间的少量不同能证明映射捷径对于解决退化问题十分关键。所以为控制内存、时间复杂性，及模式规模，在本文的剩余部分我们不使用方案C。恒等式捷径对于不增加瓶颈的结构复杂性至关重要。更深层次的瓶颈结构。接下来我们会描述ImageNet更深层次网络。因为鉴于我们时间有限，要改善区块，将其变成瓶颈设计4。对于每一个残留函数,我们使用3层瓶颈模式，而不是2层。这3层分别是1×1,3×3和1×1的卷积。在此范围中，所有的1×1层都用于先减少后增加（存储）维度，让3×3层的输入或是输出瓶颈维度更小。图5展示了一个例子，这两个设计的时间复杂性都一样。无参数恒等式捷径对于瓶颈的结构尤为重要。如果图5（右）中的恒等式快捷被映射所取代，我们能发现时间复杂性和模式大小都会翻倍，因为捷径是连接两个高维度端。所以恒等式快捷带给了瓶颈设计更多高效的模型。 50层的残差网络。在34层网络结构中，我们用3层的瓶颈区块取代2层的区块，这时34层结构就会变成50层残差结构（表1）。我们使用B方案增加维度。而这一模式有38亿FLOPs。 101层和152层的残差网络模式。我们通过使用3层的区块构建101层和152层的残差模式（表1）。让人惊讶的是，尽管深度显著增加，152层的残差模型（113亿FLOPs）复杂性较VGG-16/19网络（153/196亿FLOPs）更小。 34层的残差网络较50/101/152层更准确（表3和4）。我们没有发现退化问题，并且随着深度的显著增加，精度也在增加。深度带来了各个评估度量方式（表3和4）的提升。先进方法之间的比较。在表4中，我们比较了之前单一模式所取得的最好结果。而我们34层残差网络模式准确度最高。152层ResNet模式错误率最低4.49%。而这也超过之前所有模式。我们结合6种不同深度的模式形成一种集成模型，这一模型在测试中的错误率只有3.57%，让我们在ILSVRC2015中拔得头筹。 4.2 CIFAR-10和分析我们在CIFAR-10的数据集中[20]进行多个研究，此数据集包括50k的训练图像和10K测试图像，且这些图像都被分成了10类。我们将会展示在训练集中训练和在测试集中评估的试验。我们关注的焦点在于深层网络的行为，不在于取得最好结果，所以我们有意使用简单结构。所有普通/残差结构都必须遵循图3 的流程。网络输入32×32的图像，但像素有所缩小。第一层是3×3卷积。接下来是6n层的3×3卷积，且特征神经网络有2n层左右大小。过滤层的数量分别是{16,32,64}。降采样是由跨度在2左右的卷积来执行的。网络结构最后是一个全局平均池化层，10个完全连接层。这里总共有6n+2的权重层。下表总结了其结构构成。但当它们都使用快捷连接时，它们就是通过3×3层连接起来（一共3n个快捷连接）。在此数据集中，我们在所有的情况下都使用恒等式快捷（例如选项A），所以我们残差网络有与简单模式完全一样的深度，宽度和参数数量。表 6在CIFAR-10测试集上的分类错误率。所有的方法都使用了数据拓展。对于110层的残差网，我们跑了5次并且显示“最好的（均值+标准差）”，就像[43]提到的我们使用了权重衰减为0.0001和冲量大小为0.9，并且在采用[13]提到的权值初始化和BN[16]方法但并采用dropout层。这些模型是使用最小批处理为128，在2个GPU上训练得到的。我们开始的学习率是0.1，且由32k和48k迭代次时除以10，且在64k迭代完成后结束训练，训练集、验证集分别是45k/5k。我们根据[24]中提到的简单的训练数据增大方法：每一边填充4像素，最后从填充的数据图像或者水平抖动中随机选取32×32的结果。对于测试，我们只评估最初的32×32图像。我们比较当n={3,5,7,9}时，相应的20层、32层、44层和56层的网络结构。图6（左）展示的是普通网络的表现。普通网络随着深度的增加错误率会变高。这与ImageNet（图4左）和MNIST（见[42]）是类似的，这说明优化困难是一个基础问题。图6（中）向我们展示了ResNet的表现。与ImageNet类似（图4，右），ResNet证明了随着深度的增加，克服了优化困难问题，提高了准确率。我们会更加深入探讨当n=18时对应的110层的残差网络结构。在此情况下，我们发现初始学习率为0.1对于收敛有点过高了5。所以我们使用0.01的初始学习率进行训练，直到错误率低于80%(大约400次迭代时，才使用0.1的初始值进行训练。接下来的程序如之前所述进行。110层的网络收敛的的十分好（图6中）。它比其他深度或是简单模式的参数更少，如FitNet[35]和Highway[42]，但是结果却是十分的优秀(6.43%,表6)。图 6在CIFAR-10训练。实线表示训练误差，粗线表示测试误差。左：普通网络，这个110层的网络误差高于60%，并没有显示。。中间：残差网。右：残差网，110层和1202层图 7图 7 CIFAR-10层上的标准方差。响应是每个3x3层的相应，在BN和非线性层之前。上面：层是在他们的原来顺序。底下：相应层是以降序展示的。层响应分析。图7显示了层响应的标准偏差。其响应是3×3层的结构输出，在BN之后和非线性之前（ReLU/addition）。对于残差网络，这一结果反应的是残差函数的影响。图7显示ResNet通常比原始网络相应更小。这一结果证实了我们最初的想法（3.1节）残差函数比非残差函数更接近于零。我们也注意到更深的残差网反应幅度更小，如图7中ResNet-20,56,和100所示。随着层数的增加，ResNet的每一层会让信号更小。超过100层网络的探索。我们深入探索超过1000层的深度模式。我们假设n=200，此时的网络结果超过1202层。我们的模式没有任何优化问题，103的网络结构能实现训练错误率＜0.1%（图6右）。其测试错误率也十分的低（7.93%，表6）。表 7 对象检测mAP(%)在PASCAL VOC 20007/2012测试集，使用Faster R-CNN做基准线。更好的结果参考表10和表11。表 8 对象检测mAP（%），在COCO验证集上，使用Faster R-CNN做基准，更好的结果参见表9 但是在极端深度模式中还是有问题。1202层的测试结果比110层的要差，尽管两者的训练错误率差不多。我们认为是过度拟合造成的。1202层网络系统对于如此小是数据集或许是太大了。强的正则化方法，例如maxout[10]或者dropout[14]被用来去获取最好的结果（[10,25,24,3]）。在本文中，我们并未使用Maxout激活函数和Dropout激活函数，仅仅通过对深度的改造和简化结构设计来正则化。但是联合更大的正则化也许能取得更好的结果，这一课题我们会在未来进行研究。 4.3 在PASCAL和MSCOCO上的目标检测我们的模型在其他的识别任务中也有较好的表现。表7和表8显示了在PASCAL VOC 2007，2012[5]和COCO[5]竞赛上的结果。我们采用Faster R-CNN作为测试方法。我们对于使用ResNet-101取代VGG-16[41]方法所获得的进步很感兴趣。使用两种模式所得到的模型是一样的，所以所获结果的差别在于网络结构。更令人惊讶的是，在极具挑战性的COCO数据集中，我们取得了6.0%的进步，在COCO的标准度量方式下(mAP@[.5,.95])，相较而言是有28%左右的进步。这全归功于学习到的表征。基于深度残差网络，我们赢得了ILSVRC&COCO2015比赛的多项冠军：图像检测，图像定位和COCO检测和COCO分类。详情请见附录。 References [1] Y. Bengio, P. Simard, and P. Frasconi. Learning long-term dependencies with gradient descent is difficult. IEEE Transactions on Neural Networks, 5(2):157–166, 1994. [2] C. M. Bishop. Neural networks for pattern recognition. Oxford university press, 1995. [3] W. L. Briggs, S. F. McCormick, et al. A Multigrid Tutorial. Siam, 2000. [4] K. Chatfield, V. Lempitsky, A. Vedaldi, and A. Zisserman. The devil is in the details: an evaluation of recent feature encoding methods. In BMVC, 2011. [5] M. Everingham, L. Van Gool, C. K. Williams, J. Winn, and A. Zisserman. The Pascal Visual Object Classes (VOC) Challenge. IJCV, pages 303–338, 2010. [6] S. Gidaris and N. Komodakis. Object detection via a multi-region & semantic segmentation-aware cnn model. In ICCV, 2015. [7] R. Girshick. Fast R-CNN. In ICCV, 2015. [8] R. Girshick, J. Donahue, T. Darrell, and J. Malik. Rich feature hierarchies for accurate object detection and semantic segmentation. In CVPR, 2014. [9] X. Glorot and Y. Bengio. Understanding the difficulty of training deep feedforward neural networks. In AISTATS, 2010. [10] I. J. Goodfellow, D. Warde-Farley, M. Mirza, A. Courville, and Y. Bengio. Maxout networks. arXiv:1302.4389, 2013. [11] K. He and J. Sun. Convolutional neural networks at constrained time cost. In CVPR, 2015. [12] K. He, X. Zhang, S. Ren, and J. Sun. Spatial pyramid pooling in deep convolutional networks for visual recognition. In ECCV, 2014. [13] K. He, X. Zhang, S. Ren, and J. Sun. Delving deep into rectifiers: Surpassing human-level performance on imagenet classification. In ICCV, 2015. [14] G. E. Hinton, N. Srivastava, A. Krizhevsky, I. Sutskever, and R. R. Salakhutdinov. Improving neural networks by preventing coadaptation of feature detectors. arXiv:1207.0580, 2012. [15] S. Hochreiter and J. Schmidhuber. Long short-term memory. Neural computation, 9(8):1735–1780, 1997. [16] S. Ioffe and C. Szegedy. Batch normalization: Accelerating deep network training by reducing internal covariate shift. In ICML, 2015. [17] H. Jegou, M. Douze, and C. Schmid. Product quantization for nearest neighbor search. TPAMI, 33, 2011. [18] H. Jegou, F. Perronnin, M. Douze, J. Sanchez, P. Perez, and C. Schmid. Aggregating local image descriptors into compact codes. TPAMI, 2012. [19] Y. Jia, E. Shelhamer, J. Donahue, S. Karayev, J. Long, R. Girshick, S. Guadarrama, and T. Darrell. Caffe: Convolutional architecture for fast feature embedding. arXiv:1408.5093, 2014. [20] A. Krizhevsky. Learning multiple layers of features from tiny images. Tech Report, 2009. [21] A. Krizhevsky, I. Sutskever, and G. Hinton. Imagenet classification with deep convolutional neural networks. In NIPS, 2012. [22] Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard, and L. D. Jackel. Backpropagation applied to handwritten zip code recognition. Neural computation, 1989. [23] Y. LeCun, L. Bottou, G. B. Orr, and K.-R.M¨uller. Efficient backprop. In Neural Networks: Tricks of the Trade, pages 9–50. Springer, 1998. [24] C.-Y. Lee, S. Xie, P. Gallagher, Z. Zhang, and Z. Tu. Deeplysupervised nets. arXiv:1409.5185, 2014. [25] M. Lin, Q. Chen, and S. Yan. Network in network. arXiv:1312.4400, 2013. [26] T.-Y. Lin, M. Maire, S. Belongie, J. Hays, P. Perona, D. Ramanan, P. Doll´ar, and C. L. Zitnick. Microsoft COCO: Common objects in context. In ECCV. 2014. [27] J. Long, E. Shelhamer, and T. Darrell. Fully convolutional networks for semantic segmentation. In CVPR, 2015. [28] G. Mont´ufar, R. Pascanu, K. Cho, and Y. Bengio. On the number of linear regions of deep neural networks. In NIPS, 2014. [29] V. Nair and G. E. Hinton. Rectified linear units improve restricted boltzmann machines. In ICML, 2010. [30] F. Perronnin and C. Dance. Fisher kernels on visual vocabularies for image categorization. In CVPR, 2007. [31] T. Raiko, H. Valpola, and Y. LeCun. Deep learning made easier by linear transformations in perceptrons. In AISTATS, 2012. [32] S. Ren, K. He, R. Girshick, and J. Sun. Faster R-CNN: Towards real-time object detection with region proposal networks. In NIPS, 2015. [33] S. Ren, K. He, R. Girshick, X. Zhang, and J. Sun. Object detection networks on convolutional feature maps. arXiv:1504.06066, 2015. [34] B. D. Ripley. Pattern recognition and neural networks. Cambridge university press, 1996. [35] A. Romero, N. Ballas, S. E. Kahou, A. Chassang, C. Gatta, and Y. Bengio. Fitnets: Hints for thin deep nets. In ICLR, 2015. [36] O. Russakovsky, J. Deng, H. Su, J. Krause,

展开阅读全文