基于卷积网络的Adam算法的改进.pdf

资源描述

1、第卷第期年月太原师范学院学报(自然科学版)J OUR NA LO FT A I YUANN O RMA LUN I V E R S I T Y(N a t u r a lS c i e n c eE d i t i o n)V o l N o S e p 收稿日期:基金项目:国家社科基金项目(Z O B J L );山西省“工程”平台项目(P T );山西省重点研发计划项目(D )作者简介:董文静(),女,山西孝义人,太原师范学院在读硕士研究生,主要从事最优化算法研究通信作者:赵月爱,教授,E m a i l:q q c o m基于卷积网络的A d a m算法的改进董文静,赵

2、月爱(太原师范学院数学与统计学院,山西晋中 )摘要A d a m算法作为卷积神经网络常用的优化算法,虽具备收敛快的优点,但该算法往往在网络训练后期存在极端学习率,甚至存在不收敛现象为此提出了Y a d a m o d算法,在A d a m算法的二阶动量项中加入激活函数,并采用对学习率进行指数加权平均和增加动态边界的方法,解决了极端学习率问题使用随机一阶复杂度(S F O)框架对Y a d a m o d算法在随机非凸情况下进行了收敛性分析基于R e s N e t 和R e s N e t 卷积神经网络分别在C I F A R 数据集和C I F A R 数据集上验证Y a d a m o

3、 d算法中的有效性,实验结果表明该算法在稳定性和优化性能方面都优于A d a m算法关键词激活函数;A d a m算法;指数加权平均;收敛性分析文章编号 ()中图分类号T P 文献标识码A 引言卷积神经网络在近年来取得了十分迅速的发展,在自然语言处理、图像识别和计算机视觉等多个领域都取得了巨大的成功其中,梯度下降算法是影响卷积神经网络性能的关键因素,而学习率是梯度下降算法的核心,自适应学习率的随机梯度下降法是通过使用反向传播所计算出的梯度来更新参数由于学习率的选取决定了神经网络的收敛速度与准确度,因此,研究者们相继提出了A d a g r a d算法、A d a d e l t a算法、R

4、M S p r o p算法和A d a m等算法近年来,A d a m算法虽然有着收敛速度快的优点,但由于二阶动量vt与学习率成反比关系,因此,A d a m算法在模型训练过程中会出现极端学习率问题,如果学习率过低则算法收敛速度太慢,而学习率过高则使模型训练后期发生震荡,致使学习率不稳定针对此问题,姜志侠、Z a h e e rM和李梓毓等通过结合激活函数保证学习率在收敛后期维持在一个固定值范围另外,许多研究者引入了动态边界,例如:L u oL提出了A d a B o u n d算法,利用学习速率的动态边界来实现从自适应方法到随机梯度下降(S G D)的逐步平稳过渡,消除自适应方法与S G D

5、之间的泛化差距,并在训练早期有着较高的学习速度江紫薇提出了R C A d a m算法,通过上下界函数进行学习率上下界阈值限制,在R e s N e t和D e n s N e t网络上验证了算法的良好性能另外,张珂通过引入多个超参数,加入多次指数平滑和修正二阶动量项,提出了一种H a d a m算法,预防了二阶动量数据发生不良的波动,达到了平滑学习率的效果本文提出了一种自适应优化算法Y a d a m o d,在A d a m算法的二阶动量项引入了激活函数,有效改善了二阶动量造成的学习率震荡现象此外,增加了学习率对历史梯度的长期记忆,并设置了动态边界,有助于控制学习率方差,消除了训练中极高

6、的学习率,解决了训练过程中学习率不稳定问题梯度优化算法 S G D算法S G D算法随机梯度下降的目标是将所有样本损失降到一个极小值 S G D算法在每轮更新参数时,对随机抽取的样本计算其梯度,并作为全局梯度的估计值,学习率t在各个方向均匀缩放梯度,其梯度更新式表示为:t ttfit(t)()式()中fit(t)表示参数更新t轮迭代的一阶梯度由于S G D算法选择的不是整个数据集的梯度,而是随机选择批量处理的梯度,这样做减少了损失函数的误差但是,频繁更新会伴随着高方差的产生,导致目标函数波动,增加了算法的收敛复杂度,与A d a m算法相比,收敛速度较慢 A d a m算法A d a m算

7、法由K i n g m a等人提出,结合了矩估计思想,通过计算并修正每轮梯度的一阶矩和二阶矩来动态调节学习率该算法具有收敛速度快、内存需求少等优点,更新式如下:mtmt()gtvtvt()gt()mtmttvtvttt tvtmt()式()中,mt表示一阶动量的指数移动平均,相当于更新参数的方向,vt表示二阶动量的指数移动平均,()式中mt和vt为修正后的值,调整了步长因()式中vt与gt成正比,当梯度越大,二阶动量vt越大,这样()式中更新的步长越短,造成了步长更新不均衡,导致学习率产生震荡现象 A d a M o d算法D i n gJ 认为A d a m算法的学习率对历史梯度没有长期的记

8、忆,每次梯度更新只与上一轮的历史梯度有关,于是提出了一种自适应和动量上界的方法来限制自适应学习速率,对学习率t进行指数加权平均,保证了学习率稳定性如下所示:stst()t()学习率ttvt,上式还可表示为st()st st t s,其中,s,且st具有过去的长期记忆此外,还加入了动态边界:t m i n(t,st)()其中,t是由边界运算得到的最终学习速率,tt tmt表示A d a M o d算法的更新迭代式,mt为修正后的一阶动量项式()中在一定范围内逐渐增加时,A d a M o d的泛化性能往往会提高,但随着收敛速度降低的代价也会增加,A d a M o d从优化的角度解决了稳定性

9、问题 Y a d a m o d算法的提出由YO G I算法和A d a M o d算法思想的启发,改进了A d a m算法的二阶动量项和学习率,提出了Y a d a m o d算法Y a d a m o d算法首先改变了A d a m的二阶动量项,在vt加入了激活函数s i g n(vtgt),并且去掉了A d a m算法中对vt的修正项,以抑制学习率震荡的现象,更新式变为:vtvt()s i g n(vt gt)gt()其次,由于A d a m算法中缺乏对历史梯度的长期记忆,于是加入了指数移动平均,二阶动量的更新规则为式(),新加入的参数控制了st的平滑度,与A d a M o d算法相

10、同,在Y a d a m o d算法中对学习率引入了动态上限,以消除在网络训练后期的极端学习率,t的自适应上界为式()最后,本文使用t和mt进行参数更新,这个过程需要迭代T步,直到返回一个近似的解 Y a d a m o d算法参数的最后更新式为:ttmt()具体的Y a d a m o d的算法迭代流程如下表所示:太原师范学院学报(自然科学版)第卷Y a d a m o d的算法迭代流程输入:初始化参数向量,参数的目标函数f(),初始学习率t,衰减系数,其中,(,),一般为初始化:一阶动量向量m,二阶动量向量v,sf o r t t o Td omtmt()gtvtvt(

11、)s i g n(vt gt)gtmtmttttvtstst()tt m i n(t,st)tt tmte n d f o r Y a d a m o d算法的收敛分析对任意的参数Rd,可微光滑的非凸函数f(;s):RdR,则随机非凸问题的表达式:m i nRdJ()EsPf(;s)()其中f(;s)是一个可微光滑的非凸函数,s是服从分布为P的随机变量本文将证明Y a d a m o d算法以T速度收敛,先介绍几个引理引理非凸函数f的随机梯度是有界的,如果对任意的参数Rd,其中d是参数向量的维度,sS和id 都有常数G满足:f(,s)i G()引理对于迭代的参数值t,tT,对任意的id 有

12、下列不等式成立:Etgt,iibf(t)i()其中gti表示函数f第t次迭代时随机梯度向量坐标为i时的值b是小批量的样本数引理t是Y a d a m o d算法的学习率的上界,可得到如下不等式:ttvt()证明由()式和()式可以得到:当tt时,有ttvt当tst,由等比数列的上界有如下不等式:tTj()Tjtvttvt综上所述,得到不等式:ttvt定理令初始学习率t为常量,即t,是梯度二阶动量的衰减率,f()i n ff(),a是从,T 中随机抽取的迭代值,假设 G,L,vt,iG,那么在第t次迭代时Y a d a m o d第期董文静,等:基于卷积网络的A d a m算法的改进算法的复杂度

13、有如下上界:Ef(a)(f()f()T)()证明假设,由于Y a d a m o d算法的损失函数是L光滑的,结合引理有:f(t)f(t)f(t),t tLt tf(t)di(f(t)itgt,i)Lditgt,if(t)tdif(t)igt,ivt,iL tdigt,i(vt,i)()对()式的不等式两边同时取期望:Etf(t)Etf(t)tdif(t)iEtgt,ivt,i L tdiEtgt,i(vt,i)Etf(t)tdif(t)iEtgt,ivt,igt,ivt,igt,ivt,i L tdiEtgt,i(vt,i)由于E(gt)f(t),得到不等式:Etf(t)Etf(t)tdif

15、vt,igt,i时,有|gt,i|vt,i,即|gt,i|vt,ivt,i由此,可得到不等式:|gt,i|vt,ivt,i()将()式带入()式中,得到:T()gt,i(vt,i)(vt,i)gt,i(vt,i)(vt,i)gt,i(vt,i)()接下来求T的上界,由更新式中的()得:若vt,igt,i,有vt,ivt,i若vt,igt,i,有:vt,ivt,i()gt,ivt,i()将()式带入T中,有:太原师范学院学报(自然科学版)第卷TL tdiEtgt,i(vt,i)L tdiEtgt,i(vt,i)L tdiEtgt,ivt,i()将T和T的上界()和()带入()中,

16、得:Etf(t)Etf(t)tdif(t)ivt,itdif(t)iEtgt,i(vt,i)L tdiEtgt,ivt,i利用引理得到不等式:Etf(t)Etf(t)tdif(t)ivt,itGdiEtgt,i(vt,i)L tdiEtgt,ivt,i利用引理得到不等式:Etf(t)Etf(t)ttGL t dif(t)ivt,itGL t dii(b vt,i)由于假设 G,tL,得到下列不等式:Etf(t)Etf(t)tdif(t)ivt,itGL t dii(b vt,i)将vt,iG带入上式中,并在不等式两边求和,得到下列不等式:t(G)TtEf(t)f()Etf(T)tGL t T

17、ibG不等式两边同乘(G)t,有:TtEf(t)(G)t(f()Etf(T)(G)ttGL t T ibG利用不等式f()f(t)和L有:TtEf(t)(G)t(f()f()(G)GL t T ibG(G)f()f()t(G)(G)bT i由于a是从,T 中随机抽取的迭代值,则有不等式:Ef(a)f()f()T当T,Y a d a m o d算法可以收敛到常数()由于批次中的每个样本之间都是互相独立的,假设批量大小为b,因此随机梯度的均值方差最大为b定理当Y a d a m o d算法选择批量大小为b时,它的复杂度上界满足公式:第期董文静,等:基于卷积网络的A d a m算法的改进Ef(a)T

18、b定理令b(T),固定学习率,由随机一阶复杂度(S F O)框架 ,则可以得到Ef(a)T成立,且算法得到精确解需要的复杂度是综上所述,当b(T),固定学习率时,Y a d a m o d算法可以按照T收敛到稳定点,也证明了Y a d a m o d算法的收敛性实验分析本文采用p y t h o n 语言和p y t o r c h框架,基于R e s N e t 和R e s N e t 卷积神经网络在C I F A R 数据集和C I F A R 数据集上分别进行训练和测试,分别对A d a m算法、A d a M o d算法、Y a d a m o d算法和S G D算法四种优化算法的

19、训练损失、训练准确度、测试损失和测试准确度进行对比实验,进而验证Y a d a m o d算法的有效性图R e s N e t 和R e s N e t 的残差块结构 R e s N e t 网络和R e s N e t 网络R e s N e t 网络主要有层神经网络组成,首先输入层为的卷积层,然后经过残差学习单元,R e s N e t 的残差结构如图的左图所示,每层神经网络分别包含、个残差单元,每个残差学习单元有两层卷积层,即残差学习单元共有层卷积层,且步长s t r i d e为,最后一层为全连接层 R e s N e t 网络与R e s N e t 网络类似,由层神经网络构

20、成,R e s N e t 网络和R e s N e t 网络的最大区别就是残差学习单元有三层卷积层,如图的右图所示,依次为,和卷积层,其他网络结构与R e s N e t 网络相同 R e s N e t 网络和R e s N e t 的网络设置参数均为e p o c h,批量b a t c h_s i z e ,学习率l e a r n i n g_r a t e 损失函数均为交叉熵损失函数 C I F A R 数据集和C I F A R 数据集C I F A R 数据集与C I F A R 数据集类似,都包括张大小的彩色图片 C I F A R 数据集将图片共分类,每类有张图像训

21、练集为张图片,测试集为张图片 C I F A R 数据集有个类,每个类包含个图像,个图像中有个训练图像和个测试图像实验结果分析图表示R e s N e t 和R e s N e t 在C I F A R 数据集上的训练损失和测试损失图,可以观察到Y a d a m o d算法的训练损失值与测试损失值整体都低于A d a m算法、A d a M o d算法和S G D算法,而且A d a m算法、A d a M o d算法和S G D算法的震荡较明显,相比较之下,Y a d a m o d算法训练和测试过程中震荡幅度较低另外,在训练和测试到一定E p o c h后,损失曲线趋于稳定

22、不再下降图表示R e s N e t 和R e s N e t 在C I F A R 数据集上的训练损失和测试损失图以R e s N e t 的测试损失图为例,A d a m算法的损失下降过程中有波动现象,Y a d a m o d算法和S G D算法的测试损失值下降比较平滑,但S G D算法明显没有Y a d a m o d算法的收敛速度快,而且在E p o c h 之后,损失逐渐趋于稳定表明该算法在保证收敛速度的前提下,有效的抑制了优化算法在网络中的震荡现象从表可知,采用C I F A R 数据集,Y a d a m o d算法在R e s N e t 测试准确度与A d a m算法相比提

23、升了 ,测试准确度达在R e s N e t 网络上测试准确度与A d a m算法相比提高了 ,测试准确度达同样的,本文使用R e s N e t 和R e s N e t 神经网络在C I F A R 数据集上训练和测试,从表可以看到,本文算法的测试准确度最高,Y a d a m o d算法在R e s N e t 和R e s N e t 测试准确率分别比A d a m算法高和太原师范学院学报(自然科学版)第卷图R e s N e t 和R e s N e t 在C I F A R 数据集上的测试和训练损失图图R e s N e t 和R e s N e t 在C

24、I F A R 数据集上的测试和训练损失图表R e s N e t 和R e s N e t 在C I F A R 数据集上的测试准确率表测试准确度C I F A R C I F A R R e s N e t R e s N e t R e s N e t R e s N e t S G D A d a m A d a m o d Y a d a m o d(本文)结语本文对A d a m算法在学习率和二阶动量项方面都进行了改进,在A d a m算法的二阶动量项引入激活函第期董文静,等:基于卷积网络的A d a m算法的改进数S i g n,以及对学习率采取指数加权平均和动态上界的方法,提出

25、了Y a d a m o d算法,解决了因A d a m二阶动量项带来的震荡问题通过理论证明保证了本文改进算法的收敛性同时,通过与现有的S G D、A d a m和A d a M o d等优化算法在C I F A R 数据集和C I F A R 数据集作对比,实验结果表明Y a d a m o d算法有效的改善了学习率的稳定性,此外,在训练集、测试集上的收敛速度和准确率等方面都均优于A d a m、S G D等优化算法但是,本文算法在测试精度上还有提升空间,后续将精进参考文献:史加荣,王丹,尚凡华,等随机梯度下降算法研究进展J自动化学报,():L Y D I AA,F R A N C I SS

26、 A d a g r a d a no p t i m i z e r f o r s t o c h a s t i cg r a d i e n t d e s c e n tJ I n t J I n f C o m p u t S c i,():Z E I L E R M D A D A D E L T A:a na d a p t i v e l e a r n i n gr a t em e t h o dE B/O L()h t t p:e x p o r t a r x i v o r g/a b s/T I E L EMAN T,H I N T ON G L e c t u

27、r e r m s p r o p:D i v i d et h eg r a d i e n tb yar u n n i n ga v e r a g eo f i t sr e c e n tm a g n i t u d eJC OUR S E R A:N e u r a lN e t w o r k s f o rM a c h i n eL e a r n i n g,():K I N GMADP,B AJ A d a m:am e t h o df o r s t o c h a s t i co p t i m i z a t i o nE B/O L()h t t p s:a

28、 r x i v o r g/a b s/姜志侠,宋佳帅,刘宇宁一种改进的自适应动量梯度下降算法J华中科技大学学报(自然科学版),():Z AHE E R M,R E D D IS,S A C HAND,e t a l A d a p t i v em e t h o d s f o r n o n c o n v e xo p t i m i z a t i o nCA d v a n c e s i nN e u r a l I n f o r m a t i o nP r o c e s s i n gS y s t e m s(N e u r I P S )R e dH o o k:C

29、 u r r a nA s s o c i a t e s,I n c,:李梓毓,赵月爱改进A d a m优化算法的人脸检测方法J太原师范学院学报(自然科学版),():L UOLC,X I ON GY H,L I UY,e t a l A d a p t i v eg r a d i e n tm e t h o d sw i t hd y n a m i cb o u n do f l e a r n i n gr a t eE B/O L()h t t p s:a r x i v o r g/a b s/江紫薇基于神经网络的自适应梯度下降法的改进研究D哈尔滨:哈尔滨工业大学,张珂,杨歆豪,

30、张嘉慧,等基于高次指数平滑动态边界限制的深度学习优化算法J信息与控制,():D I N GJB,R E NXC,L UORX,e ta l A na d a p t i v ea n dm o m e n t a lb o u n dm e t h o df o rs t o c h a s t i c l e a r n i n gJ()h t t p s:a r x i v o r g/a b s/GHA D I M IS,L AN G H,Z HAN G H C M i n i b a t c hs t o c h a s t i ca p p r o x i m a t i o nm

31、e t h o d sf o rn o n c o n v e xs t o c h a s t i cc o m p o s i t eo p t i m i z a t i o nJ M a t h e m a t i c a lP r o g r a mm i n g,():陶超自适应优化算法在深度学习中的应用与研究D武汉:华中科技大学,N E S T E R OVY I n t r o d u c t o r y l e c t u r e so nc o n v e xo p t i m i z a t i o n:ab a s i cc o u r s eM B o s t o n

32、:S p r i n g e r,王奇超,文再文,蓝光辉,等优化算法的复杂度分析J中国科学(数学),():【责任编辑刘宇民】I m p r o v e m e n t o fA d a mA l g o r i t h mB a s e do nC o n v o l u t i o nN e t w o r kD O N G W e n j i n g,Z H A OY u e a i(S c h o o l o fM a t h e m a t i c sa n dS t a t i s t i c s,T a i y u a nN o r m a lU n i v e r s i t y

33、,S h a n x i J i n z h o n g ,C h i n a)A b s t r a c tA s a c o mm o no p t i m i z a t i o n a l g o r i t h mo f c o n v o l u t i o n a l n e u r a l n e t w o r k,A d a ma l g o r i t h mh a s t h e a d v a n t a g eo f f a s t c o n v e r g e n c e,b u t i t o f t e nh a s e x t r e m e l e a

34、r n i n g r a t e i n t h e l a t e s t a g eo f n e t w o r kt r a i n i n g,a n de v e nd o e sn o t c o n v e r g e I n t h i sp a p e r,Y a d a m o da l g o r i t h mi sp r o p o s e d T h ea c t i v a t i o nf u n c t i o n i s a d d e d t o t h es e c o n do r d e rm o m e n t u mt e r mo fA d

35、 a ma l g o r i t h m,a n dt h em e t h o do f e x p o n e n t i a l l yw e i g h t e da v e r a g eo f l e a r n i n gr a t ea n da d d i n gd y n a m i cb o u n d a r y i sa d o p t e dt os o l v et h ep r o b l e mo fe x t r e m e l e a r n i n g r a t e T h e c o n v e r g e n c eo fY a d a m o

36、da l g o r i t h mi n r a n d o mn o n c o n v e xc a s e s i s a n a l y z e du s i n gt h e s t o c h a s t i c f i r s t o r d e r c o m p l e x i t y(S F O)f r a m e w o r k B a s e do nR e s N e t a n dR e s N e t c o n v o l u t i o n a l n e u r a ln e t w o r k,t h ev a l i d i t yo fY a d a

37、 m o da l g o r i t h mi sv e r i f i e do nC I F A R d a t a s e ta n dC I F A R d a t a s e t r e s p e c t i v e l y T h e e x p e r i m e n t a l r e s u l t s s h o wt h a t t h e a l g o r i t h mi s s u p e r i o rt oA d a ma l g o r i t h mi ns t a b i l i t ya n do p t i m i z a t i o np e r f o r m a n c e K e yw o r d sa c t i v a t i o n f u n c t i o n;a d a ma l g o r i t h m;i n d e xw e i g h t e da v e r a g e;c o n v e r g e n c e a n a l y s i s太原师范学院学报(自然科学版)第卷

展开阅读全文