1、 稀疏连通卷积神经网络有效近似研究 杨丽娟,李松华,方 黄(湖南理工学院 数学学院,湖南 岳阳 414006)摘 要:深度卷积神经网络在图像分类和物体检测上已取得卓越表现,其代价是需要大量参数和复杂计算.针对全连通卷积神经网络运算复杂性,已有研究提出稀疏卷积连通神经网络算法,但卷积(稀疏和非稀疏)连通深度神经网络算法在理论上还有待完善.主要研究稀疏连通卷积神经网络的近似理论,考虑在Sobolev空间中具有任意紧支集的函数,利用表示系统2()()ii IDL实现稀疏连通卷积神经网络对函数的有效逼近.关键词:卷积神经网络;稀疏连通;函数近似 中图分类号:O241.5 文献标识码:A 文章编号:16
2、72-5298(2023)02-0012-05 Efficient Approximation of Sparse Connected Convolutional Neural Networks YANG Lijuan,LI Songhua,FANG Huang(School of Mathematics,Hunan Institute of Science and Technology,Yueyang 414006,China)Abstract:Depth convolution neural networks have achieved outstanding performance in
3、 image classification and object detection,and the cost is a large number of parameters and complex computation.In view of the computational complexity of fully connected convolutional neural network,sparse convolutional connected neural network algorithm was proposed in recent years,while convoluti
4、onal(sparse and non-sparse)connected depth neural network algorithm needs to be improved in theory.The approximation theory of sparsely connected convolutional neural networks was mainly studied.Considering a random function with compact support in Sobolev space,the representation system2()()i i IDL
5、 was used to realize the effective approximation of functions by sparsely connected convolutional neural networks.Key words:convolution neural network;sparsely connected;function approximation 0 引言 深度神经网络是机器学习领域的一种主流技术,在图像时空融合恢复、图像分类和物体检测等领域有着广泛应用1,2.但是,随着训练数据成指数倍增长,海量数据给全连通神经网络计算复杂性带来严重挑战.Blcskei 等
6、3提出一种稀疏连通神经网络,若网络的连接数M相对于可能的连接数(下一层的可连接变量)来说很小,则网络是稀疏连接的.在最大允许误差范围之内(给定任意正数),找出一个稀疏连通神经网络(,)f M来逼近函数f,使得 2|(,)|Lff M.上述结果在给定函数类的复杂性和相应的近似神经网络所需的连接性之间建立了一个通用的联系(全连通神经网络和稀疏连通神经网络之间的联系),有效降低了计算复杂度,提升了深度学习神经网络的运算速度.在深度神经网络中,函数的近似理论已比较完善,而关于深度卷积神经网络的数学近似理论目前还偏少46,尤其是对稀疏连通深度学习神经网络近似性质的研究则更少3,7.全连通神经网络通常是通
7、过学习权值来逼近函数,而对于稀疏连通深度神经网络而言,是否可以用同样的方法来逼近函数,这一问题尚待解决.本文从稀疏连通卷积神经网络近似性入手,先讨论稀疏连通卷积神经网络的模型,再通过构造不同空间下的近似系统证明稀疏连通卷积神经网络的近似理论.在提供确定精度的情况下,可以找到一个稀 收稿日期:2022-09-23 基金项目:湖南省自然科学基金项目(2020JJ4330);湖南省教育厅项目(19A196)作者简介:杨丽娟,女,硕士研究生.主要研究方向:小波分析及其应用 通信作者:李松华,男,博士,教授.主要研究方向:小波分析及其应用 第36卷 第2期 湖南理工学院学报(自然科学版)Vol.36 N
8、o.22023 年 6 月 Journal of Hunan Institute of Science and Technology(Natural Sciences)Jun.2023第 2 期 杨丽娟,等:稀疏连通卷积神经网络有效近似研究 13 疏连通卷积神经网络的近似.1 稀疏连通卷积神经网络模型 本文讨论的稀疏连通卷积神经网络(CNN)的激活函数为单变量非线性函数:()()max,0uuu,u.设向量dx,n d阶矩阵lA为第1l 层到第l层的稀疏矩阵,即ndlA.向量b是偏置向量lb的序列,定义函数:1()()()lllllW xAWxb,其中lL,l,00()Wxx(输入层的变量向量
9、).通过这个递推关系式,可知L层的稀疏连通 CNN 为 11()()LLxWWW x.定义 1 设,1MK,K M,K是卷积神经网络的最大连接数,当有M个,()0ni jA,1,2,nL时,如下递推关系式称作稀疏连通卷积神经网络模型:1()()()lllllW xAWxb,(1)其中1,2,lL,00()Wxx.在全连通神经网络模型中,隐含层或输入(出)层的层与层之间相互影响较小甚至没有,可以忽略它们之间的影响,通过稀疏连通神经网络模型减少第l层与第1l 层之间的连接数,从而降低神经网络的运算复杂度,加快其运算速度.2 稀疏连通卷积神经网络近似理论 2.1 稀疏连通 CNN 与 Sobolev
10、 空间中函数的任意逼近 定义 2 8 对于L层稀疏连通 CNN,定义函数空间是一组函数的集合:,()1():.lLddblLkkkHc Wxc 上述空间的近似能力完全取决于卷积核序列()1Lll以及序列的偏差向量()1Lllbb.若假设空间,bLH中的每个函数是在Ld的任意紧支集上的一个分片连续线性函数,则在假设空间,bLH中,下文推论表明稀疏连通 CNN 可以通过提高其深度L来达到对()fC的任意近似.定理 1 设2sd,1,1d.若2/(1)Jds,|fF,()rdfH,整指数2/2rd,则存在卷积核序列,偏置向量的序列b以及,bbLLfH,使得 11,2()|lg(1/),bdLCffc
11、 FLL 其中c是一个绝对常数,|F表示F在Sobolev空间的模,即()rdFH.证明 矩阵,()lli jn mAA使得卷积结构稀疏,l.假设有M个,()0li jA存在,且2M.()llA是一个稀疏序列,是卷积神经网络的卷积核,满足 1,11,11,21,12,12,22,2,21,1,2,1()()()()()()()()()()()()nlliiillllnnlllllnliiillllmlmlm nnnllm iiiAAAAAAAAAAAAA.14 湖南理工学院学报(自然科学版)第 36 卷 令,1(),1,2,nllklk iiiAkm,定义序列12(,)llllm.用确定的整数
12、2s来控制其稀疏度,即()0,1,2,lkks,积核序列l与另一个序列(1)(1)(1)101(,)llllmWxxx的卷积是一个向量.初始值001(,)dWxxx,1()llWx由()(1)10()Lllllii kkkWxx给出,则有 ()()(1)()(1)()(1)()1121000()(,)(),LLLlllllllllkkkkL kklkkkWxxxxT Wx 其中L是向量()lx的维度.那么在第一层卷积计算中,(0)dx,也就是式中的001(,)dWxxx.于是(1)0()Wx可改写为某一矩阵与0W的乘积,则()dsd的卷积矩阵为 0101010(1)10110000000000
13、00000000sssssssssT.()()()lli kT是一个1lldd的矩阵,其中lddls.式(1)可以改写为如下递推关系式:()1()()llllW xTWxb.这种形式的稀疏矩阵诱导深度卷积神经网络,其本质上不同于包括全连接矩阵的经典神经网络.设21dLs,m是(1)11sLd的整数部分,我们的假设中,|fF,对一些函数()rdFH的傅里 叶 变 换()F给 出 了 规 范22/2|(1|)()|rLFF.根 据 施 瓦 茨 不 等 式 和 条 件22dr,2,21,:|()|d|dFd rvFcF.其中,d rc是有限常数22/2|(1|)()|rLF.然后,将文9中关于脊波近
14、似的最佳结果应用于 1,1|dF,可以得到 001()(),mmkkkkvF xxxtm 其中 1,1k,1|1k,0,1kt,0(0)F,0(0)F,2|2Fvv.于是,1120,2 1,1|max lg,ddmFCFFc vmdm,这里普适常数00c.现在,转向构造滤波掩码的关键步骤.首先通过堆叠向量01,m,确定一个紧支集为0,1,(1)1md的序列,满足(1)11010,mdm.序列的支集在0,1,(1)md上,并找到一串支集在0,1,s中的滤波掩码 1Lll,且(1)1mdLs.因此,LL,通过将12LLL作为增量序列,有121LL,即()(1)(1)LLTTTT,第 2 期 杨丽娟
15、,等:稀疏连通卷积神经网络有效近似研究 15 其中T是由1,2,;1,2,Ll kldkd给出的Ldd矩阵.从序列的定义可以看出,对于0,1,km,矩阵T的第(1)kd行正好是k的转置.另外(1)Lsmd,故0Ls.然后构建b.定义范数10|Lkk,(0);1,2,max|kxkdBx,定义()1(0)11|llBB,对所有的1l,有()(1)()()|()|llkCTTxB,1,2,lkd.取1(1)(1)(1)1:(1,1,1)dbBB ,则 1()(1)()()11,1,2,1.llllllddbBTBlL 对1,2,1lL,有()()(1)()()1lllldhxTTxB和()(1)(
16、)()101,1,lsllllljdkslkbBBbjsds.因此向量11111,LLssssdsdbbbbbbb 为偏置向量.最后,通过()Ljb把偏置向量()Lb设置为 111(1)()()(1)()(1)()()(1),(1),(1),1,(1)LLLLLLdjLLdjkLLLdjBTBjd dLsBTtjkdkmBTB若若,其他.将这个偏置向量和(1)()Lhx的表达式代入深层CNN的迭代关系中,从恒等式()(1)(1)LLTTTT和第j个分量()()Ljhx在序列中关于()()Ljhx的定义可以看出()0()0,(),(1),1,LLkxBjdBjdLsxtjkdkm若若若0其他.因
17、此可以取,(),1|span()LdbLbLmkkLfFhxH,且误差,()1,1|dbLCmCffFF,即 11,2()0,2|max lg,.bdLCFffc vmd m 但1(1)(1)2sLmdsL和241rd.由极坐标变换,16/21,1(1)(/21)24ddd rdc ddrd可以界定一个绝对常数6/2:2max(/21)jljcj,即 11,2()0|lgbdLCffc cFL L,取02cc c,即完成定理1的证明.推论 对于2sd,Ld上的所有紧支集以及所有的()fC,存在卷积核序列,偏置向量的序列b以及,bbLLfH,使得,()lim|0.bLCLff 2.2 稀疏连通C
18、NN在2L空间下的有效近似 定义33 称2()()i i IDL是一个表示系统,d,d,若D可由神经网络(激活函数为)表示,且存在,L R,对所有的0都有 2,()|,iiL 其中,iL R dNN是一个稀疏连通卷积神经网络.此外,如果,iL R dNN的权重是受1多项式约束的,并且是Lipschitz连续或可微,使得被多项式所支配,那么称D可由神经网络(具有激活函数)16 湖南理工学院学报(自然科学版)第 36 卷 有效表示.定义4 若MII,ic,#MIM,稀疏连通CNN第L层函数为1()()()LLLLLWxAWxb,即()1()()LLLLWxTWxb.在2L空间下,定义L层稀疏连通卷
19、积神经网络的函数为:,.ML iiii Ifc 定理2 设d,d,:,如果2()()ii IDL可以用神经网络表示,且2()dfL,表示系统D存在M,使MMiii Ifc,其中MII且#MIM,M严格小于全连接数,并且满足 2()|MLff,这里(0,1/2).那么,存在L(仅取决于D)和稀疏连通卷积神经网络,L iL M dfNN以及()MO M,满足 2,()|2L iLff.证明 由定义2中D的可表示性可知,存在,L R,使得对每个MiI,:/max1,|Mi Iic,存在一个稀疏连通卷积神经网络,iL R dNN,满足 2,()|iiL.(2)设,L if是由神经网络,()Mii I组
20、成的,()Mii I是定义在空间2L上的一个稀疏连通卷积神经网络:,1()()():.JJMddii IkLkkc Wxc 所有网络都具有相同的输入,并对它们的一维输出求和,其权重为()Mii Ic,网络可以表示为 ,():(),.ML iiii Ifxcxx 这种构造是合理的,因为所有的网络,i具有相同的层数,神经网络的最后一层只实现了一个仿射函数(没有应用激活函数).然后,利用,L iL M dfNN的事实和三角不等式的应用以及式(2)得到2,()|ML iLff.再根据三角不等式的应用,有 222,()()()|2L iMML iLLLffffff.3 结束语 本文主要研究稀疏连通卷积神
21、经网络近似理论,在Sobolev空间()rdH下,对空间内任意紧支集上的任意函数给出了一个任意逼近,同时也是对神经网络近似理论内容的一个拓展.参考文献:1 Kirzhevsky A,Sutskever I,Hinton G E.ImageNet classification with deep convolutional neural networksJ.Communications of the ACM,2017,60(6):8490.2 刘志龙,李松华.基于卷积神经网络的时空融合采样重构算法J.湖南理工学院学报(自然科学版),2022,35(1):1015.3 Blcskei H,Groh
22、s P,Kutyniok G,et al.Optimal approximation with sparsely connected deep neural networksJ.SIAM Journal on Mathematics of Data Science,2019,1(1):845.4 Bruna J,Mallat S.Invariant scattering convolution networksJ.IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(8):18721886.5 Lin H
23、W,Tegmark M,Rolnick D.Why does deep and cheap learning work so well?J.Journal of Statistical Physics,2017,168(6):12231247.6 Mhaskar H N,Poggio T.Deep vs.shallow networks:An approximation theory perspectiveJ.Analysis and Applications,2016,14(6):829848.7 曲 岳.多变量时间序列的稀疏连通网络提取及应用D.大连:大连理工大学,2020.8 Zhou
24、D X.Universality of deep convolutional neural networksJ.Applied and Computational Harmonic Analysis,2020,48(2):787794.9 Klusowski J M,Barron A R.Approximation by combinations of ReLU and squared ReLU ridge functions with 1 and 0 controlsJ.IEEE Transactions on Information Theory,2018,64(12):76497656.