适用于SCNN的多维度注意力方法.pdf

资源描述

1、第43卷第3期2023年5月DOI:10.13954/ki.hdu.2023.03.006杭州电子科技大学学报（自然科学版）Journal of Hangzhou Dianzi University(Natural Sciences)Vol.43 No.3May 2023适用于SCNN的多维度注意力方法徐宇奇，王欣悦，徐小良（杭州电子科技大学计算机学院，浙江杭州310 0 18)摘要：脉冲卷积神经网络（SpikingConvolutional Neural Network，SCNN)具有强大的局部特征提取能力，但维度分布复杂，对脉冲事件易作出错误判断，影响网络的识别精度与收敛速度。受卷积神经网

2、络的多维度注意力方法（ConvolutionalBlockAttentionModule,CBAM)启发，采用双路压缩一提取技术来获取各维度的注意力，提出一种适用于SCNN的多维度注意力方法，提升了网络对脉冲事件的感知能力，并优化了网络整体性能。实验结果表明，相比于基准的空域反向传播（Spatio-TemporalBackpropagation，ST BP)算法，提出方法的识别精度提高了4.31%。关键词：脉冲卷积神经网络；神经形态视觉任务；多维度注意力中图分类号：TP391文献标志码：A文章编号：10 0 1-9 146（2 0 2 3)0 3-0 0 37-100引言脉冲卷积神经网络（Sp

3、ikingConvolutionalNeuralNetwork，SCNN)作为第三代神经网络中的分支，使用离散的脉冲信号进行信息传递，类似大脑皮层的信息处理方式使其具有巨大的发展潜力，成为神经形态视觉任务中的研究热点，在目标跟踪、图像识别与视频识别等领域应用广泛 1。得益于脉冲传递的低耗能特性，SCNN还可以应用于边缘设备。与卷积神经网络（Convolutional Neural Network，CNN)不同,SCNN具有独特的时间维度，与通道、二维空间维度相结合形成了相当复杂的维度空间，大量的脉冲事件分布在复杂的网络空间内，增加了网络学习的压力，使神经元容易错误地关注到某些不重要的脉冲事件，

4、在时间窗口内发放大量穴余脉冲，致使网络在增加计算量与能耗的同时，降低了后续神经元的可选择性，损害网络的信息表示 2-5。相比于CNN,SCNN更需要多维度的注意力方法帮助网络对分布复杂化的脉冲事件作出精准的重要性判断。目前还没有专门适用于SCNN的多维度注意力方法来缓解上述问题。在CNN中，有一种多维度的注意力方法（Convolutional Block Attention ModuleCBAM)6可以通过压缩-提取模块获取特征图通道维度与二维空间维度的注意力并加以融合，快速聚焦于特征图的关键位置，但对于脉冲数据，CBAM无法考虑时间域范围内的全局性与多个样本间的全局性，并不适用于SCNN。因

5、此，本文对CBAM进行改进，提出一种适用于SCNN的多维度注意力方法，使得神经元对各个脉冲事件的重要性作出精准的判断。1STBP学习算法Wu等 5.7 提出了随时空域反向传播（Spatio-Temporal Backpropagation，ST BP）学习算法，并与Pytorch框架兼容，将带泄漏整合发放（LeakyIntegrate-And-Fire，LIF）神经元模型转换为显示迭代版本，快速训练更深层的脉冲神经网络。其膜电位u计算如下：收稿日期：2 0 2 2-0 4-18基金项目：浙江省自然科学基金资助项目（LY19F030021）作者简介：徐宇奇（19 9 6 一），男，研究方向：脉冲

6、神经网络。E-mail：x y q h d u.e d u.c n。通信作者：徐小良，教授，研究方向：大数据与知识图谱、向量检索。E-mail:。38式中，表示神经元阈值，u与o分别表示处于时间点t且位于网络第n层的膜电位与输出矩阵，n与l（n)分别表示网络的第n层与该层包含的神经元数量，w表示第n层的第i个神经元与第n十1层第i个神经元之间的突触权重，k为超参数，表示神经元膜电位的衰减常量。式（1）一式（3）表明，o*+1与o+1通过更新-触发-重置机制共同影响o+1.n+1STBP学习算法使用近似导数来解决脉冲活动不可微问题。将瞬时的变化率近似为神经元在激活前一小段时间内的变化率，使用梯度

7、下降算法进行误差的反向传播，近似导数如下：(4)V2元ae杭州电子科技大学学报（自然科学版）l(n)-10+1.+1(i)=(u+1.+(i)0)100f()=(101(0)2h(u)2a2023年(1)(2)(3)式中，为影响曲线宽窄的超参数。2SCNN多维度注意力方法本文提出适用于SCNN的多维度注意力方法主要包括3个方面，分别为通道维度注意力的获取、时间维度注意力的获取、通道和时间与二维空间注意力的融合。2.1通道维度注意力本文采用通道维度注意力（ChannelAttention，C A）方法来获取SCNN中特征图V的通道维度注意力。首先，将特征图V的维度进行重新排列，获得通道维度在批次

8、维度与时间维度下的全面信息；然后，通过卷积操作获取每个二维空间位置的重要性，对通道维度下的数据进行加权压缩；最后，通过全连接层获取全局信息通道维度的注意力。CA方法的步骤主要为批次-时间-通道整合、CA获取。2.1.1批次-时间-通道整合为了使获取的通道注意力包含批次与时间维度的全局性，分别对V进行批次与通道维度、时间与通道维度的整合。假设1个尺寸为SXT,XCXWXH的矩阵V,其中，S表示批次下的样本数，T，表示包含当前时间点t=t；在内的前置时间点，即T,E（t i，t 2，t:),C表示通道数，W与H表示二维宽和高。对处于当前时间点t=t；的V进行批次与通道维度的整合，将V沿S维度进行累

9、加，矩阵尺寸由SX1XCXWXH变为1XCXWXH，记为矩阵A。此时，矩阵A携带了该批次的全局信息。对V进行时间与通道维度的整合，将V沿前置时间点进行关于（t)的加权相乘并累加，再经过函数g（)进行激活，矩阵尺寸由1T,CWH变为1CXWH,记为矩阵B,此时的矩阵B携带了前置时间点的全局信息。B=g(ZV:f(t)t=1f(t)=expg（)1V与f（t)加权相乘后，计算的前置时间点距离当前时间点越近，分配得到的值越大，对矩阵B的贡献就越大。2.1.2通道维度注意力CA的获取与使用将得到的矩阵A和B与当前样本在时间点t下的特征图V进行整合，得到的矩阵记为C。(5)(6)(7)C=A+B+$Vt

10、(8)第3期式中，矩阵A,B,C和V尺寸均为CWH。入，为可学习参数，三者初始值相加为1,通过学习来确定矩阵A,B与Vt对矩阵Ct的贡献程度，并使其限制在土0.1。通道注意力CA的获取过程如图1所示。ABV对矩阵C进行双通道压缩操作时，直接使用MaxPool与AvgPool进行压缩并未考虑二维空间位置不同的重要性，存在一定的缺陷，故通过对矩阵C进行额外的卷积操作来获取全局二维空间的注意力。首先使用SoftMax与Sigmoid激活函数对卷积得到的数据进行激活，并将激活后的数据分别与矩阵C相乘，获得的矩阵记为D与D2；然后，对D进行AvgPool操作，对D，进行MaxPool操作，得到2个尺寸为

11、CX1X1的矩阵。特别地，对于通过AvgPool得到的矩阵，将其中的每个元素乘以WXH，随后将2 个尺寸为CX11的矩阵共同输人到1个共享的双层全连接感知机MLP=（Fc r（C,C/r i）,Fc(C/r1,C)中，其中C为通道维度，r1为超参数,Fc为全连接层。再将通过感知机MLP输出的2 个矩阵相加后，通过ReLu激活函数进行激活，得到最终的多维度整合的通道注意力尺寸为CX11的矩阵CA,将CA与对应的V中通道维度的数据相乘即可使后续膜电位携带通道注意力。本文将由输人矩阵C到获取通道注意力的一系列操作记为ConvSE(Convolutional Squeeze Excitation)模块

12、。2.2时间维度注意力本文采用适合于SCNN的时间维度注意力方法（TemporalAttention，T A)来获取SCNN中特征图V的时间维度注意力。先通过转换代维度来获取所有时间点的信息，再由ConvSE模块获取时间维度注意力TA。2.2.1送代维度转换在STBP算法中，将LIF神经元模型定义为显式迭代的版本，具体实现中使用先层次后时间的送代方法，即完成当前时刻下的网络前馈后，保存各层膜电位与各层输出数据，再进人下一个时间点进行前馈，直到遍历时间点结束。若使用时间维度进行迭代，在经过卷积层后只能获取当前时间点之前的中间特征图，无法获取还未遍历到的时间点数据，导致网络无法获取每一层的完整时间

13、维度的注意力。可进行迭代维度的转换来解决该问题。首先，将先层次后时间的迭代方法转换为先时间后层次迭代，忽略前置时间点的膜电位对后续时刻的影响，在每层（如第i层)获得所有时间点直接得到的中间特征图V；然后，使用V，获取时间维度注意力，再进行后续的前置时间膜电位衰减加权，或进行发送脉冲后的超极化操作；最后，继续以上步骤进行层次上的迭代直到网络结束。2.2.2时间维度注意力TA的获取与使用获取的第i层中间特征图V.的尺寸为TXCXWXH，分别表示时间、通道、二维空间宽和高维度。通过对V，进行2.1.2 节所述的ConvSE操作，获取时间维度注意力TA，并将其迭代作用于膜电位的更新，如图2 所示，具体

14、步骤如下。(1)对所有时间点的中间特征图V：进行通道维度的累加，尺寸变为TXWXH。徐宇奇，等：适用于SCNN的多维度注意力方法ConvDCAvgPoolXWxH通道注意力CA！Shared MLP图1通道注意力CA获取示意图39SoftmaxConvSE模块SigmoidD2MaxPool40(2)针对步骤1获得的矩阵，使用结合了二维空间注意力的ConvSE模块，将其感知机MLP中的参数ri替换为r，通过基于卷积操作的双路池化操作获取到时间维度上的注意力矩阵TA；，该矩阵大小为 TX1X1。（3)根据STBP算法中的LIF神经元特性，按照t=O到t=T的时间顺序，对V；进行包括衰减、重置、添

15、加TA在内的一系列膜电位更新操作，得到膜电位矩阵V。当无前置时间点t=0时，不需要进行衰减与重置的膜电位更新操作，只需将TA?与V相乘得到V,再采用脉冲激活函数激活V，得到脉冲输出O；t=0 时，对VI进行更新，先使用V与O对其进行共同作用，包括t=0时刻发放脉冲后相应膜电位的重置与膜电位的自然衰减操作，再将TAI与更新后的V相乘得到V,最后通过激活函数得到O；后续时间点的操作与t=1时刻相同。杭州电子科技大学学报（自然科学版）2023年Output,(-T-1HCWHW经上述操作，每个时间点上得到的V都具备了时间维度的注意力O；，即该卷积层最终携带的是有时间维度注意力的输出。2.3多维度注意

16、力融合策略将通道维度注意力、时间维度注意力与在ConvSE模块中的二维空间维度注意力互相结合，形成适用于调整SCNN中神经元膜电位的多维度注意力方法。首先对迭代维度进行调整，获取第i层经过卷积后得到的所有时刻的中间特征图V；，后续步骤如下。（1)对于每个时间点的中间特征图Vi，使用2.1节所述的方法获得对应于每个时间点的通道维度注意力CA,。特别地，将各维度整合后得到的矩阵D进行卷积并使用Sigmoid函数激活获得的矩阵记为空间维度注意力矩阵SA。(2)对于该层所有时间点的中间特征图V:，使用2.2 节所述的方法获得时间维度注意力Vi。特别地，对每个时刻的V进行沿通道维度累加操作时，将CA,与

17、V对应位置相乘后再沿通道维度进行累加。因此，本节所获取到的时间维度注意力矩阵TA，结合了通道维度的注意力。（3)对于t=O时刻的V，使用TA与其整体相乘后，再使用CA,对V中的通道维度进行对应相乘，最后使用SA对V中的二维空间维度进行对应相乘，此时得到t=O时刻的膜电位矩阵V，经过激活函数获得脉冲输出O；对于后续时间点t，还需考虑上一时刻的膜电位V-1与输出O-1,计算得到Vi,并进行与t=0时刻相同的各个维度注意力相乘操作，循环直到输出所有O;。本文提出的适用于SCNN的多维度注意力方法能将各个维度的注意力互相结合，使其形成相辅相成的关系以帮助网络更好地获取到在各个复杂维度下多维度有机融合的

18、注意力分布，随着SCNN本身学习的进行，各个维度的注意力获取也在相应地进行调整，以达到适应网络的最好效果。3实验结果与分析实验中，所有代码的实现均采用Python3.8，平台运行为PyCharm2020.2，服务器操作系统版本为t=1图2 TA的获取与作用示意图1=0 V(=T-1ConvSEH（2.1.2 小节）WT=1TAi=0第3期Ubuntul8.04,CPU型号为Intel(R)Core(TM)i9-10900X，主频为3.7 0 GHz,GPU型号为RTX3090。实验数据集为3个神经形态数据集N-MNISTEs，CIFA R10-D VSE9 和DVS-Gesturel101，从

19、识别精度、收敛速度、各维度注意力等方面来评估系统的性能。3.1数据集与实验环境3.1.1数据集3个神经形态数据集中，N-MNIST和CIFAR10-DVS数据集上的时间窗口T=10，划分时间流时取间隔dt=10ms;DVS-Gesture数据集上的时间窗口取T=40,dt=15ms。3.1.2网络结构及参数设置选用表1中的网络结构与具体参数，采用本文提出的适用于SCNN的多维度注意力方法分别在3个数据集上进行实验。数据集类别N-MNISTCIFAR10-DVSDVS-Gesture表1中，12 8 C3表示输出通道为12 8 且卷积核尺寸为33的卷积层，AP2表示池化核尺寸为2 2的平均池化层

20、，10 2 4FC表示输出数量为10 2 4的全连接层，VOTING表示分类层，Stride表示卷积核单次移动的步长。3个数据集使用的参数与优化器如表2 所示，其中，0,A与k为STBP学习算法中的参数；入，与ri为获取通道注意力CA时所使用的参数；t，o 与r2为获取时间注意力TA时所使用的参数，优化器选择使用 Adam11,参数类型神经元阅值近似导数超参数A膜电位衰减因子k入CA整合参数TTA整合参数网络学习率CA感知机参数r1TA感知机参数r2ADAM参数3.2实实验结果与分析从识别精度、收敛速度与复杂度等方面对本文提出的适用于SCNN的多维度注意力方法（简称CTSA)进行评估和分析。3

21、.2.1精度评估分别对通道维度注意力CA、时间维度注意力TA、多维度注意力CTSA在3个数据集上进行识别精度的评估。结果如表3一表5所示,其中的“-comp项为对比方法。通道维度注意力CA、时间维度注意力TA与常规网络和对照方法（-comp组）的精度评估对比如表3所示，其中，CA-comp为不进行批次-通道与时间-通道的整合，直接对中间特征图进行压缩-提取以获徐宇奇，等：适用于SCNN的多维度注意力方法表1实验数据集的网络结构表网络结构128C3-128C3-AP2-128C3-256C3-AP2-1024FC-VOTING128C3(Stride=3)-128C3-AP2-128C3-256

22、C3-AP2-1024FC-VOTING64C3-128C3-AP2-128C3-AP2-256FC-VOTING表2 实验数据集参数表N-MNIST0.20.40.350.10.100.801.00.253e-48241CIFAR10-DVSDVS-Gesture0.20.30.40.50.350.300.10.10.100.150.800.751.01.10.250.353e-43e-48428入,1,2=0.9,0.999,1e-842得通道注意力，且在压缩时不考虑二维空间注意力；TA-comp为对输入数据直接进行压缩-提取操作获取注意力，且在压缩时不考虑的二维空间注意力。数据集方法类别

23、STBPN-MNISTSTBP-CA-compSTBP-CASTBPSTBP(DA)CIFAR10-DVSSTBP(DA)-CA-compSTBP(DA)-CASTBPDVS-GestureSTBP-CA-compSTBP-CA表4TA精度评估数据集方法类别STBPN-MNISTSTBP-TA-compSTBP-TASTBPSTBP(DA)CIFAR10-DVSSTBP(DA)-TA-compSTBP(DA)-TASTBPDVS-GestureSTBP-TA-compSTBP-TA表3与表4分别展示了CA,TA与常规网络和对照方法（-comp组）的精度评估对比，可以发现：尽管以往的通道与时间维

24、度注意力（-comp组)的应用在每个数据集上都带来了一定的精度提升，但与本文方法对比，仍具有一定的差距。其中在N-MNIST与CIFAR1O-DVS数据集上，CA比TA带来了更多的提升，这是因为这2 个数据集将时间窗口大小T设置为10，与通道维度数量相差较大，CA取得了更好的效果；而在DVS-Gesture数据集上，T=40,时间维度极大延长后，使数据本身隐含了更多的时间维度的信息，给TA带来更大的发挥空间，TA的精度提升高于CA。表5展示了通道维度注意力CA、时间维度注意力TA与多维度注意力CTSA在各个数据集上的识别精度，可以看出，在单维度注意力方法的基础上，CTSA进一步帮助SCNN提升

25、了性能。数据集识别精度/%STBP99.23STBP-CA99.47N-MNISTSTBP-TASTBP-CTSASTBPSTBP(DA)CIFAR10-DVSSTBP(DA)-CASTBP(DA)-TASTBP(DA)-CTSASTBPSTBP-CADVS-GestureSTBP-TASTBP-CTSA杭州电子科技大学学报（自然科学版）表3CA精度评估表5CTSA精度评估方法类别2023年识别精度/%99.2399.3299.4758.1065.5066.9468.5193.4093.9194.56识别精度/%99.2399.2799.3858.1065.5066.6567.8493.409

26、4.1395.0899.3899.5558.1065.5068.5167.8469.8193.4094.5695.0895.79第3期在CIFAR10-DVS数据集进行实验时发现，训练精度与测试精度相差较大，存在一定程度的过拟合现象，这是由于该数据集的复杂程度较高且数据量相对不足，导致网络泛化能力较低。针对以上问题，通过对图像进行裁剪、翻转等传统数据增强方法（Data Augmentation，D A)来提升训练数据的差异性，从而缓解过拟合现象 12 。在网络进行训练之前，本文先对CIFAR10-DVS的数据进行增强处理，对应表5中的STBP(DA)方法。如图3所示，首先，在12 8 X128

27、的图片上增加大小为2 4的padding，尺寸变为17 6 X176，并将尺寸随机裁剪回12 8 12 8；然后，对图片进行随机的水平翻转。在此基础上，继续验证各注意力在CIFAR10-DVS数据集上的性能，实验结果表明，相比于经过数据增强的STBP算法，CTSA在该数据集上的识别精度提高了4.31%。徐宇奇，等：适用于SCNN的多维度注意力方法43加边1281283.2.2收敛速度评估为进一步探究各维度注意力方法为 SCNN带来的性能提升，先采用CA与CA-comp、T A 与TA-comp分别在3个数据集上进行收敛速度的对比，结果如图4所示，再对CA,TA与CTSA进行收敛速度的对比，结果

28、如图5所示。其中normal曲线为只使用STBP算法的常规网络，图中横轴为迭代次数，纵轴为精度。1.000.950.900.850.80020406080100送代次数1.000.950.900.850.80020406080100送代次数(a)N-MNIST图4单一维度注意力方法收敛速度对比从图4可以看出，和原网络与对照方法（-comp)相比，CA与TA均能更为快速地达到较高的精度，图中虚线圆圈标注的部分相差最大。前期精度上升速度略低于对照方法的主要原因在于本文方法整合了全局数据，且额外加入了卷积与全连接操作，在训练初始阶段更为困难，但最终均能快速地收敛到更高的精度。裁剪$176图3CIFA

29、R10-DVS数据增强流程图0.751.00.8X0.550.6-CA-compnormal-CA+normal-TA-compTA翻转1281280.35-CA-comp-normal-CA0.1504080120160200送代次数0.750.550.350.1504080120160 200送代次数(b)CIFAR10-DVSCA0.4CA-compnormal-CA0.2一020406080100送代次数1.00.80.6normal0.4-TA-compTATAnormal-TA-comp0.2TA020 406080100送代次数(c)DVS-Gesture44从图5可以看出，在迭

30、代过程的中期，多维度注意力方法CTSA与其他的单维度注意力方法逐渐拉开差距，最终以最小的迭代次数完成收敛。因为CTSA方法不局限于单个维度，而是将通道维度与时间维度的注意力有机结合，使两者相辅相成，在帮助网络提高精度的同时获得更快的收敛速度。3.2.3参数分析对CTSA中参数入，的默认值进行分析，将入，限定在O,0.3之间，随两者变化而变化，三者相加为1。每次变化步长为0.0 5,分别进行实验并使用精度评估。实验过程中，使用网格搜索方法 13-15寻找最优的参数组。由于实验量较大，本文使用预训练与自训练联合的方法 16-17 进行，结果如图6所示。(0.1,0.15)ACC(0.10,0.10

31、)ACC00.05入从图6 可以看出，在3个数据集上得到最好精度的入，取值分别为（0.1，0.1），（0.15，0.15）与（0.10.15）。此外可以观察到，（0 0)附近的边缘位置与（0.3,0.3)边缘位置精度较低，前者主要是由于当入，都为或有某一个为0 时，通道维度CA注意力失去了整合后的某些全局数据导致精度较低；后者是由于当入，较大时，取值较小，自身的原始信息传递效率过低导致精度下降。3.2.4注意力可视化展示在网络收敛完全时，将3个数据集的CA矩阵与TA矩阵分别相乘，得到通道-时间二维位置的重要性，如图7 所示，每个位置的重要性由暗到亮而递增。对于N-MNIST与CIFAR10-D

32、VS,取时间维度全长进行展示；对于DVS-Gesture，从0 开始每4个时间点选取1个用于展示。3个数据集的通道维度均取0 9，数据均取自于第1个卷积层。对比图7 可以看出,DVS-Gesture数据集受时间维度的影响更为明显。这是因为DVS-Gesture数据集对时间维度会更为敏感，使用的是由DVS相机直接捕获的脉冲数据，而N-MNIST与CIFAR10-DVS数据集是通过基于顿的图片转换得到的。3.2.5复杂度分析对CA,TA与 CTSA进行时间与空间的复杂度分析。(1)时间复杂度：对于CA方法，由于矩阵相加可并行操作，因此其中B-C,T-C整合与压缩提取过程均只需在每个时间点进行1次操

33、作即可，每个步骤执行次数均为时间窗口的大小T，因此时间复杂度杭州电子科技大学学报（自然科学版）1.000.75T0.950.550.90normal0.85CA-TA0.80-CTSA020 406080100送代次数(a)N-MNIST图5CA,TA,CTSA收敛速度对比(0.15,0.15)ACC0.6950.6900.6850.6800.6753052025入(a)N-MNIST(b)CIFAR10-DVS图6 参数分析2023年1.00.80.6normal0.35-CA-TA-CTSA0.1504080120160200送代次数(b)CIFAR10-DVSnormal0.4-CA-T

34、A0.2-CTSA020406080100送代次数(c)DVS-Gesture00(c)DVS-Gesture10.95710:95510:9520.500.94220:9400第3期01234567890123456789Time(a)N-MNIST为O(n）；对于TA方法，时间维度只需进行1次操作即可获取时间维度注意力，其时间复杂度为O1；对于CTSA方法，将CA矩阵、TA矩阵与在TA方法中获得的SASA矩阵结合共同作用于每个时间点，复杂度为O(n）；（2)空间复杂度：从输入数据的角度分析，上述方法都在每个时间点产生了额外的中间变量，因此空间复杂度为O(n）；从网络参数的角度分析，Conv

35、SE模块中卷积层与2 个全连接层所用参数远小于原始网络卷积层的参数，空间复杂度为O(1)。综上所述，CTSA方法的空间复杂度为O(n）。4结束语本文提出一种适用于SCNN的多维度注意力方法。从全局视野出发，运用SCNN复杂的时空动力学，通过压缩-提取模块获取SCNN中特征图的通道、时间与二维空间维度注意力并加以融合，对分布在复杂时空维度下的各个脉冲事件作出更为精准的重要性判断，保证了网络信息的高效传输。但是，本文方法需要整合每个时间点的通道和批次，增加了一定的存储负担，计划继续挖掘时间维度与通道维度之间的共性，形成全局适用的注意力，减少存储空间的消耗。徐宇奇，等：适用于SCNN的多维度注意力方

36、法012234534566778899012345678904812162024283236TimeTime(b)CIFAR10-DVS(c)DVS-Gesture图7 CA与TA融合重要性示意图45参考文献1张铁林，徐波.脉冲神经网络研究现状及展望 J.计算机学报，2 0 2 1，44（9）：17 6 7-17 8 5.2 LEE J H,DELBRUCK T,PFEIFFER M.Training deep spiking neural networks using backpropagationJ.Frontiers in Neuroscience,2016,10:508-530.3J

37、DIEHL P U,NEIL D,BINAS J,et al.Fast-classifying,high-accuracy spiking deep networks through weight andthreshold balancingCJ/2015 International joint conference on neural networks(IJCNN).Killarney,Ireland,IEEE,2015:1-8.4 HAN B,ROY K.Deep spiking neural network:Energy efficiency through time based cod

38、ing CJ/EuropeanConference on Computer Vision,Glasgow,UK,2020:388-404.5J WU Y J,DENG L,LI G,et al.Spatio-temporal backpropagation for training high-performance spiking neuralnetworksJ.Frontiers in Neuroscience,2018,3(12):331-343.6J WOO S,PARK J,LEEJ Y,et al.Cbam:convolutional block attention moduleC/

39、Proceedings of the EuropeanConference on Computer Vision,2018,2(18):3-19.7 WU Y J,DENG L,LI G,et al.Direct training for spiking neural networks:Faster,larger,better CJ/Proceedings of the AAAI Conference on Artificial Intelligence,2019:1311-1318.8J ORCHARD G,JAYAWANT A,COHEN G K,et al.Converting stat

40、ic image datasets to spiking neuromorphicdatasets using saccadesJJ.Frontiers in Neuroscience,2015,9:437-448.9 LI H M,LIU H C,JI XY,et al.Cifarlo-dvs:an event-stream dataset for object classificationJ.Frontiers inNeuroscience,2017,11:309-319.ioJ AMIR A,TABA B,BERG D,et al.A low power,fully event-base

41、d gesture recognition systemCJ/Proceedings46of the IEEE Conference on Computer Vision and Pattern Recognition,Honolulu,HI,USA,2017:7243-7252.11J KINGMA D P,BA J L.Adam:a method for stochastic optimizationJJECJ.Computer Science,2014:6980v9.12J SHORTEN C,KHOSHGOFTAAR T M.A survey on image data augment

42、ation for deep learningJJ.Journal ofBig Data,2019,6(1):1-48.13J LERMAN P M.Fitting segmented regression models by grid searchLJJ.Journal of the Royal Statistical Society:Series C(Applied Statistics),1980,29(1):77-84.14J LAVALLE S M,BRANICKY M S,LINDEMANN S R.On the relationship between classical gri

43、d search andprobabilistic roadmapsJJ.The International Journal of Robotics Research,2004,23(7/8):673-692.15J FAYED H A,ATIYA A F.Speed up grid-search for parameter selection of support vector machinesJ.AppliedSoft Computing,2019,80:202-210.16J ERHAN D,COURVILLE A,BENGIO Y,et al.Why does unsupervised

44、 pre-training help deep learning?CJ/Proceedings of the Thirteenth International Conference on Artificial Intelligence and Statistics.JMLR Workshopand ConferenceProceedings,2010:201-208.17J TOMPSON J J,JAIN A,LECUN Y,et al.Joint training of a convolutional network and a graphical model forhuman pose

45、estimationJJ.Advances in Neural Information Processing Systems,2014,27:526-535.杭州电子科技大学学报（自然科学版）2023年Multi-dimensional attention method for SCNNXU Yuqi,WANG Xinyue,XU Xiaoliang(School of computer,Hangzhou Dianzi University,Hangzhou Zhejiang 310018,China)Abstract:Spiking Convolutional Neural Network(

46、SCNN)has become a research hotspot in neuromorphicvision tasks because of its biological rationality and strong local feature extraction ability.However,due to the complex dimensional distribution of SCNN,neurons are easy to make wrong judgment onthe importance of spikes,which will affect the recogn

47、ition accuracy and convergence speed of thenetwork.To solve the above problems,inspired by the multi-dimensional attention method CBAM ofConvolutional Neural Network,this paper proposes a multi-dimensional attention method calledCTSA（Ch a n n e l-T e mp o r a l-Sp a t i o A t t e n t i o n),w h i c

48、h i s s u i t a b l e f o r t h e u n i q u e s p a t i o-t e mp o r a ldynamics of SCNN to help the network make a comprehensive and accurate importance judgment ofspikes,and improve the overall performance of the network.Extensive experiments verify theeffectiveness and efficiency of CTSA method.On CIFAR1o-DVS dataset,the recognition accuracy ofCTSA is improved by 4.31%compared with the benchmark method.Key words:spiking convolutional neural network;neuromorphic vision tasks;multi-dimensional attention

展开阅读全文