1、第 卷 第 期 西 华 师 范 大 学 学 报(自 然 科 学 版)()年 月.:./.收稿日期:基金项目:国家自然科学基金面上项目()西华师范大学科研创新团队项目()作者简介:郑伯川()男博士教授硕士生导师主要从事机器学习、深度学习和计算机视觉研究通信作者:郑伯川:.引文格式:郑伯川周兰陈雯等.非全局池化的通道注意力及其在语义分割中的应用.西华师范大学学报(自然科学版)():.()():.非全局池化的通道注意力及其在语义分割中的应用郑伯川周 兰陈 雯杨文意(西华师范大学.计算机学院.数学与信息学院四川 南充)摘 要:通道注意力通过捕获通道信息建立通道间的相互联系以提高模型表征能力 注意力网络
2、使用全局平均池化进行特征压缩得到的全局特征并不精细 为得到更精细的全局特征提出一种基于非全局池化的改进通道注意力模块()该模块采用非全局池化获得更精细的通道信息 在空间维度该注意力网络结构的挤压模块将输入特征图压缩为特定窗格大小的特征图旨在保存更多的细节信息然后通过卷积操作获得通道描述符作为通道的权重 将提出的通道注意力网络结构应用于 模型在 增强版数据集上验证对语义分割的有效性获得像素准确率为.平均交并比为.优于其他基于全局池化的注意力网络结构关键词:通道注意力全局池化非全局池化语义分割全卷积网络中图分类号:文献标志码:文章编号:()语义分割是计算机视觉的基础任务可以理解为像素级别的分类即逐
3、像素预测所属类别 语义分割提供了全面的场景描述能提供目标对象的类别、形状、大小等信息有助于计算机理解图像 传统的图像分割方法多为根据目标区域的局部特征进行分割主要包括基于阈值、基于边缘、基于局部特征、基于聚类、基于图论以及其他图像分割方法等 传统的图像分割方法无法学习目标的语义特征不能进行语义分割并且易受噪声影响因此只能应用于特定图像的分割对自然图像分割效果不好难以提供有效的语义理解信息深度卷积神经网络()具有优秀的特征提取性能被广泛用于图像分类、目标检测、语义分割等任务 全卷积网络()是深度学习技术用于语义分割的开山之作该网络使用卷积层替换全连接层将经过多次卷积、池化后得到的特征图进行转置卷
4、积将缩小后的特征图还原为原始图大小最后通过像素分类实现图像分割 由于能提取图像全局特征从而可以实现图像语义分割 有优秀的语义分割性能特别对于自然图像的分割能很好的将语义目标对象分割出来从而能提供有效的图像语义信息 被提出之后研究人员将图像分割方法的研究转向了深度学习技术主要在 的网络框架下进行了大量的改进将深度网络的许多新的技术引入到 网络模型中提高图像分割性能如将注意力机制引入特征提取网络提高特征提取性能 特征图中不同的通道所包含的信息重要性不一样为了使网络更关注包含更重要信息的通道 等提出了 该网络采用的挤压激励模块()通过捕获全局信息给通道分配不同的权重以提高模型表征能力 挤压激励模块中
5、的挤压部分采用全局平均池化将输入特征图中的每个通道挤压成一个值忽略了每个通道的局部信息 在挤压模块采用全局平均池化仅得到次优级特征信息为了提取更精细的通道特征 等提出()该模块在挤压模块结合全局平均池化和最大值池化并以串联的方式融合通道注意力和空间注意力 全局上下文信息对语义分割至关重要 西华师范大学学报(自然科学版):./年等提出()将挤压模块中的全局平均池化替换为编码块()捕获场景上下文语义并结合语义编码损失进行分割 单独使用全局平均池化会限制模型捕获高阶信息的能力为解决该问题 等引入()在挤压模块计算不同通道的协方差矩阵以获得其相关性再对协方差矩阵进行行方向归一化以获取通道间的关联性 等
6、证明了全局平均池化是离散余弦变换()的一种特殊情况由此提出一种新的多光谱通道注意 等提出()在挤压模块通过计算输入特征的均值和标准差捕获更精细的全局特征激励模块使用通道级全连接替代原有全连接减少计算量 在激励模块中加入全连接操作将不可避免增加参数数量以及消耗额外的计算资源为了解决这一问题 等提出()通过计算各通道 范数收集全局信息特征缩放后采用信道归一化进行信道交互 等提出()块在激励模块使用一维卷积确定各通道之间的交互为了提取包含更多局部信息的挤压信息本文对挤压激励模块进行改进提出一种基于非全局池化的通道注意力网络结构并将该网络模块应用于语义分割中 本文主要贡献如下:()对 通道注意力模块进
7、行改进提出一种基于非全局池化的通道注意力模块将原来的全局池化变成非全局池化获得更丰富的局部特征有利于后续激励模块学习更好的通道权重()将提出的非全局池化注意力模块应用到语义分割中并在 增强版分割数据集上验证语义分割方法的有效性?1 Attention FCNFig.1 Attention FCN Model-模型网络是经典的语义分割网络模型本文提出的 模型是在 网络模型的基础上进行改进在 模型的特征提取网络模块中加入改进后的挤压激励模块.结构 网络模型可以分为两个部分 第一部分为特征提取部分利用深度卷积神经网络堆叠卷积层、池化层和注意力模块提取特征信息通过池化层不断缩小特征图大小 该部分可采用
8、 和 作为特征提取网络第二部分为特征融合部分采用转置卷积将特征图恢复到输入图像大小同时利用跳跃连接融合多个大小的特征图信息如图 所示输入大小为 的图像特征提取网络有 个不同的 块每个 块后连接本文提出的改进通道注意 力 模 块()经过 模块得到 个输出分支特征图大小分别为 特征融合具体操作如下:()第三个 块输出大小为的特征图采用 卷积将通道数降为再进行上采样得到大小为 第 卷第 期 郑伯川等:非全局池化的通道注意力及其在语义分割中的应用 的特征图()第二个 块输出大小为 的特征图采用 卷积将通道数降为 与()得到的特征图进行拼接后再进行上采样得到大小为 的特征图()第一个 块输出大小为 的特
9、征图采用 卷积将通道数降为 与()得到的特征图进行拼接后进行上采样得到与输入图像大小一致的特征图最后进行预测 实验中特征提取网络分别采用了 和 进行实验 和 的网络结构如图 下半部分所示.全局池化的通道注意力模块Global PoolingFCInputReLUFCSigmoidScaleH W CH W C11 C11 C11 CH W C?2 SEFig.2 Squeeze and Excitation block-FtrUUX11Cr11Cr 采用的通道注意力模块如图 所示包括挤压()和激励()两个模块设 为输入特征其大小为 给定卷积变换设 为一组卷积核表示第个卷积核()将输入特征 映射
10、到特征 其中 的大小为 则第 个通道的特征信息 可用公式()表示:()()其中 表示卷积操作 的大小为 由公式()可知输出特征 的第 个通道的特征信息是通过输入特征 的所有通道特征求和产生的虽然通道依赖关系会嵌入到 中但中同时还包含卷积核提取的局部空间特征导致得到的通道依赖关系存在信息干扰并且是局部的 为了直接学习通道间的相互关系以此增强卷积操作特征提取能力需要充分利用全局信息 而输出特征 各通道特征 可以理解为在卷积变换映射下得到的局部信息的集合这些局部信息的统计量可以表达整个图像的信息挤压模块通过通道全局平均池化将 各通道全局空间信息 压缩成一个通道描述符 则第()个通道的特征描述符 可用
11、公式()表示:()()()激励模块将通过挤压模块得到的特征描述符映射到一组通道权值 该模块采用两个全连接()层先降维再升维两个全连接层之间采用 函数作为激活函数最后一个全连接层的输出经 函数激活后得到通道注意力权重 则 可用公式()表示:()()()其中 表示 函数 表示 函数 通道注意力权重作用在原特征 上进行特征重标定即通道加权如公式()所示:()()其空间维度为 .非全局池化的通道注意力模块输出特征 各通道特征 的统计量可以表达整个图像的信息 采用最简单的全局平均池化来聚合特征即对同一个通道不同区域的信息赋予相同的权值这种处理方式难以体现同一个通道内不同区域特征的重要性 为了体现同一个通
12、道内不同区域信息的重要性在挤压模块使用非全局平均池化替换全局平均池化从而获得通道更多的局部信息 非全局池化的通道注意力模块如图 所示将原空间维度为 的特征图通过窗格池化(非全局池化)压缩成维度为 的特征图再通过 个核大小为 的卷积核卷积得到 的特征最后经过 函数激活得到每个通道 西华师范大学学报(自然科学版):./年的权重将该权重与输入特征图对应通道相乘实现通道级加权从而实现通道注意力机制Sigmoid?HWkkU?()3MCAMFig.3 Our Modified Channel Attention Module(MCAM)based on non global pooling propos
13、ed in the paper-Ck k C?HWCCCCCWHUCCCkkkkkkkk1111设经卷积转换后得到的输出特征图 将第()个通道特征 在空间维度等分成 个窗格块每个窗格块全局平均池化成一个值表示 经非全局平均池化操作得到的统计量集合()表示中第 行第 列窗格块的经全局平均池化得到的值可用公式()表示 可用公式()表示 表达第()个通道特征 的窗格池化后的结果 表示一个格子的池化值体现了该格子区域的信息 ()()()()()非全局平均池化模块中当窗格大小 时得到 为一个标量与 中挤压模块得到的输出一致为了将一个通道内 个窗格的池化值融合成一个特征描述符同时计算通道间的依赖关系采用
14、个核大小为 的卷积核对 进行卷积得到通道注意力建模的输出最后经 函数激活后得到通道注意力权重 可用公式()表示:()()()其中 表示 函数 通道注意力权重作用在原特征上对原特征进行通道级注意力加权如公式()所示 实验与分析实验硬件环境:单 型号为 .张 卡分别为 和 软件环境:.、.、框架 训练时设置 为 优化器为 初始学习率为.训练 轮.数据集使用 增强版图像分割数据集包含来自 数据的 张图像的分割标注共 个对象类别加背景 类每张图像大小为 像素 将数据集拆分为训练集 张、验证集 张、测试集 张.评价指标为了评价算法的分割性能采用像素准确率()、类别平均交并比(第 卷第 期 郑伯川等:非全
15、局池化的通道注意力及其在语义分割中的应用 )两个评价指标进行定量评价 是语义分割中最常用的像素级评价指标其计算图像中正确分类的像素占图像中总像素数比值 是分割结果真值的交集与其并集的比值()按类计算后取平均值 像素准确率和平均交并比定义分别如公式()和()所示公式()表示某一类别的交并比 ()()()其中()为真正 为假正()为真负()为假负()表示第 类被预测为第 类的像素个数 表示第 类被预测为第 类的像素数量 表示第 类被预测为第 类的像素数量 是类别数 和 的取值范围都是他们的值越大说明分割效果越好反之则表明分割效果变差.不同大小窗格对比表 不同窗格大小下的性能指标对比 /.表 不同模
16、块组合下的性能指标对比 方法/.非全局平均池化模块窗格大小 对最终的分割效果有一定的影响 为了得到最佳窗格大小设计 种不同的窗格池化大小进行对比实验实验模型是基于 的 在两种评价指标下的分割性能如表 所示 从表 中可以看出当 时的 最高 时 最高由于 时的计算量比 低因此综合考虑本文选择 .不同组合结构对比为了验证本文提出的非全局池化通道注意力的有效性对比了不同模块组合下模型的分割性能 实验模型是基于 的 窗格大小设置为 分割性能如表 所示 从表 中可以看出 组合结构分割性能最好需要指出的是前面不同窗格大小对比实验时采用的是 组合结构得到的结果.不同通道注意力模块对比为了进一步验证非全局池化通
17、道注意力模块对分割性能的提升情况将本文提出的注意力模块与、分别在基于 和 特征提取网络的 网络模型上进行对比实验在两种评价指标下的分割性能对比如表、表 所示 由表、表 可以看出本文提出的窗格池化方法的两个指标都优于基线网络和其他两种通道注意力方法其中基于 的 比最好的高了.个百分点 比最好的高了.个百分点基于 的 比最好的高了.个百分点 西华师范大学学报(自然科学版):./年表 本文方法与其他通道注意力性能指标对比(基于)()模型/.().表 本文方法与其他通道注意力性能指标对比(基于)()模型/.().分割结果展示?4Fig.4 Some segmentation results(a)?(b
18、)label (c)baseline (d)FCN+SE (e)FCN+CBAM (f)FCN+MCAMIoU=85.10%IoU=86.11%IoU=89.49%IoU=92.69%IoU=93.34%IoU=95.70%IoU=95.70%IoU=95.79%IoU=93.40%IoU=93.78%IoU=92.11%IoU=93.93%IoU=93.56%IoU=93.49%IoU=94.75%IoU=95.48%IoU=96.91%IoU=96.32%IoU=93.64%IoU=97.44%IoU=91.87%IoU=93.68%IoU=92.30%IoU=93.88%IoU=93.3
19、8%IoU=91.74%IoU=93.54%IoU=94.53%图 展示了部分基于 特征提取网络的 分割效果图其中第 列是原始图像第列是真实掩模图第列是未使用任何通道注意力模块的得到的分割图像第列是在中加入 第 卷第 期 郑伯川等:非全局池化的通道注意力及其在语义分割中的应用 模块得到的分割图像第 列是在 中加入 模块得到的分割图像第 列是在 中加入本文的 模块得到的分割图像 从图 可以看出第 列均存在错分类现象而使用本文方法得到的分割图像(第 列图像)更接近真实掩模图(第 列图像)比其他 种结构(第 列)的分割效果更好 结 语本文提出一种非全局池化的通道注意力网络模块并将它用于 语义分割模型
20、中 非全局池化更能捕获通道的局部特征获得更准确的通道权重建立更好的通道依赖 在 增强版数据集上的语义分割实验表明提出的改进通道注意力网络模块能有效提升语义分割性能优于其他对比通道注意力网络模块 但是该算法也存在一定的局限性如窗格大小需人工设定 后续将进一步将此注意力模块应用到其他网络模型以及其他任务中进一步验证其性能参考文献:.():.():.():.():./().:.():.():.:.():.:/.:./().:./.().:/./.:.():./.().:/././.().:/././().:.():.:/西华师范大学学报(自然科学版):./年 ().:./().:./().:.:/().:.:/().:./().:.:/().:./.().:/././().:.(.):.().: