收藏 分销(赏)

基于可解释机器学习的神经网络软剪枝策略.pdf

上传人:自信****多点 文档编号:637705 上传时间:2024-01-22 格式:PDF 页数:5 大小:3.43MB
下载 相关 举报
基于可解释机器学习的神经网络软剪枝策略.pdf_第1页
第1页 / 共5页
基于可解释机器学习的神经网络软剪枝策略.pdf_第2页
第2页 / 共5页
亲,该文档总共5页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、信息技术 年第 期基于可解释机器学习的神经网络软剪枝策略李惠原 徐 奕 徐国整(上海交通大学电子信息与电气工程学院 上海)摘 要:软剪枝是重要的神经网络剪枝策略但该策略通常只考虑滤波器参数大小或参数矩阵在空间的分布忽略了参数编码的语义信息忽略了滤波器参数与数据的紧密联系 为此提出一种基于可解释机器学习的神经网络软剪枝策略该策略通过结合可解释机器学习方法分析滤波器对数据内容理解的重要程度以该重要程度为指标进行滤波器的排序和剪枝 实验结果表明该策略在、模型、通用数据集上均取得了较好的剪枝效果并具有可解释性可充分挖掘滤波器参数与图像信息之间的相关性分布关键词:软剪枝 可解释机器学习 模型剪枝 模型压

2、缩中图分类号:文献标识码:文章编号:():./.作者简介:李惠原()女硕士研究生研究方向为可解释机器学习理论与技术 ():.:引 言深度神经网络在信号处理领域应用广泛但其通常包含大规模的参数占据大量内存 为了保证深度神经网络的性能和模型轻量型的需求学者们提出了模型剪枝方法旨在通过一定的指标衡量模型组成部分的重要程度并删除不重要的部分 进一步地剪枝策略可以根据删除模型组成部分的具体操作方式分为传统剪枝和软剪枝 在传统剪枝中模型的组成部分被认定为不重要时该部分被彻底删除不再参与到模型的训练优化中而在软剪枝中被认定为不重要的模型组成部分被置零并参与到后续的模型训练优化中被置零的组成部分可能重新优化为

3、较重要的组成部分 软剪枝的策略能够保留较大的参数搜寻空间从而具有相对较优的剪枝效果 然而在软剪枝过程中模型滤波器的排序通常基于其参数矩阵的范数或基于不同滤波器的参数矩阵在基于可解释机器学习的神经网络软剪枝策略 李惠原 等空间中距离其他滤波器的距离和没有充分考虑模型组成部分隐含的语义信息而模型组成部分的参数能够反映数据特征内在特性 本文利用神经网络组成部分的语义信息来指导深度神经网络的剪枝任务结合可解释机器学习理论对神经网络的剪枝过程实现有效性分析克服现有神经网络软剪枝方法缺乏可解释性的缺点 算法模型为了充分挖掘神经网络组成部分编码的语义信息以及神经网络组成部分与训练数据信息之间的关联性从而对模

4、型软剪枝过程的可解释性工作机理进行分析本文使用了层级相关值传播()的可解释机器学习方法对神经网络的滤波器重要性进行评估即将滤波器按照其与数据内容的相关性大小(相关性越大表明滤波器的重要性越高)进行排序并进行软剪枝和模型微调 基于 的可解释机器学习方法基于 的可解释机器学习方法是一种用于解释分类神经网络模型的可视化工具该方法能够针对当前的分类结果给出与输入数据尺寸大小一致的热度图 该热度图通过赋予输入数据空间位置的不同颜色深度可视化这些位置与分类决策的相关程度 具体来说在使用 解释分类结果时待解释决策所对应的输出层神经元被分配一个相关性分数然后根据前一层中每个神经元对输出层神经元的激励贡献大小分

5、配给前一层中每个神经元以不同的相关值 由后一层向前一层分配相关值的过程将逐层重复进行最终输入层图像的每个位置均能够分配到与决策结果之间的相关值使用深度神经网络对图像进行分类图 为 解释神经网络工作机理 输入数据为一动物图像研究人员希望获得该图片被模型分类为“猫”的机理解释 对应于这个目标 首先给定“猫”对应的输出层神经元的一个相关值然后通过逐层的相关值分配最终在输入层得到热度图 在热度图中每个像素的相关值显示了该像素对分类决策的贡献程度 颜色越深该像素对分类为“猫”决策的相关度越高图 可解释机器学习方法示例 提出的相关值传播规则即一个神经元的相关值应该如何分配给前一层的神经元最初是基于分解和信

6、息流守恒的概念制定的随后的研究中 的相关值传播规则在深度泰勒展开理论中进行了进一步分析每一个神经元的输入是前层神经元输出的线性组合那么这个神经元的相关值应当按照该组合的比例进行分解后分配给前层的神经元 信息流守恒指的是在这个分解分配的过程中一个神经元的相关值将全部赋予给前一层神经元在该过程中需保证相关值的守恒 提出了多种相关值传播的规则 为了获得更好的解释结果可以根据需求采用不同的相关值传播规则 为简化问题变量且正相关值从语义上能够充分反映模型与解释决策的相关度如图 所示本文采用使用正相关值规则进行相关性分数的分配 已知在神经网络的前向传播中位于第 层的神经元 将其输出与连接权重相乘输入第 层

7、的神经元 设 表示神经元 的相关值表示神经元 的相关值()表示神经网络在前向传播时对神经元 具有激励作用()的输入()显然 可解释机器学习方法能够逐层地基于可解释机器学习的神经网络软剪枝策略 李惠原 等获得相关值并最终得到输入数据层的相关值空间分布 利用输入数据层的相关值热度图对神经网络进行解释中间层的相关值也能够反映其与最终分类的相关性该数据作为解释过程中的隐藏信息存在被进一步挖掘的可能性图 可解释机器学习方法的相关值分布示例 基于可解释机器学习的模型软剪枝对待剪枝的分类神经网络模型每个组成部分使用可解释机器学习方法进行相关性/重要性评估 根据上文所述本文使用基于 的可解释机器学习方法对模型

8、进行评估剪枝过程对每个目标类别平等考量 可解释机器学习方法对模型的解释是通过具体分析某一特定输入数据对于分类目标的重要性而获得的 解释模型的最小单位是单张图片那么模型对于某一类别的解释可以以对属于该类别图片的随机选取代表当前类别并对该类代表性图片进行解释模型对于某一分类问题的解释可以通过将所有目标类别的代表图片进行解释得到 为了保证模型各个组成部分(如神经元、滤波器等)的相关性评估对于每个分类的目标类别是公平的本文提出的方法要求对每个类别选取相同数量的代表图片具体实施过程中选择的数目为 张图片前述内容指出 以逐层的方式进行相关值的传播 具体来说中间层的特征图在解释的过程中也得到了相关值分配 在

9、神经网络中每层滤波器的输入特征图经过滤波器的卷积操作后会得到该层滤波器的输出特征图即每个滤波器卷积得到其对应的特征图因此中间特征图的相关性分数可以作为其对应滤波器的相关值 具体地首先输入目标类别的 张代表图片通过 方法对模型进行解释则每个滤波器获得 张代表图片对应的 个相关值将 个相关值累加得到该滤波器对该目标类别的相关值 对每个目标类别进行上述操作后即得到滤波器对整体数据的相关值根据滤波器的相关值将模型中的滤波器进行排序在使用软剪枝过程中相关度低的滤波器的参数矩阵被置零再进行模型的调参置零参数在调参过后仍然有机会在下一轮滤波器相关性排序中处于重要位置体现了软剪枝相比普通剪枝具有更大参数空间的

10、特性 可解释的滤波器相关性评估、模型剪枝、模型微调的三个步骤不断重复在到达设定剪枝比例或到达设定循环次数时完成模型压缩图 为本方法的流程 首先如图()所示对目标类别选取代表性图片通过 对模型与数据的相关性进行解释得到模型每个滤波器与当前类别数据的相关性然后将所有代表数据的相关值进行累加得到每个滤波器与当前类别的相关性对所有类别重复上述过程得到模型每个滤波器与每一类别的相关性接着如图()所示在一滤波器上对所有类别的相关值进行加和得到该滤波器对总体数据的相关值对每个滤波器重复上述过程得到其对总体数据的相关值()左图中小方块表示每个滤波器对每个类别的相关基于可解释机器学习的神经网络软剪枝策略 李惠原

11、 等值()右图方块表示每个滤波器对总体数据的相关值颜色深浅对应相关值大小图()中依据相关值大小对所有滤波器进行排序将排序较后的滤波器进行置零图中以涂黑表明滤波器置零最后图()进一步将模型进行微调 微调后的模型可以再次基于可解释性(相关值排序)进行滤波器重要性评估和剪枝直至满足循环结束的条件图 本方法流程 实验与结果分析软剪枝的先进策略是基于几何中位数模型的剪枝策略该策略简称为()分别在 模型和 模型上评估所提出剪枝策略的效果实验数据集采用 由 类 大小的自然图像组成包括 张图片的训练集和 张图片的测试集将本文方法与 软剪枝方法进行比较 在 模型的软剪枝训练过程中将预训练模型的初始学习率设为 将

12、非预训练模型的初始学习率设为 学习率在训练周期的/和/时分别下降为原学习率的 倍和 倍 模型的训练 为 初始学习率为 在第、和 时学习率变化为初始学习率的 、和 倍 在 实验中按照 实验公开的参数设置对剪枝预训练模型和剪枝非预训练模型均进行了探索 实验结果为 次实验的平均值 将神经网络的每一层剪枝设为相同的比例此设置与 设置相同对预训练 模型的剪枝和未预训练 模型的剪枝效果进行分析实验结果如表 和表 所示 表 对比了较先进的典型剪枝方法 先进的软剪枝 方法及本文的方法在 数据集上进行预训练剪枝的效果可以看到 软剪枝方法 优于典型剪枝方法 使用本文方法进行剪枝在未进行模型微调时的效果优于普通剪枝

13、能够在较少训练 时取得较好的效果表 预训练 模型在 上的剪枝效果()方法基线精度压缩后未微调精度 个精度 个精度 本方法 接下来对剪枝未训练模型进行分析鉴于 提出 数据集上 不同层对于剪枝的敏感度不同本文依照敏感度进行不同层、不同剪枝比例的设置即表 中敏感度分析 项的不同情况 为 表示依照敏感度进行层间不同比例的设置 为 表示不考虑敏感度每层设置相同剪枝比例 可以看到无论是 方法还是本文提出的方法依照敏感度的设置比未依照敏感度的设置具有略微优势表 未预训练 模型在 上的剪枝效果()方法敏感度分析 基线精度压缩后精度浮点数运算下降量 本方法 本方法 本文基于 和 进行实验并与其他先进的剪枝方法(

14、典型剪枝方法 软剪枝方法)进行了比较滤波器剪枝比例为 由表 和表 可知相比于其他剪枝方法本文提出方法的剪枝效果较好基于可解释机器学习的神经网络软剪枝策略 李惠原 等表 预训练 模型在 上的剪枝效果对比()方法基线精度压缩后精度精度上升浮点数运算下降量 (几何中位数)(几何中位数 矩阵范数)本方法 表 预训练 模型在 上的剪枝效果对比()方法基线精度压缩后精度精度上升浮点数运算下降量 (几何中位数)本方法 结束语本文从可解释性机器学习的角度出发针对模型的软剪枝任务提出了一种新思路 剪枝过程充分考虑了模型组成部分与数据内容之间的相关性依据相关度排序实现了可解释性剪枝过程并获得与先进的软剪枝方法可比拟的分类性能且克服了缺乏可解释性的缺点在训练过程中为了保证对所有类别的公平性对所有类别随机选取了相同数目的图片 但在复杂的实际分类任务中有时存在不同类别的分类难易程度不平衡的情况此时相关性排序中可引入对于不同分类任务的优化调整策略相关拓展工作有待进一步探索参 考 文 献:.:./().:.:.().:.:.():.():.:.():.:.:.(责任编辑:丁晓清)

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服