收藏 分销(赏)

基于边端协同的CNN推理加速框架.pdf

上传人:自信****多点 文档编号:633564 上传时间:2024-01-19 格式:PDF 页数:10 大小:8.06MB
下载 相关 举报
基于边端协同的CNN推理加速框架.pdf_第1页
第1页 / 共10页
基于边端协同的CNN推理加速框架.pdf_第2页
第2页 / 共10页
亲,该文档总共10页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第 卷第 期 年 月南 京 邮 电 大 学 学 报(自 然 科 学 版)():基于边端协同的 推理加速框架郭永安,周金粮,王宇翱,南京邮电大学 通信与信息工程学院,江苏 南京 教育部泛在网络健康服务系统工程研究中心,江苏 南京 南京邮电大学 边缘智能研究院,江苏 南京 摘要:基于卷积神经网络()的移动应用程序通常处理的是计算密集型任务,然而传统的云推理和端推理方式在低时延和高准确率方面仍面临着挑战。针对以上问题,提出了一种基于边端协同的 推理框架,它能让一个端设备和多个边缘服务器协同工作以提供 推理服务。该方法综合考虑高度动态的网络带宽和设备负载情况,分步决策出模型多个最佳分割位置以优化计算和

2、通信权衡。基于硬件测试平台的实验评估表明,相较于 种流行的 推理方法,该方法实现了 的推理加速,提升边缘服务器的计算资源利用率。关键词:协同 推理;分步决策;低时延;计算资源利用率中图分类号:文献标志码:文章编号:(),:(),:;收稿日期:;修回日期:本刊网址:基金项目:江苏省前沿引领技术基础研究专项()和江苏省重点研发计划(社会发展)()资助项目作者简介:郭永安,男,博士,教授,引用本文:郭永安,周金粮,王宇翱基于边端协同的 推理加速框架南京邮电大学学报(自然科学版),():近年来,凭借在特征提取和特征映射方面的出色表现,卷积神经网络()在智能交通、无人驾驶、智能工厂等场景中得到了广泛应用

3、,特别是在视频目标识别、图像检测等计算任务上发挥了重要作用。随着当前 推理任务复杂度的爆炸式增长,传统的云推理和端推理方式已无法满足低时延和高精度需求。其中依赖中心云的 推理方式,面临着广域网传输链路不稳定而导致通信开销过大的问题,同时也存在着敏感信息因广泛传输而被窃取的风险。端设备受限于十分有限的计算资源,往往无法满足 推理所需的内存消耗。为了满足低时延、高精度的 推理需求,新兴的边端协同推理计算范式成为研究重点。边端协同可视为将类似云服务器的计算功能卸载到靠近数据源的边缘服务器上。当发生推理任务请求时,首先将 推理分为由端设备处理的前半部分和由边缘集群处理的后半部分,再在边缘集群内对具有不

4、同负载的边缘服务器做细致的推理任务划分。如图 所示。然而,边端协同推理同样面临着两个需要解决的关键挑战:()如何根据设备负载进行推理任务分配,()在动态网络带宽条件下,如何决策出模型的最佳分割位置以平衡计算和通信开销。为了应对以上挑战,目前的研究工作主要集中在 个方面:模型架构优化、模型分割优化和硬件加速。其中模型架构优化通过采用模型裁剪技术和多分支 训练技术以减少计算开销,但这面临着模型准确度降低的风险;在模型分割方面,和 尝试通过将 只分割成两部分以减少通信开销,这种方式忽略了多边缘服务器参与的可能;硬件加速方面的研究工作主要围绕硬件加速平台 展开。上述工作倾向于仅在 中寻找一个最佳分割点

5、来优化协同推理时延,忽视了高度动态的网络带宽和设备负载情况下多边缘服务器参与带来的推理加速。图 边端协同推理示意图为了解决以上问题,设计了一个用于视频目标识别的()框架。它可以在一个终端设备和多个边缘服务器上加速协作 推理。首先,完整保留了 的结构和参数,以确保高精度。其次,在动态网络带宽和设备负载情况下,将优化问题定义为最小化协同推理延迟,并通过逐步确定 的多个最优分割点来解决该问题。分割点位置的确定被选择以匹配计算任务复杂度、设备负载、张量数据和网络带宽。随着 优化协作推理延迟,边缘服务器的计算资源利用率也得到了提高。最后,搭建了一个硬件测试平台来实现 原型。实验结果表明,与 种流行的 推

6、理方法相比,实现了的推理加速,并将边缘服务器的计算资源利用率提高了。总而言之,本文所作贡献总结如下:()设计了,这是一种针对视频流目标识别的轻量级边端协同推理框架,可以避免 精度的损失,在最小化协同推理时延的同时提升边缘服务器的计算资源利用率。()包 含 轻 量 化 的 推 理 时 延 预 测(,)模型和推理卸载决策(,)模型两个重要组成部分。其中,能根据设备的负载为其分配合理的 推理任务量;基于 和静态、动态带宽条件,可以分步决策出模型多个最佳分割位置来优化计算和通信权衡。()搭建了硬件测试平台,并在智慧交通场景下结合 种流行的 推理方法来评估 的工作性能。相关工作对于基于边端协同的低时延

7、推理,研究工作主要集中在 个方面:模型架构优化、模型分割优化和硬件加速。模型架构优化尝试通过开发新的 结构,达到牺牲模型部分精度换取高效推理速度的目的。这包括通过稀疏数据表示、放弃不必要的中间层计算等模型裁剪技术。比如 等在一个预训练模型的基础上,用零替换低于某个阈值的参数,形成一个稀疏矩阵。另一种实现模型架构优化的方法是将原始 训练为多分支,从概率选择的角度确定符合精度和时延要求的模型出口。类似的工作包括 等提供了一个基础的多分支 训练框架,它为每种类型的 手动设置了 个出口。与以上研究工作相比,完全不需承担模型准确率降低的风险,因为模型参数和结构从未被改变过。模型分割优化,即沿 的顺序执行

8、方向,按层间 结 构 对 其 进 行 分 割。等设 计 的 通过实时发送一帧数据,以监测当前的网络带宽情况和设备的计算资源负载情况,这个过程产生的时延消耗,很容易造成 第 期郭永安,等:基于边端协同的 推理加速框架推理卸载策略的过时,得益于根据设备负载即时测算的推理时延,生成的策略在适应计算环境方面表现良好;等提出的 通过分析传输时延和推理时延占比,采用寻找最小中间层数据的方法以换取最少的传输时延,进而确定最佳 分割位置,这种方式忽视了高性能边缘服务器带来的分层推理加速,过度依赖网络带宽环境,而 在探索开发边缘服务器的计算资源利用率方面更加积极。硬件加速包含两方面。其一是旨在硬件级中设计有利于

9、 计算的模块,比如 :谷歌推出的一种小型专用集成电路芯片,用于在边缘设备上运行 。另一方面旨在优化设备的计算资源利用率,包括为 推理分配特定的内存空间、为卷积运算和激活运算划分不同的计算空间。与现有研究工作相比,本文整合了模型分割和硬件加速两种方法来扩展用于视频目标识别的协同 推理框架的设计思路。不仅适用于静态带宽环境,更能在动态的网络带宽和设备负载情况中,最小化协同推理时延的同时开发边缘服务器的计算资源利用率,这是之前的工作没有涉及到的。设计和工作流程 设计图 显示了 由两个重要阶段组成:离线学习和在线决策。在离线学习阶段,首先将训练完备的 经预分层操作分割为单独的层,然后将每一层 卸载到设

10、备上做存储并进行离线推理,收集设备负载和对应处理每一层 产生的推理时延,基于以上收集到的信息,训练得到推理时延预测模型。可以根据持续监测到的设备负载,预测该设备处理任意层 消耗的推理时延。在线决策阶段,推理卸载决策模型 可以基于 预测得到的推理时延和静态、动态带宽条件下传输 张量数据造成的传输时延共同制定推理卸载策略,策略包括 最佳分割位置的确定和参与协同推理的设备选定。为了推理过程的流畅和避免不必要的传输时延消耗,在开展基于边端协同的 推理工作之前,和 同样也需要被卸载到各个设备上。图 框架 推理卸载策略制定流程端设备发起 推理任务请求标志着协同推理工作的开始。此时,终端设备在执行 推理任务

11、的前半部分时,同步测量时延。随后,终端设备利用 来预测自身完成所有推理任务的总时延,以及预测边缘集群中的每个边缘服务器执行 推理任务的后半部分所产生的时延。最终,终端设备使用 来预测传输 的中间层张量数据所产生的传输时延。基于定义的“低时延要求”:,终端设备制定第一个推理卸载策略。如果不满足低时延要求,则终端设备计算所有的推理任务。一旦建立了初始策略,边缘服务器就尝试在执行 推理任务的后半部分期间,利用其自身加载的 和 制定第二策略,同时遵守低时延要求。参与协同推理的所有设备都遵循这些步骤来开发新策略,直到 推理结束,最后一个设备将推理结果发送到终端设备。自适应推理任务卸载自适应推理任务卸载是

12、为了提高协同推理方面的时延和计算资源利用率指标。在下文中,首先将南京邮电大学学报(自然科学版)年优化问题定义为在一定的网络带宽和设备负载情况下,最小化协同推理时延,再利用 和 将其换算为与计算任务复杂度、设备负载、张量数据量和网络带宽相关联的最优化问题并求解。定义了必要的概念和符号,见表。对于特殊字符,将在文中使用时给出说明。表 符号说明表符号含义,多层 被分为 层,指第 层 层结构,被 计 算 后 产 生 张 量 数据,参与协同推理的 层 被分为 部分,被计算后产生张量数据,个设备参与协同推理。设备 负责计算,设备 和 间的网络带宽为 设备 传输 产生的传输时延设备 计算 产生的推理时延协同

13、推理时延 问题定义一个多层 经过预分层操作被分割为 层后,最终在 和 的决策下由 个设备参与协同推理,产生的最小化协同推理时延问题如下 ()()()最小化协同推理时延的关键是对 最佳分割位置的确定和参与协同推理的设备选择,简而言之是根据动态变化的网络带宽和设备负载对式()中 的确定,将在 节中有效解决这个问题。问题转化 推理时延预测模型研究者大都使用回归的思想来预测计算负载已知的设备在处理具有一定复杂度的 推理任务时可能消耗的推理时延。在换算设备负载方面,相较于 等只关注设备的实时 使用率,本文发现基于 的 推理加速平台 在时延节省方面表现更加强劲,因此,选用 和 的实时浮点计算能力()来表征

14、设备负载。()()()()式()、()中的 实时计算负载 和 实时计算负载 共同组成了设备负载,其中由 的理论浮点运算峰值 和 使用率 相乘组成,由 的理论浮点运算峰值 和 显存使用率 相乘组成。式()中的、分别代表设备中 芯片个数、单个处理器核心数、主频、单个时钟周期浮点计算次数。有双精度、单精度和半精度 个类别,针对一个,只会以一种形式存在,这取决于 的数据类型。丹麦技术大学的 博士提供了一个测算 的测试程序,能较好满足本文需求。式()中的符号含义和式()同理。使用浮点计算次数()来表征 计算复杂度。当前计算 的方法较多,集中体现在对卷积层和全连接层的计算处理上,参考采用滑动窗口法实现卷积

15、层和全连接层 的计算。()()()()对于一个被预分层为 层的,如果 中包含 卷 积 层,那 么 它 的 用 式()中 的 表示,如果 是由全连接层组成的,那么它的 用式()中的 表示。式()中的、依次代表输入 的特征图的高度、宽度、通道数、卷积核的边长、输出 的特征图的通道数,式()中的、分别代表输入 的特征向量的维数、输出 的特征向量的维数。在后文的表述中在不表明 是卷积层还是全连接层的情况下,使用 代表 的。综上,相较于 等过分关注 特征层的计算复杂度而忽视了设备本身计算负载和 等只关注设备的 使用情况,本文更深入地挖掘了任务复杂度、设备负载和推理时延内在的联系,并基于遗传算法为每个不同

16、的 训练用于每层 推理时延估计的专属。(,)()第 期郭永安,等:基于边端协同的 推理加速框架(,)()算法:推理时延预测模型生成算法:,离线学习阶段收集的 推理时延,:种群大小,选择算子,:交叉算子,:变异算子,:终止代数,:适应度函数,:编码方案:推理时延预测模型 和 (),;()();();();();()();和 共同组成了。式()中,代表只搭载 的设备在计算负载为 的情况下推理 产生的推理时延结果;式()中,代表同时搭载 和 的设备在计算负载为 和 的情况下推理 产生的推理时延结果。在遗传算法的开始部分加入了编码方案更新设计(算法 的第 行),它会在第一次 训练完成后将编码方案中冗余

17、的编码舍弃掉,这会大大降低后续模型更新的复杂难度,同时在后续的模型更新过程中也会遵循更新编码方案的原则。推理卸载决策模型定义 如下 ()()()()()式()只展示了推理卸载的第一步,即在第一个约束条件 ()下,基于 和 完成第一个最佳分割位置 和最佳边缘服务器的选择,实现第一部分协同推理时延的最小化。其中,被分成(,)和(,)两部分并分别在端设备和边缘服务器 上 进 行 推 理,产 生 的 推 理 时 延 分 别 为()和()。进一步地,若满足第二个约束条件 (),则表明可对(,)再进行推理卸载决策,方法同理。式()最终表明,低时延协同推理的本质是对计算任务复杂度、设备负载、张量数据量和网络

18、带宽组成的最优化问题的求解,这可以基于 和 得到解决。基于马尔科夫决策过程思想实现了 的求解,如算法 所示。算法:推理卸载模型:,:最小化协同推理时延;():;,;实验验证在本节中,搭建了一个硬件测试台来实现 原型,并评估其在协同推理时延和边缘服务器的计算资源利用率方面的性能,将围绕 的两个阶段展开。实验设置在 原型中,使用 平台推理了经典的 模型:,在推理前被预分层为 层。模型预分层结果见图。所有设备上执行的计算任务都是相同的 对单位视频流(秒 帧图像)执行关于目标识别的 推理。在离线学习阶段,搭建了一个由 台 机组成的实验床,并通过控制设备的 使用率和显存使用率模拟了 种计算负载情况,实验

19、床设备硬件配置和 使用率、显存使用率设置见表。将 在每种计算负载情况下连续运行 次并记录平均推理时延,基于以上信息,训南京邮电大学学报(自然科学版)年练得到。在在线决策阶段,搭建了一个硬件测试平台来实现 原型,相关设备由按照算力需求从实验床中选用的、三类 机组成,它们分别代表低性能本地端设备、中性能边缘服务器 和高性能边缘服务器,其中设备 一台,服务器 三台,服务器 两台。设备负载配置见表。基于 提供的真实世界网络带宽日志数据集合和带宽控制工具,设定了静态、动态两种带宽环境和高、中、低 种带宽速率并开展测试。将 与以下 种相关方法在降低协同推理时延和提升边缘服务器的计算资源利用率方面进行比较。

20、()():推理完全在端设备上进行;()():通过实时发送一帧数据以监测当前的网络带宽和设备负载,完成 最佳分割位置的确定和协同推理设备的选择;()():通过分析传输时延和推理时延占比,采用寻找最小中间层数据的方法以换取最少的传输时延,进而确定最佳 分割位置。图 预分层示意图表 实验床设备硬件配置设备 ,利用率范围:间隔:范围:间隔:范围:间隔:范围:间隔:范围:间隔:范围:间隔:范围:间隔:范围:间隔:使用率范围:间隔:范围:间隔:表 测试平台计算负载配置设备低性能端设备 中性能边缘服务器 高性能边缘服务器 浮点计算能力 浮点计算能力 无无 利用率,利用率 无无,性能评估 推理时延预测模型工作

21、性能评估实验床设备由只搭载 和同时搭载、的两种设备组成,因此训练得到两个推理时延预测模型,如式()、()。其中参数 和参数 见表。第 期郭永安,等:基于边端协同的 推理加速框架()()()()()()()()()()表 模型参数表参数值参数值参数值 将设备负载和 各层的计算复杂度输入式()或()中,便能输出该设备处理该层产生的计算时延预测值。在设备、使用率为 的服务器、使用率为 和显存使用率为 的服务器 上测试了两个推理时延预测模型的训练效果,结果见图。对比结果显示确定系数维持在 ,这表明推理时延预测模型的预测结果达到了令人满意的程度,这为推理卸载策略的制定提供了坚实的基础。()端设备 ()边

22、缘服务器()边缘服务器 图 推理时延预测模型训练结果 推理卸载决策模型工作性能评估为了简化说明,将使用()、()和()来代表 高 上 行 速 率()、中 上 行 速 率()和低上行速率()。静态带宽环境指的是在 推理期间整个测试环境的网络带宽维持不变,动态带宽环境指的是在 推理期间整个测试环境的网络带宽是变化的。假设 和 的南京邮电大学学报(自然科学版)年出现意味着当前环境处于忙碌状态,即服务器 处于忙碌状态,此时只有服务器 能参与协同推理;同样地,的出现意味着当前环境处于空闲状态,此时服务器 和 都能参与协同推理;基于以上假设,排除掉一些不合理的测试环境。测试结果分别见图、图。图 和图 分别

23、显示了在静态和动态带宽环境下使用、和 实现边端协同 推理的时延结果。其中图()的 代表在执行协同推理工作时,设备 和服务器 之间的带宽为,台服务器 之间的带宽为,借此来模拟推理过程中的网络带宽变化。图 显示了在同样带宽环境下,协同推理中边缘服务器的参与情况。图 静态带宽环境下的协同推理时延对比结果图 动态带宽环境下的协同推理时延对比结果 如图 所示,在 条件下,相较其他两种协同推理方法,实现了 的推理加速,并且随着网络带宽条件的转好 条件下,推理加速维持在 ,对比,时延更是减少了 。在 条件下,、和 都因庞大的通信开销而放弃协同推理方式,转而在端设备完成 推理,其中 和 因为模型裁剪和模型分支

24、技术的应用,取得了较好的时延第 期郭永安,等:基于边端协同的 推理加速框架节省效果,但这也为它们带来了模型精度损失的风险。图 参与协同推理的边缘服务器数量图 中的()、()、()、()和()表明 种协同推理方法都能出于对通信和计算的权衡来决定 的最佳分割位置;但结合图()和图,相较于 和,不但实现了 的推理加速,同时实现了设备、服务器 和 三者的协同,将边缘服务器的计算资源利用率提升了。综上,表现更为优异,原因来自于三方面,其一是因为 在运行时需要频繁发送一帧数据来监测当前的环境,这产生的时延消耗影响了整体推理的流畅性;其二是 对计算负载的忽视;最后一点同时也是最重要的一点,和 的设计思路使他

25、们忽略了高度动态的网络带宽和计算负载带来的多边缘服务器协同的可能,这能为协同推理带来更好的时延节省效果,对比图()和图()不难发现这一点:在较差的带宽环境 下,也能取得和在 下近似相等的推理加速效果。结束语在本文中,提出了一种针对视频目标识别的边端协同 推理框架,可在保证模型准确率的前提下,最小化协同推理时延的同时提升边缘服务器的计算资源利用率。探索了边端协同推理工作流程,并将涉及到的推理时延和传输时延转换为与计算任务复杂度、设备负载、张量数据量和网络带宽等相关联的最优化问题。为了有效解决它,设计了一个推理时延预测模型和一个推理卸载决策模型,基于二者的协作,能在高度动态的网络带宽和计算负载环境

26、中分步决策出 的多个最佳分割位置,实现多边缘服务器参与的低时延协同推理。基于硬件测试平台的实验评估表明,与基于端和两种流行的协同 推理方法相比,实现了 的推理加速,提升边缘服务器的计算资源利用率。展望未来,我们计划进一步优化 工作流程,设计出更加轻量级的 推理卸载算法,并在多场景中验证和改进本文方法。参考文献:,:,:,:():,:,:,:,():,:,():,():吴正坤,江凌云,穆晏如 多边缘节点协同下的应用卸载算法研究 南京邮电大学学报(自然科学版),():,(),():()南京邮电大学学报(自然科学版)年 王翊,卢兴俊,许耀华,等 基于位置预测的多 服务器协同卸载算法 南京邮电大学学报(自然科学版),():,(),():(),:,():,:(),:,:,():,:,:():,:():,:,:():,:,():(责任编辑:李小溪)第 期郭永安,等:基于边端协同的 推理加速框架

展开阅读全文
部分上传会员的收益排行 01、路***(¥15400+),02、曲****(¥15300+),
03、wei****016(¥13200+),04、大***流(¥12600+),
05、Fis****915(¥4200+),06、h****i(¥4100+),
07、Q**(¥3400+),08、自******点(¥2400+),
09、h*****x(¥1400+),10、c****e(¥1100+),
11、be*****ha(¥800+),12、13********8(¥800+)。
相似文档                                   自信AI助手自信AI助手
百度文库年卡

猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服