1、异构物联网下资源高效的分层协同联邦学习方法王汝言陈伟张普宁*吴大鹏杨志刚(重庆邮电大学通信与信息工程学院重庆400065)(先进网络与智能互联技术重庆市高校重点实验室重庆400065)(泛在感知与互联重庆市重点实验室重庆400065)摘要:物联网(IoT)设备资源存在高度异构性,严重影响联邦学习(FL)的训练时间和精度。已有研究未充分考虑物联网设备资源的异构性,且缺乏异构设备间协同训练机制的设计,导致训练效果有限且设备的资源利用率较低。为此,该文提出资源高效的分层协同联邦学习方法(HCFL),设计了端边云分层混合聚合机制,考虑边缘服务器的差异化参数聚合频率,提出自适应异步加权聚合方法,提高模型
2、参数聚合效率。提出资源重均衡的客户端选择算法,考虑模型精度与数据分布特征动态选取客户端,缓解资源异构性对联邦学习性能的影响。设计自组织联邦协同训练算法,充分利用空闲物联网设备资源加速联邦学习训练进程。仿真结果表明,在不同资源异构状态下,与基线方法相比,模型训练时间平均降低15,模型精度平均提高6,设备平均资源利用率提高52。关键词:异构物联网;边缘智能;分层联邦学习;客户端选择中图分类号:TN915;TP399文献标识码:A文章编号:1009-5896(2023)08-2847-09DOI:10.11999/JEIT220914Resource-Efficient Hierarchical C
3、ollaborative Federated Learningin Heterogeneous Internet of ThingsWANGRuyanCHENWeiZHANGPuningWUDapengYANGZhigang(School of Communication and Information Engineering,Chongqing University of Posts andTelecommunications,Chongqing 400065,China)(Advanced Network and Intelligent Connection Technology Key
4、Laboratory of Chongqing EducationCommission of China,Chongqing 400065,China)(Chongqing Key Laboratory of Ubiquitous Sensing and Networking,Chongqing 400065,China)Abstract:ThehighheterogeneityofInternetofThings(IoT)devicesandresourcesaffectsseverelythetrainingefficiencyandaccuracyofFederatedLearning(
5、FL).ThischaracteristicalheterogeneityofIoTdevicesandresourcesisfullyinvestigatedbyexistingresearch,andthedesignofacollaborativetrainingaccelerationmechanismamongheterogeneousIoTdevicesisrare,resultinginlimitedtrainingefficiencyandlowresourceutilizationofIoTdevices.Tothisend,aresource-efficientHierar
6、chicalCollaborativeFederatedLearning(HCFL)approachisproposed,andadevice-edge-cloudhierarchicalhybridaggregationmechanismisdevised,includinganadaptiveasynchronousweightedaggregationmethodtoimprovethemodelparameteraggregationefficiencybyexploitingthedifferentiatedparameteraggregationfrequencyofedgeser
7、vers.AresourcerebalancingclientselectionalgorithmisproposedtoselectdynamicallyclientsconsideringmodelaccuracyanddatadistributioncharacteristicstomitigatetheimpactofresourceheterogeneityonFLperformance.Aself-organizedcollaborativetrainingalgorithmisdesignedtoleverageidleIoTdevicesandresourcestoaccele
8、ratetheFLtrainingprocess.Simulationresultsshowthat,givendifferentheterogeneitydegrees,theaverage收稿日期:2022-07-06;改回日期:2022-08-21;网络出版:2022-09-02*通信作者:张普宁基金项目:国家自然科学基金(61901071,61871062,61771082,U20A20157),重庆市自然科学基金(cstc2020jcyj-zdxmX0024),重庆市高校创新研究群体(CXQT20017),重庆高校创新团队建设计划(CXTDX201601020)FoundationI
9、tems:TheNationalNaturalScienceFoundationofChina(61901071,61871062,61771082,U20A20157),TheScienceandNaturalScienceFoundationofChongqing(cstc2020jcyj-zdxmX0024),TheUniversityInnovationResearchGroupofChongqing(CXQT20017),TheProgramforInnovationTeamBuildingatInstitutionsofHigherEducationinChongqing(CXTD
10、X201601020)第45卷第8期电子与信息学报Vol.45No.82023年8月JournalofElectronics&InformationTechnologyAug.2023trainingtimeofFLmodelsisreducedby15%,theaverageaccuracyofFLmodelsisimprovedby6%,andtheaverageresourceutilizationofIoTdevicesisimprovedby52%.Key words:HeterogeneousInternetofThings(IoT);Edgeartificialintellige
11、nce;Hierarchicalfederatedlearning;Clientselection1 引言当前,物联网智能设备数量正在呈现爆炸式增长,预计2025年全球物联网设备数量将超300亿个,世界将逐渐步入万物智联的时代1。海量多样的感知设备持续生成物理世界的多源异构数据,将深度学习嵌入物联网环境,分析和处理海量的复杂物联网数据从而推导有价值的信息,可为用户提供智能化、个性化的物联网应用服务2。然而,传统将数据上传到云中心进行分析处理的方式存在严重的隐私泄露问题3。为此,谷歌公司提出了联邦学习架构4,客户端利用本地的数据与计算资源训练本地模型,然后发送给参数服务器进行聚合获得全局模型,提
12、升总体模型的质量。云服务器和终端设备之间的长通信链路易导致模型聚合的大时延、低效率。为缓解云服务器参数聚合压力,研究人员引入边缘参数聚合的云边端3层联邦学习架构5。然而,现有分层联邦学习架构研究中,云层和边缘层均采用同步聚合机制,物联网中不同边缘区域计算资源存在较大差异,同步聚合的模式影响全局模型参数聚合效率。同时物联网设备资源具有高度异构性,主要体现在设备能力和数据分布两方面。一方面,物联网设备的通信和计算能力存在差异,导致训练慢的客户端会影响模型参数聚合效率6。另一方面,物联网设备采集频率、功能类别的差异,使得设备间数据的规模、分布具有较强异构性,导致本地模型的局部梯度下降方向趋向于局部最
13、优而偏离全局最优7,进而影响全局模型训练效果和收敛速度8。已有研究提出通过客户端选取方法来有效缓解资源异构问题6,9。但难以均衡设备异构和数据异构,导致模型偏置、训练精度低等问题。并且具有优质数据但资源受限物联网设备缺乏部署计算密集型模型的能力,使其无法参与过程,导致全局模型的精度受限。具较强计算能力的终端设备若未被选中参与训练,则设备资源将处于闲置状态,极大浪费了物联网设备的计算资源,而目前尚缺乏可有效利用空闲终端设备的自组织联邦协同训练研究成果。为此,本文提出异构物联网下资源高效的分层协同联邦学习方法,采用端边云分层联邦混合聚合机制,设计资源重均衡的客户端选择算法,提出自组织联邦协同训练算
14、法,以提高面向异构物联网的联邦学习方法效率。本文主要贡献如下:(1)设计端边云协同联邦学习架构,综合考虑端、边、云资源特征,融合同步与异步聚合特征,设计端边云分层混合参数聚合方法。考虑边缘服务器的差异化参数聚合特征,提出频率动态更新的异步聚合方法,有效提高联邦学习参数聚合效率。(2)提出资源重均衡的客户端选择算法,依据通信与计算资源进行客户端群组划分,并通过感知模型精度与数据分布特征,估计客户端群组的组间与组内选取概率,动态选取参与模型训练的客户端,缓解物联网资源异构性对联邦学习的影响,提高联邦学习速度与模型的精度。(3)提出自组织联邦协同训练算法,充分利用空闲设备计算资源,构建客户端联邦学习
15、协作集合,并将协同联邦学习任务分配问题建模为最短路径发现问题,并求解最佳联邦学习协同训练策略,从而提高物联网设备资源的利用率,加速联邦学习训练过程。2 相关工作2.1 分层联邦学习现有的工作大多数都是基于云服务器的双层架构10,11,物联网设备与云服务器之间的长通信链路,易导致模型聚合低效率。已有研究为缓解云服务器参数聚合压力,提高模型聚合效率,设计了边云协同分层聚合机制。HierFAVG首次提出融合云服务器与边缘服务器的分层聚合机制,在云服务器进行同步聚合前,各边缘服务器组织客户端先进行域内多轮同步聚合,以减少通信总轮次,极大降低了模型训练过程的通信开销5。文献12提出了面向异构蜂窝网络的小
16、基站-宏基站分层聚合架构,小基站进行小区内部聚合,周期性将所管理集群模型参数传输至宏基站,以提高蜂窝网络联邦学习的效率。然而,异构物联网下参与联邦学习的终端设备资源存在较大差异,边缘服务器完成域内模型聚合的时间分布区别较大,将导致采用同步聚合机制的云服务器模型聚合时延过大,严重影响模型训练的效率。2.2 异构联邦学习资源异构对联邦学习影响主要包括数据异构和设备异构两个方面。数据异构方面,文献13证明模型训练中的权值差异由客户端上的类分布与总体分布之间的EMD(EarthMoversDistance)决定,并提出可有效缓解数据异构的数据共享策略,通过2848电子与信息学报第45卷在客户端之间共享
17、服务器侧创建的全局分布数据子集,来降低EMD并提高全局模型精度。然而,在实际应用场景中具有全局分布的数据难以获取,并且客户端之间的数据分享会带来隐私泄露问题。设备异构方面,文献9提出客户端选择协议FedCS,服务器根据提前收集的客户端设备资源信息,估计其更新和上传所需时间,并采用背包约束的贪婪算法对时间成本函数进行求解,选出参与联邦学习的客户端集合。以上研究仅面向数据或设备异构问题,未考虑二者并存时的问题。为此,文献6提出了基于群组的联邦学习系统TiFL,根据设备训练时间进行设备分组,通过全局模型精度反馈调节分组的选择概率,每轮训练从相同分组中选取客户端。然而,该方法在组内的客户端选择采取随机
18、策略,忽略组内客户端间数据分布的差异,影响了全局模型的精度。2.3 协同联邦训练部分物联网设备的计算能力限制,不具备训练复杂联邦学习模型的能力14。针对该问题,现有解决方法主要分为两种,一种是降低模型复杂度,文献15通过模型稀疏化使联邦学习模型可部署在资源受限的设备上,但结构化稀疏会导致较大的精度损失,非结构化稀疏则需要较高的硬件成本。另一种是协同训练的方法,文献16提出了自适应联邦学习任务卸载方法,边缘服务器依据客户端的资源能力自主决策协作客户端模型计算的分割层数,缓解了“掉队者”问题和客户端计算压力。但当卸载设备数量众多时将极大增加服务器的计算负载17。并且,上述方法未充分利用具有一定算力
19、的物联网设备的计算资源,导致较大的计算资源浪费问题18。目前尚缺乏利用空闲物联网设备的自组织联邦协同训练研究成果。3 端边云协同联邦学习架构设计3.1 联邦学习系统模型如图1所示,本文的系统架构由云服务器、边缘服务器和海量异构物联网设备组成。云服务器负责将边缘服务器上传的模型参数异步聚合为全局模型;边缘服务器负责异构物联网设备模型参数的域内同步聚合;异构物联网设备收集用户数据将其存储在本地,用于本地训练。端边云协同联邦学习过程设计如下:系统初始化:步骤1边缘服务器采用第4节所提客户端群组划分算法,按照资源设备进行群组划分;步骤2物联网设备采用第5节所提协作集合发现算法,自组织形成协作集合;训练
20、阶段:步骤3云服务器初始化模型参数,下发至边缘服务器。边缘服务器采用所提客户端选择算法选取物联网设备进行模型的训练;E步骤4参与模型训练的设备,采用所提联邦协同训练算法进行训练,在进行次本地迭代后,将模型参数上传至边缘服务器;步骤5边缘服务器接收到域内客户端上传的模型参数后,进行同步聚合,完成本轮次迭代训练任务;M步骤6重复步骤3步骤5训练过程,边缘区域经过轮迭代后,将边缘区域聚合的模型上传至云服务器;步骤7云服务器接收到边缘区域模型参数后,异步聚合为全局模型,并测试全局模型精度。3.2 分层混合聚合模型(1)边缘层同步聚合ekkK假定边缘服务器管理边缘区域,共有个图1联邦学习系统架构图第8期
21、王汝言等:异构物联网下资源高效的分层协同联邦学习方法2849E边缘,边缘服务器采用第4节所提资源重均衡的客户端选择算法,选择参与模型训练的物联网设备,进行 轮本地迭代后,采用FedAvg4聚合规则进行同步聚合。(2)云层异步聚合M由于各边缘区域的网络状况和下辖物联网设备能力存在差异,边缘服务器完成区域轮迭代速度有差别,影响云层同步聚合效率。本文提出频率动态更新的异步聚合方法,根据边缘更新频率,动态调整分配给每个边缘区域的权重,防止全局模型偏向部分频繁更新的边缘区域。L=(Ne1,We1),(Ne2,We2),(Ne3,We3),.,(Nek,Wek)NekekWekekekWekNek=Nek
22、+1L=(Ne2,We2),(Nek,Wek),.,(Ne3,We3),(Ne1,We1)云服务器维护更新信息列表,表示边缘区域更新模型参数总次数,表示边缘区域上传的模型参数。当云服务器接收到边缘发送的区域模型参数时,将更新信息列表中该边缘的模型参数,更新次数。为便于全局模型计算,需要根据各边缘的更新次数,将二元组递增排序得到。全局模型的更新公式为W=Kj=1LNK+1 index(ej)Ki=1LNiLWej(1)Ki=1LNiLWejejindex(ej)ejLLNK+1 index(ej)其中,代表所有边缘更新次数之和,代表边缘的模型参数,代表边缘的二元组在排序列表中的索引。为了提升全局
23、模型的泛化能力,避免全局模型偏向更新速度快的边缘区域,可以让更新较慢的边缘区域获得较大的权重。4 资源重均衡的客户端选择算法(1)客户端群组划分ki物联网设备收到分组请求后需要对设备资源进行衡量,本文定义设备能力与该设备每轮本地模型更新的计算时间,及上行链路通信时间有关。定义物联网设备 的本地迭代的计算时间为Tcmpki=ckiDkiEfki(2)ckiDkiEfkiki其中,为单个样本计算所需的CPU周期数,为一次本地迭代的数据量,为本地迭代次数,为设备 的CPU频率。联邦学习中各个客户端模型参数大小 一致,本地模型更新的传输时间表示为Tcomki=B ln(1+kihki/N0)(3)Bk
24、iki其中,是传输带宽,是物联网设备 的传输功hkikiN0ki率,是设备信道增益,是信道噪声功率,因此,物联网设备能力定义为设备 联邦学习响应时间,如式(4)Rkiinfo=Tcmpki+Tcomki(4)RkiinfoGh1,h2,.,hG物联网设备将联邦学习响应时间传至边缘服务器。边缘服务器收集所有客户端的响应时间后,首先将客户端均匀划分为 组,表示为,然后每个物联网设备的响应延迟与所属组别由边缘服务器记录。(2)客户端动态选择mAmkipkiAmhg为了动态平衡训练时间和精度,需先对参与联邦学习的群组进行挑选,再对组内客户端进行选择。频繁选取设备能力强的组,虽然加快了每轮训练的速度,但
25、容易导致模型偏置,使得模型的泛化能力变弱,进而,引起全局模型精度下降。组内客户端的选择是由客户端数据分布与所属组全局分布的差异决定的。每轮训练选取的组内客户端的数据分布差异越小,则联邦学习权重差异越小,同时,权值差异越小则模型精度越高13。边缘服务器通过相等的选择概率初始化组间概率和组内概率,下发模型训练并更新全局模型后,每个客户端将会使用本地数据评估全局模型,从而得到第轮的本地测试精度,并与下一轮训练数据的分布共同上传至边缘服务器。边缘服务器计算出每一组的平均精度Amhg=1nni=1Amki,ki hg(5)分组的平均精度越低则其对全局模型的贡献程度越低,为了提升全局模型的泛化能力避免模型
26、偏置,应提高该类分组被选中的概率。组间选择概率计算如式(6)Pm+1hg=1/AmhgGi=11/Amhi(6)pkiphg通过组间概率挑选出本轮参与训练的分组,组内客户端的挑选考虑客户端数据分布与所属组分布的差异,差异越小,说明该客户端数据越具代表性,应该赋予更高的选择概率。组内选择概率计算如式(7)Pm+1ki=1/KL(phg|pki)nj=11/KL(phg|pkj),ki hg(7)5 自组织联邦协同训练算法(1)协作集合发现2850电子与信息学报第45卷kiSki=Cdself,ejejkiCdselfkirhgkiReqki在边缘服务器完成资源分组划分后,设备通过所属组等级关系,
27、寻找附近计算能力强的协作设备,并自组织形成协作集合。物联网设备 初始化协作集合,其中,为物联网设备所属的边缘服务器,为本地设备。首先,物联网设备向附近设备广播组建协作群组请求,物联网设备通信半径为,请求数据包中包含请求设备的标识和设备的组别。物联网设备 可能同时收到多个设备发出的协作请求,假设协作请求集合为,考虑到物联网设备并行能力受限,无法同时协作多个设备的计算,所以在多个协作请求中只能选择一个设备加入其协作集合。为了保证协作对象的唯一性,定义为Acp=min(dki,kj),hki hkj,kj Reqki(8)hki hkjmin(dki,kj)AcpSkj其中,表示协作设备所属组等级要
28、比请求协作设备所属组高,将计算交付给高组级的设备是以较少的传输时间换取较短的整体训练时间。表明选择距离最近的设备,减少传输时延。选择出唯一的协作设备,向其发出加入消息,请求设备收到加入消息后将协作设备信息存储在协作集合中。(2)协同训练任务建模Ski=Cdself,ej,Cd1,Cd2,.,CdiSkiG=(V,L)=l1,l2,.,lnli,i nSkivi(n1)Vn 1Cdilij(n1)Ln 1CdinCdjCdself通过协作设备发现模块,每个物联网设备都维护自己的协作设备集合,集合里记录了本地设备与可提供协作的设备。为搜寻最优联邦学习任务协作策略,将联邦学 习 任 务 协 作 训
29、练 模 型 抽 象 为 有 向 无 环 图,其中,无环图水平方向代表联邦学习子任务,即联邦学习模型中的某层。垂直方向代表本地协作集合中的设备。顶点代表联邦学习任务的第层分配给设备,边代表联邦学习任务的第层分配给设备,而且第 层分给设备。为保障用户数据的隐私,设计子任务0代表数据特征提取层,子任务0必须在本地设备上执vself0行,即无环图起点必须为。模型协作训练流程如图2所示。lij(n1)CdjlnTij(n1)本文以最小化协同联邦训练的时间为目标来选取最佳协作设备选取策略。如选择边,即选择设备执行联邦学习模型的层,则相应的推断时延表示为Tij(n1)=Tci(n1)+Tci(n1)+Tti
30、j(n1)+Ttji(n),i=jTci(n1)+Tci(n1),i=j(9)Tci(n1)Cdin 1Tci(n1)Cdin 1Ttij(n1)n 1CdiCdjTtji(n)nCdjCdii=jTtij(n1)Ttji(n)Ttij(n1)=0 Ttji(n)=0MjnCdjnn为设备执行联邦学习子任务正向传播计算时延,为设备执行联邦学习子任务反向传播计算时延,正向传播传输第层输出结果从设备到设备的传输时延,反向传播第 层输出结果从设备到设备的传输时延。如果,则没有正向传播传输时延和反向传播传输时延,即,。表示为设备执行联邦学习子任务 需要的内存消耗。由此,联邦学习协作训练问题可以转化为从
31、第1层到最后一层 的最优路径选择问题,问题建模为mini,jSknk=0lijk Tijk(10)s.t.iSklij(k1)=hSkljhk,0 k n,j Sk(11)nk=0lijk Mik Bi,0 k n,i Sk(12)jSklijk=10 k n,i Sk(13)jSklij0,i=Cdself(14)lijk 0,1(15)k式(11)表示如果联邦学习子任务 划分给设备图2模型协作训练流程第8期王汝言等:异构物联网下资源高效的分层协同联邦学习方法2851Cdjk+1CdjBi,任务数据输入必须源自设备。式(12)表示每个设备上分配的子任务内存和需要满足该设备内存限制。式(13)
32、确保每一子任务仅由一个设备执行。式(14)确保特征提取层由本地设备执行。式(15)约束设备只有执行和不执行两种状态。(3)联邦协同训练statrt采用近端策略优化算法(ProximalPolicyOptimizationalgorithms,PPO)19对该问题进行求解,强化学习由本地设备完成,作为本地设备联邦学习任务动态协作分配的代理。状态,动作 和奖励 定义如下:sttstLt状态:在每个时刻,状态包含5个部分:代表当前层正向传播计算需要的CPU周期总数。LtItItRt=rCdself,t,rej,t,rCd1,t,rCd2,t,.,rCdi,tFt=fCdself,t,fej,t,fC
33、d1,t,fCd2,t,.fCdi,tat1st=(Lt,Lt,It,It,Rt,Ft,at1)代表当前层反向传播计算需要的CPU周期总数。代表当前层正向传播输出的数据大小。代表当前层反向传播输出的数据大小。代表当前网络状态协作集合中设备的通信速率。表示协作集合中设备的CPU计算频率。为上一时刻执行的动作,即执行前一个任务 的 协 作 设 备。由 此 定 义。at动作:表示从协作集合中的空闲设备中选择一个设备用于执行当前子任务。rttstat收益:在 时刻,执行选择设备任务的代理,在状态 做出动作 定义的奖励如式(16)所示rt(st,at)=(L(t1)fat1+L(t1)fat1),at=
34、at1(L(t1)fat1+L(t1)fat1+I(t1)rat1+I(t)rat),at=at1(16)L(t1)/fat1at1L(t1)/fat1at1It1/rat1at1It/ratatat1at假设设备计算频率和通信速率可以在不同的联邦学习回合之间发生变化,同一回合设备计算频率和通信速率保持不变。为正向传播设备计算时间消耗,为反向传播设备计算时间消耗,为正向传播设备通信时间消耗,为正向传播设备通信时间消耗。当上一时刻选中的设备和当前时刻选中的设备 相同时无传输消耗仅有计算消耗。6 系统仿真6.1 仿真设置(1)基准算法训练为了获得全面的性能评估,针对本文所提3个方法,分别采用不同的
35、基准算法进行对比。端边云分层混合模型聚合机制:选择3个基准方法进行性能评估。EdgeFAVG为单边缘联邦学习训练,FedAvg4是Google提出的双层架构。Hier-FAVG5为端边云3层联邦学习架构。资源分组的客户端选择算法:选择两种基准算法进行对比。FedAvg4其客户端选择为随机策略,随机选择固定数量的边缘节点训练。TiFL6为基于分组的联邦学习算法。自组织的联邦协同训练算法:由于目前尚未有相关研究,为验证所提联邦学习协同训练算法有效性,设计3种基准算法进行对比。第1种基准算法不进行协同训练(DeviceExecute,DE),在本地设备上执行联邦学习任务。第2种基准算法随机选择协作集
36、合中设备进行联邦学习任务协作训练(RandomExecute,RE)。第3种基准算法指选择协作集合中计算能力最强的设备进行联邦学习任务的协同训练(MaxExecute,ME)。本文在FedML框架20进行验证,采用两个真实数据集Mnist21和FashionMnist22评估算法有效性。(2)资源异构设置R=(R1,R2,.,R10)R=4,=0.7=2,=0.7dev针对数据异构和设备异构进行了设置,数据异构设置参考文献23,Mnist和FashionMnist包含10个类别的训练数据,设置表示不同数量类的客户端比例,并且 遵循截断正态分布,本文设置两种异构程度分别是和,越小数据异构程度越大
37、。设备异构的设置参考文献6,使用CPU的个数来描述设备异构程度,CPU的个数服从正态分布,方差越大异构程度越大。6.2 仿真结果(1)资源重均衡客户端选择算法为验证HCFL的资源重均衡客户端选择算法,设置了40个客户端,选择8个客户端进行训练,本地轮次为5,验证了模型精度与训练时间性能。图3显示HCFL与基线算法FedAvg和TiFL在Mnist数据集上,分类精度和训练时间的对比。从图3(a)图3(c)客户端上类的均值变小,客户端间数据异构性不断增大。在不同数据异构条件下,HCFL,TiFL,FedAvg三者的训练时间均无太大变化,因为在相同轮次下数据异构对训练时间几乎没有影响,但是HCFL与
38、TiFL训练时间都比FedAvg短,HCFL和TiFL都依据设备资源进行组别划分,加速联邦学习进程。由图3可知,对于模型训练精度,独立同分布情况下3种算法性能相同,但随着2852电子与信息学报第45卷客户端数据异构程度增大,各个算法训练精度都有一定程度的下滑,训练精度曲线也出现较大波动,但是,提出的资源重均衡客户端选择算法,随着异构程度增大,训练精度下滑和训练精度曲线波动程度较基线算法FedAvg和TiFL舒缓。因为HCFL在同一资源组内根据客户端数据统计特性,进行更细粒度的挑选,所以模型训练精度对数据异构程度敏感度较弱。如图4,在FashionMnist数据集进行实验,FashionMnis
39、t数据集比Mnist数据集更复杂。在FashionMnist数据集上,随着数据异构程度增大,对联邦学习模型精度影响比Mnist更大,但是HCFL的模型精度表现同样优于FedAvg和TiFL两种基线算法。(2)自组织联邦协同训练算法首先验证HCFL自组织联邦协同训练算法的协作集合发现方法,用100100的正方形区域,模拟现实生活中边缘区域,边缘区域中随机分布200个物联网设备,物联网设备资源异构设置参考6.1节。图5显示物联网设备能力异构性不断增大,对dev=0.4dev=2设备协作集合发现的影响。当时,物联网设备彼此计算能力相近,形成的协作团体集合极少,因为此时协同计算带来的时间增益小于通信时
40、间消耗,这种情况下进行协同训练并不能加快联邦学习训练时间。随着边缘区域物联网设备异构性增大,协作集合数量不断增多,如图5(a)图5(c)所示,当时设备资源利用率可达78%。从图6可知,HFCL与ME,DE,RE算法相比,训练所提算法联邦学习协同训练时延最小。由于强化学习需要与环境不断交互,从环境得到反馈来优化选择策略,所以在初始效果上HCFL训练时延较其他3种协同策略高,然而,当系统运行稳定后,所提算法相比其他二者可极大降低训练时延。由于单个物联网设备无法承受沉重的计算负担,因此ME训练时延基本优于DE训练时延,因为ME可以通过与最强设备协作训练获益,但是ME并不是最优拆分策略。RE算法效果最
41、差,因为随机选择协同的设备在训练时延上性能有较大波动。综上所述,HCFL所提协同策略能够有效权衡计算和通信开销,确定最佳拆分策略加速联邦学习任务。图3Mnist资源重均衡客户端选择算法对比图4FashionMnist资源重均衡客户端选择算法对比第8期王汝言等:异构物联网下资源高效的分层协同联邦学习方法2853(3)端边云分层混合聚合机制本部分在Mnist数据集上验证所提聚合机制有效性,如图7所示,单边缘EdgeFAVG在相同时间训练精度最低,因此,需要采用分层框架以聚合更多的边缘,利用更多客户端的数据进行模型训练。HCFL混合聚合方案对比HierFAVG方案在相同时间内训练精度最高,因为在异构
42、场景下,采用云层同步聚合必须等待所有边缘的响应,而异步聚合在相同时间内可以进行更多轮次的聚合,所以所提分层聚合机制在异构环境下,联邦学习聚合效率更高。7 结束语本文详细分析物联网设备资源异构性对联邦学习的影响,面向异构物联网提出了资源高效的分层协同联邦学习方法,实验结果表明HCFL在训练精度、训练时间、资源利用率优于现有的基准算法。在未来工作中,计划将能耗扩展到现有的工作,分析HCFL中的关键参数(本地与边缘迭代轮次等)对系统能耗的影响,面向物联网设计绿色、节能的联邦学习方法。参 考 文 献ZHANGJingandTAODacheng.Empoweringthingswithintellige
43、nce:asurveyoftheprogress,challenges,andopportunitiesinartificialintelligenceofthingsJ.IEEEInternet of Things Journal,2021,8(10):77897817.doi:10.1109/JIOT.2020.3039359.1WANGXiaofei,HANYiwen,LEUNGVCM,et al.Convergenceofedgecomputinganddeeplearning:AcomprehensivesurveyJ.IEEE Communications Surveys&Tuto
44、rials,2020,22(2):869904.doi:10.1109/COMST.2020.2970550.2YANGQiang,LIUYang,CHENTianjian,et al.Federatedmachinelearning:ConceptandapplicationsJ.ACMTransactions on Intelligent Systems and Technology,2019,10(2):12.doi:10.1145/3298981.3MCMAHAN B,MOORE E,RAMAGE D,et al.Communication-efficientlearningofdee
45、pnetworksfromdecentralizeddataC.Proceedingsofthe20thInternationalConferenceonArtificialIntelligenceandStatistics,FortLauderdale,USA,2017:12731282.4LIULumin,ZHANGJun,SONGSH,et al.Client-edge-cloudhierarchicalfederatedlearningC.Proceedingsof2020IEEEInternationalConferenceonCommunications(ICC),Dublin,I
46、reland,2020:16.doi:10.1109/ICC40277.2020.9148862.5CHAIZheng,ALIA,ZAWADS,et al.TiFL:Atier-basedfederatedlearningsystemC.Proceedingsofthe29thInternationalSymposiumonHigh-PerformanceParallelandDistributedComputing,Stockholm,Sweden,2020:125136.doi:10.1145/3369583.3392686.6图5不同设备异构情况下协作集合发现图6不同协作策略训练时间对比
47、图7分层混合聚合机制对比2854电子与信息学报第45卷ZAWAD S,ALI A,CHEN Pinyu,et al.Curse orredemption?HowdataheterogeneityaffectstherobustnessoffederatedlearningC.Proceedingsofthe35thAAAIConferenceonArtificialIntelligence,Vancouver,Canada,2021:1080710814.7DUANMoming,LIUDuo,CHENXianzhang,et al.Self-balancingfederatedlearning
48、withglobalimbalanceddatainmobilesystemsJ.IEEE Transactions on Parallel andDistributed Systems,2021,32(1):5971.doi:10.1109/TPDS.2020.3009406.8NISHIO T and YONETANI R.Client selection forfederatedlearningwithheterogeneousresourcesinmobileedgeC.Proceedingsof2019IEEEInternationalConferenceonCommunicatio
49、ns(ICC),Shanghai,China,2019:17.doi:10.1109/ICC.2019.8761315.9PARKJ,HANDJ,CHOIM,et al.Sageflow:Robustfederated learning against both stragglers andadversariesC/OL.Proceedingsofthe35thConferenceonNeuralInformationProcessingSystems,2021:840851.10DINHCT,TRANNH,NGUYENMNH,et al.Federatedlearningoverwirele
50、ssnetworks:Convergenceanalysisandresource allocationJ.IEEE/ACM Transactions onNetworking,2021,29(1):398409.doi:10.1109/TNET.2020.3035770.11ABAD M S H,OZFATURA E,GUNDUZ D,et al.HierarchicalfederatedlearningACROSSheterogeneouscellular networksC.Proceedings of 2020 IEEEInternationalConferenceonAcoustic
©2010-2024 宁波自信网络信息技术有限公司 版权所有
客服电话:4008-655-100 投诉/维权电话:4009-655-100