收藏 分销(赏)

基于结构增强的异质数据联邦学习模型正则优化算法.pdf

上传人:自信****多点 文档编号:2321662 上传时间:2024-05-28 格式:PDF 页数:10 大小:1.20MB
下载 相关 举报
基于结构增强的异质数据联邦学习模型正则优化算法.pdf_第1页
第1页 / 共10页
基于结构增强的异质数据联邦学习模型正则优化算法.pdf_第2页
第2页 / 共10页
亲,该文档总共10页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇基基于结构增强的异质数据联邦学习模型正则优化算法张摇 珉1,2摇 梁美玉1,2摇 薛摇 哲1,2摇 管泽礼1,2摇 潘圳辉1,2摇 赵泽华1,2摘摇 要摇联邦学习中由于不同客户端本地数据分布异质,在本地数据集上训练的客户端模型优化目标与全局模型不一致,导致出现客户端漂移现象,影响全局模型性能.为了解决非独立同分布数据带来的联邦学习模型性能下降甚至发散的问题,文中从本地模型的通用性角度出发,提出基于结构增强的异质数据

2、联邦学习模型正则优化算法.在客户端利用数据分布异质的本地数据进行训练时,以结构化的方式采样子网络,并对客户端本地数据进行数据增强,使用不同的增强数据训练不同的子网络学习增强表示,得到泛化性较强的客户端网络模型,对抗本地数据异质带来的客户端漂移现象,在联邦聚合中得到性能更优的全局模型.在 CIFAR鄄10、CIFAR鄄100、ImageNet鄄200 数据集上的大量实验表明,文中算法性能较优.关键词摇 联邦学习,非独立同分布(Non鄄IID),数据异质性,客户端漂移,正则化引用格式摇 张 珉,梁美玉,薛 哲,管泽礼,潘圳辉,赵泽华.基于结构增强的异质数据联邦学习模型正则优化算法.模式识别与人工智

3、能,2023,36(9):856-865.DOI摇 10.16451/ki.issn1003鄄6059.202309008摇 摇 摇 摇 摇 摇 中图法分类号摇 TP 391Regularization Optimization Algorithm for Heterogeneous Data FederatedLearning Model Based on Structure EnhancementZHANG Min1,2,LIANG Meiyu1,2,XUE Zhe1,2,GUAN Zeli1,2,PAN Zhenhui1,2,ZHAO Zehua1,2ABSTRACT摇 In feder

4、ated learning,due to the heterogeneous distribution of local data among differentclients,the optimization objectives of client models trained on local datasets are inconsistent with theglobal model,leading to client drift and affecting the performance of global model.To address the issue ofperforman

5、ce decline or even divergence in federated learning models caused by non鄄independently andidentically distributed data,a regularization optimization algorithm for heterogeneous data federatedlearning model based on structure enhancement(FedSER)is proposed from the perspective of thegenerality of loc

6、al models.While training on local data with heterogeneous distributions,clients samplesubnetworks in a structured manner.Local data of client are augmented,and different subnetworks aretrained with the augmented data to learn enhanced representations,resulting in more generalized clientnetwork model

7、s.The models counteract the client drift caused by the heterogeneity of local data andachieve a better global model in federated aggregation.Extensive experiments on the CIFAR鄄10,CIFAR鄄100 and ImageNet鄄200 datasets demonstrate the superior performance of FedSER.收稿日期:2023-07-13;录用日期:2023-09-30Manuscr

8、ipt received July 13,2023;accepted September 30,2023国家自然科学基金项目(No.62192784、U22B2038、62172056、62272058)、中国人工智能学会-华为 MindSpore 学术奖励基金项目(No.CAAIXSJLJJ-2021-007B)资助Supported by National Natural Science Foundation of China(No.62192784,U22B2038,62172056,62272058),CAAI鄄Huawei Mind鄄Spore Open Fund(No.CAAIXS

9、JLJJ-2021-007B)本文责任编委 吴 飞Recommended by Associate Editor WU Fei1.北京邮电大学 计算机学院摇 北京 1008762.北京邮电大学 智能通信软件与多媒体北京市重点实验室北京 1008761.School of Computer Science,Beijing University of Posts andTelecommunications,Beijing 1008762.Beijing Key Laboratory of Intelligent Telecommunication Soft鄄ware and Multimedia,

10、Beijing University of Posts and Tele鄄communications,Beijing 100876第 36 卷摇 第 9 期模式识别与人工智能Vol.36摇 No.92023 年 9 月Pattern Recognition and Artificial IntelligenceSep.摇2023摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇 摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇Key words摇 Federated Learning,Non鄄Independently and Identically Distributed(Non鄄IID),Data Het鄄erog

11、eneity,Client Drift,RegularizationCitation摇 ZHANG M,LIANG M Y,XUE Z,GUAN Z L,PAN Z H,ZHAO Z H.Regularization Opti鄄mization Algorithm for Heterogeneous Data Federated Learning Model Based on Structure En鄄hancement.Pattern Recognition and Artificial Intelligence,2023,36(9):856-865.摇 摇 联邦学习1使大量客户端能够在不损

12、害数据隐私的情况下实现对机器学习模型的协作训练.在联邦学习设置中,参与的客户端通常部署在各种环境中,或者由不同的用户或机构拥有2-3.因此,每个客户端本地数据的分布可能有很大差异(即数据异构性).这种在联邦学习中参与设备之间的数据非独立同分布(Non鄄Independently and Identically Distributed,Non鄄IID)使联邦学习的模型优化具有挑战性4-6.每个客户端在自己的本地数据上训练模型,优化各自的局部目标.然而,局部收敛点可能无法较好地符合全局模型的目标(即在中央服务器上的聚合学习后的模型).因此,客户端模型经常偏离理想的全局优化点,过拟合其局部目标.当产

13、生客户端漂移现象时,全局聚合模型的性能会受到影响.目前学者们已提出许多针对联邦学习中数据异质性问题的解决方案,包括 FedProx7、SCAFFOLD(Stochastic Controlled Averaging for Federated Lear鄄ning)8、FedDC(Federated Learning Algorithm withLocal Drift Decoupling and Correction)9和 FedIR10.这些方法引入局部优化约束,限制局部模型更新时与全局模型之间的差异.另外一些方法,包括 Fed鄄Nova11、FedMA(Federated Matched

14、Averaging)12、FedAvgM(Federated Averaging with Server Momen鄄tum)13和 CCVR(Classifier Calibration with VirtualRepresentations)14,改进全局聚合阶段,使全局模型接近全局最优.还有一些方法引入共享数据集的方式,如 FedRep(Federated Representation Learning)15和 FedMix(Federated Mixup)16,使客户端本地模型除了学习本地数据的分布特征以外,还学习部分共享数据的分布特征.尽管上述方法在性能上有一定提升,但仍无法解决客户

15、端上数据分布异质性带来的因客户端模型漂移而导致的全局模型性能下降问题.首先,在局部训练阶段或全局聚合阶段引入约束的方法,虽然限制局部模型和全局模型在训练时更接近,但在抑制漂移的同时,也固有地限制本地模型的收敛潜力,使本地模型在每轮通信中学习到的信息较少,抑制本地模型的学习能力.因此相比经典的基线方法17,许多当前的联邦学习优化算法并不能在不同的数据 Non鄄IID 设置中提供稳定的性能改进.其次,引入共享数据集的方式虽然使各客户端学到相同的数据分布特征,但这种方式从根本上违背联邦学习分布式训练以及保护客户端本地数据隐私的初衷.在集中训练范式中,网络的泛化能力已得到较好研究18,目的是对抗模型过

16、拟合的问题.即使在训练数据和测试数据符合相似数据分布的标准设置中,如果未采取预防措施,模型仍会对训练数据过拟合.当训练数据和测试数据分布不同时,这种效应会进一步增强.因此学者们引入各种正则化技术,加强在训练过程中的学习通用性和保持适当的测试性能.同样,在联邦学习中,客户端本地数据分布存在异质性,导致局部模型更新过程中产生相互冲突的优化目标,降低整体的模型性能.因此,在存在数据异构性时,提高模型的通用性应是主要关注的问题之一.在训练期间提高本地学习模型的通用性将缓解本地客户端模型受异质数据的影响程度,使客户端的优化目标更接近整体的优化目标.受模型正则化方法19的启发,本文考虑降低联邦学习中异质数

17、据分布带来的影响,提出基于结构增强的异质数据联邦学习模型正则优化算法(Regu鄄larization Optimization Algorithm for HeterogeneousData Federated Learning Model Based on Structure En鄄hancement,FedSER).在客户端利用异质的本地数据进行训练时,以结构化的方式采样子网络.使用不同的增强数据训练不同的子网络学习增强表示,促进本地模型的通用性,得到的客户端模型具有更强的泛化性能,可对抗本地数据异质带来的客户端漂移问题,从而提升全局聚合模型的性能.在各种联邦设置的多个数据集上的实验表明,

18、FedSER 可达到较优的全局模型精度.1摇相关工作联邦学习是一种分布式机器学习范式,可在不758第 9 期摇 摇 摇 摇 张摇 珉摇 等:基于结构增强的异质数据联邦学习模型正则优化算法泄露数据隐私的情况下协作多方客户端进行机器学习模型的训练.FedAvg(Federated Averaging)17是联邦学习提出的最初解决方案,其思想是在服务器端生成初始化的全局模型并下发给各个客户端节点,客户端节点利用全局模型初始化自己的本地模型,并使用随机梯度下降算法(Stochastic GradientDescent,SGD)在本地数据集上进行多个轮次的迭代训练,各客户端基于本地数据集训练的本地模型上

19、传给服务器端节点,服务器端根据各客户端数据量大小对本地模型加权平均,聚合新的全局模型.然而在现实场景中,参与联邦训练的客户端节点可能是不同的用户设备或机构20,由于用户使用习惯不同或机构用户群体不同等原因,客户端上的本地数据存在数据 Non鄄IID 的情况.Li 等6通过实验证实传统的 FedAvg 在数据 Non鄄IID 下面临全局模型收敛缓慢、模型性能偏离最优解等问题.为了解决联邦学习中由于数据 Non鄄IID 导致的全局模型精度下降问题,现有研究工作21-31可大致总结为两个方向:1)通过数据增强的方式,对客户端节点的本地数据集进行数据增强,或通过部分共享数据集,降低数据分布之间的异质程

20、度.2)通过对训练过程添加约束,限制客户端本地模型与全局模型相差过大.Yoon 等16提出 FedMix,通过一种现象级但简单的数据增强方法 Mixup25,对异质的本地数据进行数据增强,不需要在设备之间直接共享本地原始数据,在数据高度 Non鄄IID 的联邦设置下,FedMix 在联邦学习的基准数据集上表现出显著的改进性能.Collins 等15为了缓解不同本地数据分布的异质程度,提出 FedRep,对每个客户端上的本地数据进行特征映射,将映射结果上传服务器,由服务器整合映射结果,将整合后的结果再下发给各客户端,客户端在执行本地模型更新时,先基于公共的数据映射数据集进行训练,再基于其本地数据

21、集进行训练.然而,通过节点间共享数据映射缓解数据异质性程度的方法仍在本质上暴露本地的数据特征,存在隐私泄露的风险.Li 等7提出 FedProx,在本地训练过程中增加本地模型与全局模型之间的约束,构建本地模型与全局模型的差异作为惩罚项约束,并加入本地模型训练的损失函数中,使本地模型与全局模型更接近,缓解本地模型的漂移问题,得到聚合性能更好的全局模型.Gao 等9提出 FedDC,使用局部漂移变量,弥补局部模型与全局模型之间的差异,在参数水平施加一致性约束.Li 等26提出 MOON(Model Contrastive Federated Learning),为了处理客户端之间数据分布的异构性,

22、利用模型间的相似性,采用对比学习27的方法,将局部模型尽可能相似于全局模型,缩小与上一轮训练中局部模型的相似性,以此限制局部客户端模型的优化方向,与全局模型更一致,解决客户端之间的数据分布异构问题.然而上述方法未考虑各个客户端异构性的数据分布,直接强制本地模型与全局模型趋同,虽然在一定程度上抑制本地模型漂移,但也客观限制本地模型的学习能力,不具有较好的通用性.深度神经网络在训练中容易出现对训练样本过拟合的情况,导致训练的模型泛化能力不佳.通常采用对训练样本进行数据增强或在网络梯度中添加噪声等方式以缓解过拟合现象32,提高训练模型的通用性.梯度增强19是一种对深度神经网络进行正则化的方法,通过网

23、络本身产生有意义的梯度偏差,而不仅仅是添加随机噪声.假设训练样本为一幅图像,一个具有良好通用性的网络应对其随机变换(如随机旋转、随机裁剪等)后的图像识别为同一图像.梯度增强利用变换的训练样本对一组子网络的表示进行正则化,这些子网络是根据网络宽度(即每层的信道数)从整个网络中随机采样,子网络以权重共享的方式进行训练,完成后得到最终的全网络表示.通过子网络从不同的转换中学到不同的表示,得到泛化性更好、通用性更强的全网络表示.现有的直接对客户端更新加以限制的方法虽然减轻客户端漂移的程度,使本地更新更接近于全局模型,但也阻碍本地模型充分学习少量异构甚至同质数据的能力.对于本地客户端数据分布异质性未知的

24、联邦学习来说,限制本地模型的学习能力并不理想.2摇基于结构增强的异质数据联邦学习模型正则优化算法2.1摇 算法框架本文提出基于结构增强的异质数据联邦学习模型正则优化算法(FedSER),整体框架如图 1 所示.FedSER 包括客户端模型更新和服务器聚合两部分.服务器负责协调整个联邦训练过程中模型的分发和聚合,客户端基于本地数据更新本地模型.为了缓解客户端模型漂移问题,采用模型结构化增强的方式训练本地模型.858模式识别与人工智能(PR&AI)摇 摇 摇第 36 卷?2?1?k?图 1摇 FedSER 框架图Fig 1摇 Framework of FedSER2.2摇 问题定义联邦学习不同于传

25、统分布式机器学习集中收集数据的工作模式,其数据产生于客户端本地,不同客户端的本地数据集之间的数据分布通常服从 Non鄄IID.FedSER 的目的是缓解由于不同客户端本地数据分布异质导致的客户端模型漂移问题,得到聚合后性能有所保证的全局模型.定义 Non鄄IID摇分别从客户端 i、j 中抽取服从分布(x,y)Pi(x,y)和(x,y)Pj(x,y)的数据样本,如果Pi(x,y)屹 Pj(x,y),称客户端 i 和客户端 j 的本地数据是服从 Non鄄IID.在客户端本地数据服从 Non鄄IID 的情况下,传统的联邦学习算法往往面临模型精度损失的问题.每个客户端在自己的本地数据上训练模型,优化各

26、自的局部目标,假设参与联邦学习的每个客户端 k上拥有本地数据集Dk,数据样本个数为nk,则第k个客户端的经验损失函数为:fk(兹)=抓(x,y)Dklk(兹;(x,y),其中,(x,y)Dk表示客户端k 上的数据集服从数据分布 Dk,兹 表示神经网络参数,lk通常表示交叉熵损失.然而,由于不同客户端上的数据服从Non鄄IID,即Di(x,y)屹 Dj(x,y),客户端上的局部收敛点不能较好地符合全局模型的目标,因此,客户端模型偏离理想的全局优化点,过拟合其局部目标.若最终目标是优化如下函数:arg min兹F(兹)颐=移k沂Knknfk(兹),其中,F(兹)表示全局损失函数,fk(兹)表示客户

27、端 k的损失函数,n 表示全部样本数量,nk表示客户端 k的样本数量,则当产生客户端漂移现象时,全局聚合模型的性能会受到影响.2.3摇本地模型结构增强面对由于不同客户端上 Non鄄IID 数据带来的全局模型精度损失问题,本文提出利用子网络梯度增强的方法,对客户端模型进行结构正则化训练,得到通用性更强的客户端模型,抵抗异质的局部数据分布带来的局部客户端漂移问题.具体来说,为了得到泛化效果更优的局部模型,训练本地模型时,先基于本地数据对局部模型进行训练后,对局部模型的全网络按结构采样不同的子网络,再使用经过增强变换的数据样本对子网络重新训练,重新训练的子网络可以学到变换后的表示.这样,更大的子网络

28、总是以权重共享的方式训练更小的子网络,因此可利用在更小的子网络中学到的表示.经过多轮迭代训练,得到具有多样化表示的完整网络.958第 9 期摇 摇 摇 摇 张摇 珉摇 等:基于结构增强的异质数据联邦学习模型正则优化算法子网络通过网络宽度这种结构化的方式采样.令客户端全网络模型参数为 兹,全网络中一层的模型参数为 兹l,以卷积层举例,兹l沂 Rc1伊c2伊k伊k.其中,l表示模型层,c1表示输入的通道数,c2表示输出的通道数,k 表示卷积核的大小.采样子网络的宽度 棕 沂琢,1.0,其中 琢 表示采样宽度的下界.子网络的参数为 兹棕,则子网络的宽度为全网络宽度的 棕 伊100%,子网络相对应层的

29、模型参数兹棕l沂R棕c1伊棕c2伊k伊k.在每次迭代训练中,使用原始数据训练全网络,这与常规训练过程相同.再对 n 个子网络进行采样,其中 n 表示采样子网络的个数.使用经过增强变换的数据对子网络进行训练,使子网络学到更通用的增强数据表示.最后利用累积全网络和子网络的损失更新模型的权值.客户端模型的损失函数定义为L=LCE(F兹(x),y)+滋移ni=1LKD(F兹wi(Ti(x),F兹(x),其中,F兹表示全网络模型,F兹棕i表示采样宽度为 棕i的子网络,Ti()表示对输入执行的变换操作(如分辨率缩放),滋 表示 n 个子网络上的交叉熵损失 LCE和 KL 散度损失 LKD求和之间的平衡参数

30、.每个子网络的宽度 棕i是从下界 琢 和 1.0(全宽)之间的均匀分布中采样.本地客户端模型结构增强算法的伪代码如算法 1 所示.算法 1摇客户端模型结构增强算法输入 摇全局网络模型 F(兹),训练样本x,y,随机变换 T,子网络个数 n,子网络宽度下界 琢输出 摇本地模型 Fk(兹)function ClientRegularization(Fk(兹),x)训练全网络摇前向传播:outputf=F兹(x)摇计算损失:lossf=criterion(output,y)正则化子网络摇for 子网络 i 从 1 n摇 摇采样子网络:subneti=Sample(F兹,琢)摇 摇固定批归一化层的均值

31、和方差摇 摇使用经过变换的训练样本进行前向传播:outputi=subneti(Ti(x)摇 摇使用软标签 outputf计算子网络的损失:lossi=criterion(outputi,outputf)摇end for摇计算总损失:L=lossf+移ni=1lossi摇计算梯度,反向传播end function以这种结构正则化方式训练的增强客户端模型会具有更好的模型通用性,对于联邦学习中不同客户端上数据分布异质的场景,客户端模型的通用性更强意味着模型对异质的数据分布具有一定的鲁棒性,缓解客户端模型的漂移现象,在全局模型聚合时可得到聚合后性能更优的全局模型.另外,子网络的训练是通过增强之后的数

32、据,使用数据增强的方式训练子网络,可在一定程度上平衡不同节点间数据分布的差异,提高最终模型的表现.2.4摇联邦客户端正则优化算法基于上述的本地模型结构增强的优化方法,本文面向联邦学习中的数据异质性场景,提出 FedSER.FedSER 设计为一种基于 FedAvg 的简单有效的方法,旨在局部训练中得到泛化性更强的客户端模型,抵抗由于本地异质数据分布带来的客户端模型漂移现象,缓解全局模型聚合时的性能下降程度.正式训练前,在服务器端进行全局模型参数的初始化,并下发给所有的客户端,对其本地模型进行初始化.参与联邦训练的客户端首先基于本地数据集完成一轮前向传播,再根据网络宽度随机采样 n个子网络,由随

33、机变换后的增强样本对每个子网络进行表示增强的训练,完成本地模型的正则优化,上传本轮更新的模型梯度给服务器,由服务器聚合全部更新的本地模型,完成全局模型的更新,不断迭代,直至达到全局模型收敛.FedSER 具体步骤如算法 2 所示.算法 2摇 FedSER输入 摇联邦通讯轮次 T,客户端本地的批大小 B,每轮参与通讯的客户端数量 K,客户端本地更新轮次 E,学习率 浊输出 摇全局联邦模型 兹global服务器端执行初始化联邦模型 兹0globalfor 轮次 t 从 0 T 1摇将全局模型参数 兹global传给每个客户端 k摇for 客户端 k 沂 K摇 摇客户端更新:兹tk饮 ClientU

34、pdate(k,兹t)摇end for摇全局模型更新:兹t+1global饮移Kk=1nk兹tknend forreturn 兹global客户端执行使用全局模型参数 兹 初始化本地模型 兹kfor 迭代次数 e 从 0 E-1068模式识别与人工智能(PR&AI)摇 摇 摇第 36 卷摇 for 每个本地数据集批次 b=x,y摇 摇 Fk(兹)饮 ClientRegularization(Fk(兹),x)摇 end for摇将 Fk(兹)回传到服务器end for由于 FedSER 对 FedAvg 只进行轻量级修改,在本地模型训练过程中对模型进行结构化正则训练操作,使得到的本地模型对异质数

35、据具有更好的通用性.FedSER 对于联邦聚合方面未有所改动,因此可轻松集成其它基于服务器端聚合时优化的算法,实现优化方法的即插即用.3摇实验及结果分析3.1摇实验数据集本文在 CIFAR鄄10、CIFAR鄄100、ImageNet鄄200 这3 个联邦学习常用的数据集上进行实验.CIFAR鄄10数据集包含10 类,50 000 个训练样本和10 000 个测试样本.CIFAR鄄100 数据集包含 100 类,50 000 个训练样本和 10 000 个测试样本.ImageNet鄄200 数据集包含200 类,每类有500 个训练样本、50 个验证样本和 50 个测试样本.在 CIFAR鄄10

36、 数据集上,采用卷积神经网络(Convolutional Neural Network,CNN)作为基础的编码器,包括2 个5 伊 5 的卷积层,2 伊 2 的最大池化层以及2个全连接层,以ReLU函数作为激活函数.在 CIFAR鄄100 数据集上,采用 ResNet鄄50 作为基础的编码器.对于所有的数据集,采用两层的 MLP(Multi鄄layer Perceptron)作为映射头,映射头的输出维度默认设置为 256.为了公平起见,所有的对比算法和FedSER 采用相同的模型架构.3.2摇实验环境本文选用如下对比算法:FedProx7,FedDC9,FedMix16,FedAvg17,MO

37、ON26.评价指标采用准确率(Accuracy).采用狄利克雷分布生成类间的 Non鄄IID 数据划分,设有 C 个类别标签,K 个客户端,每个类别标签的样本按不同比例划分在不同的客户端上.设矩阵X 沂 Rc伊k表示类别标签分布矩阵,其行向量 xc沂 Rk表示类别 c 在不同客户端上的概率分布向量,该随机向量在服从的狄利克雷分布 pc Dir(茁)中采样,使客户端k上c类实例数的比例为pc,k,其中,Dir(茁)表示具有浓度参数为 茁 的狄利克雷分布(茁 默认为0.5).基于上述划分策略,每个客户端在一些类上可能只有少量数据或无数据.将客户端数量默认设置为 10,每类在各个客户端上的数据分布可

38、视化如图 2 所示.实验平台为 4 个 RTX鄄2080Ti GPU,采用 PyTorch作为机器学习训练库.对所有算法采用 SGD 优化器,学习率设为0.01,SGD的权值衰减设置为0.000 01,动量设置为 0.9.?0?1?2?3?4?5?6?8?9500040003000200010000123456789500400300200100012141618110050040030020010001 2676 10115120051126176107?0?1?2?3?4?5?6?8?97?0?1?2?3?4?5?6?8?97?摇 摇 摇 摇 摇 摇 摇(a)CIFAR鄄10摇 摇 摇 摇

39、 摇 摇 摇 摇 摇 摇 摇 摇(b)CIFAR鄄100摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇(c)ImageNet鄄200图 2摇 使用 Non鄄IID(茁=0.5)划分的每个客户端上的数据分布可视化结果Fig.2摇 Visualization of Non鄄IID data distribution on each client(茁=0.5)168第 9 期摇 摇 摇 摇 张摇 珉摇 等:基于结构增强的异质数据联邦学习模型正则优化算法3.3摇 不同算法性能分析对于 FedProx、MOON 和 FedSER,均有超参数 滋平衡其增加的损失项,因此对所有算法都采取最优滋 值,FedPro

40、x 中 滋=0.000 1,MOON 中 滋=1.0,FedSER 中 滋=1.75.在 FedSER 中,采样子网络的个数 n=2,采样宽度下界 琢=0.8.各算法在 3 个数据集上的准确率对比如表 1 所示,表中 C=16 表示客户端数量为 16,C=64伊0.25(100)表示客户端总数为 64,每次选取 25%的客户端参与训练,总通讯轮次为 100.由表 1 可见,在具有数据异质的联邦场景下,FedAvg 准确率最低,每种对模型加以正则优化的方法都能在一定程度上缓解数据异质性带来的精度损失问题.特别地,FedSER 在每个数据集上都性能最佳.在 CIFAR鄄10 数据集上,当客户端数量

41、为 16 时,相比 FedAvg,FedSER 有 2.9%的准确率提升,相比性能表现次佳的 MOON,FedSER 也有 1.7%的准确率提升.当随机采样 64 个客户端中的 25%参与联邦训练时,相比表现次优的 FedMix,FedSER 有 3.3%的准确率提升.在 CIFAR100 数据集上,客户端数量设置为 16时,相比性能次优的 MOON,FedSER 提升 1.7%的准确率.在客户端数量为 32 时,相比表现次优的FedMix,FedSER 提升 1.8%的准确率.在 ImageNet鄄200 数据集上,相比在两种设置下均为表现次佳的MOON,FedSER 仍有约 2%的准确率提

42、升.这是由于直接对客户端更新加以限制的方法虽然减轻客户端漂移的程度,使本地更新更接近于全局模型,但也阻碍本地模型充分学习少量异构甚至同质数据的能力.在数据 Non鄄IID 的设置下对所有算法进行性能对比分析.随着数据异质性程度的降低,客户端漂移带来的影响应变得不那么显著,在 CIFAR鄄100 数据集上对比各算法的准确率,具体如表 2 所示.由表可见,所有算法在非数据异质性下性能均有所提升,但相比 Non鄄IID 数据下的实验结果,FedProx、MOON 和FedMix 在没有数据异质的情况下性能提升是有限的,只有 1%2%的准确率提升,而 FedSER 在两种设置下准确率提升约 3.8%.

43、这是由于 FedProx 等在优化本地模型时强制其与全局模型的优化方向接近,阻碍本地模型充分学习少量异质数据甚至同质数据分布的能力.而 FedSER 从结构而非数据的角度进行优化,使本地模型学习到的表示更通用,从而缓解数据异质带来的影响,因此具有更好的泛化性和通用性.表 1摇 各算法在 3 个数据集上的准确率对比Table 1摇 Accuracy comparison of different algorithms on 3 datasets算法CIFAR鄄10C=16C=64伊0.25(100)CIFAR鄄100C=16C=32ImageNet鄄200C=16C=32伊0.125(50)Fe

44、dAvg81.7%78.6%52.8%44.2%60.7%52.5%FedProx81.9%78.9%53.1%44.5%61.0%52.8%MOON82.9%79.4%55.5%45.8%61.3%54.3%FedMix80.3%80.5%54.1%46.0%61.2%52.2%FedDC82.1%79.2%54.2%45.2%60.8%46.6%FedSER84.6%83.8%56.7%47.8%63.5%55.6%表 2摇 各算法在 CIFAR鄄100 测试集上的准确率对比Table 2摇 Accuracy comparison of different algorithms on CI

45、FAR鄄100 test set数据分布FedAvg/%FedProx/%MOON/%FedMix/%FedDC/%FedSER/%Non鄄IID(茁=0.5)52.853.155.554.154.256.7IID54.954.856.356.755.760.53.4摇 消融实验首先分析不同的数据异质性程度对算法性能的影响.选取客户端的数量为 16 时,在 CIFAR鄄100 数据集上,具体消融实验结果如表 3 所示.所有实验参数设置与3.3 节实验设置相同,只有数据分布 Dir(茁)有所改变,茁 值越小表示数据分布的异质性越强.从表 3 中结果可看出,在不同数据异质性设置下,FedSER 具

46、有稳定的最优性能,有较明显的精度提升,并且随数据同质性增强,精度提升最明显.268模式识别与人工智能(PR&AI)摇 摇 摇第 36 卷表 3摇 数据异质性程度不同时的准确率对比Table 3摇 Accuracy comparison of 6 algorithms with differentdegrees of data heterogeneity算法茁=0.1茁=0.5茁=2.5FedAvg45.1%52.9%54.3%FedProx45.4%53.0%54.5%MOON47.2%55.2%56.6%FedMix44.3%54.0%56.7%FedDC46.4%53.9%54.2%Fed

47、SER48.6%57.0%60.5%下面分析每轮通信中不同的本地迭代次数对算法性能的影响.设置每轮通信中本地迭代次数 E=10,20,30.在 CIFAR鄄100 数据集上,各算法的准确率对比如表 4 所示.由表可见,随着每轮中 E 的增加,大部分算法性能均有所提升,FedProx 在 E=20时表现最佳.FedSER 在不同的本地训练轮次中的实验结果均最优,说明 FedSER 带来的全局模型性能提升在不同的联邦场景的设置下具有一定的鲁棒性.表 4摇 本地训练轮次不同时的准确率对比Table 4摇 Accuracy comparison of 6 algorithms with differe

48、ntlocal training epochs算法E=10E=20E=30FedAvg50.6%52.9%53.2%FedProx51.2%53.4%52.8%MOON51.1%55.5%55.6%FedMix50.9%54.1%54.7%FedDC50.6%55.2%55.6%FedSER53.5%57.1%57.7%需要指出的是,每轮通信中在本地训练的轮次越多,越能使模型学到更多知识,越能提升性能.但在联邦学习中,客户端往往是计算和存储资源有限的边缘,一味通过增加本地训练轮次的方法以提升模型性能会导致客户端的计算代价急剧上升,违背联邦学习的资源约束限制,并且通过这种方式带来的性能提升是有限

49、的.最后,分析本地模型正则化时采样不同的子网络个数对算法性能的影响,当采样子网络的个数n=1,2,3,4时,在 CIFAR鄄100 数据集上选取 16 个参与客户端,各算法准确率对比如图 3 所示.子网络个数选取不同主要影响客户端模型经过不同子网络增强训练后的泛化程度,实验结果表明选取不同的子网络个数都可在不同程度上提升算法性能.在 n=2时,算法性能最佳,这是因为当采样子网络个数过少时,对客户端模型的正则优化不够,客户端漂移现象仍然存在;当子网络个数过多时,会导致优化后的客户端模型泛化性更强,但不能充分学习本地数据分布特征.因此,n=2 是一个综合性能更优的选择,既通过子网络的增强训练避免客

50、户端的漂移,又能较好地拟合本地数据分布,得到总体性能最优的模型性能.5756555453525150n=1n=2n=3n=4FedAvgFedProxFedMixFedDCMOONFedSER?/%图 3摇 子网络个数不同时的准确率对比Fig.3摇 Accuracy comparison of 6 algorithms with differentnumber of subnetworks4摇结 束 语本文面向联邦学习中由于数据异质性带来的全局模型性能损失问题,提出基于结构增强的异质数据联邦学习模型正则优化算法(FedSER).基于本地模型结构正则化的方法,在客户端利用异质的本地数据进行训练时

展开阅读全文
部分上传会员的收益排行 01、路***(¥15400+),02、曲****(¥15300+),
03、wei****016(¥13200+),04、大***流(¥12600+),
05、Fis****915(¥4200+),06、h****i(¥4100+),
07、Q**(¥3400+),08、自******点(¥2400+),
09、h*****x(¥1400+),10、c****e(¥1100+),
11、be*****ha(¥800+),12、13********8(¥800+)。
相似文档                                   自信AI助手自信AI助手
百度文库年卡

猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服