收藏 分销(赏)

基于门限同态加密的自适应联邦学习安全聚合方案.pdf

上传人:自信****多点 文档编号:647362 上传时间:2024-01-23 格式:PDF 页数:10 大小:1.73MB
下载 相关 举报
基于门限同态加密的自适应联邦学习安全聚合方案.pdf_第1页
第1页 / 共10页
基于门限同态加密的自适应联邦学习安全聚合方案.pdf_第2页
第2页 / 共10页
亲,该文档总共10页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、2023 年 7 月 Journal on Communications July 2023 第 44 卷第 7 期 通 信 学 报 Vol.44 No.7基于门限同态加密的自适应联邦学习安全聚合方案 马卓1,金嘉玉1,杨易龙1,刘洋1,应作斌2,李腾1,张俊伟1(1.西安电子科技大学网络与信息安全学院,陕西 西安 710071;2.澳门城市大学数据科学学院,澳门 999078)摘 要:针对当前联邦学习安全聚合算法应用在复杂网络环境时的通信瓶颈问题,提出一种基于门限同态加密的自适应联邦学习安全聚合方案。在保护梯度隐私的同时,用户根据当前可用带宽自适应压缩梯度,从而极大地降低联邦用户的通信开销。

2、进一步地,在聚合梯度解密阶段,设计了一种全新的动态解密任务分发和梯度结合算法,缓解了用户上行通信压力。实验结果表明,当所提方案的数据通信量为现有方案的 4%时,模型预测准确率仅损失 1%。关键词:联邦学习;安全聚合;梯度采样;门限同态加密 中图分类号:TN92 文献标志码:A DOI:10.11959/j.issn.1000436x.2023140 Adaptive federated learning secure aggregation scheme based on threshold homomorphic encryption MA Zhuo1,JIN Jiayu1,YANG Yil

3、ong1,LIU Yang1,YING Zuobin2,LI Teng1,ZHANG Junwei1 1.School of Cyber Engineering,Xidian University,Xian 710071,China 2.Faculty of Data Science,City University of Macau,Macau 999078,China Abstract:Aiming at the communication bottleneck problem when the current federated learning security aggregation

4、al-gorithm was applied in a complex network environment,an adaptive federated learning secure aggregation scheme based on threshold homomorphic encryption was proposed.While protecting gradient privacy,users adaptively compress gra-dients based on the current available bandwidth,greatly reduced comm

5、unication overhead for federated users.Further-more,the new dynamic decryption task distribution algorithm and gradient combination algorithm were designed in the phase of aggregation gradient decryption,which relieved the users uplink communication pressure.The experimental results show that the pr

6、oposed scheme can sharply reduce the amount of communication to 4%compared with the exist-ing federated learning scheme with a trivial model accuracy loss of 1%.Keywords:federated learning,secure aggregation,gradient sampling,threshold homomorphic encryption 0 引言 近年来,作为一种大数据分析技术,机器学习已经被各行各业广泛应用,如智慧交

7、通1-2、智慧医疗3、物联网4等。同时,随着数据的价值逐渐凸显,数据的隐私安全也引起了大众的关注。传统的集中式机器学习架构要求用户上传本地隐私数据,这严重侵犯了用户数据的隐私。为了降低集中式机器学习的隐私风险并实现共同建模,谷歌5提出了联邦学习(FL,federated learning)架构,该架构中收稿日期:20230322;修回日期:20230624 通信作者:杨易龙, 基金项目:国家重点研发计划基金资助项目(No.2022YFB3103500);国家自然科学基金资助项目(No.U21A20464,No.61872283);陕西省自然科学基础研究计划基金资助项目(No.2021JC-22

8、);陕西省重点研发计划基金资助项目(No.2022GY-029);移动互联网安全 111 学科创新引智基地基金资助项目(No.B16037)Foundation Items:The National Key Research and Development Program of China(No.2022YFB3103500),The National NaturalScience Foundation of China(No.U21A20464,No.61872283),The Natural Science Basic Research Program of Shaanxi Provinc

9、e(No.2021JC-22),The Key Research and Development Program of Shaanxi Province(No.2022GY-029),The China 111 Project(No.B16037)第 7 期 马卓等:基于门限同态加密的自适应联邦学习安全聚合方案 77 各用户仅向聚合服务器上传相同规模的模型参数(如梯度)参与模型训练,在一定程度上隐式地保护了用户的数据隐私。然而,文献6提出,获取梯度明文的敌手能够通过梯度泄露攻击恢复出原始训练样本。针对上述梯度值导致的隐私泄露问题,部分专家学者提出使用安全聚合方案来保护梯度数据7-9,例如,应用

10、掩码秘密分享、同态加密等安全原语,使聚合服务器只能得到聚合后的梯度,无法获取单个用户的明文梯度,进一步保证了用户的隐私安全。实际应用中,联邦学习所应用的模型参数规模不断扩大,例如,常用于图片分类任务的 ResNet-9网络拥有 650 万个参数,通信量的瓶颈严重限制了联邦学习的部署。针对以上问题,现有研究提出了梯度压缩方案,以极低的模型精确度损失为代价,大幅度降低了用户的上传数据量。例如,选取较大梯度的 Top-k 采样方案10和应用采样概率的无偏MinMax 采样方案11。然而,目前多数梯度压缩方法无法直接应用于解决安全聚合方案的通信问题,例如,谷歌提出的基于秘密分享的安全聚合方案需要服务器

11、知晓所有掩码才能得到安全聚合结果,无法应用于采样框架缓解通信问题。另一方面,为了获取更精准的模型,联邦学习逐渐在资源受限的设备上进行大规模部署12,如手机、物联网设备等。这些设备通常部署分散,通信资源分布严重不均,直接导致了联邦学习中的系统异构性13-15。例如,联邦学习部署在拥有移动通信网络(4G 和 5G)、有线网络(广域网和局域网)、自组织网络或窄带物联网的场景时,系统中用户的数据传输速率会相差千倍以上。在上述通信能力异构的复杂网络场景下,由于某些域的用户当前可用带宽不足而无法在指定时间窗口内传回梯度或解密结果,联邦聚合服务器会简单地认为其处于掉线或退出状态而将其丢弃16-17,导致相应

12、用户无法继续参与训练完成聚合,以至于掉线用户无法对全局模型产生贡献,严重地影响联邦学习的训练效率。为了解决上述通信问题,文献18结合格密码和抽样,缩减梯度密文的体量。文献19在应用同态加密保证用户隐私的同时,通过量化降低用户通信负载。然而,由于目前大多数方案通常在系统内均匀地降低用户的通信负载,对用户的网络通信能力有一定要求,忽略了实际应用中复杂网络场景对用户通信状态不均匀的影响。因此在设备通信异构的复杂网络场景下,如何保证参与用户自适应地选择上传数据量以保持在线状态,并能够参与联邦学习安全聚合成为一个挑战。针对上述设备通信异构的复杂网络场景,本文提出了一种基于门限同态加密的自适应联邦学习安全

13、聚合方案,设计了动态解密任务分发和梯度结合算法,在保证隐私的同时降低了联邦学习的上行通信负载。本文主要贡献如下。1)针对联邦学习安全聚合方案的通信瓶颈问题,提出了基于梯度采样的自适应门限同态安全聚合框架,利用梯度采样技术降低了用户所需加密和传输的梯度量,缓解了联邦学习的通信瓶颈。2)针对复杂网络环境中用户通信异构和同态解密任务通信负载较大的问题,提出了动态解密任务分发和梯度结合算法,根据用户的采样率分发解密任务,动态调整承担解密任务的用户数量,缓解了通信资源较差用户的上行通信压力。3)实验结果表明,当本文方案通信量为现有基于同态加密安全聚合方案的 4%时,精确度仅损失1%。在用户自适应调整通信

14、的基础上,成功地降低了联邦学习的通信开销。1 模型定义 1.1 系统模型 图 1 展示了本文提出的基于梯度采样的自适应门限同态安全聚合框架,包括用户、聚合服务器和密钥分发中心(KDC,key distribution center)。图 1 基于梯度采样的自适应门限同态安全聚合框架 78 通 信 学 报 第 44 卷 聚合服务器通常作为联邦学习的发起方,具有较强的计算、存储和通信能力,需要向所有用户分发训练中所涉及的模型参数、压缩率(CR,compress ratio)以及解密任务等,承担梯度聚合和更新模型的计算任务,最终得到训练后的模型。密钥分发中心根据联邦学习发起方传递的参数生成及分发安全

15、聚合中使用的密钥。本文方案中,接收到选定的门限和用户数量后,密钥分发中心生成公钥和私钥的秘密分享值,再将秘密分享值分发给用户。系统中包含多个用户,通常来自不同厂商、地域,拥有不同的可用通信带宽。用户具有收集本地数据及在本地数据集上训练模型的能力。在解密阶段,用户负责部分解密聚合梯度并向聚合服务器返回部分解密结果。1.2 安全模型 本文方案基于诚实且好奇的安全假设,即在协议执行时聚合服务器按照协议规定的流程诚实地执行操作并且如实地将结果发送给用户,不对过程的任何一部分进行篡改。但是,聚合服务器可以尝试收集本文方案中的一切可获取数据,并且通过收集的数据进行推断和计算,尝试获得用户隐私信息。用户在参

16、与过程中同样诚实地执行每一个步骤,但也对其余用户的隐私数据好奇。此外,本文假设用户与用户、用户与聚合服务器之间不共谋,任意一方的信息对系统中其余的参与方都是秘密的,且密钥分发中心的密钥分发过程是安全的。2 自适应安全聚合方案 为了解决复杂网络场景下通信资源不足且无法部署安全聚合算法的问题,本文提出了自适应安全聚合方案。此外,针对设备网络资源不均的场景,基于(,)T N门限的 Paillier 同态加密算法,本文提出适应用户网络状态异构的动态解密任务分发和梯度结合算法,根据用户通信状态动态调整承担解密任务的用户数量,缓解同态加密安全聚合解密过程中用户的上行通信压力,方案框架如图 1 所示。系统包

17、含N个用户和一个聚合服务器S,用户n持有隐私的本地数据集nD。聚合服务器S发起联邦学习,通过多个用户共同训练得到全局模型。表 1 给出了常用系统参数。表 1 常用系统参数 参数 含义 T 解密门限 M 联邦模型参数个数 minCR最小压缩率 skn第 n 个用户持有的私钥 pk门限同态加密公钥 N 用户总数 n 第 n 个用户 nD第 n 个用户的本地数据集 ng第 n 个用户训练得到的梯度 ng第 n 个用户的采样梯度()nE g第 n 个用户加密的采样梯度()nE g展开的加密梯度 nK第 n 个用户的采样个数()aE g加密的聚合梯度()aD E g部分解密的聚合梯度 ag聚合梯度 具体

18、来说,自适应安全聚合方案包括系统初始化、自适应聚合和动态解密 3 个阶段。在初始化阶段,聚合服务器初始化模型参数,并确认解密门限T和最小压缩率minCR,随后,向密钥分发中心和用户发送所需的参数。密钥分发中心根据接收到的用户总数N和解密门限T生成秘密分享值作为私钥分发给用户,并且公开公钥。在自适应聚合阶段,用户首先使用本地数据集训练全局模型得到梯度,再根据各自当前可用通信带宽对梯度进行自适应梯度采样,使用同态加密后得到加密值和位置索引并上传给聚合服务器,最终服务器聚合所有梯度后得到聚合加密梯度。在动态解密阶段,聚合服务器根据各用户的采样率或其他自定义指标评估用户通信状态,动态调整解密任务分发的

19、用户数量,分发适应所选用户通信状态的解密任务量,随后用户使用私钥解密聚合加密梯度得到部分解密的聚合梯度,再次上传至服务器,服务器结合所有部分解密的聚合梯度得到最终的明文聚合梯度并更新当前模型。训练过程中,用户梯度对系统中的其余用户、聚合服务器和攻击者来说均“可算不可见”,有效地保障了联邦学习的隐私性。2.1 初始化阶段 聚合服务器将解密门限T和参与用户总数N发送给可信第三方密钥分发中心。密钥分发中心在第 7 期 马卓等:基于门限同态加密的自适应联邦学习安全聚合方案 79 接收到T与N后,在整数域随机选择 2 个不同的强素数p和q,满足2 1pp,2 1qq,其中,p和 q 为不同的素数。令up

20、q,vp q,随机选择整数*nsZ,令密钥sksv。随后密钥分发中心按照 Shamir 秘密分享方案为用户分配私钥:选择T个随机整数12,Ta aa,构造多项式 2012()=tTf xaa xa xa x(1)密钥分发中心随机选取N个整数12,Nx xx,则第n个用户的私钥skn为 sk()modnnf xuv(2)密钥分发中心随后从安全信道分发skn给用户并销毁skn。密钥分发中心再选择*,na bZ,计算2(1)modaugubu,由此可得若 ord()b,则ord()gu。计 算modsvu并 将 公 钥pk,g u公开。2.2 自适应聚合阶段 在第i轮训练中,聚合服务器分发全局模型参

21、数i和最小压缩率minCR给用户。用户n根据分发的模型在本地数据集nD上训练模型得到梯度ng。用户n首先测量设备当前的可用带宽B,并根据带宽和单位时间决定上传梯度的采样个数nBKz,其中,z为单位加密梯度大小。为保障解密阶段可行,要求用户采样个数需满足minCRnKT,当系统内用户通信状态较差时,可以使用较小的门限值调整整体的解密任务总量,缓解通信压力。此后,用户n对梯度ng进行自适应采样,选中的梯度保留原值,未采样到的梯度置零,得到ng;同时,生成二进制比特串nI作为采样梯度的位置索引发送给服务器,以便S能够恢复完整的稀疏梯度,用户n采样梯度值的位置索引nI生成规则为 1,00,0mnmnm

22、ngIg(3)其中,mnI为位置索引nI的第m位。随后用户按式(4)对ng中的非零元素加密得到()nE g。2()(1)mod,0mngmumnmnE gurug(4)其中,()mnE g表示用户n发送给聚合服务器的第m个加密梯度值,*mnrZ表示每个用户选择的随机数。最终,用户n把加密的采样梯度()nE g和位置索引nI一同发送给聚合服务器。聚合服务器在接收到用户加密的采样梯度()nE g和位置索引nI后,按照位置索引恢复出展开的加密梯度()nE g,统计本轮上传梯度的用户总量iN,随后根据式(5)计算加密的聚合梯度()aE g。11()()iNmmaninE gE gN(5)2.3 动态解

23、密阶段 原始门限同态方案要求T个用户对整个梯度进行解密并发回聚合服务器,然而在受限和复杂网络环境下,选中的用户资源不足会显著降低联邦学习效率。对此,动态解密任务分发的目标是将加密的聚合梯度在全部用户动态分配。具体来说,聚合服务器根据系统整体状态按需动态调整解密任务分发的用户数量并分配适应用户通信状态的任务量。梯度结合方案则将部分解密的聚合梯度回收并结合为梯度明文,具体算法如算法1中所示。首先,服务器将用户编号IDn和上传梯度个数nK作为键值填入字典,初始化idx用于记录当前分发位置。然后,根据所选用的任务分发规则,对字典进行分发顺序排序得到分发ID的顺序。最后,遍历字典,按照顺序向用户ID分发

24、待解密的()aE g,直至其被完全分发T次。算法 1 动态解密任务分发算法 初始化 0t,0n,idx0,给定加密后的采样梯度()nE g,加密的聚合梯度()aE g,门限T,用户编号IDn和采样个数nK 1)使用用户编号IDn和nK作为键值初始化分发字典R;2)按选用的自适应采样规则对R排序;3)for t=1:1:T 4)if()idx.aE gR n K:5)聚合服务器向编号为.IDR n的用户发送()idx,idx.aE gR n k;6)1n;7)else if()idx.aE gR n K:8)聚合服务器向编号为.IDR n的用户发送idx,aE g;9)1n,1t,idx=0;1

25、0)else:11)聚合服务器向编号为.IDR n的用户顺序发送()idx,aE g、(),idx.aE gRn K 80 通 信 学 报 第 44 卷 ()aE g;12)1n,1t;13)end if 14)end for 算法1中,任务分发规则的选择通常与设备状态关联,在不同训练轮次中,由于用户压缩率随用户的当前可用带宽持续变化而动态更新,因此每一轮训练中承担解密任务的用户数量是根据分发排序规则动态选取的。一般来说,上行通信网络状态较好,即压缩率较高的用户通常被认为具有更好的通信条件。因此,一个直观的想法是聚合服务器参考用户在自适应聚合阶段所采用的压缩率CRn评估用户通信状态,选取压缩率

26、较高的用户分发解密任务,本文在算法1中以用户压缩率降序排列得到解密任务分发顺序。另外,在有激励机制的特定场景中,服务器可以通过用户提供的其他属性制定任务分发规则,调整解密任务分发用户的顺序和任务量。例如,在区块链等计算付费的场景下,服务器可以根据用户的主动请求或计算资源的分布,优先为申请解密或算力更佳的用户安排解密任务,使计算资源得到更充分、更合理的利用。另外,针对用户因设备通信状态不稳定而中途退出的情况,本文也可以通过解密任务再分配提高联邦学习的稳健性。由于用户设备通信状态具有异构性,因此系统中仅有部分用户采用最小压缩率压缩梯度,可得上传梯度总数1NnnK和最小压缩率minCR的关系为 mi

27、n1CRNnnMNK(6)那么关于门限和最小采样个数的不等式可推导为关于解密任务总数TM和上传梯度总数1NnnK的关系,证明现有解密能力存在冗余,即 1NnnTMK(7)假设存在用户在解密阶段退出或掉线,超时未返回部分解密的聚合梯度,聚合服务器则把退出用户的解密任务再分配。为避免解密任务分发不完全,要求 dropleftKK(8)其中,dropK代表所有在解密阶段退出的用户上传的梯度总数,leftK代表第一次解密任务分发后未收到解密任务的用户上传的梯度总数。任务分发完成后,用户使用私有的秘密分享值skn按式(9)对聚合加密梯度()aE g进行解密,得到部分解密的聚合梯度()aD E g,并按原

28、顺序发送给聚合服务器。2!sk()()nNa daE gE g(9)聚合服务器接收到全部用户部分解密的聚合梯度()aD E g后,使用算法2解密梯度。首先,聚合服务器收回所有用户返回的部分解密的聚合梯度,将其按分发顺序填入大小为()aT E g的张量dg,随后,服务器取dg 中的每一列mdg,即同一个加密的聚合梯度的T 次部分解密值,结合计算得到此列加密的聚合梯度对应的明文。0,221()modiMmmndmggn (10)其中,0,!iiiNii,则有 224(!)04(!)()()NfmmmNdnnnggg(11)224(!)0mod4(!)modnNdNn(12)可得22!(1)mnNg

29、mngn,由此推算明文mng。随后,更新模型参数i并开始下一轮训练,直至模型收敛或达到最大训练轮数。算法 2 梯度结合算法 给定聚合加密梯度()aE g、部分解密的聚合梯度()aD E g、门限T、公钥pk,g u、分发字典R,初始化0m 1)聚合服务器将()aD E g按R中用户顺序转换为()aT E g的张量 gd;2)for m=1:1:()aE g:3)取gd的第m列mdg,按式(10)计算到得明文mag;4)return ga;3 理论及实验结果分析 3.1 通信开销 设用户持有模型参数量为M,单个梯度元素加密后存储开销会膨胀至c。本文方案中,用户n单轮梯度通信开销由加密采样梯度上传

30、开销和部分解密的聚合梯度上传开销两部分组成,分别为 第 7 期 马卓等:基于门限同态加密的自适应联邦学习安全聚合方案 81 ()COMMCRngnENc(13)()COMMaD E gcT(14)则可得I轮训练通信开销为 COMMCOMMCOMM(CR)naE gD E gnII NccT(15)3.2 计算开销 设用户n采样率为CRn,单个用户持有模型参数量为M,明文空间大小为N,解密门限为T,则此时单个用户需要执行的加密的计算复杂度为()CRnOM。在自适应解密阶段,计算成本主要产生在用户解密聚合梯度和服务器结合部分解密梯度的过程中。单个用户n使用私钥解密聚合梯度的计算复杂度为()CRnO

31、M,服务器结合部分解密的聚合梯度的计算复杂度为 O(TM)。对比(T,N)门限Paillier同态加密算法的计算复杂度,两次排序的计算开销相对较小,可以忽略不计,则本文方案计算开销主要产生在用户加密和部分解密,以及聚合服务器结合部分解密的聚合梯度。3.3 安全性分析 本文应用的(,)T N门限Paillier同态加密算法与Paillier同态加密算法具有相同的安全性20,且Paillier同态加密算法的安全性在文献21中给出了具体的证明,本文不再做详细证明。命题 1 对于半诚实的概率多项式时间敌手,动态解密任务分发是安全的,即用户n不会获知系统内其他用户的梯度明文。证明 本文使用Hybrid

32、Argument22模型来证明命题1,给定N个用户和聚合服务器S,采用real表示方案中用户n的真实视图。另外,证明存在一个概率多项式时间敌手,攻击聚合用户后可以接收另一诚实方的全部消息,并发送其计算所得,但不能修改方案执行的步骤。现求证,对于用户和服务器S来说,敌手的输出sim与real在计算上是不可分的。混合 1 初始化一个与真实视图real同分布的变量。混合 2 改变用户部分解密行为,模拟用户使用私钥部分解密随机数n而非加密聚合梯度,得到部分解密的聚合结果()D E,随后将其发回服务器。(,)T N门限的Paillier同态加密算法的安全性可以确保混合1和混合2是不可区分的。综上所述,利

33、用(T,N)门限的Paillier同态加密算法的安全性可以得到概率多项式时间敌手的输出sim在计算上与real不可区分。该不可区分性保证了用户n在方案交互中无法从sim中获得任何有关real的信息。证毕。命题 2 对于半诚实的概率多项式时间敌手,自适应安全聚合方案是安全的,即聚合服务器S不会获知用户采样后的梯度明文。证明 本文使用Hybrid Argument22模型来证明命题2,给定N个用户和聚合服务器S,采用real表示方案中聚合服务器S的真实视图。另外,证明存在一个概率多项式时间敌手,攻陷聚合服务器后可以接收另一诚实方的全部消息,并发送其计算所得,但不能修改方案执行的步骤。现求证,对于用

34、户和聚合服务器S来说,敌手的输出sim与real在计算上是不可分的。混合 1 初始化一个与真实视图real同分布的变量。混合 2 在训练过程中,改变用户的行为,使每个用户使用(,)T N门限的Paillier同态加密算法加密随机数n而非自适应采样后的模型参数ng。(,)T N门限的Paillier同态加密算法的安全性可以确保混合1和混合2是不可区分的。混合 3 模拟聚合服务器S计算 11()()NantnEEN(16)代替原方案中的聚合计算 11()()NantnE gE gN(17)(,)T N门限的Paillier同态加密算法的安全性可以确保混合2和混合3是不可区分的。混合 4 模拟聚合服

35、务器 S 使用混合3中的聚合结果()nE代替()aE g动态分发解密任务,再回收部分解密的聚合结果()D E,随后,模拟聚合服务器结合解密得到a;由于动态解密任务分发的安全性和(,)T N门限的Paillier同态加密算法的安全性,可以确保混合4和混合3是不可区分的。综上所述,利用(,)T N门限的Paillier同态加密算法的安全性和动态解密任务分发的安全性,可以得到概率多项式时间敌手的输出sim在计算上与real不可区分。该不可区分性保证了聚合服务器 S 在方案交互中无法从sim中获得任何有关real的信息。证毕。3.4 实验设置 为了证明在用户通信异构的场景中应用自适应安82 通 信 学

36、 报 第 44 卷 全聚合方案能够大幅降低联邦学习通信数据总量和单次通信量而模型性能损失较小,实验设置了同态加密与联邦学习结合的安全聚合方案HybridAlpha19作为基准CR1。其余方案为从压缩率0.1,0.05,0.005,0.001中选取的CR2CR6五组压缩率分配方案。其中,CR2、CR6模拟非自适应采样方案,其余组模拟本文方案。100个用户随机选取各自的压缩率模拟当前可用通信带宽资源,代表不同的通信受限程度。此外,增设CR7作为CR5的对照组,两组平均压缩率相等,表明相同通信量情况下自适应方案比非自适应方案有效。表2为各组压缩率分配方案,其余实验设置如下。表 2 各组压缩率分配方案

37、 组别 压缩率分配方案(个数:压缩率)平均压缩率CR1 100:1 1 CR2 100:0.1 0.1 CR3 50:0.1,50:0.05 0.075 CR4 33:0.1,33:0.05,34:0.005 0.051 2 CR5 25:0.1,25:0.05,25:0.005,25:0.001 0.039 CR6 100:0.001 0.001 CR7 100:0.039 0.039 1)数据集。实验使用了被联邦学习领域广泛使用的MNIST和CIFAR10数据集。其中,MNIST数据集包含60 000个训练样本和10 000个测试样本,样本均为2828的灰度手写数字图像,标签为09;CIF

38、AR10数据集包含50 000个训练样本10 000 个测试样本的普适物体数据集,样本均为3232的彩色图像,标签为09。2)网络结构。实验中2种数据集分别使用LeNet和ResNet9这2个不同的卷积神经网络进行训练。使用LeNet训练MNIST数据集,模型参数总量为45 698个,使用32位浮点数存储和传输,约为180 KB。使用ResNet9训练CIFAR10数据集,模型参数约为6 568 640个,约为25 MB。3)其他设置。实验模拟联邦学习场景,设置100个用户参与训练,一台聚合服务器。数据集均分给所有用户,本地训练批次大小为50,学习率为0.001。LeNet网络使用的优化器为随

39、机梯度下降(SGD),ResNet9网络的优化器为自适应矩估计(Adam)。本节实验在CPU为英特尔Xeon(R)Silver 4116 2.6 GHz,内存为128 GB,显卡为英伟达 Quadro P5000 16G的PC平台上以单线程测试。3.5 自适应方案分析 本节从预测准确率、损失函数值和通信量3个方面对实验进行分析。图2展示了使用MNIST+LeNet训练的模型预测准确率和损失函数值。由图2可知,在经过1 500轮训练后,CR1CR5模型预测准确率均为80%86%,其中,CR1最高预测准确率为85.92%,CR5最高预测准确率为80.51%。CR1CR5损失函数值均降至0.008以

40、下;CR6未达到收敛,对比同组其他实验组模型性能差距在20%左右。图 2 使用 MNIST+LeNet 训练的模型预测准确率和损失函数值 对比CR1和CR2发现,当总通信量仅为非采样方案的10%时,应用梯度压缩方案的联邦学习模型仍能保持较高性能,预测准确率仅下降1%。再对比CR1与CR2CR5,当非自适应采样组在模型预测准确率仅下降6%时,通信量为非采样方案CR1的4%,证明了自适应采样方案的可行性和高效性。模型预测准确率有所下降是因为应用自适应采样压缩梯度,舍弃的部分梯度对模型性能仍有一定的正向影响。从CR2CR5与CR6的实验结果可以看出,自适应采样与非自适应采样相比,通信能力较强的用户额

41、外采样的梯度对模型产生了贡献,提升了模型收敛的速度,证明在通信资源异构的复杂网络中应用自适应采样可以提升模型训练的效率。图3中展示了使用CIFAR10+ResNet9训练的模第 7 期 马卓等:基于门限同态加密的自适应联邦学习安全聚合方案 83 型预测准确率和损失函数值。然而,不同于MNIST数据集上的实验结果,经过1 000轮训练后,CR1CR5模型预测准确率没有显著差异。然而,不同于MNIST数据集上的实验结果,CR1CR5模型预测准确率没有显著差异,且CR6在CIFAR10数据集上训练300轮时达到收敛,与同组其他实验组最终模型性能差距在25%左右。同时,CR1CR5的结果表明,应用自适

42、应采样方案对模型预测准确率没有显著影响,证明了自适应采样方案的可行性。然而,对比MNIST数据集上CR1CR5,使用ResNet9训练CIFAR10数据集,应用自适应采样压缩梯度模型性能没有下降的原因为ResNet9模型比LeNet模型复杂度要高,在0.0010.1的梯度数据对模型性能的影响更小,甚至可能存在部分冗余。图 3 使用 CIFAR10+ResNet9 训练的模型预测准确率和损失函数值 另外,从图3中CR2CR5与CR6的对比中可以看出,自适应采样与非自适应采样相比,使用自适应采样的实验组模型预测准确率更高,这是因为高采样率用户额外选取的梯度在训练中提升了模型的性能,证明在通信资源异

43、构的复杂网络中应用自适应采样方案可以提升模型训练的精度。此外,实验设置将CR5与CR7作为对比,实验结果如图4所示。在CR5、CR7平均压缩率相同,即全局通信量相同的条件下,使用自适应采样方案(CR5)在模型预测准确率上相比非自适应采样方案(CR7)提升了约10%。这表明在设备通信异构的系统总通信量相等的条件下,使用自适应采样方案能够提升模型的精度。图 4 CIFAR10+ResNet9 预测准确率和损失函数值 图5给出了CIFAR10+ResNet9模型预测准确率随通信量的变化。对比CR1CR7可得,在训练所得模型预测准确率相等的条件下,使用自适应采样的方案训练效率更高,所需通信量更少。当通

44、信量为1105 GB时,本文方案(CR5)的预测准确率比非自适应采样方案(CR7)高20%,比传统无梯度压缩方案(CR1)高50%以上。图 5 CIFAR10+ResNet9 模型预测准确率随通信量的变化 84 通 信 学 报 第 44 卷 3.6 方案性能对比 本节以CIFAR10+ResNet9为基准,从通信复杂度、计算复杂度和存储开销3个方面对本文方案与现有优化通信的同态加密安全聚合方案POSEIDON方案18、HybridAlpha方案19进行对比,如表3所示。表 3 本文方案与现有方案的对比 方案 通信复杂度 计算复杂度 存储开销 本文方案 CRnI NccT CRnOM CRnMN

45、c+MPOSEIDON 2(1)(1)I NcNc(log)O MMM MNc HybirdAlpha 2NcI()O M MNc 1)通信复杂度。设I为训练总轮数,模型参数量为M,模型梯度加密后会膨胀至c,本文方案中平均压缩率为CRn。由于在动态解密任务分发中,要求CRnNT,可得本文方案最大通信复杂度为2CRnINMc,与POSEIDON方案18、HybridAlpha方案19通信总量之比为CR:(1):2nNNN。2)计算复杂度。POSEIDON方案18的计算复杂度为(log)O MMM。在不考虑用户掉线的情况下,HybridAlpha方案19的计算复杂度()O M。本文方案复杂度为()

46、CRnOM。如表3所示,本文方案与POSEIDON方案18、HybridAlpha方案19的计算时间复杂度均为线性,但本文方案直接降低了加密梯度总数且未进行量化等额外计算,极大地降低了用户端的计算开销。3)存 储 开 销。与POSEIDON方 案18、HybridAlpha方案19相比,本文方案在动态解密任务分发算法中聚合服务器需要记录用户的压缩率,按指定分发规则对用户排序并分配解密任务。设聚合服务器最终选取了cN个用户承担解密任务,CRl为聚合服务器用于存储压缩率的数据类型的大小,则本文方案总存储开销由各用户上传的模型参数、解密的聚合梯度和解秘任务分发信息三部分组成,即CRnSMNc CRc

47、NMTlc,POSEIDON18、HybridAlpha19记录全部用户上传的所有加密梯度信息,存储开销为MNc。以实验中最差情况为例,本文方案中所有用户端均承担解密任务,即聚合服务器需要维护cNN个压缩率,以实验设置CR32 bitl、CR0.039n、3T计算,POSEIDON18、HybridAlpha19这2种方案的存储开销为100Mc,本文方案的存储开销为CR6.9cMcN l。与加密梯度在服务器中占用的内存相比,解秘任务分发信息仅占用CR400 BcN l的存储空间,未增加显著存储开销。图6是本文方案与现有安全聚合方案在CIFAR10+ResNet9模型上预测准确率随通信量变化的对

48、比结果。从图6中可以看出,本文方案具有最好的收敛速度。当通信量为25104 GB时,本文方案预测准确率相比HybridAlpha方案19高约40%,比POSEIDON方案18高约10%。然而,在最终模型预测准确率上,本文方案约有1%左右的损失,其原因在于:自适应采样压缩了对模型影响较小的部分梯度值,损失了这些数值对于模型训练的贡献。总体来看,本文方案通信效率提升较大,模型收敛时的系统总通信量缩小为POSEIDON方案18的33%,HybridAlpha方案19的4%。图 6 本文方案与现有安全聚合方案在 CIFAR10+ResNet9 模型上 预测准确率随通信量变化的对比结果 4 结束语 针对

49、现有联邦学习应用在通信资源不足且异构的复杂网络环境下的通信瓶颈问题,本文提出了一种基于门限同态加密的自适应联邦学习安全聚合方案。进一步地,设计了基于门限同态加密的动态解密任务分发算法和密文梯度结合算法,通过动态分发解密任务,在保证隐私的同时缓解了解密阶段用户的上行通信负载,使通信资源低的用户保持对全局模型的贡献。理论分析和实验仿真表明,本文方案可以在保证联邦学习模型性能的同时降低安全聚合系统的总通信量,提高全局模型的收敛速度。未来的工作可以继续研究联邦学习架构下的安全聚合方案,进一步降低用户的时间成本和通信开销。第 7 期 马卓等:基于门限同态加密的自适应联邦学习安全聚合方案 85 参考文献:

50、1 MANIAS D M,SHAMI A.Making a case for federated learning in the Internet of vehicles and intelligent transportation systemsJ.IEEE Network,2021,35(3):88-94.2 莫梓嘉,高志鹏,杨杨,等.面向车联网数据隐私保护的高效分布式模型共享策略J.通信学报,2022,43(4):83-94.MO Z J,GAO Z P,YANG Y,et al.Efficient distributed model sharing strategy for data

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服