基于同态加密的隐私保护与可验证联邦学习方案.pdf

资源描述

1、NETINFOSECURITY2024年第1期隐私保护doi:10.3969/j.issn.1671-1122.2024.01.009基于同态加密的隐私保护与可验证联邦学习方案赖成喆，赵益宁，郑东（西安邮电大学网络空间安全学院，西安7 10 12 1）摘要：Cross-silo联邦学习使客户端可以在不共享原始数据的情况下通过聚合本地模型更新来协作训练一个机器学习模型。然而研究表明，训练过程中传输的中间参数也会泄露原始数据隐私，且好奇的中央服务器可能为了自身利益伪造或篡改聚合结果。针对上述问题，文章提出一种抗合谋的隐私保护与可验证cross一silo联邦学习方案。具体地，对每个客户端中间参数进行

2、加密以保护数据隐私，同时为增强系统安全性，结合秘密共享方案实现密钥管理和协同解密。此外，通过聚合签名进一步实现数据完整性和认证，并利用多项式承诺实现中央服务器聚合梯度的可验证性。安全性分析表明，该方案不仅能保护中间参数的隐私及验证数据完整性，而且能够确保聚合梯度的正确性。同时，性能分析表明，相比于现有同类方案，文章所提方案的通信开销显著降低。关键词：联邦学习；隐私保护；同态加密；多项式承诺；聚合签名中图分类号：TP309文献标志码：A文章编号：16 7 1-112 2（2 0 2 4）0 1-0 0 93-13中文引用格式：赖成喆，赵益宁,郑东.基于同态加密的隐私保护与可验证联邦学习方案J.信

3、息网络安全，2024,24(1):93-105.英文引用格式:LAI Chengzhe,ZHAO Yining,ZHENG Dong.A Privacy Preserving and Verifiable FederatedLearning Scheme Based on Homomorphic EncryptionJJ.Netinfo Security,2024,24(1):93-105.A Privacy Preserving and Verifiable Federated Learning SchemeBased on Homomorphic EncryptionLAI Chengzh

4、e,ZHAO Yining,ZHENG Dong(School of Cyberspace Security,Xian University of Posts and Telecommunications,Xian 710121,China)Abstract:Cross-silo federated learning enables clients to collaboratively train a machinelearning model by aggregating local model updates without sharing raw data.However,studies

5、 have shown that intermediate parameters transmitted during training can also leak theprivacy of raw data.A curious central server may falsify or tamper with aggregation results收稿日期：2 0 2 3-0 7-16基金项目：国家自然科学基金6 2 0 7 2 37 1；陕西省重点研发计划2 0 2 1ZDLGY06-02作者简介：赖成喆（198 5一），男，陕西，教授，博士，CCF会员，主要研究方向为无线网络安全、应用

6、密码学；赵益宁（1998 一），女，陕西，硕士研究生，主要研究方向为隐私计算、信息安全；郑东（196 4一），男，山西，教授，博士，主要研究方向为编码密码学和网络安全。通信作者：赖成喆lcz_93NETINFOSECURITY专题论文2024年第1期for its own benefit.To address these issues,an anti-collusion privacy preserving and verifiablecross-silo federated learning scheme was proposed.Specifically,the intermediate

7、parametersof each client were encrypted to protect data privacy,and key management and collaborativedecryption were achieved by combining secret sharing schemes to enhance system security.Furthermore,data integrity and authentication were achieved through aggregate signatures,and the verifiability o

8、f central server aggregation gradients was ensured using polynomialcommitments.Security analysis shows that the proposed scheme not only protects the privacyof intermediate parameters and verifies data integrity,but also ensures the correctness ofaggregation gradients.Performance analysis shows that

9、 compared to the existing schemes,theproposed scheme can significantly reduce the communication overhead.Key words:federated learning;privacy preserving;homomorphic encryption;polynomialcommitment;aggregate signature0引言近年来，深度学习强大的数据分析处理能力促进了语音识别、疾病诊断、图像识别与分类等领域的发展!。传统的机器学习训练需要收集来自不同数据源的大量数据以获得高精度的模型

10、。然而，随着以通用数据保护条例2 为代表的国内外隐私保护法律法规的颁布和实施，传统的集中训练范式受到了极大挑战和质疑，尤其是在金融、医疗、自动驾驶等行业中，服务提供商可能直接或间接收集年龄、个人收支情况、身体健康记录等用户的隐私信息。如果这些敏感信息在集中收集后被非法使用，会造成严重的隐私泄露问题。由于对隐私泄露问题的担忧以及不同企业、组织等数据源之间数据壁垒的存在，数据无法安全共享，导致数据“孤岛”现象出现，同时，各种部门或公司在其各自的数据集上进行模型训练的方式容易导致模型过拟合问题出现3。为解决隐私泄露对机器学习技术发展造成的挑战，谷歌公司提出联邦学习（FederatedLearning

11、，FL）4，实现了多个分散数据集的分布式训练。根据训练场景，联邦学习可以分为cross-device联邦学习和cross-silo联邦学习5，在cross-device 联邦学习中，客户端通常是具有有限计算能力和不可靠通信的大量移动或物联网设备。相对地，在cross-silo联邦学习中，客户端通常是具有强大的计算能力和可靠通信的少数组织（如银行、医院等机构）。联邦学习的训练过程由一个中央服务器和多个分布式的客户端组成，客户端从中央服务器下载最新的全局模型，在本地数据集上进行模型训练后得到本地更新（梯度或模型更新)并将其上传到中央服务器，中央服务器对收到的所有本地更新进行聚合得到全局更新，之后客

12、户端从中央服务器下载全局更新，进人下一轮训练，经过多轮训练迭代后得到一个趋近于传统集中式机器学习的模型6。联邦学习通过将训练数据集保留在本地，而仅共享训练中间参数的模型训练方式有效保护了数据的隐私并且解决了数据“孤岛”问题，越来越受到工业界和学术界的研究和关注。然而，由于参与训练的客户端在地理位置上是分散的，并且自身的设备、计算能力等条件不同，客户端也不是完全可靠的。不可靠客户端可以利用获取的中间参数推断其他客户端的数据或标签，或者上传有害的数据影响模型训练。例如，HITAJI8I等人基于GAN发起主动重建攻击，通过上传篡改的本地更新以引诱其他诚实客户端暴露信息，以便于从获取的中间参数中窃取更

13、多客户端的数据隐私。FU9等人基于训练过程中传输的中间参数可能包含标签信息，提出了针对纵向联邦学习的3种标签推断攻击算法，从而获取客户端的隐私数据。这些攻击方式对攻击者能力要求较低并且易实施，因此增强数据的隐私保护是联邦学习的一个重要的安全挑战。除了隐私问题，联邦学习的另一个重要的安全挑战是实现全局更新的有效验证10。联邦学习训练过程中易受中央服务器单点故障的影响。一方面，中央服务器为了节省计算资源在聚合时可能执行错误的计算或者篡改全局更新以影响模型训练；另一方面，好奇94NETINFOSECURITY2024年第1期隐私保护中央服务器可能返回精心设计的全局更新以诱导客户端泄露更敏感的数据。此

14、外，联邦学习在实际应用时依然面临许多现实挑战。首先，隐私保护技术的结合给系统带来额外的计算开销，其次，为确保中间参数传输的完整性，利用安全信道的方式导致系统通信开销的增加。因此，实现中间参数在公开信道传输的完整性以及设计一种轻量、安全的方案对系统运行至关重要。针对联邦学习中存在的问题，本文提出了一种抗合谋的、支持隐私保护与数据完整性验证的cross-silo联邦学习方案。主要贡献有：1）提出了一种隐私保护方法，通过结合Shamir秘密共享和ELGamal加密不仅保护了客户端的数据隐私，还实现了抗合谋攻击。2）基于BLS聚合签名设计了一种机制，以验证聚合阶段中央服务器收集的数据的完整性。3）基于

15、多项式承诺的隐藏性和绑定性，设计了一种能够检测中央服务器计算正确性的验证机制。1相关工作1.1隐私保护联邦学习近年来，为了进一步增强联邦学习训练中数据的隐私保护，研究者基于差分隐私、安全多方计算以及同态加密提出了大量方案。其中，WANG12等人基于拉普拉斯机制变体提出了一种本地化差分隐私联邦学习方案。ZHOU13等人提出了一种基于高斯差分隐私的联邦学习方案，通过向中间参数注入高斯噪声来保护原始数据隐私。然而，基于差分隐私的方法通常会注人噪音来实现隐私保护，噪音的添加会降低全局模型的准确性。BONAWITZ14 等人提出了Secure Aggregation模型,通过Diffie-Hellman

16、密钥交换和伪随机函数提出了双掩码协议，实现了对恶意服务器的信息隐藏，同时使用秘密共享来处理聚合过程中用户掉线、退出等问题，提高了系统的健壮性。但系统运行中需要客户端之间进行多轮交互，导致系统的通信开销较大。MOHASSELI15等人提出了一种两方模型训练的安全SGD算法，解决了两方计算下的机器学习模型训练问题。LI16等人结合多密钥全同态加密与双重解码机制实现了多密钥隐私保护深度学习。然而，全同态加密的引人导致了巨大的计算和通信开销，方案的效用显著降低。PHONG17等人和MA18等人分别采用加法和乘法同态加密机制来保护数据隐私，客户端使用公钥加密上传的本地更新，中央服务器利用同态特性计算全局

17、更新密文，接下来客户端利用私钥解密获得全局更新。然而，这两种方案中所有客户端都掌握着相同的密钥对，无法抵抗中央服务器与客户端合谋。1.2可验证联邦学习为保证客户端能够验证从中央服务器返回的全局更新，研究者提出了许多可验证的联邦学习方案。其中，XUI19等人提出了具有隐私保护和模型可验证的cross-device联邦学习框架VerifyNet，利用双掩码协议保护客户端本地梯度的隐私，同时使用同态哈希函数和伪随机函数实现对中央服务器计算的聚合梯度完整性验证。同样，HAN20等人也利用同态哈希函数来验证中央服务器聚合模型的正确性，并使用无证书签名移除可信中心。然而，同态哈希函数的引人给系统带来了额外

18、的通信开销和计算开销。为实现轻量级的验证，GUO21等人提出了VeriFL，使用承诺和同态哈希函数实现可验证聚合，具体地，系统要求每个客户端只提交梯度向量的哈希值而不是梯度本身来减少通信开销，但承诺的引入带来了额外的计算开销。FU22等人提出了VFL，通过拉格朗日插值多项式实现验证。然而，VFL要求中央服务器与客户端之间不能合谋且所有插值点的横坐标必须保持一致。JIANG23等人提出了PFLM，通过EIGamal加密和基于身份的聚合签名实现了对聚合模型的验证。然而，由于密文扩张问题，系统验证的通信开销与梯度向量的维度线性相关。ZHANG24等人利用双线性聚合签名来验证聚合模型的正确性，并使用中

19、国剩余定理来减少通信开销。MADI25等人利用可验证计算实现正确性验证，其中95NETINFOSECURITY专题论文2024年第1期(2)系统使用线性同态认证加密方案来确保数据隐私，并检查中央服务器返回的聚合模型参数正确性。然而，这两种方案都使用Paillier加密上传的中间参数以确保隐私，并且所有客户端共享相同的密钥对。因此系统要求所有客户端都是诚实的，并且客户端与中央服务器之间没有合谋，对系统的实际应用和推广造成了挑战。最近，YANG26等人提出了可验证加权平均聚合联邦学习，利用带密钥的同态哈希函数设计了一个可验证聚合标签，服务器聚合上传的标签生成聚合证明，最后，客户端通过检查聚合证明来

20、验证聚合参数的完整性。然而,由于客户端都掌握着同态哈希函数的密钥，导致参与训练的客户端需要满足较高的安全性要求。2预备知识1）C r o s s-s i lo 联邦学习CrosS-silo联邦学习是一种深度学习与分布式计算结合的机器学习技术。其一般定义为2 7：假设N个客户端（参与方）Ci,C2,CN)各自持有数据集(Di,D2,DN)。传统的集中式机器学习是将客户端各自的数据集收集后组成数据集D=DIUD,UUDN，接下来，基于D训练模型MsuUM。在联邦学习中，各个客户端在不暴露本地数据集D,的情况下，协作训练模型MpED。设VsUM和VFED分别表示传统机器学习模型MsUM和联邦学习模型

21、MFED的精度。存在非负实数S，使得公式（1）成立。IVFED-VsUM no（2）秘密分发：设共享的秘密为seF，D 构造多项式/(x)=s+aix+a2x2+a-ix-lmodq,其中a;,(2,a-1eFgo接下来D选择一个随机数xiEF,后计算f(x)，并将s=(xi,(x)作为第i(i-1,2,n)个用户的秘密份额发送给Ujo（3）秘密重构：任意t个参与者公布其秘密份额S,然后根据拉格朗日插值多项式恢复秘密s,如公式(2）所示。s=f(0)=(x),xmoddi=1j-l,j+i X;-Xi3）基于椭圆曲线的ELGamal加密椭圆曲线密码2 930 1是一种密钥长度较短但安全性高的公

22、钥密码体制。设p为一个大于3的素数，有限域F,上的椭圆曲线为y2=r3+ax+b(modp)，其中a,beF,且-4a+27b2-0modp。椭圆曲线上的点以及一个无穷远点对于点加法构成加法群，其标量乘法为kP，其中k为次数。基于椭圆曲线的ELGamal加密31是一种公钥加密算法，主要包括密钥生成、加法和解密3个算法。（1）密钥生成：输人安全参数入，生成有限域Fp上的椭圆曲线为E(FP)，其中p为一个大素数。G为E(FP)上q阶加法循环群的生成元，选择一个随机数xEZ.作为私钥SK，计算相应的公钥PK=xG。（2）加密：给定消息M，随机选择rEZ，计算E(M)-(C,C2)-(rG,MG+rP

23、K)。（3）解密:对于E(M)，计算MG=C2-xCi。（4）加法同态：给定消息M和M以及密文E(M)(1)和E(M)，则消息M+M的密文为E(M+M2)=E(M)+E(M2)4）双线性映射双线性映射3 是指映射e:GjxG2-GT。G 1、G 2 和Gr是3个阶为素数p的乘法循环群，Gi和G2的生成元分别为g1、8 2。双线性映射具有以下性质。（1）双线性：对于任意的PeGi、Q e G z 以及a,beZp,有 e(P,0)=e(P,)gb。(2)非退化性:e(g1,g2)1。（3）可计算性：对于任意的PeG,和QeG2，都存在有效的算法可以计算e(P,0)。(3)96NETINFOSEC

24、URITY2024年第1期隐私保护(5)kalEZp。接下来，使用公钥pk计算多项式d(x)=0,x5）BLS聚合签名BLS聚合签名是BONEH32等人利用双线性配对实现验证和聚合的一种数字签名技术，由密钥生成、签名、验证、聚合签名、聚合验证等算法组成。（1）密钥生成：给定3个阶为素数p的乘法循环群Gi、G 2 和G，g i 和g2分别为群Gi、G 2 的生成元。生成双线性映射e:GxG2Gr和曲线哈希函数H:(0,1)*G2。接下来，用户u,随机选择一个数x;Zp，计算vi=gn。则签名公钥为V，签名私钥为Xi。（2）签名：输人私钥x,和消息m;(0,1)*，计算mi的签名o,=H(m,)并

25、输出。（3）验证：输入公钥v;和消息签名对(mi,)，计算h=H(m)。如果e(gi,o)=e(v;h)成立,则接受;否则拒绝。（4）聚合签名：假设系统中n个用户U,U2,Un对应的消息签名对为(mio)，则聚合签名为=oi。（5）聚合验证：输人用户U(i=1,2,n)的公钥vi，消息m;和聚合签名。计算 h=H(m)，然后验证e(gi,o)=le(vi,h)是否成立，如果成立，则接受聚合签名；否则拒绝。如公式（4）所示。deg(o)deg(d)i-0的承诺值COMM=l（g i），其中deg(d)t表示多j-0项式最高项的次数。(3）承诺打开：输入公钥pk和多项式d(g)，计算COMM=(g

26、i)。如果COMM(x)=COMM(x)deg(o)j-0成立，则输出1，否则输出0。(4)加法同态:给定多项式d(x)=2 jx/和 y(x)=deg(y)2 V,x,相应的承诺值分别为COMMd)和COMMv),j-0则多项式d(x)+y(x)的承诺值为COMM(d(x)+V(x)=COMM(d(x)xCOMM(y(x)3系统模型3.1系统架构系统主要由3个实体组成，分别是客户端、可信1中心和中央服务器，具体架构如图1所示。更新模型生成系统参数生成系统参数、可信中心客户端本地模型训练下载全局更新，deg(o)中央服务器e(gi,o)=e(gi,IT h)=Ile(gi,h.)1-1=Ile

27、(gi,h.)=Ile(v,h)6）K ZG 多项式承诺KATE33等人提出了一种验证效率高且承诺值的数据量较小的多项式承诺，可以实现对消息的隐藏和绑定，主要用于构建可验证秘密共享、零知识证明、矢量承诺等。利用KZG多项式承诺实现矢量承诺的构造如下。（1）密钥生成：输入安全参数入，生成两个阶为素数p的乘法循环群Gi和GT，群Gi的生成元g1，双线性映射e:GixGiGT。并选择一个随机数sE Z,作为私钥sk,计算公钥pk=(gi1,gi,gi,gi)eG后输出。（2）承诺：输入向量A-(i,a2，;a+1)，计算A所对应的多项-a-aH，共中oa.kj-l.jik,-k,上传局部更新密文下载

28、全局更新i=1(4)-1?更新模型上传局部更新密文聚合局部更新下载全局更新上传局部更新密文图1系统架构1）可信中心：通常由完全可信的第三方机构充当。主要负责对系统进行初始化，包括生成系统参数、加密密钥对、签名密钥对等，只参与系统初始化阶段，而不会参与系统的其他阶段。2）中央服务器：中央服务器具有强大的计算能力和数据处理能力。在收到客户端上传的本地梯度密文后，首先对数据进行完整性验证，接下来在不泄露客户端隐私的情况下执行聚合并且在客户端的协作下解客户端2 本地模型训练：?更新模型客户端N本地模型训练97NETINFOSECURITY专题论文2024年第1期密获得全局梯度，然后将其返回给客户端。3

29、）客户端：指申请加人模型训练任务的机构或组织，其具有强大的计算能力和通信资源，需要构建精确的机器学习模型，但使用本地数据集无法单独完成整个模型训练任务。每轮训练中客户端在本地数据集上训练后将得到梯度更新加密并上传，在更新阶段收到聚合梯度后进行验证，验证通过后使用自己的数据集进行模型训练，重复此操作直到模型训练完成。3.2敌手模型与安全需求假设系统中的中央服务器、客户端是诚实且好奇的，即中央服务器和客户端都会诚实地执行协议，但是对收到数据的隐私信息感到好奇，此外，客户端与中央服务器之间可能会合谋以获取更多的隐私信息。可信中心是一个完全可信的实体，在本文系统模型中引入了一个具有以下能力的敌手Adv

30、。1）A d v 攻击诚实的客户端，窃取其他客户端的数据隐私。2）A d v 从公共信道中窃听系统通信消息。3)Adv收买中央服务器，在聚合阶段不按协议运行，返回不正确的模型聚合结果。并且腐化的中央服务器可以与一部分客户端合谋，以获取更多其他客户端的数据隐私。针对系统中存在的敌手，本文方案需要满足以下安全需求。1）隐私：即使敌手具有以上能力，仍不能获取客户端的数据隐私。2）完整性和认证：敌手可能会改或伪造数据，本文方案中，中央服务器能够对收到的数据进行完整性校验和认证。3）可验证性：客户端可以验证中央服务器返回的聚合梯度的正确性。4具体方案并且模型的每一维数值小于常数T。训练过程可以划分为系统

31、初始化阶段（步骤）本地训练阶段（步骤和步骤）聚合阶段（步骤和步骤）更新阶段（步骤）4个阶段。系统中主要使用的符号及说明如表1所示。表1符号说明符号含义CS中央服务器TA可信中心C第1个客户端e:GixGi-GT双线性映射(PKEnc,SKEn)C,用于加密的公私钥对SKESC,获得的加密私钥份额PKFC,用于验证解密份额的公钥PKC,用于验证签名的公钥(pk,sk)C,用于计算承诺的公私钥对H:(0,1)*G1哈希函数N客户端数量4.1系统初始化阶段TA生成公开的系统参数以及密钥对：1）生成初始模型参数Wo和学习率n。2）生成双线性映射e:GixGiGr以及一个曲线哈希函数H:(0,1)*Gi

32、，其中G 和Gr的阶为q，G i 的生成元为g1。3）生成有限域F上的椭圆曲线E，E上的点构成阶为素数q、生成元为G的循环群。4）选择一个随机值xeZ,作为私钥SKEnc，计算对应的公钥PKEnc=xG。为了抵抗合谋攻击，利用Shamir秘密共享技术将私钥SKEnc进行分割。即构造一个t-1次多项式F(2)=fo+fiz+fz2+f-1zt-1mod q,其中f-x,f,f-1eZg，接下来计算第i(i=1,2,M)个客户端C,的私钥份额SKFS=x,=F(ID)，并根据SKFS计算客户端C,的签名公钥PKsig=g和验证公钥PKmc=x,G。5）选择一个随机值seZ作为承诺私钥sk，计算公钥

33、pk=(gi,gi,gi,gi)e Gl。6）生成一个超递增序列a-a=1,2，a)，其中a2a是大素数，并且满足ak-N.Ta,j=2,|和aN-Tq。N假设系统中每个客户端C,的身份标识符为IDi，最后,TA公开参数(G,G,Gr.gi,e,H,PK r,a,pk,PK%,本地数据集为DBi。中央服务器与客户端Ci,C2,Cn经过多轮迭代共同协作训练一个1维机器学习模型，PKc），并通过安全信道向第i个客户端C发送(W98NETINFOSECURITY2024年第1期隐私保护(11)4.2本地训练阶段1）在第j轮中，C,使用当前全局模型参数在DB;上进行训练后得到本地梯度向量W/=(wi,

34、wi2,wi)。接下来选择一个随机数rZ，使用PKEnc加密WI，如公式（6）所示。E(W)=(C l i,C 2.)=(rG,r/PKEnc+(aiwi+a2wi2+.+aiwi)G)2）C,计算本地梯度向量Wi所对应的一个多项式(2)，其中，对于所有的=1,2，(k)=w。然后输入pk，计算多项式蚁(z)的承诺值，如公式（7)所示。COMM(d(2)=grc)3)C,利用私钥SKES和身份ID,计算签名，如公式(8)所示。/=H(ID;C/II C;II COMM(d(z)4)C将(IDi,Cl1,Ci,0/,COMM(d(z)上传到CS。4.3聚合阶段1)CS收到(ID,Ci,Czi,o

35、/,COMM(d(z)后，验证收到的签名！，为提高验证效率，可以使用批验证，如公式（9）所示。Ngi,1lo!=Ie(H(ID,II Ci ICi Ii-1i-1COMM(d(z),PKsis)2）验证成功后CS计算聚合梯度，如公式（10）所示。(C/,C)=(2Cl,C.)i-1N(2rG,2r/PKEnc+(i-1=1a2Zwi+.+aiZwi13）C S在获得聚合梯度后与C(i-1,2,)协作解密，由于Shamir秘密共享方案中门限t可以根据实际安全性需求进行设置，因此成功解密，假设至少有t个诚实客户端上传正确的解密份额。C,计算解密份额以及相应的签名，如公式（11）所示。D/=x;(C

36、/)Lo)/=H(ID,ID/)然后将(ID,D/,/)上传到CS。4）C S收到解密份额后，验证收到的解密份额的完整性，如公式（12）所示。e(gi,Io/)=Ile(H(ID,II D/),PK,sis)(6)i-15）验证通过后，CS判断解密份额的正确性，如公式（13）所示。D/G=PKFcCl6）C S从正确的解密份额中选择t个进行解密，如公式（14）所示。NN(7)(a2wi+az2wiz+.+a2wi)C-xC/=Cl-aD!(8)其中，=立-IDh为拉格朗日插值系数。h=l,hk IDk-ID h7）接下来，CS调用Pollard-lambda算法得到awi+a.wa+awl。并

37、通过调用算法1得到wl=w，N=1k=1,2,l。8）C S将聚合梯度Wl=(wl,wz,wl)以及承诺值(COMM(di(z)iiN返回给Cio(9)算法1恢复所有聚合的梯度算法输人:序列a-(ai=1,2,a)和Wi输出：(Mi,M2,M)开始：设置X-W i-1for从梯度向量长度1到2 的每一次迭代kdoNXk-I=XimodakaiZwi+i-1G(12)11(13)G=i=1k=1(10)M=akend forMi=Xi=2wiN返回(Mi,M2,M)结束在本文方案的聚合阶段，中央服务器能够正确地解密聚合梯度。公式的正确性证明如下，由公式（14）可以得到公式（15)。(14)i1N

38、99NETINFOSECURITY专题论文2024年第1期Ci-xCl-2r/PKEne+(a2wi+a,Zwi2.+a,2wi)G-i-12D-2r/PKEmc+(a2wi+a,2wi2+a2wf)G-N=2r/PK Ere+(aZwi+a,Zwha+ai2wi)G-N如公式（17）所示。NCOMM(d(z)=IICOMM(d(z)i-1i-1NN1V(17)i-1112）如果验证不通过则重新训练，否则判断是否达N到终止条件（例如，达到指定的训练轮次或损失函数的精度满足特定条件），如果符合条件，则完成训练。与之相反地，执行Wi+I=W-nW i 更新模型参数并开始下一轮训练。VNi=12X(

39、2Ci)Nk=11=2r/PKEre+(aZwi+a,wi2+a2wh)G-i-12Ax:(rG)k=l=-2r/PKEnc+(a2wi+a,2wh+a2wi)G-NZrxG-1=2r/PKEnc+(aZwh+aZwi2+-+aiZwh)G-=1ZPKEne-1N=(a2wi+az2wih+ai2wi)Gi=1i=1根据上述分析，可以得到（awi+a2wz+awl)。接下来利用算法1进一步恢复w/=wl.k=l,2,l。具体地，由于wke0,l,T,k=1,2,l，有N-1i=1aZT+aT+a-T=aNTNi=1因此Xi-=Xmodaj=aiZwh+a2Zwi2+.+1Xi-XaZwil，并

40、且al用相同的方法，可以获得全部的M=wl=2wi,kl。4.4更新阶段1)C,在收到Wj=(wl,w,wi)以及(COMM(di(z)kkn后，计算聚合梯度 WI 所对应的多项式d(2)以及承诺COMM(i(z),接下来验证Wi计算的正确性，-11N1N1-1-11i1N-1i-1=1=1k=1-Zwi=Mi。通过使ai11-1i=1N1Ni=115安全性分析和对比5.1安全性分析(15)在本节中，主要从可验证性、隐私与完整性3方面对本文方案的安全性进行分析。定理1中央服务器在聚合阶段可能试图伪造或篡改聚合梯度以影响训练模型的精度，本文方案中客户端能够验证从中央服务器下载的聚合梯度。证明：系

41、统中每个客户端在上传本地梯度向量之前不仅加密本地梯度，同时计算梯度向量的承诺值COMM(d(z)，然后将(Ci,C2)和 COMM(d(z)一起上传到中央服务器，中央服务器聚合后将 W和(COMM(d(z)iN返回给客户端，客户端利用承诺值的同态性可以验证聚合梯度的正确性。假设存在一1个敌手Adv向客户端返回伪造的聚合梯度，并且满足-1公式（15），则敌手可以解决KZG多项式承诺底层困难问题。然而，文献33中证明了KZG多项式承诺在t-SDH困难问题和DL困难问题下的安全性。因此，本(16)文方案实现了聚合梯度的可验证性。定理2 本文方案可以保证客户端本地数据的隐私，即使是中央服务器与客户端合

42、谋时，其他客户端的隐私信息依然不会泄露。证明：本文方案中主要包括本地数据隐私和参数隐私。一方面，考虑联邦学习训练中本地数据不出本地，并且在训练中客户端为了保护数据隐私保护，不会主动暴露本地数据，因此实现了本地数据的隐私保护；另一方面，文献34证明了在DDH困难问题下，椭圆曲线上ELGamal是IND-CPA安全的。本文方案中客户端使100NETINFOSECURITY2024年第1期隐私保护用公钥加密本地梯度向量，而加密私钥被分割，每个客户端只拥有部分私钥份额。对于可以窃取到(Ci,Czi)的敌手Adv，在解密时需要计算r/PKEmc=rxG=(axi+2X2+xCi，然而由于没有私钥SKES

43、从而无法解密(Ci,C2)。其次，当中央服务器计算出聚合梯度密文(Ci,Ci)后，需要与至少t个客户端协作解密，本文中假设至少有t个客户端是诚实的，所以中央服务器可以串通的客户端数量少于t，从而当中央服务器与客户端合谋时，本文方案依然保护了其他客户端本地数据的隐私，实现了抗合谋攻击。定理3如果BLS聚合签名是安全的，则系统可以保证数据的完整性。证明：在本文方案中，每个客户端在发送信息之前利用SKFS对(Ci,C2i)和D/进行签名，并将签名值o！和!上传到中央服务器，中央服务器收到签名后进行验证。文献32 在随机预言机模型中证明了BLS聚合签名在CDH困难问题下是可证明安全的，在不考虑客户端主

44、动公开SKES的情况下，任何敌手Adv无法伪造正确的签名，因此确保了（Ci,C)和D/的完整性和认证。5.2安全性对比为了进一步评估本文方案的安全性。本节从方案具有的安全属性出发,将本文方案与文献17、文献18 和文献2 4中的方案进行对比，安全性对比结果如表2所示。表2 安全性对比完整性和抵御合谋抵御其他方案可验证性认证攻击客户端的攻击文献17 方案文献18 方案文献2 4方案本文方案表2 中，客户端在上传本地更新之前都使用同态加密技术对本地更新进行加密，但是文献17 方案和文献2 4方案中每个客户端拥有相同的公私钥对，同时中央服务器无法获得私钥，因此好奇的客户端可以解密其他诚实客户端的本地

45、更新密文同时中央服务器是无法解密的。与文献17 方案和文献2 4方案不同的是，文献18 方案中私钥由客户端和中央服务器共同掌握，所以单一的客户端或中央服务器无法解密密文，但是上述3个方案中当中央服务器与客户端合谋时,客户端的隐私可能会泄露。在可验证性上,文献17 方案无法实现验证而文献18 方案与文献2 4方案使用数字签名技术实现了验证。此外，这3种方案都无法实现数据的完整性和认证。与前3个方案相比，本文方案进一步增强了系统的安全性。具体地，本文方案使用ELGamal加密技术对客户端上传的梯度进行加密，并利用Shamir秘密共享技术将私钥分割，每个客户端只掌握部分私钥份额，所以保证了系统可以抵

46、抗其他客户端和好奇中央服务器的攻击，并进一步抵抗了合谋攻击。同时，利用KZG多项式承诺实现了全局梯度的可验证性。此外，在方案中使用BLS聚合签名对客户端上传的所有数据进行签名，进一步保证数据的完整性和认证。6性能分析本章将本文方案与文献17 方案、文献18 方案和文献2 4方案进行比较，从每个客户端与中央服务器的计算开销以及它们之间通信开销对本文方案的性能进行评估。假设每个方案中有一个中央服务器和N个客户端，每个客户端训练的模型参数维度为1维。6.1计算开销本节的计算开销分析主要关注系统执行中一些复杂的密码计算，而忽略一些轻量级的密码操作，如哈抵御好奇中央服务器攻击希函数、拉格朗日插值计算、中

47、国剩余定理计算。在实验参数选取上，分别设置Paillier加密算法中素数a,b的长度为512 bit，ELG a m a l 加密算法中p的长度为1024bit，椭圆曲线为标准SECP160R1，同时在双线性对运算上，选择JPBC库35中的Type A曲线。在一台搭载着Intel Core i5-7200U2.50GHz、2.7 0 G H z 双核处理器以及12.0 GB内存的Windows64位操作系统的笔记本电脑上基于Java编程语言测试得到各种密码操作执行101NETINFOSECURITY专题论文2024年第1期1000次的平均时间，如表3所示。表3符号定义和运行时间符号描述双线性对

48、操作Tmbp双线性对中的指数Tabp双线性对中的乘法Tmeco椭圆曲线上的标量乘法椭圆曲线上的点加法Tep模指数运算Tmul模乘运算TencPaillier加密TdePaillier解密T.mlPaillier密文乘法在文献17 方案中，每个客户端生成密文需要ITenc，同时中央服务器在聚合阶段需要ITemul。在参数更新阶段，每个客户端解密需要ITdec。因此，每个客户端的总时间开销为ITenc+ITde=19.763/ms，中央服务器的总时间开销为ITmul=0.021/mS。在文献18 方案中，每个客户端生成密文需要31Tep+ITml，同时生成签名需要 ITmbp+ITpabp。中央服

49、务器生成聚合密文需要2 1(N-1)Tmul+lTeap。在参数更新阶段，每个客户端解密需要ITesp+ITmul，然后对聚合梯度进行验证需要 ITap+(N+2)T,+(N-1)Tpa bp+(N-1)Tmu。因此，每个客户端的总时间开销为5ITesp+ITmbp+l(N+2)T,+(N+1)Tmul+(IN)Tpabp=41.768/+7.671N/ms，中央服务器的总时间开销为ITesp+2(N-1)Tml=2.559/+0.012N/mS。在文献2 4方案中，每个客户端生成密文需要(V)Tenc，其中k为线性同余方程组中方程的个数，同时需要生成签名Tmbp。中央服务器在聚合时生成聚合密

50、文以及聚合签名需要(Vk)(N-I)Temul+(N-1)Tpa bp+Tp。在参数更新阶段，每个客户端解密需要Tdec，然后对聚合2(N-1)Tpaec以及协作解密需要tTm_ec+tTpa_ecco在更新阶段，每个客户端验证聚合梯度需要 ITmbp+(l+N-2)TpaLbpo运行时间/ms因此，每个客户端的总时间开销为Tpac+4Tmec+2(+1)7.5213.8670.1454.3550.0162.5710.0066.78112.9820.021Tm bp+(2l+N-3)Tpa_bp-44.735+28.024/+0.145Nms，中央服务器的总时间开销为2(N+1)T,+2(N-

展开阅读全文