1、第 56 卷 第 10 期2023 年 10 月通信技术Communications TechnologyVol.56 No.10Oct.20231173文献引用格式:程雪婷,王玮茹,暴悦爽,等.基于联邦学习的多源异构数据安全融合方法 J.通信技术,2023,56(10):1173-1183.doi:10.3969/j.issn.1002-0802.2023.10.007基于联邦学习的多源异构数据安全融合方法*程雪婷,王玮茹,暴悦爽,薄利明(国网山西省电力公司电力科学研究院,山西 太原 030001)摘 要:现有多源异构数据的融合大多采用集中式的算法,而新型电力系统中隶属于不同主体的参与者之间
2、存在较大的数据壁垒,为多源异构数据的收集和处理增加了困难,导致数据孤岛效应显著。针对各参与方无法直接交换本地私有数据的情况,采用基于 Tucker 分解的多源异构数据的融合算法,通过对异构数据进行特征提取,并基于同态加密和秘密共享等隐私计算技术,实现了在不泄露各参与方隐私数据的前提下,对多源异构数据的安全融合。在情感识别数据集 IEMOCAP和 MOSI 及全球年度夜光数据集等多源异构数据集上进行实验,均取得了较好的结果,验证了相关算法的有效性,不仅能达到在单机上进行模型训练的效果,而且能够有效保护参与方的隐私。关键词:联邦学习;多源异构数据;同态加密;秘密分享;数据融合算法中图分类号:TP3
3、09.2 文献标识码:A 文章编号:1002-0802(2023)-10-1173-11A Secure Multi-Source Heterogeneous Data Fusion Scheme Based on Federated LearningCHENG Xueting,WANG Weiru,BAO Yueshuang,BO Liming(State Grid Shanxi Electric Power Research Institute,Taiyuan Shanxi 030001,China)Abstract:Most of the existing fusion of multi
4、-source heterogeneous data is centralized,whereas in the new power system,there are significant data barriers among participants belonging to different entities,which add difficulties to the collection and processing of multi-source heterogeneous data,leading to a significant data silo effect.Aiming
5、 at the situation that each participant cannot exchange local private data directly,this paper adopts the fusion algorithm of multi-source heterogeneous data based on Tucker decomposition,which realizes the secure fusion of multi-source heterogeneous data without disclosing the private data of each
6、participant by feature extraction of the heterogeneous data and based on the privacy computing techniques such as homomorphic encryption and secret sharing.The effectiveness of the relevant algorithms is verified on multi-source heterogeneous datasets such as the emotion recognition datasets IEMOCAP
7、 and MOSI as well as the power dataset.The scheme not only achieves the effect of model training on a single machine,but also effectively protects the privacy of the participants.Keywords:federated learning;multi-source heterogeneous data;homomorphic encryption;secret sharing;data fusion algorithm0
8、引 言随着云计算、人工智能、区块链等技术的加速创新,基于数据要素的创新成为驱动社会发展的新引擎。新型电力系统中的参与者类型逐渐增加,市场交易机制日益复杂,数据交互也更加频繁,数据的收集与使用是人工智能时代智能电网得以持续发 *收稿日期:2023-08-03;修回日期:2023-09-08 Received date:2023-08-03;Revised date:2023-09-081174通信技术2023 年展的重要驱动力1。2020 年 12 月,国家电网有限公司电力人工智能白皮书的发布展现了人工智能技术应用为电力行业发展带来的变化,明晰了电力人工智能的创新发展方向。然而,由于数据本身具有
9、的特殊性,在开放流通共享的过程中面临着数据资产确权难、溯源防伪难、跨域互信难、安全管理难等问题,数据共享存在一定的隐私泄露风险2。随着一系列数据安全相关法案的颁布与生效,如欧盟的通用数据保护条例(General Data Protection Regulation,GDPR)、美国的加利福尼亚州消费者隐私法案(California Consumer Protection Act,CCPA)、中国的数据安全法和个人信息保护法等,不同数据拥有者间的数据共享变得越来越困难,数据孤岛问题日益严重。此外,新型电力系统中边缘设备的多样性使得设备采集到的数据在标注、语义和存在形式等方面都呈现多样性。各个电力
10、供应商或用户之间的不信任造成的数据孤岛问题也为设备状态信息的收集增加了困难,使得数据互通的通道长期处于闭塞状态,无法实现信息共享,从而无法充分发挥异构数据的价值3。为缓解机器学习中的数据孤岛问题,谷歌首次提出联邦学习框架4,允许多个参与方在本地训练模型,并通过共享梯度参数进行联合建模,实现了在不透露用户隐私的前提下多源信息的共享,为电网数据分析中的隐私保护提供了初步的解决方案5,在智能电网中涉及隐私数据的数据挖掘、状态诊断与负荷预测等场景有广阔的应用前景。在传统的多源异构数据融合算法中,数据集中化处理在实际应用中存在数据隐私泄露的风险。现有电力系统中的数据融合算法大多是服务器通过与众多异构设备
11、终端通信,收集设备记录的状态信息,形成集中的数据集并训练出模型。但当使用这种方法时,在明文通信过程及服务器存储信息的过程中不可避免地存在隐私泄露的风险6。电力数据中的用户用电隐私信息和发电、输电、变电、配电的保密信息等对电力系统中的用户用电数据收集处理、各参与者之间的明文数据流通带来了严峻的挑战,并且联邦学习单一的聚合服务器会导致单点故障问题7-8,以及容易遭受恶意聚合服务器和参与方之间的共谋攻击9等,迫切需要面向数据和模型隐私保护的多源异构数据融合方案。传统数据安全的关注点主要是保护对数据的控制权、对数据的分级分类和风险评估管控,即传统数据安全往往只注重数据本身。为此,本文提出了一种基于联邦
12、学习的多源异构数据的安全融合方案,主要贡献如下:(1)针对各参与方无法直接交换本地私有数据的情况,采用基于 Tucker 分解的多源异构数据融合算法,通过对异构数据进行特征提取,并采用同态加密技术,在不泄露各参与方隐私数据的前提下对多源异构数据进行安全融合。(2)针对单一聚合服务器容易形成的安全瓶颈,采用秘密共享技术,将局部模型参数的秘密碎片分发给不同的聚合服务器,最终在可靠的中心服务器形成全局模型参数,抵抗部分聚合服务器的离线,从而融合失效,增加系统的稳定性。(3)在情感识别数据集 IEMOCAP 和 MOSI 及全球年度夜光数据集等多源异构数据集上进行了实验,均取得了较好的结果,从而验证了
13、相关算法的有效性。本文所提方案不仅能达到在单机上进行模型训练的效果,而且能够有效保护参与方的隐私。1 相关工作目前,针对联邦学习的隐私保护技术主要有差分隐私10、同态加密11、秘密分享12等。根据联邦学习中使用的隐私保护技术的不同,可以将联邦学习中的隐私保护方法分为基于差分隐私的隐私保护方法、基于加密的隐私保护方法和多种技术相结合的隐私保护方法。1.1 基于差分隐私的隐私保护方法联邦学习中基于差分隐私的隐私保护方法10是指向训练中的参数添加噪声,使得模型在保持可用性的同时得到隐私保护。Shokri 等人13提出了梯度本地扰动算法。在每一轮迭代时,终端随机选择大于预设阈值的梯度,为其添加满足差分
14、隐私的拉普拉斯噪声后上传,中心服务器收集梯度后取平均值完成本次迭代。Wu 等人14借助输出扰动机制提高梯度扰动部署的便捷性,利用序列的随机性收紧梯度的敏感度边界,在同样的隐私预算下,所得模型的可用性提高。Wei 等人15设计了分阶段差分隐私保护模型,在本地模型训练完成和参数上传的阶段,各个参与者为自己的更新参数添加满足中心化差分隐私保护的噪声。Avent 等人16提出了混合差分隐私保护模型,既兼顾模型的可用性,又满足不同用户的隐私需求。Hu 等人17利用差分隐私技术解决参与方计算能力各异、数据结构异质情况下1175第 56 卷第 10 期程雪婷,王玮茹,暴悦爽,薄利明:基于联邦学习的多源异构数
15、据安全融合方法的隐私保护,提出了个性化联邦学习中的隐私保护 问题。1.2 基于加密的隐私保护方法联邦学习中基于加密的隐私保护方法主要是通过同态加密技术对训练过程中的参数进行加密处理。利用同态加密对本地模型参数进行加密,可以有效防止恶意参与者和服务器通过参数窃取到隐私信息。Phong 等人18基于加法同态加密方法实现了保护隐私的深度学习算法,每个参与者从服务器下载全局加密参数,并用私钥解密后得到权重参数。Zhang 等人19以同态加密和中国余数定理为基础,研究了联邦学习神经网络训练中的隐私保护问题,利用签名机制实现了聚合验证问题。Heikkil等人20设计了由多台服务器组成的安全聚合方案,终端将
16、自己的参数随机分片后,加密分别发送给多个中心服务器,任何一个服务器都无法获知参数碎片对应的真实数据,仅能在收集完所有用户的参数碎片后共同聚合并解密,获得聚合结果。林等人9提出了支持梯度隐私保护的高效联邦学习方法,采用同态加密并引入基于 SignSGD 思想的梯度加密方案来保护参与方上传的梯度,同时给出加性秘密共享算法来抵抗参与方和聚合服务器之间的共谋攻击。1.3 多种技术相结合的隐私保护方法目前的研究将模型筛选技术同差分隐私和同态加密技术相结合以设计出应用场景更加广泛的联邦学习模型。Pathak 等人21提出了安全多方计算和扰动在多个参与方协同训练模型中的结合应用,通过安全多方计算的方式获取最
17、小的数据集大小,根据输出扰动机制为全局模型参数添加噪声,使发布模型受到差分隐私保护。Liu 等人7提出了一种将同态加密、差分隐私和梯度筛选相结合的隐私保护联邦学习方案。Cao 等人22提出了利用局部模型参数和服务器模型参数之间的余弦相似度来度量它们方向的相似性,将局部模型进一步规范化后再进行聚合。Hao 等人23提出了一种将差分隐私和同态加密相结合的方案,用拉普拉斯噪声将局部模型梯度进行加噪,然后用对称式加法同态加密对加噪的梯度进行聚合,聚合后的全局模型中的噪声几乎被消除。Zhang 等人24结合了安全聚合和同态加密方法,由中心服务器聚合上传的梯度后解密,为防止本地梯度泄露,采用秘密分享技术确
18、保至少t个用户上传参数之后,服务器才能解密。Ren 等人25利用训练损失和验证损失评估局部模型对全局模型的贡献度并赋予其相应的权重,用 Paillier 同态加密对模型进行聚合。Truex 等人26基于 Paillier 同态加密机制利用安全多方计算隐藏整个本地扰动参数,确保聚合结果的明文在得到足够的噪声保护后才会被中心服务器获取。Xu 等人8借助函数加密机制确保t个以上用户上传后,中心服务器才能解密获取聚合结果的明文,噪声减少量相同且通信代价进一步降低,但是需要一个可信的第三方生成密钥。2 预备知识2.1 Paillier 同态加密Paillier 同态加密方案11是由 Pailler 在
19、1999 年提出的一种基于高次剩余类问题的加密方案。该方案可分为以下 3 个具体算法。(1)密钥生成算法:选取两个大的素数,根据N=pq,=lcm(p-1,q-1)计算出N与的值,其中lcm(,)表示最小公倍数。选取随机数g Z*N2,定义函数L(x)=(x-1)/N,计算=L(gmodN2)-1mod N。公钥为pk=(N,g),私钥为sk=(,)。(2)加密算法:待加密的明文为m Zn,选择一个随机数r Z*n,计算密文c=grnmodN2。(3)解密算法:接到密文c后,可计算得到明文m=L(cmodN2)mod/N。显然,Paillier 方案具有加法同态性,明文m1与明文m2的和可通过
20、解密它们对应的密文的乘积得到,即:1211221 2121 212(,)(,)()(,)mmND E m rE m rD grrD E mm rrmm+=+=+(1)当是一个常数,m是明文,m的值如下:(,)()(,)mnD E m rDrD Em rm=g(2)2.2 秘密共享秘密共享(Secret Sharing)由 Shamir 等人12提出,是指将秘密值s以适当方式拆分成若干份额n,并由不同参与方持有,当且仅当持有大于或等于t(其中tn)数量的份额时,才能恢复出原始完整秘密,即单个参与方无法通过持有的秘密份额获取任何原始秘密。在安全多方计算领域中,常使用秘密共享作为基本原语,其可以分为
21、以下两个子算法。(1)秘密分配算法(xi,si)Share(s,n,t):随机选择t-1 个随机值r1,r2,rt-1,构造多项式f(x)=s+r1x+rt-1xt-1;随机选择nt个随机数x1,x2,xn,计算秘密1176通信技术2023 年碎片si=f(xi),并将(xi,si)发送给参与方Pi。(2)秘密重构算法s=Recon(xi,si)。任意t个参与方通过拉格朗日插值可恢复秘密s:,j j itjixiijxssxx=(3)3 方案设计3.1 符号描述为了方便理解,首先给出文中所用的符号及对应的解释如表 1 所示。表 1 符号描述符 号描 述n参与方数量m聚合服务器数量t门限值,用于
22、 Shamir 秘密共享p素数,用于 Shamir 秘密共享pk公钥,用于同态加密sk私钥,用于同态加密Di参与方i的数据集epochs训练轮数M模型g模型M对应的参数Shamir 秘密共享碎片使用公钥pk加密的密文第i个参与方发送给第j个聚合服务器的Shamir 秘密共享碎片G模型参数g对应的加和Gi第j个聚合服务器的秘密共享加和3.2 总体设计本节将详细描述方案的总体设计、主要流程及核心算法。本方案主要是针对各参与方无法交换本地私有数据的情况,通过联邦学习进行多源异构数据的融合训练,通过对异构数据的特征提取,并基于同态加密和 Shamir 秘密共享技术,本方案能够在不泄露各参与方隐私数据的
23、前提下对多源异构数据进行有效融合。本方案联邦学习主要过程如图 1 所示。本方案由参与方、聚合服务器和中心服务器 3 类实体组成,分别部署不同的功能模块构建整体框架,3 类实体通过相互通信共同训练出最终模型,如图 2 所示。其中,参与方部署异构数据特征提取、秘密生成、共享加密、模型训练与评估功能模块,聚合服务器部署共享加和功能模块和中心服务器部署解密恢复、密钥生成功能模块。全局参数、公钥训练、评估结果参与方 1参与方n聚合服务器 1聚合服务器n聚合参数中心服务器解密恢复本地参数加密碎片图 1 联邦学习主要过程中心服务器解密恢复密钥生成共享加和参与方秘密生成共享加密模型训练 与评估异构数据 特征提
24、取聚合服务器图 2 总体设计如图 3 所示在模型训练阶段,参与方i在每次训练都使用特征提取模块提取异构数据的特征获取特征数据,并使用提取出来的特征数据训练模型。对于训练好的模型,先利用 Shamir 秘密共享将模型参数x分为12,modiiimp?ggg,门限为t,其中m是聚合服务器的数量,p为素数;接着,使用从中心服务器获取的公钥加密这些秘密碎片获得加密共享碎片 12,iiim?ggg,并发送ijg给 聚 合 服 务 器j用 于 参 数 聚 合,其 中1 in,1 jm。在模型聚合阶段,聚合服务器j将从n个参与方获得的n个加密共享碎片 12,jj?ggg,njggg在本地进行共享加和,并将共
25、享加和结果 发送给中心服务器用于模型参数更新,其中 1 jm。在模型更新阶段,对于每个全局模型参数X,中心服务器将收到来自m台聚合服务器发送的共享加和结果,。中心服务器对模型参数首先使用私钥解密获得 Shamir 共享碎片,,其次使用秘密重构算法恢复全局模型参数G。1177第 56 卷第 10 期程雪婷,王玮茹,暴悦爽,薄利明:基于联邦学习的多源异构数据安全融合方法待所有全局参数都解密恢复后,中心服务器将全局模型参数发送给各参与方开始下一轮迭代。模型训练阶段、聚合阶段和更新阶段将重复进行,直至达到设定的轮数或者停止条件。图 4 多源异构数据训练的主要流程图 3 模型联合训练过程3.3 主要流程
26、本小节详细描述方案的主要流程,如图 4 所示,分为 8 个主要步骤:步骤 1 对应初始化阶段,中心服务器随机地进行参数初始化和生成密钥对(sk,pk),并将全局初始化参数和公钥pk发送给各参与方;步骤 24 对应模型训练阶段,参与方对异构数据进行特征提取并进行本地模型训练,然后使用 Shamir秘密共享方案和同态加密技术保护梯度信息并上传到聚合服务器进行模型聚合;步骤 5、6 对应模型聚合阶段,聚合服务器在本地对各加密的共享碎片进行加和,然后将加和值发送给中心服务器;步骤7、8 对应模型更新阶段,中心服务器对加密加和梯度进行解密恢复,获得更新后的全局模型参数,并将更新的全局模型参数发送给参与方
27、用于下一轮迭代。1178通信技术2023 年假设待处理的异构数据特征分别为z1=(z11,z12,z1q),z2=(z21,z22,z2p)和z3=(z31,z32,z3m),经过特征融合模块后的特征输出为Z。以下内容简述本文提出的基于Tucker分解的异构数据融合算法的基本原理。如图 5 所示,该模块通过引入一个具有异构数据特征空间的高阶张量W作为记忆单元,其每一模态对应于一种异构数据特征的空间映射。因此,在对每一种异构数据特征进行融合的时候,高阶张量W不仅能够引入其余异构数据模态的特征进行修正,还会将正在进行的异构数据模态特征进行记忆。当待处理的异构数据特征分别为z1,z2,z3时,W对应
28、 1 个 3 阶张量,且此张量的 3 个维度分别对应 3 种异构数据特征z1,z2,z3的特征空间。在异构数据特征融合中,通过将异构数据特征与记忆单元对应的特征空间进行模乘,可得到具有该异构数据特征的记忆单元,并进行进一步的特征融合操作。图 5 基于 Tucker 分解的异构数据融合特征融合分成 3 个阶段:(1)记忆单元W 沿着一阶与异构数据特征z1进行模乘,得到具有z1特征的新记忆单元W(1);(2)W(1)沿着二阶与异构数据特征z2进行模乘,得到具有z1和z2特征的记忆单元W(2);(3)记忆单元W(2)沿着 3 阶与异构数据特征z3进行模乘,最终得到具有三者特征的融合张量Z。该过程可以
29、表示为:Z=(W1z1)2z23z3(4)式 中:W RR1R2R3;z1 RPR1;z2 RJR2;z3 RKR3;符号 k,k=1,2,3 表示张量与矩阵之间的乘积。3.4 算法设计模型训练主要过程如算法 1 所示。在算法 1 中,输入包括参与方的数据集Di、待训练的模型M、训练轮数epochs、批大小b和同态加密的公钥pk。输出 为 加 密 共 享 的 梯 度 参 数 12,iiim?ggg12,iiimggg。在每个训练轮次中,首先,各参与方将其本地数据集划分为训练集、验证集和测试集,并计算基于均方误差的损失函数。通过对损失函数的梯度计算,各参与方生成了关于模型参数的梯度信息。为保障数
30、据隐私,采用 Shamir 秘密共享方案将梯度信息分割为多份。其次,利用同态加密技术对每个梯度分片进行加密,生成加密的梯度分片,并将其发送至聚合服务器。聚合服务器接收到各参与方的加密梯度分片后,可以执行模型参数的更新操作,同时不暴露原始梯度信息,从而保障了数据隐私和模型安全。算法 1:模型训练输入:数据集Di,模型M,训练轮数epochs,批大小b,公钥pk。输出:加密共享梯度参数 12,iiim?ggg。1.for epoch=1 to epochs:2.Dtrain,Dvalid,Dtest=split_dataset(Di);/划分数据集3.train1(,)(,)lllllossMSE
31、Loss x M yx yDb=;/计算损失值4.lossMg=;/计算梯度5.(,)ShamirSecretSharingt m=gg;/生成(t,m)-Shamir 秘密共享6.for j=1 to m:HE.()ijijenc=gg;/对发送给聚合服务器j的秘密共享碎片进行 同态加密7.发送ijg给聚合服务器j;8.end for9.Return 12,iiim?ggg;10.end for模型聚合及模型更新过程如算法 2 所示。在算法 2 中,输入为各参与方计算的加密共享梯度参数 12,iiim?ggg、待更新的模型M、训练轮数epochs、学习率和同态加密的私钥sk。在每个训练轮次中
32、,各聚合服务器先对加密的共享梯度参数进行加和操作,得到加密的累积梯度。紧接着,这些加和后的梯度被发送至中心服务器。中心服务器接收到数据后,采用同态解密方法解密获得原始的秘密共享碎片,并使用 Lagrange 插值法恢复出完整的平均梯度。最后,依据学习率和计算得到的梯度G*,对模型M进行更新。经过设定的训练轮次后,输出更新后的模型M。1179第 56 卷第 10 期程雪婷,王玮茹,暴悦爽,薄利明:基于联邦学习的多源异构数据安全融合方法算法 2:模型聚合及模型更新过程输入:加密共享梯度参数 12,iiim?ggg,模型M,训练轮数epochs,学习率,公钥sk。输出:更新后的模型M。1.for e
33、poch=1 to epochs:2.对于聚合服务器:3.for j=1 to m:4.12iiiimG=+?ggg;/进行共享加和5.发送 给中心服务器;6.end for7.对于中心服务器:8.接收来自聚合服务器的共享加和结果 ,;9.,=HE.dec(,);/同态解密10.G=Lagrange(,);/使用 Lagrange 插值恢复梯度 11.G*=G/len(Dtrain);/计算平均梯度12.M=M-G*;/更新模型13.end for14.Return M4 安全性分析本方案基于 Shamir 秘密共享方案和同态加密技术,能够有效保护参与方隐私,同时可以抵抗部分聚合服务器的离线,
34、增加系统的稳定性。安全性分析如下。定 理 1:已 知 参 与 方i的 共 享 加 密 参 数 12,iiim?ggg,1in,中心服务器、单个聚合服务器j或单个参与方都无法得到其他参与方完整的参数 ig,1 in。证明:由于参与方仅将单个 g的秘密碎片发送给聚合服务器,且参与方与聚合服务器没有同态加密的私钥sk,因此聚合服务器和参与方均无法知道完整的 ig。而中心服务器仅能得到聚合后的,当n 3 时无法判断具体的 ig。综上,故中心服务器、单个聚合服务器j或单个参与方都无法得到其他参与方完整的参数 ig,1 in。定理 2:当中心服务器与小于或等于t-1 个聚合服务器或/和中心服务器与小于或等
35、于n-2 个参与方共谋时,中心服务器、聚合服务器或参与方无法获取其他参与方完整的参数 ig,1 in。证明:当中心服务器与小于或等于t-1 个聚合服务器共谋时,中心服务器虽然有私钥sk,但是由于最多只能获取t-1 个秘密碎片,因此无法恢复出完整的参数信息。当中心服务器与小于或等于n-2个参与方共谋时,最终聚合的G最少有 2 个参数 ig,1 in是中心服务器和共谋参与方无法分辨来自哪方的。故当这两种条件成立时,中心服务器、聚合服务器或参与方无法获取其他参与方完整的参数 ig,1 in。定理 3:当聚合服务器之间共谋、聚合服务器与参与方共谋或者参与方之间共谋时,聚合服务器或参与方无法获取其他参与
36、方完整的参数 ig,1 in。证明:由于方案使用了同态加密,私钥sk仅中心服务器持有,故聚合服务器之间共谋、聚合服务器与参与方共谋或者参与方之间共谋时,聚合服务器或参与方无法获取其他参与方完整的参数 ig,1 in。5 实验评估5.1 实验设置为了验证本文算法的有效性,本文在 12th Gen Intel(R)Core(TM)i9-12900H,2.50 GHz,16 GB 内存的机器上模拟了 1 台中心服务器、5 个参与方和 3台聚合服务器,其中 Shamir 秘密共享的门限值为 2。底层使用 Socket 实现联邦学习的通信,采用 Python3和 PyTorch 实现联邦学习。本文使用的
37、同态加密方法是 Paillier 同态加密(参数大小为 512 bit)。本文实验数据集使用两个情感识别数据集:IEMOCAP27和 MOSI28。IEMOCAP 数据集是一个广泛应用于情感分析研究的多模态情感数据集,其中包含了大量自然的情感表达场景,有大约 12 h 的视听数据,包括视频、语音、面部运动捕捉和文本转录等。该数据集中每个片段都标注了愤怒、兴奋、恐惧、悲伤、惊讶、沮丧、高兴、失望和自然这 9类情绪。而 MOSI 数据集则是专注于在线观点视频中情感强度和主观性分析的多模态数据集,数据集汇集了来自 YouTube 在线平台的观点视频,包含视频、音频和文本等多种模态信息,每个片段都用-
38、3,3 范围内的情绪进行标注。为了更好地体现本方案提出的融合算法在电力系统中的应用,采用全球年度夜光数据集 VIIRS VNL V229和 GDP、人口数量等碳排放相关影响因素的统计数据。VIIRS VNL V2 根据 VIIRS 月度无云平均辐射亮度数据整合制作而成,可以清晰地显示全球范围内的灯光信息。1180通信技术2023 年5.2 实验结果与分析5.2.1 实验评估指标对于分类任务,本实验设置的评估指标使用F1分数、R-平方(R-squared,R2)和均方误差根(Root Mean Square Error,RMSE)。F1分数是精确率(Precision)和召回率(Recall)的
39、调和平均数,定义如下:12PrecisionRecallPrecisioncallFRe+=(5)F1分数作为一种综合评估模型性能的指标,常用于二分类或多分类问题中,用于衡量模型在正类和负类样本上的分类能力,取值范围在 0 到 1 之间,值越高表示模型的分类能力越好。评估指标R2越大表示模型表现越好,RMSE用于表示模型预测与真实值产生的误差,RMSE越小表示模型误差越小。R2和RMSE的公式如下:2211()1()niiiniiyyRyy=(6)211()niiiRMSEyyn=(7)式中:yi为预测值,yi为真实值,y-为真实值的平均。对于回归任务,使用平均绝对误差(Mean Absolu
40、te Error,MAE)和皮尔逊相关系数(Pearson correlation coefficient,Corr)作为评价指标。MAE的定义如下:11npiiiMAEyyn=(8)式中:n为样本的数量,yi为第i个数据点的真实值,yip为第i个数据点的预测值。MAE 衡量了预测值和真实值之间的平均误差大小,数值越小表示预测模型的精度越高,对异常值的影响较小。皮尔逊相关系数是用来衡量两个连续变量之间线性关系强度和方向的统计量。它的取值范围在-1到 1 之间,用来判断变量之间的相关性以及线性关系的紧密程度。对于两个变量X和Y,皮尔逊相关系数的计算公式如下:12211()()()()niiinn
41、iiiixxyyCorrxxyy=(9)式中:n为样本数量,xi和yi分别为第i个样本的X值和Y值,x-和y-分别表示X和Y的均值。Corr数值越接近 1 或-1,表示相关性越强。5.2.2 多源异构数据集 IEMOCAP 的结果分析在 IEMOCAP 数据集上,本文所提方案取得了较好的结果,如表 2 所示。从F1-Happy,F1-Sad,F1-Angry 和F1-Neutral 指标可以看出,本方案在不同的模型设置下,在F1-Happy 和F1-Sad 方面表现较好,达到或超过其他模型的结果。具体而言,所提方案在F1-Happy 指标上分数为 0.874,在F1-Sad指标上分数为0.86
42、0,超过了其他模型的结果。然而,在F1-Angry 和F1-Neutral 指标上,本文方案与其他模型的最优结果接近。表 2 在 IEMOCAP 数据集上与其他模型的精度对比方 案F1-HappyF1-SadF1-AngryF1-NeutralSVM300.8150.7880.8240.649DF310.8100.8120.6540.440BC-LSTM320.8100.8120.6540.641MV-LSTM330.8130.7400.8430.667MARN340.8360.8120.8420.659MFN350.8400.8210.8370.692TFN360.8360.8280.842
43、0.654LMF370.8580.8590.8900.717本文方案0.8740.8600.8670.7015.2.3 多源异构数据集 MOSI 的结果分析本节实验针对多模态情感数据集 MOSI 进行了回归任务和分类任务的训练,针对每个模态,设置了特征提取子模块的输出维度为Rk,其中k表示模态的索引。考虑到特征提取维度Rk对训练效率和实验性能的影响,对不同维度组合(R1,R2,R3)在回归任务和分类任务中进行了性能比较。具体而言,当选择每个模态的特征提取维度集合为(8,16,32)时,回归任务实验结果如表 3 所示,MAE主要集中在1.04 至 1.09 之间。从实验结果可知,在模态特征提取维
44、度为(32,8,16)时,性能最佳。将每个模态特征提取的维度设定为(32,8,16),在回归任务和分类任务上进行实验。表4详细记录了本文提出的算法与Mo等人38的方法在回归任务和分类任务上的性能对比结果。回归任务指标为MAE和Corr。分类任务的指标包括ACC_2,F1和ACC_7。其中,ACC_2 和F1用于衡量二分类任务,ACC_7 用于衡量多分类任务。实验结果表明,本文的方法相比 Mo 等人的方法38,在各项指标上都取得了更好的性能。1181第 56 卷第 10 期程雪婷,王玮茹,暴悦爽,薄利明:基于联邦学习的多源异构数据安全融合方法表 3 MOSI 数据集回归任务的MAER1R2R38
45、1632881.093 353 7481.072 494 8641.079 656 124161.085 768 5801.070 804 3581.091 344 953321.070 270 1811.129 852 7721.078 528 2851681.098 923 4451.079 248 3091.061 166 883161.083 591 8191.115 110 7551.078 926 086321.094 047 9041.095 304 4891.073 353 0523281.123 834 9681.048 223 6151.073 959 351161.088
46、 106 5131.070 889 9501.086 896 300321.088 439 1071.094 173 4311.069 910 526表 4 MOSI 数据集与其他模型的性能对比方 案MAECorrACC_7ACC_2F1Mo381.081 10.562 40.304 70.711 40.712 2本文模型1.048 20.578 30.319 20.721 60.722 35.2.4 全球年度夜光数据集的结果分析实验使用线性回归模型,Epochs 设置为 3 000轮和 5 000 轮,学习率分别设置为 0.01 和 0.15,批大小分别为 32,64 和 128。异构数据特
47、征提取采用主成分分析(Principal Component Analysis,PCA)降维和拼接技术,将夜光数据和统计数据融合提取出 8 维主要特征。本文方案的实验结果如表 5 所示,“R2本地”和“本地RMSE”表示在单机上做模型训练的结果。从R2和RMSE的融合及本地指标可以看出,在不同的学习率、训练轮数和批大小下,本文方案的R2融合结果与R2本地结果相比较接近或略优。这表明本文方案能够在保护参与方隐私的前提下,实现多源异构数据的有效融合,并在模型性能方面接近或略优于在单机上进行模型训练的效果。表 5 本方案与单机模型训练比较学习率训练 轮数批 大小R2 融合R2 本地RMSE融合RMS
48、E本地0.013 000320.823 00.751 01.507 61.788 1640.819 00.719 21.524 21.898 81280.808 90.712 91.566 21.920 05 000320.820 00.741 31.520 31.822 3640.820 30.719 71.519 11.897 01280.820 40.738 61.518 71.831 90.153 000320.819 30.815 21.523 31.540 3640.819 10.805 41.524 11.580 71280.821 60.793 31.513 41.629 25
49、 000320.824 20.821 91.502 51.512 0640.822 30.811 51.510 41.555 51280.816 90.806 11.533 01.577 9此外,通过比较不同学习率、训练轮数和批大小的实验结果,观察到在某些情况下,较高的学习率和较小的批大小可能实现稍微更好的融合效果。然而,这些结果可能因数据集和具体问题而有所差异。本文方案与其他模型的对比如表 6 所示,本文方案分别在批大小为 32,64 和 128 的情况下,与随机森林、支持向量机和线性回归模型进行对比,其中随机森林、支持向量机和线性回归均是在单机明文的情况下进行模型训练。从R2和RMSE可以
50、看出,本文方案在不同批大小下的表现效果都优于支持向量机和线性回归模型,而随机森林模型在R2和RMSE上的表现略优于本方案。表 6 本文模型与其他模型的效果对比模型类型批大小R2RMSE随机森林320.891 61.179 8640.920 11.012 81280.908 51.083 9支持向量机320.820 61.517 6640.816 51.535 01280.813 71.546 6线性回归320.821 91.512 0640.811 51.555 51280.806 11.577 9线性回归(本文方案)320.824 21.502 5640.822 31.510 41280.8