收藏 分销(赏)

基于联邦集成算法对不同脱敏数据的研究.pdf

上传人:自信****多点 文档编号:3537667 上传时间:2024-07-09 格式:PDF 页数:9 大小:633.51KB
下载 相关 举报
基于联邦集成算法对不同脱敏数据的研究.pdf_第1页
第1页 / 共9页
基于联邦集成算法对不同脱敏数据的研究.pdf_第2页
第2页 / 共9页
基于联邦集成算法对不同脱敏数据的研究.pdf_第3页
第3页 / 共9页
亲,该文档总共9页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第42卷 第1期2024年1月应用科学学报JOURNAL OF APPLIED SCIENCESElectronics and Information EngineeringVol.42 No.1Jan.2024DOI:10.3969/j.issn.0255-8297.2024.01.008基于联邦集成算法对不同脱敏数据的研究罗长银1,2,3,陈学斌2,3,张淑芬2,3,尹志强2,石义2,李风军11.宁夏大学 数学统计学院,宁夏 银川 7500212.华北理工大学 理学院,河北 唐山 0632103.华北理工大学 河北省数据科学与应用重点实验室,河北 唐山 063210摘摘摘要要要:针对联邦学

2、习中存在梯度更新导致本地数据可能泄露的问题,提出基于本地脱敏数据上的联邦集成算法。该算法用变异率与适应度阈值的不同取值对原始数据进行脱敏,且使用不同类型的模型在经不同程度脱敏的数据上进行本地模型训练,以确定适合的联邦集成算法参数。实验结果表明,与联邦平均算法和传统集中式训练相比,stacking 联邦集成算法与voting 联邦集成算法的准确率要优于基线准确率。在实际应用中,可根据不同的需求设置不同的脱敏参数来保护数据,以此提升数据的安全性。关键词:联邦学习;梯度更新;联邦集成算法;集成算法中图分类号:TP391文章编号:0255-8297(2024)01-0094-09Research on

3、 Different Desensitization Data Based onFederated Ensemble AlgorithmLUO Changyin1,2,3,CHEN Xuebin2,3,ZHANG Shufen2,3,YIN Zhiqiang2,SHI Yi2,LI Fengjun11.School of Mathematics and Statistics,Ningxia University,Yinchuan 750021,Ningxia,China2.College of Science,North China University of Science and Tech

4、nology,Tangshan 063210,Hebei,China3.Hebei Province Key Laboratory of Data Science and Application,North ChinaUniversity of Science and Technology,Tangshan 063210,Hebei,ChinaAbstract:To solve the problem that gradient updating leads to the possible leakage oflocal data in federated learning,federated

5、 ensemble algorithms based on local desensitiza-tion data are proposed.The algorithm desensitizes the raw data with different values ofvariability and fitness thresholds,employing diverse models for local training on data withdifferent desensitization levels to ascertain parameters suitable for a fe

6、derated ensembleapproach.Experimental results show that the stacking federated ensemble algorithm andvoting federated integration algorithm outperform the baseline accuracy achieved by thefederated average algorithm with traditional centralized training.In practical applications,收稿日期:2023-09-22基金项目:

7、国家自然科学基金(No.U20A20179);唐山市科技项目(No.18120203A)资助通信作者:陈学斌,教授,研究方向为数据安全、物联网安全、网络安全。E-mail:第1期罗长银,等:基于联邦集成算法对不同脱敏数据的研究95different desensitization parameters can be set according to different needs to protect dataand improve its security.Keywords:federated learning,gradient update,federated ensemble algor

8、ithm,ensemblealgorithm联邦学习自被提出以来一直是国内外相关研究的热点1-2,并且在众多领域都有很好的应用前景3。联邦学习的训练数据来自于不同的客户端,因此,训练数据的分布和数量是影响联邦模型的重要条件4。如果客户端的训练样本分布不同,则多个本地模型就难以集成5。为了解决这个问题,文献 6 提出了一种联邦平均算法,它利用权重或梯度的平均值对多个本地模型进行集成,从而得到集成后的全局模型。但是文献 7 针对联邦平均算法中的梯度更新提出了梯度深度泄露算法,能还原大部分的训练数据。针对此问题,本文提出了在不同脱敏数据上的联邦集成算法,即根据不同的应用需求设置不同的参数,还原出的数

9、据是不同程度脱敏后的数据。首先,该算法通过设置不同的变异率与适应度取值对数据进行脱敏,从而得到不同程度上的脱敏数据。其次,各客户端使用不同类型的全局模型在不同程度的脱敏数据上进行训练,根据其训练结果,选择合适的参数进行聚合。最后,使用加密算法对传输过程中的模型进行加密,以此来保护模型在传输过程中的安全性。实验结果表明,与联邦平均算法和传统集中式方法相比,stacking 联邦集成算法与 voting联邦集成算法的准确率更优。在实际应用中,可根据不同的需求设置不同的脱敏参数来保护数据,以提升数据的安全性。1相关知识1.1联邦学习在联邦学习中,常见的算法是联邦平均算法,针对联邦平均算法的精度问题,

10、文献 8-9利用统计学的方法来聚合多个本地模型,构建的全局模型的精度在非独立同分布上要优于联邦平均算法。同时为了检验不同联邦学习算法的性能,文献 10 提出了使用贝叶斯检验的基准测试来衡量。文献 11 提出了针对联邦学习开放应用程序的基准测试,主要研究各种指标之间的关系,如模型准确率与隐私保护预算之间的关系12-13。1.2遗传算法遗传算法(genetic algorithm)是一种模仿自然界演化过程以寻找最佳解的方法14,也是根据生物种群优胜劣汰、适者生存的特点模拟出的随机搜索算法,交叉和变异操作是遗传算法中群体进化的主要操作15。1.3集成学习集成学习指将多个弱监督模型结合在一起,从而建立

11、一个更好更全面的强监督模型16。因集成学习构建的模型具有更高的准确率与鲁棒性等优点,所以集成学习被成功应用于解决语音识别、基因数据分析17、遥感数据处理18、图像处理、文本分类等众多实际问题。而在联邦集成领域中,经常使用 stacking 集成算法、voting 集成算法、average 聚合算法、weightedaverage 聚合算法等来聚合多个本地模型。2基于遗传算法的联邦集成算法2.1算法的描述与流程基于遗传算法的联邦集成算法包括数据处理和模型训练两个阶段。96应用科学学报第42卷在数据处理阶段的算法思想是各客户端在本地设置种群大小,并最大程度地对数据进行脱敏,根据脱敏前后向量的相似度

12、来计算脱敏后数据的适应度情况,且对适应度的阈值进行了不同的设置,然后设置不同的变异率对数据进行变异,从而得到脱敏后的数据。在模型训练阶段的算法思想是通过可信第三方将不同的初始全局模型传输至各客户端,并使用不同的集成算法来整合多个本地模型,得到更新的全局模型,且不断迭代训练。各客户端获取不同的初始全局模型,并在脱敏数据上进行训练,获取本地模型,各客户端将多个本地模型参数上传至可信第三方。算法的流程如图 1 所示。?图 1 不同脱敏数据上的联邦集成算法流程图Figure 1 Flowchart of federated ensemble algorithm on different desensi

13、tization data2.2性能分析2.2.1算法的复杂度分析算法的复杂度分为全局模型传输、本地模型训练以及模型聚合 3 部分组成,即时间复杂度为 OnPi=15Pj=1mij+n+l+2k,其中:nPi=15Pj=1mij是 5 种全局模型 mj在客户端 i 上训练时的复杂度,l 为本地模型聚合时的复杂度,n 为数据脱敏时的复杂度,2k 为模型传输时的复杂度。2.2.2算法的安全性分析该算法通过调节不同的参数,对各客户端上的数据进行不同程度的脱敏,降低因梯度变化带来的数据风险,进而提升本地模型训练时数据的安全性。3实验分析3.1实验设置本文所提的算法由 python 与 pycharm

14、软件实现。实验数据采用的是从 https:/ 下载的数据集,该数据集来自于机器学习竞赛中的数据集,其中训练集中共有 200 000 条样本,预测集中有 80 000 条样本。实验中数据预处理阶段的步骤如下:第1期罗长银,等:基于联邦集成算法对不同脱敏数据的研究97步骤 1将各客户端的待脱敏数据 P0从右至左均分 M 份,每份为 P0/M。当位数不足时,用 0 补齐,得到初始种群 S1=s1,s2,sm,本文的种群大小参数19为 M=8。步骤 2依据脱敏前后数据间的关联程度19将初始种群 S1和遗传算法衍生的种群 Sn用向量来表示,即(s11,s12,s1m)和(sn1,sn2,snm)。用向量

15、间的相似度来衡量脱敏的程度。用适应度阈值作为运算终止条件,适应度计算公式为f(S1,Sn)=1 S1Sn|S1|2+|Sn|2(1)式中:适应度取值范围 0,1,当满足终止条件 f(S1,S2)x 时,算法终止。因此,数据脱敏程度可通过 x 调节。适应度阈值的取值为 x=0.25,0.50,0.75,0.90。步骤 3客户端数据通过设置不同的变异率取值,来获取变异后的数据。变异率的取值范围为 0.1,0.3,0.6。3.2实验分析实验中模型训练阶段的步骤如下:步骤 1服务器将 5 种初始模型类型与初始模型参数传输至客户端;步骤 2客户端获取模型类型与初始参数后,将初始模型在不同脱敏程度的数据上

16、进行训练,获取本地模型;步骤 3客户端将本地模型传输至服务器;步骤 4服务器使用 average 算法、stacking 集成算法、voting 集成算法聚合本地模型;步骤 5迭代步骤 24,直至满足停止条件。本文选取的初始模型类型为:随机森林、极端随机森林、神经网络、逻辑回归、梯度提升树(gradient boosting decision tree,GBDT)。根据模型训练的步骤进行训练,使用不同集成算法对本地模型进行聚合,获取不同的全局模型20。表 15 依次是 5 种不同初始全局模型在不同的适应度阈值与变异率下的实验结果,为表明实验数据的可靠性,表中的数据均为实验数据集随机划分且运行

17、50 次后所得结果的均值。从表 1 中可以得到,在 3 种集成方式与传统集中式方法中,stacking 集成算法的准确率最高,剩下的依次是传统集中式方法,voting 集成算法和 average 算法。其中,在 stacking 集成算法中,当变异率增加时,模型的准确率逐渐降低;当适应度阈值增加时,模型的准确率也在逐渐降低。当变异率取 0.1 且阈值取 0.25 时,模型的准确率为 80.249%,与传统集中式方法相比,准确率高 0.099%,比 voting 集成算法的准确率高 0.328%,比 average 集成算法的准确率高 0.879%。从表 2 中可以得到,在 3 种集成方式与传统

18、集中式方法中,传统集中式方法的准确率最高,其次是 stacking 集成算法,voting 集成算法,average 算法。其中,在 3 种集成方式与传统集中式的方法中,当变异率增加时,模型的准确率逐渐降低;当适应度阈值增加时,模型的准确率也在逐渐降低。当变异率为 0.1 且适应度阈值为 0.25 时,传统集中式方法的准确率最高,为 79.992%,stacking 集成算法的准确率为 79.834%,stacking 集成算法的准确率略低于传统集中式方法。从表 3 中可以得到,在 3 种集成方式与传统集中式方法中,stacking 集成算法的准确率最高,剩下的依次是传统集中式方法,votin

19、g 集成算法,average 算法。在 3 种集成方式与传统集中式方法中,当变异率增加时,模型的准确率在逐渐降低;当适应度阈值的取值增加时,模型的准确率也在逐渐降低。当变异率为 0.1 且适应度阈值为 0.25 时,stacking 建立的模型98应用科学学报第42卷表 1 初始模型为随机森林时,使用 3 种集成算法与传统集中式方法的性能Table 1 Performance of using three ensemble algorithms and traditional centralizedmethods when the initial model is a random fores

20、t%集成方式适应度变异率0.10.30.6stacking0.2580.24961.67434.5940.5079.60861.76934.8610.7578.28761.44734.6710.9076.60460.18834.869voting0.2579.92161.24534.6720.5079.22261.35935.0170.7577.80761.15334.8980.9076.21059.84834.956average0.2579.37060.60734.4430.5078.61460.75434.7650.7577.23360.62834.7070.9075.66159.264

21、34.728传统集中式0.2580.15161.42434.4750.5079.47961.51034.7730.7578.08561.30234.6130.9076.43459.97934.731表 2 初始模型为 GBDT 时,使用 3 种集成算法与传统集中式方法的性能Table 2 Performance of using three ensemble algorithms and traditional centralizedmethods when the initial model is a GBDT%集成方式适应度变异率0.10.30.6stacking0.2579.83461.

22、95234.9940.5078.86361.89435.1840.7577.72161.68335.1080.9076.01059.89235.297voting0.2579.52361.59334.5170.5076.50361.56434.9030.7576.66461.15934.9630.9071.28559.76434.874average0.2574.71056.66422.8650.5074.20756.66122.3950.7572.88556.40122.7950.9071.61555.06722.925传统集中式0.2579.99262.00334.8430.5079.36

23、461.96435.1950.7577.88461.71635.1900.9076.26355.49929.842第1期罗长银,等:基于联邦集成算法对不同脱敏数据的研究99的准确率最高,为 78.114%,比传统集中式方法的准确率高 0.943%,比 voting 集成算法的准确率高 2.271%,比 average 算法的准确率高 0.437%。表 3 初始模型为极端随机森林时,使用 3 种集成算法与传统集中式方法的性能Table 3 Performance of using three ensemble algorithms and traditional centralizedmetho

24、ds when the initial model is an extreme random forest%集成方式适应度变异率0.10.30.6stacking0.2578.11459.50334.6700.5076.81959.69035.0220.7575.15659.55734.9470.9073.44558.18234.963voting0.2577.17059.50034.5940.5076.09459.68434.9470.7574.43859.53134.8480.9073.09458.17534.875average0.2575.84359.48334.3030.5075.0

25、5159.67234.5920.7573.59359.52434.5490.9072.32258.17034.584传统集中式0.2577.67759.56534.2550.5076.69859.74034.5780.7575.14559.61234.4820.9073.37258.21734.540从表 4 中可以得到,在 3 种集成方式与传统集中式方法中,传统集中式方法的准确率最高,其次是 voting 集成算法,剩下的依次是 average 算法和 stacking 集成算法。其中,在 3 种集成方式与传统集中式方法中,当变异率增加时,模型的准确率逐渐降低;当适应度阈值增加时,模型的准确

26、率也逐渐降低。当变异率为 0.1,适应度阈值为 0.25 时,传统集中式方法的准确率最高,为 75.069%,voting 集成算法模型的准确率为 75.039%。从表 5 中可以得到,在 3 种集成方式与传统集中式方法中,stacking 集成算法的准确率最高,其次是传统集中式方法,剩下的依次是 average 算法和 voting 集成算法。其中,在除average 算法以外的其他两种集成方式与传统集中式方法中,当变异率增加时,模型的准确率逐渐降低;当适应度阈值增加时,模型的准确率逐渐降低。当变异率为 0.1,适应度阈值为 0.25时,stacking 集成算法建立的模型的准确率最高,为

27、75.125%,比传统集中式方法和 average算法的准确率高 0.002%,比 voting 集成算法的准确率高 0.035%。100应用科学学报第42卷表 4 初始模型为神经网络时,使用 3 种集成算法与传统集中式方法的性能Table 4 Performance of using three ensemble algorithms and traditional centralized meth-ods when the initial model is a neural network%集成方式适应度变异率0.10.30.6stacking0.2574.73059.484346.730

28、.5074.17859.674350.250.7572.87759.527349.520.9071.86558.175349.65voting0.2575.03959.484346.710.5074.51659.674350.220.7573.21259.527349.500.9072.05558.167349.57average0.2574.91559.484346.620.5074.38259.673350.080.7573.06959.523349.460.9071.90358.133349.30传统集中式0.2575.06959.484346.730.5074.51659.674350

29、.240.7573.20459.527349.510.9072.09958.176349.64表 5 初始模型为逻辑回归时,使用 3 种集成算法与传统集中式方法的性能Table 5 Performance of using three ensemble algorithms and traditional centralized meth-ods when the initial model is a logistic regression%集成方式适应度变异率0.10.30.6stacking0.2575.12559.48434.6730.5074.56259.67435.0250.7573

30、.25759.52734.9520.9072.13058.17634.966voting0.2575.09059.48234.6730.5074.54759.67235.0250.7573.23859.43934.9520.9072.03758.10134.868average0.2575.11775.12334.6730.5074.55974.56235.0250.7573.20273.22234.9570.9072.07072.12534.744传统集中式0.2575.12359.48234.6730.5074.56259.67435.0250.7573.22259.51134.9520.

31、9072.12558.16434.928第1期罗长银,等:基于联邦集成算法对不同脱敏数据的研究1013.3实验小结本文将遗传算法应用到客户端的数据脱敏中,通过调整适应度阈值与变异率取值,生成与原数据关联度不同的数据,进而获取不同脱敏程度的数据集。联邦学习框架中的模型在客户端的脱敏数据上进行训练,结合不同的集成算法来聚合本地模型,实验结果表明 stacking集成算法与 voting 集成算法建立模型的准确率要优于联邦平均算法,且与传统集中式方法的准确率几乎相等。同时本地模型是在脱敏数据上训练获取的,因此降低了梯度更新造成的数据泄露的风险。4结语本文通过对适应度阈值和变异率采用不同取值来探索数据

32、脱敏前后的关联性,关联性越低,准确率在降低;变异率取值越大,准确率也在降低。将不同的联邦集成算法在不同程度的脱敏数据上进行分析,联邦集成算法要优于联邦平均算法,同时降低了数据泄露的风险。参参参考考考文文文献献献:1 Mcmahan H B,Moore E,Ramage D,et al.Communication-efficient learning of deep net-works from decentralized data DB/OL.2016 2023-09-22.https:/arxiv.org/abs/1602.05629.2 Konen J,Mcmahan H B,Yu F X

33、,et al.Federated learning:strategies for improvingcommunication efficiency DB/OL.2016 2023-09-22.http:/arxiv.org/abs/1610.05492.3 Yang Q.Challenges of GDPR to AI and countermeasures based on federated transfer learningJ.Communications of Chinese Association of Artificial Intelligence,2018,8:1-8.4 Ya

34、ng Q,Liu Y,Chen T J,et al.Federated machine learning:concept and applications J.ACM Transactions on Intelligent Systems and Technology,2019,10(2):1-19.5 Wang S Q,Tuor T,Salonidis T,et al.Adaptive federated learning in resource constrainededge computing systems J.IEEE Journal on Selected Areas in Com

35、munications,2019,37(6):1205-1221.6 Liu Y,Ma Z,Yang Y L,et al.RevFRF:enabling cross-domain random forest training withrevocable federated learning J.IEEE Transactions on Dependable and Secure Computing,2022,19(6):3671-3685.7 Sharma S,Chen K.Privacy-preserving boosting with random linear classifiers C

36、/ACMSIGSAC Conference on Computer and Communications Security,2018:2294-2296.8 Sun,C,Shrivastava A,Singh S,et al.Revisiting unreasonable effectiveness of data in deeplearning era C/IEEE International Conference on Computer Vision(ICCV),2017:843-852.9 Cao M R,Zhang L,Cao B.Toward on-device federated

37、learning:a direct acyclic graph-basedblockchain approach J.IEEE Transactions on Neural Networks and Learning Systems,2023,34(4):2028-2042.10 Li S Y,Cheng Y,Liu Y,et al.Abnormal client behavior detection in federated learningDB/OL.2019 2023-09-22.https:/arxiv.org/pdf/1910.09933.11 Zhu L G,Liu Z J,Han

38、 S.Deep leakage from gradients DB/OL.2019 2023-09-22.https:/arxiv.org/pdf/1906.08935.12 陈玉昇,杨燕华,林萌,等.基于深度学习神经网络的核电厂故障诊断技术 J.上海交通大学学报,2018,52:58-61.Chen Y S,Yang Y H,Lin M,et al.Nuclear power plant fault diagnosis technology based ondeep learning neural network J.Journal of Shanghai Jiaotong Universi

39、ty,2018,52:58-61.(inChinese)13 Yang K,Jiang T,Shi Y M,et al.Federated learning via over-the-air computation J.IEEETransactions on Wireless Communications,2020,19(3):2022-2035.14 曹晓夏,缪淮扣,高晓雷.一种将遗传算法应用于谓词求精的方法 J.应用科学学报,2003,21(3):289-295.Cao X X,Miao H K,Gao X L.An approach to applying genetic algorit

40、hm to predicaterefinement J.Journal of Applied Sciences,2003,21(3):289-295.102应用科学学报第42卷15 邓灏,唐希浪,蔡忠义,等.基于改进遗传算法的多无人机搜索航路规划 DB/OL.2023 2023-09-22.https:/ H,Tang X L,Cai Z Y,et al.Multi-UAV search route planning based onimproved genetic algorithm DB/OL.2023 2023-09-22.https:/ Chinese)16 Brisimi T S,C

41、hen R D,Mela T,et al.Federated learning of predictive models from federatedelectronic health records J.International Journal of Medical Informatics,2018,112:59-67.17 Zhang W S,Zhang Y J,Zhai J,et al.Multi-source data fusion using deep learning for smartrefrigerators J.Computers in Industry,2018,95:1

42、5-21.18 Lee J,Sun J M,Wang F,et al.Privacy-preserving patient similarity learning in a federatedenvironment:development and analysis J.JMIR Medical Informatics,2018,6(2):e20.19 李澜,杨华,马维青.一种基于遗传算法的数据脱敏方法 C/2019 电力行业信息化年会论文集,2019:4.Li L,Yang H,Ma W Q.A data desensitization method based on genetic algo

43、rithm C/2019Electric Power Industry Informatization Annual Conference,2019:4.(in Chinese)20 罗长银,陈学斌,刘洋,等.基于联邦集成算法对多源数据安全性的研究 J.计算机工程与科学,2021,43(8):1387-1397.Luo C Y,Chen X B,Liu Y,et al.A federated ensemble algorithm for multi-source datasecurity J.Computer Engineering&Science,2021,43(8):1387-1397.(in Chinese)(编辑:管玉娟)

展开阅读全文
部分上传会员的收益排行 01、路***(¥15400+),02、曲****(¥15300+),
03、wei****016(¥13200+),04、大***流(¥12600+),
05、Fis****915(¥4200+),06、h****i(¥4100+),
07、Q**(¥3400+),08、自******点(¥2400+),
09、h*****x(¥1400+),10、c****e(¥1100+),
11、be*****ha(¥800+),12、13********8(¥800+)。
相似文档                                   自信AI助手自信AI助手
百度文库年卡

猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服