联邦学习系统攻击与防御技术研究综述.pdf

资源描述

1、第4 6卷第9期2 0 2 3年9月计算机学报CH I N E S E J OUR NA L O F C OMP UT E R SV o l.4 6 N o.9S e p.2 0 2 3 收稿日期:2 0 2 2-0 3-2 0;在线发布日期:2 0 2 3-0 1-1 6.本课题得到北京市自然科学基金(N o.M 2 1 0 3 3)、国家自然科学基金(N o.6 1 9 3 2 0 1 1,6 1 9 7 2 0 1 7)、腾讯微信犀牛鸟基金资助.高莹(通信作者),博士,副教授,中国计算机学会(C C F)高级会员,主要研究领域为隐私计算、区块链.E-m a i l:g a o

2、 y i n g b u a a.e d u.c n.陈晓峰,博士研究生,主要研究领域为区块链、联邦学习.张一余,硕士研究生,主要研究领域为联邦学习、隐私计算.王玮,硕士研究生,主要研究领域为隐私计算.邓煌昊,硕士研究生,主要研究领域为联邦学习.段培,硕士,主要研究领域为机器学习、数据挖掘.陈培炫,硕士,主要研究领域为分布式计算、机器学习.联邦学习系统攻击与防御技术研究综述高莹1),2),3),4)陈晓峰2)张一余2)王玮2)邓煌昊2)段培5)陈培炫5)1)(贵州大学公共大数据国家重点实验室贵阳 5 5 0 0 2 5)2)(北京航空航天大学网络空间安全学院北京 1 0 0 1

3、9 1)3)(空天网络安全工业和信息化部重点实验室北京 1 0 0 1 9 1)4)(中关村实验室北京 1 0 0 0 9 4)5)(腾讯公司广东深圳 5 1 8 0 5 4)摘要联邦学习作为一种使用分布式训练数据集构建机器学习模型的新兴技术,可有效解决不同数据用户之间因联合建模而导致的本地数据隐私泄露问题,从而被广泛应用于多个领域并得到迅速发展.然而,现有的联邦学习系统已被证实在数据收集阶段、训练阶段和推理阶段都存在潜在威胁,危及数据的隐私性和系统的鲁棒性.本文从安全威胁和隐私威胁两类潜在威胁入手,围绕机密性、完整性和可用性(C I A三元组)给出了联邦学习场景中安全属性的详细定

4、义,并对联邦学习中各类攻击方式和防御手段进行了系统全面综述.首先,本文对横向、纵向联邦学习过程,以及潜在威胁分别进行了概述,并从对抗性攻击和非对抗性攻击两个角度,分析了投毒攻击、对抗样本攻击和推理攻击等常见攻击的基本概念、实施阶段和现有方案.进一步地,依据不同的攻击方式,将防御手段划分为鲁棒性提升方法和隐私性增强技术两类:鲁棒性提升方法主要防御系统遭受的对抗性攻击,包括数据消毒、鲁棒性聚合、异常检测、对抗训练、知识蒸馏和剪枝等,隐私性增强技术主要防御系统遭受的非对抗性攻击,包括同态加密、安全多方计算、差分隐私和区块链等.最后,本文给出了联邦学习中鲁棒性和隐私性方面的未来研究方向.关键词联邦学

5、习;安全威胁;隐私威胁;鲁棒性提升方法;隐私性增强技术中图法分类号T P 1 8 1 D O I号1 0.1 1 8 9 7/S P.J.1 0 1 6.2 0 2 3.0 1 7 8 1A S u r v e y o f A t t a c k a n d D e f e n s e T e c h n i q u e s f o r F e d e r a t e d L e a r n i n g S y s t e m sGAO Y i n g1),2),3),4)CHE N X i a o-F e n g2)Z HANG Y i-Y u2)WANG W e i2)D E NG H u

6、 a n g-H a o2)DUAN P e i5)CHE N P e i-X u a n5)1)(S t a t e K e y L a b o r a t o r y o f P u b l i c B i g D a t a,G u i z h o u U n i v e r s i t y,G u i y a n g 5 5 0 0 2 5)2)(S c h o o l o f C y b e r S c i e n c e a n d T e c h n o l o g y,B e i h a n g U n i v e r s i t y,B e i j i n g 1 0 0 1

7、 9 1)3)(K e y L a b o r a t o r y o f A e r o s p a c e N e t w o r k S e c u r i t y,M i n i s t r y o f I n d u s t r y a n d I n f o r m a t i o n T e c h n o l o g y,B e i j i n g 1 0 0 1 9 1)4)(Z h o n g g u a n c u n L a b o r a t o r y,B e i j i n g 1 0 0 0 9 4)5)(T e n c e n t I n c,S h e n

8、z h e n,G u a n g d o n g 5 1 8 0 5 4)A b s t r a c t A s a n e m e r g i n g t e c h n o l o g y o f b u i l d i n g m a c h i n e l e a r n i n g(ML)m o d e l u s i n g d i s t r i b u t e d t r a i n i n g d a t a s e t s,f e d e r a t e d l e a r n i n g(F L)c a n e f f e c t i v e l y s o l v e

9、 t h e p r o b l e m o f l o c a l d a t a p r i v a c y d i s c l o s u r e c a u s e d b y j o i n t m o d e l i n g b e t w e e n d i f f e r e n t d a t a o w n e r s.T h e r e f o r e,i t i s w i d e l y u s e d i n m a n y f i e l d s a n d h a s d e v e l o p e d r a p i d l y.F L k e e p s t

10、 h e d a t a o f p a r t i c i p a n t s l o c a l a n d o n l y u p l o a d s m o d e l p a r a m e t e r s t o t h e s e r v e r,w h i c h e f f e c t i v e l y p r o t e c t s t h e p r i v a c y o f l o c a l d a t a.H o w e v e r,t h e e x i s t i n g F L s y s t e m s h a v e b e e n p r o v e

11、 d t o h a v e p o t e n t i a l t h r e a t s i n t h e d a t a c o l l e c t i o n s t a g e,t r a i n i n g s t a g e a n d i n f e r e n c e s t a g e,w h i c h e n d a n g e r t h e p r i v a c y o f d a t a a n d t h e r o b u s t n e s s o f t h e s y s t e m.I n t h e d a t a c o l l e c t i

12、 o n s t a g e a n d t r a i n i n g s t a g e,a t t a c k e r s m a y p o i s o n t h e t r a i n i n g d a t a o r t h e m o d e l,t h e r e b y e n d a n g e r i n g t h e s e c u r i t y o f t h e s y s t e m.I n t h e i n f e r e n c e s t a g e,a t t a c k e r s m a y i n p u t s a m p l e s t

13、 o a d d m i n o r m a l i c i o u s p e r t u r b a t i o n s,c a u s i n g t h e c l a s s i f i e r t o i n c o r r e c t l y c l a s s i f y t h e s a m p l e p r o c e s s w i t h a v e r y h i g h p r o b a b i l i t y,w h i c h w i l l l e a d t o p r i v a c y d i s c l o s u r e.M o s t o f

14、 t h e e x i s t i n g r e s e a r c h w o r k d e s c r i b e s a t t a c k a n d d e f e n s e m e t h o d s i n ML,w h i c h a r e n o t n e c e s s a r i l y a p p l i c a b l e t o F L m o d e l s,a n d o n l y f o c u s s e s o n a f e w a t t a c k t h r e a t s a n d t r a d i t i o n a l d

15、e f e n s e s,l a c-k i n g a d e t a i l e d a n d c o m p r e h e n s i v e o v e r v i e w o f t h e c u t t i n g-e d g e d e f e n s e s.S t a r t i n g w i t h t w o k i n d s o f p o t e n t i a l t h r e a t s:s e c u r i t y t h r e a t a n d p r i v a c y t h r e a t,w e g i v e a d e t a

16、i l e d d e f i n i t i o n o f s e c u r i t y a t-t r i b u t e s i n F L s c e n a r i o s a r o u n d c o n f i d e n t i a l i t y,i n t e g r i t y a n d a v a i l a b i l i t y(C I A t r i p l e t),a n d s u m-m a r i z e v a r i o u s a t t a c k m e t h o d s a n d d e f e n s e m e a n s i

17、 n F L s y s t e m a t i c a l l y a n d c o m p r e h e n s i v e l y.F i r s t l y,w e s u mm a r i z e t h e h o r i z o n t a l a n d v e r t i c a l f e d e r a t e d l e a r n i n g(V F L)p r o c e s s a n d p o t e n t i a l t h r e a t s r e s p e c t i v e l y,a n d a n a l y z e t h e b a

18、s i c c o n c e p t s,i m p l e m e n t a t i o n s t a g e s a n d e x i s t i n g s c h e m e s o f c o mm o n a t t a c k s s u c h a s p o i s o n i n g a t t a c k,s a m p l e a t t a c k a n d i n f e r e n c e a t t a c k f r o m t h e p e r s p e c-t i v e s o f a n t a g o n i s t i c a t t

19、 a c k a n d n o n-a n t a g o n i s t i c a t t a c k.A d v e r s a r i a l a t t a c k s i n c l u d e p o i s o n i n g a t-t a c k s,a d v e r s a r i a l s a m p l e a t t a c k s,f r e e-r i d i n g a t t a c k s,S y b i l a t t a c k s,a n d a t t a c k s a g a i n s t c o mm u-n i c a t i o

20、n b o t t l e n e c k s.N o n-a d v e r s a r i a l a t t a c k s i n c l u d e m o d e l e x t r a c t i o n a t t a c k s,i n f e r e n c e a t t a c k s,a n d GAN-b a s e d a t t a c k s.F u r t h e r,a c c o r d i n g t o d i f f e r e n t a t t a c k m e t h o d s,d e f e n s e m e a n s a r e

21、d i-v i d e d i n t o t w o c a t e g o r i e s:r o b u s t n e s s e n h a n c e m e n t m e t h o d s a n d p r i v a c y e n h a n c i n g t e c h n o l o g i e s.T h e r o b u s t n e s s e n h a n c e m e n t m e t h o d s m a i n l y d e f e n d a g a i n s t a n t a g o n i s t i c a t t a c

22、k s,i n c l u d i n g d a t a s a n i t i z a t i o n,r o b u s t n e s s a g g r e g a t i o n,a n o m a l y d e t e c t i o n,c o u n t e r m e a s u r e t r a i n i n g,k n o w l e d g e d i s t i l l a t i o n,p r u n i n g a n d o t h e r m e t h o d s.T h e p r i v a c y e n h a n c i n g t e

23、c h n o l o g y m a i n l y d e f e n d s t h e s y s t e m a g a i n s t n o n-a n t a g o n i s t i c a t t a c k s,i n c l u d i n g h o m o m o r p h i c e n c r y p t i o n,s e c u r e m u l t i-p a r t y c o m p u t i n g,d i f f e r e n t i a l p r i v a c y a n d b l o c k c h a i n.A n d t

24、h e s c h e m e s r e l a t e d t o r o b u s t n e s s e n h a n c e-m e n t m e t h o d s a n d p r i v a c y e n h a n c e m e n t t e c h n i q u e s i n F L a r e s o r t e d o u t a n d s u mm a r i z e d.F i n a l-l y,t h e p a p e r g i v e s f u t u r e r e s e a r c h d i r e c t i o n o f

25、 r o b u s t n e s s a n d p r i v a c y i n F L:(1)E s t a b l i s h a s e-c u r e a n d s t a b l e a t t a c k d e t e c t i o n a n d e v a l u a t i o n m o d e l,e n d o w F L s y s t e m w i t h s e l f i n s p e c t i o n a n d e v a l u a t i o n c a p a b i l i t i e s,a n d p r o v i d e

26、r e a l-t i m e p r o t e c t i o n f o r i n t e r n a l a n d e x t e r n a l e n v i r o n m e n t s;(2)A n a l y z e a n d i n f e r a l l p o s s i b l e p o t e n t i a l a t t a c k s a n d p r i v a c y i s s u e s,a n d b u i l d a p e r f e c t s e c u r i t y a t t a c k a n d d e f e n s

27、 e s y s t e m b a s e d o n s e c u r i t y e n c r y p t i o n t e c h n o l o g y;(3)S t u d y t h e u n i q u e a t t a c k a n d d e f e n s e i n V F L t o s o l v e t h e b o t t l e n e c k p r o b l e m o f V F L i n p r a c t i c a l a p p l i c a t i o n;(4)E x p l o r e t h e c o n f l i

28、 c t b e t w e e n r o b u s t n e s s a n d p r i v a c y i n F L t o p r o m o t e l a r g e-s c a l e a p p l i c a t i o n s.K e y w o r d s f e d e r a t e d l e a r n i n g;s e c u r i t y t h r e a t s;p r i v a c y t h r e a t s;r o b u s t n e s s e n h a n c e m e n t m e t h-o d;p r i v a

29、 c y e n h a n c i n g t e c h n o l o g y1 引言人工智能已成为引领新一代产业变革的新兴技术,尤其对应用创新、企业转型及社会发展有着重大影响,已经上升到国家战略层面.作为人工智能核心技术的机器学习却面临着隐私威胁和信任危机等问题1,迫使各个用户将数据存储在本地,彼此之间难以流通,形成了“数据孤岛”.数据孤岛问题阻碍了多个用户进行有效的数据合作,导致数据的潜在价值难以发挥.此外,数据孤岛中非同源的数据之间相互关联但又存在较大差异,致使这些数据呈现非独立同分布(N o n-I n d e p e n d e n t a n d I d e n t i c

30、 a l l y D i s t r i b u-t e d,NON-I I D),为释放数据潜在价值带来了新的挑战.联邦学习(F e d e r a t e d L e a r n i n g,F L)2-4作为机器学习技术的新分支,能满足在隐私数据不出本地的前提下,在多个用户之间进行高效率的联合建模、模型训练,充分释放数据潜在价值,近年来已被广泛2871计算机学报2 0 2 3年应用于键盘预测5、安全检测6-7和信号识别8等.虽然联邦学习能一定程度解决本地数据的隐私问题,但在模型参数共享、模型聚合时又会给攻击者带来新的可乘之机,如联邦学习的梯度会泄露用户数据或学习过程的隐私信息9-

31、1 1,攻击者会对训练数据或局部模型进行投毒1 2或在输入样本中加入恶意扰动1 3,从而危害系统的安全性.针对不同目标、不同程度和不同类型的攻击威胁,联邦学习系统往往需要预先制定好相对应的防御策略,以增强系统的鲁棒性和隐私性.目前,国内外已有许多联邦学习相关的研究,例如,Y i n等1 4面向隐私保护的联邦学习进行了全面的综述,A b d u l r a h m a n等1 5详细阐述了联邦学习面临的主要技术挑战,但他们都未进一步区分安全威胁和隐私威胁的差异.在联邦学习安全与隐私保护的综述1 6-1 8中,分别探讨了安全和隐私方面面临的挑战,但在鲁棒性和隐私性防御手段方面没有展开分析与总结.H

32、 e等1 9分析了深度学习中与安全威胁相关的四种攻击,通过定量和定性分析这些攻击方法的敌手能力和攻击目标,总结出这些方法的优缺点,并讨论了其他的安全弱点和可能的防御措施.但提到的攻击威胁在联邦学习模型中不一定具有同等的攻击效果,防御措施在联邦学习模型中也可能受到限制.L y u等2 0-2 1提供了一种独特的威胁模型分类方法,侧重介绍联邦学习中的安全与隐私问题,强调了隐私保护的重要性.但该篇文章只重点介绍了投毒攻击和推理攻击两种攻击威胁,对防御措施缺乏详细的梳理与分析.2 0 2 1年,M o t h u k u r i等2 2针对联邦学习中的安全和隐私问题,以及相应的防御措施做出了系统性综述

33、.但该篇文章中阐述的防御手段都是较为传统的方法,缺少对前沿创新性工作的介绍,如联邦学习结合同态加密、差分隐私、安全多方计算和区块链等隐私增强技术.对比以上这些综述,本文在文章架构、分析方法和侧重点上都有所不同.本文更详细且全面地梳理了联邦学习中的安全威胁和隐私威胁,系统地对攻击手段与防御手段进行了分类与剖析,侧重分析了最前沿的联邦学习与密码技术相结合的隐私保护方案,并进一步讨论了横向和纵向联邦学习中攻击手段的区别,以及在此基础上为后续研究者提供了具有发展前景的研究方向.本文的组织结构安排如下.第2节对联邦学习和其潜在威胁进行概述;第3节详细地介绍了几种常见攻击的分类和研究进展;第4节在已有的攻

34、击手段和研究成果基础上,从鲁棒性和隐私性两个角度对提升手段进行了具体分析;第5节讨论了联邦学习未来研究发展趋势;最后,在第6节总结全文.2 联邦学习中的潜在威胁2.1 联邦学习概述联邦学习是一种以分布式方式训练模型的机器学习技术,其主要思想是确保参与方的数据保留在本地,而将训练的模型进一步上传和聚合到服务器.后续学习过程仅使用模型进行训练,保护了参与方的数据隐私,从而保护了数据安全.在用户数据集中的训练样本中包含多个特征数据,其中选择一个或多个能够将不同训练样本区分开来的特征作为样本的标识符,即样本I D.在联邦学习场景下,每个数据集的组织和使用形式存在差异,其特征和样本I D可能存在差异.

35、联邦学习根据不同数据分布方式可分为横向联邦学习(H o r i z o n-t a l F e d e r a t e d L e a r n i n g,H F L)、纵向联邦学习(V e r-t i c a l F e d e r a t e d L e a r n i n g,V F L)和迁移联邦学习(F e d e r a t e d T r a n s f e r L e a r n i n g,F T L)三种类型.依照传统机器学习过程的划分,联邦学习可以分为三个阶段:数据收集阶段、训练阶段和推理阶段.联邦学习在这三个阶段都具有新的特点.(1)数据收集阶段:指训练模型

36、所需要的数据准备过程.在传统机器学习中需要对每个用户的数据进行集中收集,为模型训练做准备.而在联邦学习中,数据集不会离开本地,具体为本地的数据收集、用户之间数据格式的协商等准备过程.(2)模型训练阶段:指利用这些数据集执行机器学习训练算法,挖掘数据的潜在价值,迭代训练一定轮次后直至收敛的过程.在联邦学习中,由于数据集的分布式划分以及隐私性要求,需要使用特定的模型训练算法.(3)推理阶段:指把训练好的模型部署在具体的应用场景中,输入真实样本进行预测的过程.在横向联邦学习中这一阶段和传统机器学习没有太大差异,但是在纵向联邦学习场景中,由于每个用户只拥有一部分模型,推理阶段需要用户之间的合作才能完成

37、推理过程.目前常用的联邦学习开源项目包括G o o g l e的T e n s o r F l o w、微众银行的F AT E、百度的P a d d l e-38719 期高莹等:联邦学习系统攻击与防御技术研究综述 T e n s o r F l o w:A n e n d-t o-e n d o p e n s o u r c e m a c h i n e l e a r n i n g p l a t f o r m.h t t p s:/w w w.t e n s o r f l o w.o r g.F A T E:工业级联邦学习框架.h t t p s:/f a t e.f e d

38、 a i.o r g/.F L以及O p e n M i n d e d的P y S y f t等.其中,G o o g l e的T e n s o r F l o w应用最早,他们在数据不离开每个用户本地的情况下训练了一个循环神经网络模型,之后又将联邦学习操作进一步封装,发布了专门为联邦学习开发的框架T e n s o r F l o w F e d e r a t e d(T F F),并提供了一组高级接口可以方便程序员实现基于联邦平均的H F L算法.微众银行的F AT E是首个工业级联邦学习框架,使用安全多方计算和同态加密等技术构建底层安全计算协议,可以支持

39、逻辑回归、树模型和深度学习等多种机器学习算法,与T F F相比其封装程度更高,可以在多方部署后直接开始训练.P a d d l e F L是基于百度的深度学习框架P a d d l e开发的联邦学习框架,提供了多种联邦学习策略,支持基于安全多方计算的纵向逻辑回归和神经网络的安全训练与推理,也支持基于安全聚合的H F L与经典的基于联邦平均和异步随机梯度下降的H F L,但不支持树模型.P y S y f t是第一个隐私保护深度学习框架,基于P y T o r c h开发,可以方便地实现联邦深度学习并基于安全多方计算和差分隐私提供隐私保护.图1 联邦学习过程的三个阶段及潜在威胁2.2 联邦学习

40、的安全属性本节从机密性(C o n f i d e n t i a l i t y)、完整性(I n t e g-r i t y)和可用性(A v a i l a b i l i t y)安全三元组2 3(简称C I A三元组)的角度给出了联邦学习场景中安全属性的概念.(1)联邦学习的完整性:依照数据收集和模型训练两个不同阶段可以进一步划分为数据集完整性和训练过程完整性.数据集完整性是指联邦学习中用户的数据始终是良性的、未被篡改的2 4.训练过程完整性是指服务器、用户等参与方都严格地按照联邦学习协议执行算法2 5.(2)联邦学习的可用性:根据模型训练和推理阶段可以进一步划分为训练可用性和模型

41、可用性.训练可用性是指能够在预计时间内完成模型的训练,其包含两个方面:一是收敛性,指模型能够在经过可接受的训练轮数内达到收敛状态;二是合作公平性,是联邦学习场景中特有的,指用户能够依据自身的贡献获得公平的补偿2 6.模型可用性是指在推理阶段模型部署后的准确性和公平性,其中公平性是指保证训练的模型不会对某些属性存在潜在的歧视性2 7.(3)联邦学习的机密性:机密性是指本地数据、全局模型等敏感信息不会泄露给非授权的用户.另外,机密性还保证了用户不会因为网络不稳定、设备问题被动退出工作流后,导致本地梯度的机密性泄露2 8.2.3 潜在威胁根据对安全属性的不同影响,本文将联邦学习中存在的潜在威胁划分

42、为两大类,即安全威胁和隐私威胁.安全威胁会破坏联邦学习中的完整性和可用性,对联邦学习造成安全威胁的攻击称为对抗性攻击,其主要目的是干扰联邦学习训练或推理过程,影响联邦学习训练时的收敛速度或推理结果.隐私 4871计算机学报2 0 2 3年百度飞桨r e l e a s e n o t e.h t t p s:/w w w.p a d d l e p a d d l e.o r g.c n/.O p e n M i n d e d.S y f t.h t t p s:/p y p i.o r g/p r o j e c t/s y f t/.T F F.h t t p s:/t e n

43、 s o r f l o w.g o o g l e.c n/f e d e r a t e d/f e d e r a t e d_l e a r n i n g.威胁会破坏联邦学习中的机密性,对联邦学习造成隐私威胁的攻击称为非对抗性攻击,其主要目的是试图从联邦学习各个阶段获取隐私信息或其它好处,但不会破坏模型训练和推理过程.在联邦学习的不同阶段会受到不同的安全威胁和隐私威胁.在数据收集阶段,受到的安全威胁包括数据投毒攻击(D a t a P o i s o n i n g A t t a c k)、女巫攻击(S y b i l A t t a c k)和搭便车攻击(F r e e

44、-r i d i n g A t-t a c k s),隐私威胁为样本I D隐私泄露.在训练阶段,受到的安全威胁包括模型投毒攻击(M o d e l P o i s o n-i n g A t t a c k)、针对通信瓶颈(C o mm u n i c a t i o n B o t t l e-n e c k s)的攻击和搭便车攻击,隐私威胁为推理攻击(I n f e r e n c e A t t a c k).在推理阶段,会受到的安全威胁包括对抗样本攻击,隐私威胁包括模型提取攻击(M o d e l E x t r a c t i o n A t t a c k)和推理攻击.联邦学习过

45、程的三个阶段及潜在威胁如图1所示.3 联邦学习中的攻击手段3.1 对抗性攻击3.1.1 投毒攻击机器学习中的投毒攻击2 9-3 0是指攻击者通过控制和操纵部分训练数据或模型来破坏学习过程.而联邦学习中每个用户都拥有一个数据集,内部的恶意攻击者可以轻易地对数据集、训练过程和模型进行篡改,实现降低模型性能、插入后门等一系列攻击效果.投毒攻击是联邦学习中应用最广泛、研究最深入的攻击.通常,投毒攻击按照攻击方式的不同可以分为数据投毒和模型投毒,而根据攻击目标的不同可以分为拜占庭攻击(即非定向投毒攻击)和后门攻击(即定向投毒攻击).(1)按攻击方式划分数据投毒:攻击者破坏训练数据集的完整性,通过渗入恶

46、意数据以降低数据集质量或有目的的毒害数据.数据投毒根据对数据集标签的不同操作分为脏标签攻击(D i r t y-l a b e l A t t a c k)3 1和清洁标签攻击(C l e a n-l a b e l A t t a c k)3 2.脏标签攻击会篡改数据集的标签,如常见的标签翻转攻击3 3,而清洁标签攻击不篡改标签,仅对数据进行处理生成新的样本.联邦学习中由于数据不出本地,只有模型作为信息载体,因此基本不考虑数据投毒的不可感知性,从而数据投毒攻击主要是更加简便有效的脏标签攻击.模型投毒:攻击者破坏训练过程完整性,通过完全控制部分用户的训练阶段,对上传的局部模型进行篡改,实现对全

47、局模型的操纵.常见的攻击手段是通过提升(B o o s t i n g)恶意更新来加强攻击效果3 4.为了增强提升的隐蔽性,B h a g o j i等3 5还将提升过程转化为一个基于交替最小化找到合适的提升值优化问题,使有毒更新与正常更新难以区分.此外,还有其他实现更强隐蔽性和更高成功率的模型投毒攻击3 6和针对服务器先进防御聚合机制的隐蔽模型投毒攻击3 7等研究.虽然数据投毒和模型投毒两种攻击方式都对模型训练产生影响,但单一的数据投毒相较模型投毒表现不佳,是因为数据投毒本质上与模型投毒同样会修改局部模型的更新权重,而后者可以针对联邦学习聚合等特性实施针对性的攻击.(2)按攻击目标划分拜占

48、庭攻击:攻击者试图破坏训练可用性和模型可用性,使其无法收敛或无法在主要训练任务中达到最优性能,并且不针对任何特定的用户或数据样本.在联邦学习中,通过发送恶意更新和其他良性更新的线性组合能实现拒绝服务攻击3 8,但此类简单的攻击很容易被检测和过滤.文献3 9 则表明更新中轻微的扰动就能够实现投毒攻击的效果,并且规避基于幅度的防御策略.已知聚合规则的攻击者可以针对性地实施更具破坏性的拜占庭攻击,并且服务器为了吸引用户或满足用户的知情权,其聚合规则常常是透明公开的.文献4 0 提出了局部模型投毒攻击(L o c a l M o d e l P o i s o n i n g A t t a c k)

49、,在已知聚合规则的情况下,攻击者将构造恶意更新转化为在聚合规则下全局更新偏移值的优化问题.同样通过优化实现拜占庭攻击,文献4 1 使用了最优比例系数和已优化数据集的扰动向量p对恶意梯度进行微调并在结果中找到近似的最大值,实现更好的攻击效果.但文献4 0 的方案在一轮迭代中就能完成优化过程,而文献4 1 需要数十次的聚合迭代.当前,V F L中拜占庭攻击的相关研究还很少,由于模型被用户分割,数据投毒和模型投毒的隐蔽性更强、危害更大,是一个值得深入研究的方向.后门攻击:又叫木马攻击(T r o j a n A t t a c k).攻击者试图使模型在某些目标任务上实现特定表现,同时保持模型在主要任

50、务上的良好性能4 2.不同于拜占庭攻击由于会降低主要任务的总体性能易被检测,后门攻击更难被检测,这是因为攻击目的通常是未知的,难以确定检测标准.后门攻击可以通过58719 期高莹等:联邦学习系统攻击与防御技术研究综述数据投毒和模型投毒来实现,其在缺乏防御时的表现在很大程度上取决于当前敌手的比例和目标任务的复杂性.此外,相同的后门触发条件可能导致不同标签的样本错误分类,这不同于后文的对抗样本攻击只对特定修改后的图像进行错误分类,不会影响到其他图像样本.目前,后门攻击在机器学习中已有广泛的应用,包括基于深度神经网络(D e e p N e u r a l N e t w o r k s,D NN

展开阅读全文