联邦学习技术金融应用白皮书.pdf

资源描述

联邦学习技术金融应用白皮书北京金融科技产业联盟 2022 年 3 月编制委员会主编：潘润红编委会成员：何军刘承岩聂丽琴编写组成员：强锋魏博言薛雨杉李宏宇黄翠婷昌文婷陈天健李克鹏姚明何浩王湾湾李晶晶李博卞阳方竞袁鹏程赵原王磊王云河陈琨靳晨范涛刘筠璨吴博峰赵伟郝洁彭宇翔孟丹张明明毛仁歆郭超王超金银玉单进勇蔡超超王雪李武璐霍昱光王健宗黄章成卢春曦陈嘉俊张敬之曹旭涛窦永金许海洋陈浩孙赞美刘站奇张雄薛瑞东陈剑傅跃兵傅杰葛明嵩焦惠芸倪裕芳王铀之王煜惠王光中杨波邱晓慧胡师阳张育涵张垚牛博强何东杰周雍恺王琪张晓武胡祎波陈浩栋宋雨筱张亚申陈鑫蒋嘉琦贾雪丽樊昕晔朱德立唐剑飞夏正勋杨一帆陈凯张骏雪张健哲曹伟郭铸王润元徐安滢陈俊郭林车春雷赵亚敏谢晨浩郑晓娟谢宗晓黄雅琼张子怡张姗姗高志民王锐源孙中伟袁晨夏家骏段兵林凡解浚源主审：黄本涛刘宝龙统稿：郭栋魏博言参编单位：北京金融科技产业联盟秘书处中国工商银行股份有限公司成方金融信息技术服务有限公司同盾科技有限公司深圳市洞见智慧科技有限公司上海富数科技有限公司蚂蚁科技集团股份有限公司深圳前海微众银行股份有限公司蓝象智联（杭州）科技有限公司北京数牍科技有限公司建信金融科技有限责任公司深圳壹账通智能科技有限公司浙商银行股份有限公司北京国家金融科技认证中心有限公司北京百度网讯科技有限公司腾讯云计算（北京）有限责任公司华控清交信息科技（北京）有限公司北京融数联智科技有限公司招商银行股份有限公司北京瑞莱智慧科技有限公司交通银行股份有限公司北京银联金卡科技有限公司中国民生银行股份有限公司中国银联股份有限公司云从科技集团股份有限公司北京冲量在线科技有限公司度小满科技（北京）有限公司光大科技有限公司星环信息科技（上海）股份有限公司深圳致星科技有限公司中国银行股份有限公司中国农业银行股份有限公司中国建设银行股份有限公司京东科技信息技术公司中金金融认证中心有限公司华为技术有限公司网联清算有限公司上海光之树科技有限公司北京火山引擎科技有限公司联邦学习技术白皮书目录一、研究背景.2（一）概述.3（二）标准情况.6 二、联邦类型.8（一）数据视角.8（二）参与方视角.11（三）架构视角.15（四）建模视角.17 三、联邦学习建模流程.20（一）联邦数据探查.20（二）联邦模型训练.23（三）联邦模型推理.23 四、安全与审计.25（一）安全性分析.25（二）审计功能.34 五、金融应用要求及案例.38（一）应用性能指标.38（二）应用案例.42 六、展望与结论.59 附录:联邦学习算法应用实现.69 联邦学习技术金融应用白皮书 1 名词术语名词术语 1.特征（feature）：数据提供者提供用于训练或计算的指标。2.标签（label）：模型使用者提供的用于训练模型的目标数据。3.联邦算法（federated algorithm）：联邦参与方使用的机器学习算法，一般由非联邦的机器学习算法演化而来。4.联邦模型（federated model）：联邦参与方通过与其它联邦参与方共同训练生成的模型。5.联邦参与方（federated learning participant）：提供联邦学习数据或作为建模发起者的组织或机构。联邦参与方角色有时候亦可分为 Guest 和 Host。Guest:一般是任务的发起方，在纵向联邦的场景中，一般为带有标签 Y 的一方，除了提供数据样本和标签外，还会负责任务的发起和主要调度等。Host:也是数据提供方之一，纵向联邦场景中，一般是没有标签的一方，仅提供数据和协同训练推理 6.联邦协调方（federated learning coordinator）：为联邦参与方的活动提供协调、辅助等支撑功能的组织或机构，主要完成联邦过程中的辅助计算，不存储数据，有时候也成为 Arbiter。联邦学习技术金融应用白皮书 2 一、研究背景近年来，数字经济蓬勃发展，已经成为带动中国经济增长的核心动力。2020 年 4 月，中共中央国务院发布了关于构建更加完善的要素市场化配置体制机制的意见，首次将数据与土地、劳动力、资本、技术等传统要素并列为生产要素。2021 年 12 月，中国人民银行发布金融科技发展规划（20222025 年）明确提出从强化数据能力建设、推动数据有序共享、深化数据综合应用、做好数据安全保护方面充分释放数据要素潜能。数字经济时代，数据成为新的关键生产要素，成为了社会基础性战略资源，蕴藏着巨大潜力和能量，必将成为提升金融行业赋能实体经济的有力抓手。随着大数据技术的快速发展，人们每天的活动产生了大量的数据，这些数据被众多的企业收集和使用，数据在空间和时间里面流动产生了价值。在价值产生的过程中，需要对数据进行保护。但是数据往往分布在不同的企业、机构，形成了一个个数据“孤岛”。例如，在机构间，尤其政府部门，很多数据没有充分共享。又比如银行和税务，希望通过“银税合作”来获取客户的风险评估信息。在企业内部也是如此，集团化的企业公司越来越大，子公司、分公司，就连部门内部的系统都可能是自己分别开发的，数据之间完全孤立。为了挖掘数据中蕴藏的巨大价值，消除行业数据孤岛现象，让数据相互之间协作起来，必然是未来发展趋势。联邦学习技术金融应用白皮书 3 数据在为人们的生活带来了种种便利的同时，也使得大家对于个人的数据隐私和安全产生了担忧，这俨然已经成为世界性的问题。各国针对这个情况，纷纷立法进行规范，例如：欧盟提出了通用数据保护条例(General Data Protection Regulation,GDPR)，该法案已于 2018 年起正式生效；我国也在近几年陆续颁布了中华人民共和国数据安全法和中华人民共和国个人信息保护)等法令法规，用以加强数据监管和隐私保护。可见，对用户数据隐私和安全管理的日渐收紧已经成为了必然的趋势。这就对企业利用数据开展业务提出了一个挑战。如何才能在遵循法规的要求下，既充分发挥数据的价值，同时又不会影响到用户的数据隐私和安全，尤其是对于依赖外部数据的企业，如何能够利用合作伙伴的数据价值，又不会见到原始数据，造成数据泄露的问题。（一）（一）概述概述针对这一情况，近年来，学术界和工业界都已经开始在数据安全和隐私保护方向进行探索，尤其是在大数据、人工智能和密码学等领域。如何在满足数据隐私、安全和监管的前提下，设计一个机器学习框架，让人工智能能够更高效、更准确的共同使用各方数据成为了研究的核心。联邦学习(federated learning)、多方安全计算(secure multi-party computation，也叫安全多方计算)、知识联邦(knowledge federation)等领域成为学术界联邦学习技术金融应用白皮书 4 和工业界关注的重点，其主要目的是利用多个参与方数据进行安全计算或训练。1.联邦学习的内涵联邦学习，是一个机器学习框架，能有效帮助多个机构在满足用户隐私保护、数据安全和政府法规的要求下，进行数据使用和机器学习建模，能够有效的解决数据孤岛、数据合规性以及两者的冲突，进而达到“数据可用不可见”的目标。联邦学习从名字上看，有两个明晰的主题：学习和联邦。什么是学习？这个概念源自于我们谈论的数据和信息。数据一般被认为是原始素材，客观描述事物的数量、属性、位置等关系。信息则是经过加工处理之后、具有逻辑关系的数据，通常会是对决策有价值。学习的内容是知识，知识则更多是在信息上再进一步归纳演绎之后，沉淀下来的有价值的信息。通常情况下，学习到的知识被认为是与决策有关的。从学习到联邦，其最终目的是希望通过一种安全的方式解决数据孤岛现象，达到“数据可用不可见”的目标。在联邦学习里，联邦本质上是一种安全协议下的数据交换共享，目的是有效利用各参与方的数据来进行知识的共创、共享和推理。联邦学习技术金融应用白皮书 5 2.联邦学习的外延联邦学习与很多技术有一定关系，比如可信执行环境、密码学、隐私计算。例如，可信执行环境是一种芯片级的硬件安全计算技术，联邦学习可以依靠这种方式来实现更高的硬件层面的安全性能。如表 1 所示，列举了在联邦学习中涉及到的密码学相关技术和算法。表 1.联邦学习中涉及的密码学相关技术相关技术方法同态加密算法联邦学习常使用的加法同态加密算法是 Paillier 算法1、EC-ElGamal 算法。密钥交换协议联邦学习常使用 Diffile-Hellman 进行密钥交换2。安全伪随机数生成算法 NIST.SP.800-90 标准中规定了四种安全伪随机数生成算法 Hash_DRBG，HMAC_DRBG，CTR_DRBG 和Dual_EC_DRBG。联邦学习常使用 HMAC_DRBG 算法3。一次一密算法联邦学习使用一次一密算法时，先将待加密的数值转换为整数，然后与密钥相加或相减，解密时需要再将整数转换为浮点数。由于密钥需要参与方在线生成，所以一次一密通常要调用密钥交换协议和安全伪随机生成算法。格式保留加密算法联邦学习常使用 NIST.SP.800-38G 标准中的 AES-FF1 算法4。OT 协议（不经意传输）联邦学习常采用的 1-n 的 OT 协议方法参考文献5。联邦学习技术金融应用白皮书 6 3.数据可用不可见数据可用不可见，即充分利用各方的数据，让数据保持对外开放，同时能够让数据不直接共享，不离开机构或个人。为了实现“数据可用不可见”这个目标，传统的中心化计算模式，也就是大数据经常会做的中心化聚集，把数据存储聚集再做训练，已经不能满足合规性的要求。中心化不可行，那就让数据分散在各个机构中，采用分布式或者去中心化方式计算或学习。原始数据直接共享不可行，我们可以采用两种方式，第一种方式是对数据进行加密，加密后也不破坏原始数据的统计特征。第二种方式，参与计算的原始数据均不出域，只在自己的节点内部进行计算，模型训练交互的只是中间的计算结果。从而达到数据不出门，保护用户隐私数据，同时能够完成联合建模，打破数据壁垒，实现数据的可用不可见。需要注意的是，“数据可用不可见”并不等同于个人信息告知同意，也就是说当我们在使用联邦学习进行学习任务时。当触及到敏感个人隐私数据的时候，依然要确保获得个人信息主体对其信息进行特定处理的授权同意或明示同意。（二）（二）标准情况标准情况国际上，现有联邦学习标准有：联邦学习技术金融应用白皮书 7 IEEE发布的IEEE/P3652.1-2020：IEEE Guide for Architectural Framework and Application of Federated Machine Learning，联邦学习基础架构与应用指南国内，现有联邦学习标准主要为团体标准。由中国信息通信研究院发布的基于联邦学习的数据流通产品技术要求与测试方法（BDC 41-2020）；由中国人工智能开源软件发展联盟发布的信息技术服务联邦学习参考架构（AIOSS-03-2019）；由中关村金融科技产业发展联盟发布的联邦学习金融行业应用指南（T/ZFIDA0004-2020）。近期，北京金融科技产业联盟推动制定联邦学习金融应用技术规范，将从联邦学习的系统技术框架、功能要求、非功能要求、安全要求方面对联邦学习在金融场景的应用进行技术层面的规范。由于联邦学习不是一个单方应用的技术，而是多方协同运行使用数据的技术。亟需制定行业内的联邦学习技术的应用规范或标准，规范化联邦学习应用流程和数据交换协议。联邦学习技术金融应用白皮书 8 二、联邦类型（一）（一）数据视角数据视角根据参与各方数据源分布的情况不同，联邦学习可以分为横向联邦学习、纵向联邦学习、联邦迁移学习 3 类。1.横向联邦学习在两个数据集的用户特征重叠较多而用户重叠较少的情况下，可将数据集按照横向(即用户维度)切分，并取出双方用户特征相同而用户不完全相同的那部分数据进行训练。这种方法称为横向联邦学习，或跨样本联邦学习，如图 2.1 所示。图 2.1 横向联邦示意图在实际场景中，对业务相同但是分布在不同地区的两家企业而言，用户群体分别来自各自所在的地区，相互的交集很小但业联邦学习技术金融应用白皮书 9 务相似，记录的用户特征项相似度较大。此时，就可以使用横向联邦学习来构建联合模型。2.纵向联邦学习在两个数据集的用户重叠较多而用户特征重叠较少的情况下，可将数据集按照纵向（即特征维度）切分，并取出双方用户相同而用户特征不完全相同的那部分数据进行训练。这种方法称为纵向联邦学习，或跨特征联邦学习，如图 2.2 所示。图 2.2 纵向联邦示意图目前金融机构中的联邦学习，纵向联邦学习较为普遍。例如，在银行与某运营商之间的用户群体交集较大，但是，由于银行记录的都是用户的收支行为与信用评级，而运营商则具有用户的通信行为和网络行为，因此两者的用户特征交集较小。纵向联邦学习就是将这些不同特征在加密的状态下加以聚合，以增强模型能力的联邦学习。联邦学习技术金融应用白皮书 10 3.联邦迁移学习在两个数据集的用户与用户特征重叠都较少的情况下，不对数据进行切分，而利用迁移学习技术来克服数据或标签不足的情况。这种方法称为联邦迁移学习，或复合型联邦学习，如图 2.3。图 2.3 联邦迁移学习示意图在机构间合作中，纵向联邦会更常见，因为各家机构间特征互补可对业务形成更全面的试图。尤其是有些发起方在业务实践中积累了一些标签和少量特征，需要更多外部特征才能得到理想模型。此时不仅仅要保证特征数据的安全，还要防止标签数据的泄漏。而且由于模型需要用多方数据才能训练，模型推理时也同样需要多方数据才能完成，这也就意味着纵向联邦在生产环境还需要联邦推理。联邦学习技术金融应用白皮书 11 而横向联邦往往发生在同业或个体之间。尽管由于行业竞争的原因，很多大型机构不愿与同业进行联邦，但是很多中小型机构迫于生存压力期待加入联邦来提升行业竞争力。跨样本联邦中，由于用户特征数据和标签都是在同一个参与方内，可以直接在内部计算或训练，因此安全问题主要集中在模型汇集和更新中。此外，横向联邦的模型推理过程无需多方参与，因此不存在类似于纵向联邦推理的安全问题。（二）（二）参与方视角参与方视角在实际应用中至少有两个参与方才能组成联邦，联邦中是否需要有协调方取决于联邦架构设计模式。在联邦学习中，主要由以下角色协作完成联邦学习任务。（1）数据方数据方需通过 CA 认证方进行认证，以保证数据的真实性与正确性。通过认证的数据方可对外发布数据资源。其他跨平台参与节点经授权后，可发现这些由获得可信认证的数据方发布的数据，并通过授权申请参与到跨平台的联邦学习任务。（2）算法方算法方提供的算法以算法组件和算法描述的形式输出。算法组件是满足互联互通标准定义下可执行代码，包括计算逻辑和算法参数，算法描述，包括算法的版本号以及兼容性说明，描述可以运行的计算环境、依赖的底层算子、适用的场景和兼容的版本联邦学习技术金融应用白皮书 12 信息等。算法组件在兼容性上要满足算法组件的热插拔和算法组件的管理能力，根据算法交换协议，可以在不同联邦学习系统中迁移和部署算法组件。算法方提供的算法应获得安全性认证，通过认证后的算法可通过热插拔组件的方式在跨联邦学习平台部署。部署在不同联邦学习平台的相同算法组件，可通过互联互通管控协议和互联互通计算协议，共同完成跨平台的联邦学习任务。（3）调度方调度方通过调度数据方、计算方、算法方等多个参与角色完成联邦学习任务，在跨联邦学习平台互联互通中，调度方应获得可信第三方的认证，确保调度方的可信性、安全性与正确性。（4）计算方计算方在联邦学习互联互通要求下，应保证可扩展性和兼容性，可执行来自不同平台满足互联互通协议要求的算法组件。计算方应在获取安全认证的基础上执行与其他跨平台参与方的协同计算，确保任务执行过程不会造成隐私数据泄露。（5）结果方结果方获取结果时应通过安全认证确保结果获取的合规性。在进行联邦学习之前，根据互联互通协议约定结果方，整个计算过程应按照约定的要求，只有结果方才能获取计算的最终结果，其它非结果方不能获得结果，也不能通过中间计算过程，计算或推断出最终结果。联邦学习技术金融应用白皮书 13 （6）任务发起方任务发起方应获得可信认证，才可触发跨联邦学习平台的任务。（7）CA 认证方 CA 认证方为联邦学习参与方、节点、算法、平台等提供认证的角色。各方之间进行通信时，需要建立双向的身份认证机制，保证各节点间通信安全的前提下，建立互联关系和访问授权。CA 认证方，需要按照金融业务证书管理（GB/T 27928-2011）和金融电子认证规范（JR/T 0118-2015）中的相关要求，使用自建或由第三方权威机构提供的证书认证中心服务，CA认证方的功能活动包括:（a）支持对证书的有效期、授权对象、秘钥管理、证书签发、证书撤销等操作；（b）对联邦学习中的各个参与方，算法方、数据方、调度方、计算方、结果方、任务发起方等区分不同的角色，并对不同的角色颁发能够区分角色的数字证书，数字证书应与结算标识相关联，并且具备唯一性；（c）对于联邦学习中的各种资源，应分别对不同资源进行授权，比如模型资源、算法资源、数据资源等，数字证书需要标识其资源版本和相关的描述信息。（8）可信存证方联邦学习技术金融应用白皮书 14 在互联互通的联邦学习系统中，作为可信存证方，应获取可信认证。联邦成员中的参与方不仅是联邦需求的提出者，往往也是数据提供者，因此，参与方的数量和质量决定是联邦生态是否能顺利建设和良性发展的关键因素之一。当参与机构（数据提供者）足够多，联邦规模足够大，数据多样性就有保障，也就会吸引更多机构（数据使用者）愿意来使用联邦服务，也会有更多科技型机构（模型和应用开发者）来提供丰富的算法、模型和应用。联邦学习系统的每个实体参与节点可以承担一个或多个角色。联邦学习的任务发起方可以是数据方之一，也可以同时是计算方、协调方、算法方或者结果方。数据方和计算方通常具有多个，分别处于不同的管理域。数据方提供联邦学习参与计算的数据；计算方执行联邦学习过程的计算任务，包括数据接入、结果存储、计算任务管理、计算任务执行、错误处理、运行监控等。算法方提供联邦学习的算法逻辑，可以由独立的算法方提供，也可以由参与计算的各方共同提供。协调方承担联邦学习任务的协调、调度等功能，在某些架构中，甚至包含密钥分发与解密等功能。结果方获取联邦学习的训练结果，通常是任务发起方，同时经协商，也可以是其他的参与方。可信存证方为联邦学习过程的任务、参与计算的数据、计算流程及计算结果等提供存证功能。CA 认证方为联邦学习的参与方和平台的算法等提供安全认证。CA 认证方和可信存证方，可由联邦学习系统的内部节点提供，也可以在联邦学习系统以外，以外部角色参与的联邦学习任务中。联邦学习技术金融应用白皮书 15 （三）（三）架构视角架构视角由于联邦学习通常是解决多数据方之间寻求计算结果的问题，在具体架构中，会根据需要引入可信第三方来作为协调方，承担辅助计算模块，包括提供公私钥分发、加解密等服务，或提供计算能力等，辅助完成既定的学习目标。可信第三方可以承担算法方、调度方、计算方、CA 认证方、可信存证方等参与方中的一种或多种。从具体架构视角，按是否引入可信第三方进行区分，可将联邦学习架构分为无可信第三方模式和有可信第三方模式两种模式，见图 2.4 所示。图 2.4 无可信第三方的架构无可信第三方模式目前有两种技术实现路径：一种基于多方安全计算（MPC）协议，在 MPC 基础算子和函数算子之上实现协同机器学习，达成联邦学习效果；另一种仍保留原有联邦学习算法架构，本地明文计算与基于同态加密或 MPC 协议汇聚计算相结合的模式训练联邦学习模型。联邦学习技术金融应用白皮书 16 图 2.5 有可信第三方的架构如图 2.5 所示，在有可信第三方架构模式中，联邦学习依赖第三方参与，一方面通过可信第三方（通常是协调方）执行约定的规则，并辅助参与方之间进行信息传输交换，中间结果汇算等；另一方面，可信第三方还可以进行联邦任务管理，统计各方调用量，制定贡献度模型和激励机制，推动建立共赢的联邦学习生态系统。可信第三方一般并不汇集和存储原始数据。考虑到机构间进行联邦时，在业务合作上很难找到一个独立可信的第三方机构作为协调方的角色，无可信第三方的架构从技术层面保证了数据安全性从而达到商业信任，但可能需要更多的计算操作来对消息内容进行加密和解密，同时可能会带来大量或额外的基础设施建设成本，在一定程度上限制了联邦学习的市场拓展和产品化进程。因此，在金融或政务领域，有时会更关注可监管性，可使用一个各方都认可的带监管性质的协调方服务器参与联邦。联邦学习技术金融应用白皮书 17 （四）（四）建模视角建模视角与传统的联合建模或机器学习流程类似，联邦建模的过程也大致可划分为如图 2.6 所示的三个阶段，包括联邦数据探查、联邦模型训练和联邦模型推理。图 2.6 联邦建模流程 1.联邦数据探查联邦数据探查，包括联邦数据预处理、联邦隐私求交、联邦特征相关性、联邦分箱、联邦特征选择等技术，作为联邦学习建模的辅助基础功能。其中联邦特征预处理包括数据的缺失值处理、异常值处理、特征转换、格式转换等多种特征预处理功能。联邦探索性分析，是一种分析数据集以概括其主要特征的方法，通常可使用可视化方法，包括对特征的分布情况、最大值、最小值、缺失值情况、异常值情况、均值、方差等提供分析视图。通过这些分析指标，可以让建模人员了解数据集，和对数据集进行验证来确定所获得数据集可以用于接下来的联邦机器学习中使用。联邦学习技术金融应用白皮书 18 联邦特征相关性分析是对参与联邦学习任务的特征进行特征与目标变量之间、特征与特征之间的相关性分析，主要的分析指标为 IV 值、WOE 值、VIF 值、Pearson 相关系数等。这些特征的相关性分析有可为后续的联邦特征筛选提供参照指标。同时在相关性分析的过程，可完成对特征的分箱操作。2.联邦模型训练联邦模型训练是基于联邦化的机器学习算法对样本集进行模型训练的过程。包括了联邦模型调参、联邦模型训练、联邦模型评估的功能。其中联邦模型调参，通常具有与传统机器学习算法同样的参数进行配置。而联邦模型训练过程，通常可分为自治和联合两部分。自治的部分：首先，两个或两个以上的参与方们在各自终端计算初始化的模型，由于参与方们拥有不同的数据，各方所训练的模型也拥有不同的模型参数，并且不具有全局收敛性。联合的部分：各参与方加密联合计算梯度值、损失函数，并使用最新一轮中间值开始下一次的本地迭代。以上的程序会一直重复，直到整个训练过程的收敛。而联邦模型训练通常可以支持回归算法、树类算法、聚类算法、神经网络算法等。此外，联邦模型训练结束后，需要模型评估功能为训练得到的联邦模型进行评估，例如提供 KS 值、AUC、准确率、召回率、F-Score 等模型评估指标。联邦学习技术金融应用白皮书 19 3.联邦模型推理联邦学习任务结束后的得到的联邦模型，要应用到实际金融场景中，需要通过联邦推理功能。联邦模型训练是通过从已有的数据中学习到某种能力，而联邦推理则是基于已有的联邦模型，和数据的特征值得到推理的结果。联邦模型推理通常包括基于单个样本 ID 的实时模型推理，以及基于多个 ID 的批量模型推理能力。其中实时模型推理能力通常要求高时效来满足实时业务场景的需求。联邦学习技术金融应用白皮书 20 三、联邦学习建模流程（一）（一）联邦数据探查联邦数据探查 1.联邦数据预处理联邦数据预处理可以分为线下数据预处理和线上数据预处理两个部分。其中线下数据预处理指联邦训练的参与方需要在数据加载之前将己方数据格式规范化，各方需要事先约定好输入数据的表头格式及内容，ID 格式，对应特征格式。线上数据预处理包括联邦隐私求交，特征相关性计算，特征分箱，特征选择与过滤，特征缺失值处理，特征编码，特征降维，联邦特征稳定性计算等。（1）联邦学习数据中的缺失值，一般可以通过删除缺失行或利用联邦插值的方法进行填补。（2）联邦特征稳定性（Population Stability Index）是金融场景中衡量建模特征有效性的重要指标，体现了某一特征随着时间推移的波动程度。一般来说，联邦特征稳定性需要在建模之前对特征进行考量，当训练数据收集时间跨度较大，或推理数据与训练数据收集时间相差较大时，需要首先对每列特征的稳定性进行考核筛选。联邦学习技术金融应用白皮书 21 在纵向联邦学习场景中，某一特征的数据由一方完全持有，可以直接采用本地计算的方式进行考核。而在横向联邦学习场景中，各数据源持有一部分特征，各数据源可先将本地特征按照取值大小等频分段，利用同态加密，多方安全计算等方法进行联邦特征稳定性计算。2.联邦隐私求交在纵向联邦学习应用中，必须确保各个参与方对相同的样本群进行建模。在数据准备过程中，联邦应用需求方通过样本 ID寻找与其他参与方之间的样本 ID 交集，即共同拥有的样本 ID 的集合。同时保护交集以外部分的样本 ID。3.联邦特征相关性皮尔森相关系数也称皮尔森积矩相关系数(Pearson product-moment correlation coefficient)，是一种线性相关系数，是最常用的一种相关系数。皮尔森相关系数用来反映两个变量 X 和 Y 的线性相关程度，r 值介于-1 到 1 之间，绝对值越大表明相关性越强。x,y=cov(X,Y)xy=E(X-X)(Y-Y)XY=E(XY)-E(X)E(Y)E(X2)-E2(X)E(Y2)-E2(Y)联邦学习技术金融应用白皮书 22 两个连续变量(X,Y)的皮尔森相关系数等于它们之间的协方差 cov(X,Y)除以它们各自标准差的乘积(x,y)。系数的取值总是在-1 到 1 之间，接近 0 的变量被称为无相关性，接近 1 或者-1 被称为具有强相关性。联邦特征相关性主要指应用于纵向联邦学习的特征相关性计算。4.联邦分箱应用于在金融应用场景建模之前的数据预处理过程，将连续特征离散化，离散化后的特征可以提高模型的鲁棒性。如果联邦分箱需要利用标签信息指导分箱过程，那么它就是一种有监督的联邦分箱。这种有监督的联邦分箱在纵向联邦中应用较多。5.联邦特征选择应用于模型训练前，通过算法筛选掉冗余或建模效果差的特征，从而提高建模效果以及加快训练速度。6.联邦特征编码特征编码可将字符型特征或者分类类型特征进行特征编码，有利于提升模型效果。在不泄漏参与方的特征数据及标签数据情况下，完成联邦的特征编码。联邦学习技术金融应用白皮书 23 （二）（二）联邦模型训练联邦模型训练联邦模型训练的目的是要从多个参与方数据中学习一个模型，如果是有监督学习，则至少有一方提供标签数据(Y)。联邦模型训练是利用参与方提供的数据计算模型参数，使模型函数结果逼近标签 Y。对于线性回归、逻辑回归等算法，横向联邦的模型训练过程相对比较简单，而纵向联邦会比较复杂。尽管联邦训练中数据交换过程会因采用的模型不同而变化，但是联邦训练对数据安全的要求基本是一致的，保证在数据交换的过程中不泄漏参与方的训练数据、不泄漏参与方的模型参数，同时也不泄露标签数据。常用的模型有线性回归、逻辑回归、树模型、神经网络模型，而每种模型根据联邦类型还分横向联邦和纵向联邦。（三）（三）联邦模型推理联邦模型推理联邦模型推理的目的是基于联邦模型训练得到的模型，得到待推理样本集合的推理结果。联邦模型推理分为两种情况，横向联邦推理和纵向联邦推理。其中在横向联邦场景下，各参与方拥有完整联邦模型以及完整特征向量，因此可以在本地完成联邦推理。尽管联邦模型推理涉及的数据交换具有多种表现形式，但联邦模型推理对数据安全的要求基本是一致的，保证在数据交换的过程中不泄漏参与方的待推联邦学习技术金融应用白皮书 24 理数据，也不会泄漏参与方的模型参数。常用的模型有线性回归、逻辑回归、树模型、神经网络模型，而每种模型根据联邦类型还分横向联邦和纵向联邦。联邦学习技术金融应用白皮书 25 四、安全与审计（一）（一）安全性分析安全性分析 1.联邦学习计算安全（1）联邦学习的安全特性基于各类联邦学习的特点，提炼联邦学习的安全性包含隐私性、正确性、可用性三个方面。（a）隐私性隐私性是指需要保护输入数据的机密性、输出结果的机密性。这里的输入数据机密性跟传统安全领域的机密性略有区别，机密性可以是指不泄露输入数据任何信息的完全机密性，也可以是泄露部分信息的非完全机密性。某些应用并不要求完全的机密性，允许暴露输入数据的部分信息。输出结果的机密性是指只有指定结果方才可得到指定的结果。一个联邦学习应用中，可能输出多个结果数据，可能有多个结果方，每个结果方应得到的结果数据可以不同也可以相同，一个结果方应得到的结果数据可以是所有结果数据也可以是部分结果数据。（b）正确性联邦学习技术金融应用白皮书 26 正确性是指联邦学习结果的正确性。这里的正确性跟传统安全领域的完整性略有区别：某些应用并不要求完全的正确性，而是允许一定精度的误差，引入一定精度的误差也是差分隐私这一联邦学习技术的要求和某些应用实现隐私保护的必然要求。（c）可用性可用性是指联邦学习的结果方能得到联邦学习的输出。（2）联邦学习的安全攻击（a）合谋攻击参与方（包括平台方）其中两个或者多个合谋，去推导出其他方的明文数据。（b）选择函数攻击攻击方通过计算一个不安全的函数，从而推导出对方的明文数据信息。（c）差分攻击攻击方通过不同的数据跟合作方进行某种多次联邦学习，拿到结果后，推导出想要的差异数据部分的明文数据。（d）侧信道攻击通过联邦学习过程的各种运行时信息推测密文信息。（e）伪造数据攻击由于联邦学习数据不可见特性，参与方可能会提供假数据参与计算，造成非预期的计算结果。联邦学习技术金融应用白皮书 27 （f）彩虹表/穷举攻击安全参数或者算法本身的密文空间过小导致现实时间可破解。（g）额外信息泄露攻击由于算法缺陷/弱点，计算的一些中间结果，从中间结果可以推测出原始数据的一些敏感信息。或者由于算法缺陷/弱点，原始数据的部分信息暴露。（h）计算结果泄露攻击由于算法设计缺陷/弱点，计算结果输出给了非结果方。（i）恶意构造输入攻击攻击者通过特殊构造的输入，使得可以从计算结果中获得对方的数据。（j）偏离协议攻击攻击者不按约定的协议执行，从而破坏计算结果，且可能从计算结果中获取对方数据；攻击者也可通过不按约定协议执行使得协议执行失败，让全部或部分结果方无法得到计算结果。（3）联邦学习的计算安全分级计算安全要保护的是两部分内容：个人隐私和数据的商业价值。原始数据的泄露肯定会导致个人隐私和数据商业价值的泄露，这也是联邦学习要解决的问题。联邦学习技术金融应用白皮书 28 计算安全是针对计算过程的安全控制手段，与传统安全面对的问题不同，计算安全针对的是参与者的攻击，是联邦学习技术与传统机器学习技术最重要的差别点，为了规范联邦学习的安全性，适应不同场景的安全水位要求，在此对计算安全进行了分级。联邦学习的攻击后果是指参与方通过中间信息反推、或者不遵守协议能够获得数据的隐私信息或者拿到数据的商业价值。从防御强度方面，将联邦学习的安全性分为五级：第一级安全要求：计算所需的原始数据未进行传输交换；不针对参与方发起的基于中间信息的反演攻击布置安全防御机制。第二级安全要求：旨在概率性的保护有参与方进行半诚实攻击时的信息安全。在半诚实安全模型假设下，应可以计算出参与方不能从中间信息反推原始数据的概率。第三级安全要求：旨在保护有参与方进行半诚实攻击时的信息安全。在半诚实安全模型假设下可证安全，参与方无法获得敏感数据。第四级安全要求：旨在保护有参与方进行恶意攻击时的信息安全。在恶意安全模型假设下可证安全，攻击方获得敏感数据的概率极小。第五级安全要求：旨在保护有参与方进行恶意攻击并且多个攻击方合谋时的信息安全。在恶意安全模型假设下可证安全，多个攻击方发起合谋攻击获得敏感数据的概率极小。联邦学习技术金融应用白皮书 29 其中，非敏感数据是指不泄露用户隐私和商业价值的数据统称为非敏感数据，非敏感数据需要通过枚举进行定义。不属于非敏感数据的统称敏感数据。2.联邦学习业务安全（1）从业务场景来划分（a）高安全等级业务智能风控智能风控基于联邦学习，可以实现数据融合、联合建模以及模型发布一体化方案，实现大数据风控能力，提升风控效果。在小微企业信贷这一特定场景中，联邦学习能够发挥较大的作用。在面对小微企业信贷需求时，经常出现因为缺乏企业经营状况等有效数据，而导致小微企业融资难、融资贵、融资慢的问题；针对小微企业企业信贷评审数据稀缺、因为不全面、历史信息沉淀不足等问题，通过联邦学习机制融合多源数据，丰富特征体系，银行可有效地节约信贷审核成本，提升信贷风控能力。反欺诈反欺诈依托联邦学习技术等前沿技术，可打通银行间、银企间存在的数据孤岛，基于金融特征、交易特征、行为特征和干系人特征等信息构建联合反欺诈体系，共同提升银行业和其他企业反欺诈联邦学习技术金融应用白皮书 30 能力。针对银行业当前面临的主要欺诈风险和联邦学习技术特点，可重点建设金融同业反欺诈业务场景。大型银行已具备成熟的反欺诈能力和金融数据样本，反欺诈服务平台保证在数据资产、模型资产不外流的情况下，将大型银行积累的欺诈黑样本特征如欺诈交易、欺诈账户、恶意设备等信息通过共建模型的方法向中小银行输出，一方面弥补了中小银行欺诈样本少和反欺诈能力不足的缺陷；另一方面通过对同业欺诈数据的整合，将更多样的欺诈数据特征纳入共建反欺诈模型，提升了银行业整体反欺诈能力。反洗钱反洗钱随着国际反洗钱监管环境日趋严苛，国际联邦反洗钱的各参与方希望在不泄露各自样本的前提下，充分利用跨国多家合作方的反洗钱样本，在可疑活动监测、客户尽职调查与监察名单筛选等模型中利用联邦学习框架，建立较单方样本训练效果更好、更稳健的联邦反洗钱模型，以降低罚款和声誉受损等业务风险。（b）低安全等级业务智能营销智能营销联邦学习可以提供精准权益策略，高风险识别率的安全合规共享环境。通过数据分析，能够对用户进行细分，实现对用户的精准画像和风险分析，实现“千人千面”的精准营销策略。如，银行/保险/互联网消费金融业务精准营销转化。智能化运营智能化运营联邦学习技术金融应用白皮书 31 通过联邦学习、多方安全计算、隐私信息检索等隐私计算手段，安全合规利用第三方的数据，实现对存客的全维度用户画像，实现客户分群、客户特征描述、产品需求偏好分析等，充分发掘客户与金融机构间的关联行为以及需求状况，实现特定群体客户向特定业务的引流，或促活效率的提升等。（2）从业务数据授权角度划分根据金融行业实际应用场景来看，不同数据方对用户授权管理水位不同，这对业务安全性会有一定的影响。一般来说，联邦模型推理过程基本均需要用户授权，联邦模型训练过程不同场景差异较大，现根据模型训练过程各方数据所需授权强弱进行分类：（a）模型训练过程中无需用户授权，将 ID 信息隐去，便可以将多方本地数据直接进行训练模型。（b）模型训练过程中无需用户授权，将 ID 信息隐去同，还需将原始数据做一定脱敏操作才可用于模型训练。（c）模型训练过程数据需要用户授权。上述业务场景数据安全性逐级增高。联邦学习技术金融应用白皮书 32 3.联邦学习平台数据安全（1）安全存储联邦学习平台通常提供文件、数据库两种数据存储方式。为最大程度的保障数据安全，平台方需在数据上传环节提供数据加密及数据脱敏选项，以确保元数据、明细数据不会泄露任何个人用户隐私信息。关于数据加密，平台方应提供秘钥生成服务，服务方授权平台对数据进行加、解密操作，服务方上传数据时对数据加密，解密后的数据即刻使用不做存储。关于数据脱敏，服务方上传数据时，可以根据数据敏感情况对不同的字段执行不同类型的脱敏操作。协

展开阅读全文