1、 迈向智能世界白皮书2023智领睿变,共建数智金融未来数字金融执行摘要 01趋势一 新兴客群加速交互模式改变,从数字联接到智能情感交互031.1 数据智能 061.1.1 金融机构自建 AI 训练环境061.1.2 面向 AI 的基础设施架构 071.2 保障实时交互业务质量 111.2.1 建设 IPV6+广域网 111.2.2 打造高品质万兆园区网络 121.2.3 构建极简分支网点网络 14趋势二 全球央行推动数字货币变革,数字支付重回银行系统 162.1 确保实时交易稳定低时延 182.1.1 稳定低时延 182.1.2 故障平滑切换 192.1.3 全域监控分析 212.2 E2E
2、系统可信和数据加密 21趋势三 平台经济激活小微,AI助力破解融资难题 233.1 开放 API,使能业务创新 253.2 云管边端协同 AI 推理 26趋势四 新型交易欺诈和智能化网络攻击,增大资金安全风险 284.1 建设实时风控系统 304.2 加强业务安全管理 314.2.1 金融安全管理综述 314.2.2 网络周界安全 32目录4.2.3 零信任防护 334.2.4 数据中心防勒索 354.3 主动监管合规 374.3.1 归档基础设施 374.3.2 合规认证 38趋势五 IT转型加速和规模增长,驱动系统化构建业务韧性 415.1 金融应用现代化 435.1.1 基础设施现代化
3、445.1.2 架构设计现代化 455.1.3 共享平台现代化 455.1.4 开发治理现代化 465.2 快速构建数字银行核心 475.3 加强基础设施韧性 495.3.1 金融灾备概述 495.3.2 灾备技术方案 51趋势六 银行资产规模增幅放缓,向精细化运营转移 556.1 构建混合多云框架 576.2 选择适合的硬件架构 586.3 采用数据缩减技术 606.4 采用自动化运维工具 606.4.1 AI助力IT自动化运维 606.4.2 采用开源管理工具,鼓励技术竞争 61总结 637.1 筑牢基础设施韧性,打造MEGA基础设施 647.2 金融基础设施目标架构 65迈向智能世界执行
4、摘要执行摘要全球金融机构处于全新的不确定性时代,无论是进出口衰退、战争、新地缘政治影响,还是后疫情效应、地产暴雷、经济疲软、息差减少、经营环境动态变化等,均要求银行具备快速敏捷的反应能力,可迅速调整产品和服务方向,以应对最新的变化。同时,金融机构的数字化进程仍在不断深化,生成式AI已真正嵌入到金融的业务流程,基于大模型的智能应用为金融服务的发展提供了无限可能。面向未来,金融行业有如下发展趋势和挑战:趋势1 新兴客群加速交互模式改变,从数字联接到智能情感交互95后数字原住民逐渐成为消费主力,金融交互模式需要适应客群的变化。2023年ChatGPT的爆发,将人工智能推向了前台。领先银行已经开始使用
5、AI客服机器人助手、网点机器人助手,通过语气和微表情进行客户情绪辨识,并通过AI助手的提示和帮助对客户进行情感关怀。趋势2 全球央行推动数字货币变革,数字支付重回银行系统数字货币越加成熟,全球已经有7个国家正式发行了数字货币,中国也进行了大规模多批次的试点。数字货币将使支付重归银行系统。银行需要提前为数字货币交易和智能监管系统作好准备,以应对海量的加密交易。趋势3 平台经济激活小微,AI助力破解融资难题场景金融和小微金融在由中国银行业协会发布的中国银行家调查报告(2022)中高居前两位。但数字化水平偏低,场景接入困难。动产融资的物理和权属可信难解决,导致小微企业难以获得急需的金融服务。构建场景
6、生态,采用开放银行数字化赋能扶助小微;物联与AI协同是解决动产可信的有效手段。1迈向智能世界执行摘要趋势4 新型交易欺诈和智能化网络攻击,增大资金安全风险欺诈、洗钱等违法交易日趋隐蔽,传统风控手段发现滞后,有导致资金损失的风险。网络病毒随着技术的进步,呈智能化、集群化、长期潜伏化趋势,导致信息泄露和勒索事件频繁发生。同时,金融机构面临极大的监管合规压力,传统被动合规方式已无法持续。采用实时数据的数智融合和全域协同,大幅提升风控、安全、合规审计的效率和有效性。趋势5 IT转型加速和规模增长,驱动系统化构建业务韧性采用云原生平台可极大解放数字生产力,将银行的核心交易系统下移到开放架构已是大势所趋。
7、但开放系统系统如何能达到大中型机同等水平的低时延和高可靠成为难题。利用技术跨域协同,进行分布式的优化和智能化运维可有效提升开放系统的性能和可用性。趋势6 银行资产规模增幅变缓,走向精细化运营转移疫情、进出口和整体经济形势的影响,导致金融机构的营收压力增大,资产规模增长严重放缓。银行以成本为导向对经营成本和IT投入进行精细化控制。构建绿色低碳的云化基础设施、选择合理的IT架构、采用绿色节能算法和进行自动化运维是有效的降成本方式。2新兴客群加速交互模式改变,从数字联接到智能情感交互 趋势一3移动和互联网金融的普及和OTT的跨界冲击,使金融机构的关注焦点从如何保障交易的稳定转移到如何提升用户体验。金
8、融机构围绕数字化的交互,实现线上线下融合、多渠道触达内外部用户,并向主动规划和引导用户旅程、重构商业模式和运营模式演进。金融服务正从交易走向智能交互。波士顿咨询公司(BCG)将当前金融主要客群分为4个世代:19651979的X世代,19801994的Y世代,19952009的Z世代,以及2010年后的世代,每个世代有不同的群体记忆、价值取向和消费偏好。数字化原住民Z世代逐步成为消费主力,以及元宇宙一代世代的即将登场,金融交互模式需要不断进化。(图 Figure1.1 用户体验HEART模型)中国招商银行致力于为用户提供极致的体验,在金融产品的设计中使用了HEART模型来评估产品和服务的交互性能
9、。HEART模型来自Google发表于ACM的一篇论文,以用户为中心,通过愉悦度(Happiness)、参与度(Engagement)、接受度(Adoption)、留存率(Rentention)、任务完成度(Task Success)5个维度进行综合评估,以此设计出与用户的交互旅程。领先的金融机构已经着力建设在线直播金融服务,实现实时互动营销。2022年,招商银行举办了2000多场直播活动,一次活动就吸引了300多万客户。巴西某TOP银行为提升服务质量,设置了上万个客服坐席。与客户的远程交流方式从语音短信扩展到移动App、VTM机、Whats App等Happiness用户满意度调查或评级 净
10、推荐值(NPS)用于衡量用户拥护度 用户反馈和情绪分析 Adoption新用户注册或注册的数量 用户注册完成率 用户在注册后完成关键操作所需的时间 Engagement活跃用户数或活跃用户百分比 用户在产品或服务上花费的时间 用户交互或会话的频率 Task Success重要用户任务或操作的完成率错误率或遇到的用户错误数效率指标,如完成任务的时间或成功率Retention用户保留率或流失率随着时间的推移重复使用频率或用户活动用户生命周期价值(LTV)表示用户产生的长期价值H.E.A.R.TFigure1.1 用户体验HEART模型4迈向智能世界趋势一三方平台,业务涵盖远程获客、催收、投顾、理赔
11、、培训、问题受理等。随业务量和坐席数的增加以及高清视频的引入,数据流量5年增加了10倍。(图 Figure1.2 AICC智能联络中心)2023年ChatGPT的爆发,将人工智能推向了前台。领先银行已经开始使用AI客服助手、网点助手,从语义辨识到语气辨识,从图像识别到微表情识别,通过AI助手帮助对客户进行情感关怀。在线上和线下采用数字人提升营销触达率。挑战一 算力严重不足 训练阶段,以数字人训练为例,需要10万+表情、服饰和道具模型,算力消耗大,算力不足会导致训练时间超过1周 应用阶段,一个具备流畅沟通能力的数字人需要耗费一张AI推理卡,成本极高,一般银行难以支撑海量用户的同时在线服务挑战二
12、流量急剧增长,视频质量要求高 从语音图像到视频和微表情识别,高清视频传输要求使网络带宽增长50倍,客服坐席的增长进一步加大带宽的需求,给视频质量保障和带宽租赁成本提出巨大挑战挑战三 实时反馈难收集 产品设计和优化需要客户的实时反应和反馈,技术性收集的数据难以复现客户的真实旅程,尤其是情感性旅程行动建议1.采用购买公有云数字人服务的方式进行数字人模型训练,降低训练的时间和成本;2.进行算力资源优化,通过资源和时间切片方式以云化服务方式分给多个租户,实现1个推理卡支撑多个数字人,降低应用成本3.建立用户体验监测和故障处理体系。通过提升数据系统易用性,方便业务人员对客户旅程进行打点。通过多维数据收集
13、,实现服务可用性、吞吐量、延迟、饱和度等关键参数以及情绪反应等细节参数的持续监测。Figure1.2 AICC智能联络中心5迈向智能世界趋势一Figure1.4 金融AI模型三层架构Figure1.3 AI训练能力喷涌4.建立网络质量保障体系。构建全行一张网,支持泛在多渠道的业务接入,通过大带宽和端到端的质量保障措施支持高质量的音视图文等多媒体交互,通过数据压缩降低网络租赁成本。1.1 数据智能1.1.1 金融机构自建AI训练环境ChatGPT点燃了金融业的智慧火花。采用公有云服务商提供的模型训练服务是金融AI训练的捷径,在合规范围内是最好的选择。但金融业有严格的监管要求,涉及到银行关键业务的
14、数据往往难以上传公有云。建议金融机构以合规为前提,公有云训练+自建模型训练结合。(图 Figure1.3 AI训练能力喷涌)业界公认当大模型参数量到达620亿参数左右时,会出现能力喷涌现象。目前很多开源大模型已经直接支持到百亿甚至620亿左右的参数集,大幅降低了AI训练门槛。大小金融机构纷纷自建AI基础设施,加入金融百模大战。金 融 行 业 模 型 分 为 三 个 层 次 建 设:(图 FFigure1.4 金融AI模型三层架构)L0通用预训练大模型由AI训练服务供应商提供,顶级公有云供应商都提供AI训练服务,如微软、Google、HUAWEI等;L1金融行业预训练大模型以L0为基础,并加入行
15、业特有的数据集进行训练,往往由AI训练供应商与行业组织或行业领头企业合作训练生成;L2场景模型基于L0和L1,面向金融特定场景进6迈向智能世界趋势一行针对性训练,可助力金融机构面向客服、代码生成、业务审核等具化场景生成智慧应用。以NL2SQL为例,银行每年会输出周报、季报、年报等300多类数万份报表。通过NL2SQL,用户只需要输入“分析30到40岁女性在78月份的线上消费习惯,并与去年同期进行对比”这样的自然语言就可得到所需分析报告,极大降低用数门槛,真正实现“人人用数”。AI训练的效果来自算力、算法和数据三要素叠加。金融机构在构建AI环境时,需要从数据和初始模型准备、训练基础设施准备、输出
16、模型的部署集成三方面着手进行。过程中面临技能不足、训练环境成本高、能耗高、训练数据质量难保障、训练算力平台不稳定等挑战。据统计,由于训练环境的硬件经常出故障,大模型不间断训练时间平均仅为2.8天。建议:1.打通数据分析和AI的数据流,通过湖仓进行训练数据清洗;2.选择可靠供应商进行一站式交付和服务,并要求提供赋能辅导;3.建设高性能、高可靠AI训练基础设施;4.选择最简单、有效的场景进行AI应用落地,实现正向循环。1.1.2 面向AI的基础设施架构以金融机构自建环境的AI训练卡规模看,分为3档:(图 Figure1.5 大模型训练所需资源)中小型银行往往从4卡起步,大部分在1664卡的之间,参
17、数量从千万级到亿级。大型银行投入的训练卡一般在100到1000之间,超大规模银行投入超过1000卡,参数量在10亿到数百亿规模。参与证券量化交易的顶级投行基金实力雄厚,并追求高额回报,往往投入千卡甚至万卡规模,参数量直逼上千亿。自2012年以来,全球AI模型训练算力需求3-4个月翻一番,每年训练模型所需算力增长幅度高达10倍。而计算性能沿摩尔定律大约每两年左右翻一番的趋势已日趋放缓,算力需求增长与摩尔定律严重不匹配。这要求AI基础设施必须做出架构性改变。Figure1.5 大模型训练所需资源Figure1.6 AI模型训练基础设施7迈向智能世界趋势一AI模型训练基础设施要求以算力为中心,算力、
18、联接力、存力基础设施高度配合,训练任务高度并行,无性能瓶颈、无带宽收敛,故障后可以最快速度修复以继续训练。多样性算力X86不再是数据中心算力的核心选择。(图 Figure1.7 多样性算力)以长流水线为特征的X86,擅长处理复杂性指令,如办公、文本等应用,但在处理批量、高并发任务时会非常浪费,CPU利用率很低。ARM以短流水线、高并行度为特征,面向批量、并行度高的任务具有极高的能耗/性能比。Figure1.7 多样性算力如以比特异或运算为基础的存储RAID计算,或对分布式数据库的读写,在同等主频和核数情况下,较X86均有较强的性能提升。专用训练处理器NPU(不同厂家有不同的叫法,如Google
19、叫做TPU),以多维向量运算为基础,在一个时钟周期内输出超出CPU一个数量级的计算能力,如一个3维向量16指令深度的NPU核,单时钟周期内即可完成16*16*16=4096 次运算,而CPU只能完成16*16=256次。DC-as-a-Computer在数据中心内,AI训练第一次让CPU不再是核心,主角光环让给了专用训练处理器NPU。Figure1.8 DC-as-a-Computer8迈向智能世界趋势一为了匹配NPU的性能,数据流量也不再经过CPU,CPU仅起控制的作用,NPU采用更高速的总线直接访问内存、接口卡和存储。因此,计算架构已从单核心架构演进到对等平构架构。(图 Figure1.8
20、 DC-as-a-Computer)超高并行训练网络通常每个AI训练服务器会配置4到8张训练卡,多个AI训练服务器组成集群,会形成内部总线+外部网络两层高并行度的联接体系。在AI芯片/AI服务器间需要进行大量的数据并行同步。大模型训练通信特点的数据流数量少,但单流带宽大,同步突发度高;每轮训练迭代的通信量大,服务器内通信量为百GB级,服务器间为GB级。(图 Figure1.9 并行无收敛联接)因此,训练网络需要实现:高可靠、零丢包:采用RoCE网络或Infiniband网络,确保网络零丢包;高带宽:64卡以内的小型训练网络已经采用100GE网络联接,大型训练网络更以400G/800G为主,20
21、24年将达到1.6Tb;无带宽收敛:传统三层网络的下行(南向)出口多,上行(北向)出口少,北向带宽很难实现与南向带宽一致,必须带宽收敛。如Figure1.9 并行无收敛联接图所示,采用交换机相互直连替代传统三层组网,可实现并行无收敛联接。网络级全局负载均衡:基于全局的拥塞状态实现自适应路由算法,从局部均衡演进到全局均衡,确保全局训练环境无网络拥塞;高可靠组播:通过ACK高可靠组播协议,所有终端均需确认数据接收状况,确保训练过程涉及的模型和中间参数下发到所有训练卡。高性能海量存储资源池数据决定了AI智能的高度。随着模型参数规模增长,大模型对数据规模、数据检索和读写速度等要求越来越高:海量数据归集
22、:从文本训练到音视文图多模态训练,带来1000倍的数据增长;从数据中心、边缘、云间不同协议和格式的数据进行归集汇总需花费35周;数据快速预处理:收集的原始数据无法直接用于训练,需进行解析、清洗、去重等,有3次以上数据搬迁,PB级数据耗时超过50天;高速数据检索:采用60亿参数的GPT模型+高质量知识库进行训练,可超过600亿GPT39迈向智能世界趋势一Figure1.10 海量训练存储资源池Figure1.11 数智融合基础设施的输出精度;知识库高速检索成AI数据存储的必备能力;断点续训:模型训练花费高昂。GPU服务器部件多,故障率高,业界模型训练平均每2.8天故障一次。因此,在训练过程中会设
23、定checkpoint断点,暂停训练,周期性保存中间过程数据,以便故障后可以断点续训。数据存储速度决定训练暂停时长。因此,面向模型训练的数据存储需要实现:(Figure1.10 海量训练存储资源池)高效数据供给:以EB级扩展能力支持原始数据储存;高性能数据加速:以百GB/s级的带宽和千万级IOPS支持训练数据的快速写入和聚合,支持训练平台高速读取;多协议统一数据底座:一池实现NFS/CIFS/S3/HDFS多协议互通,以打通数据分析和AI训练数据流,支持多阶段不同任务;海量数据高效分级:热温冷数据自动分级,10迈向智能世界趋势一降低存储成本。数智融合基础设施构建全行一体的数智平台,打通数据分析
24、和AI训练的数据流和业务处理流,可极大提升数据使用效率。(图 Figure1.11 数智融合基础设施)通过统一存储资源池实现全行数据生命周期统一管理、统一实现数据安全管理,实现全行数据共享和流动;采用湖仓平台对原始数据进行治理和清洗,提取出高质量训练数据,并通过统一存储池的数据水平流动,实现训练数据0拷贝传送给AI训练平台;通过统一存储池的数据纵向流动,实现数据的加热和冷却,提升训练性能,降低数据存储成本。1.2 保障实时交互业务质量远程外呼、金融直播和视频会议是金融机构的典型实时交互场景。以视频会议为例,支持多媒体办公的移动和PC端应用日益普及,平均每位员工每天会参加4次以上音视频会议。繁忙
25、时段,远程会议占用时间超工作时间的Figure1.12 金融广域网络50%。音视频会议流量每年以30%的速度高速增长,金融高层的视频会议质量更会直接影响企业经营。网络运维人员通常会根据网络的KPI(关键性能指标)来判断网络质量健康程度。如以接入成功率为衡量Wi-Fi网络质量的KPI,一般设定为95%。而站在用户使用视角,KQI(关键业务质量指标)更能反映真实的用户体验。网页浏览和视频播放是典型的强体验场景,通常设定浏览时延小于0.3秒,视频流畅比超过99%。面向实时交互,金融机构须以广域网络、园区网络、分支网点网络为基础,建设全行一张网,实现全域泛联接,E2E保障网点、办公、会议、客服等场景的
26、业务质量。1.2.1 建设IPV6+广域网金融广域网连接了不同地理位置的网点、办公场所和数据中心,确保高效、高体验的数据传输。(图 Figure1.12 金融广域网络)以IPv6为核心的系列创新,可以显著提高金融广域网的性能、安全性和可扩展性:(图 Figure1.13 基于IPV6的网络创新)11迈向智能世界趋势一Figure1.13 基于IPV6的网络创新1.IPV6:IPV6为金融服务提供海量的IP地址资源,实现所有设备均可分配全球唯一的IP地址,从而可对所有设备实现数字化管理。2.SRV6:通过SRv6(Segment Routing over IPv6)技术,将分段路由(Segmen
27、t Routing)引入IPv6网络,带来多个好处:极大简化网络协议:将复杂的广域网控制协议简化为 IGP和BGP两种,极大减少网络管理人员工作量。提高专线利用率:通过SRv6路径可编程,根据业务流量变化自动进行路径优化,实现全网带宽负载均衡,提升链路利用率,可减少30%的线路带宽,节省可观的带宽租赁费。实现差异化质量保障:通过网络切片技术,可在一张物理网络上切分出多个平面,平面之间资源相互隔离,从而使E2E的业务质量保障成为可能。3.A P N 6(A p p l i c a t i o n-a w a re I P v 6 Networking)网络应用感知,通过APN6,网络设备可识别高
28、可靠的金融交易、延迟敏感的语音和视频、高带宽的文件传输等不同应用,并为关键应用分配高优先级,保障业务质量。4.iFIT随流检测提升管理运维效率,通过使用iFIT随流检测(In-situ Flow Information Telemetry),可自动在广域业务路径上逐跳收集业务质量信息,快速定界故障位置。当发现网络出现故障,可通过SRv6立即切换到备用路径,保证金融服务连续。在不具备IPV6建设的地区,金融机构可选用IPV6 Ready的网络设备,以便网络条件可达时平滑切换到IPV6,实现网络品质的跃升。Figure1.14 WIFI-5 Vs.WIFI-61.2.2 打造高品质万兆园区网络面向
29、园区,金融机构需要构建办公、物联、安防、客户服务融合一张网,实现一网接入、一网承载、一网多用,建设高品质万兆园区。1.采用WIFI-6/7构建全无线办公网 12迈向智能世界趋势一建议金融机构面向未来业务发展,将无线网络升级到Wi-Fi 6甚或WIFI-7,实现高密度无死角的无线局域网(WLAN)覆盖,提供随时随地一致的办公体验。Wi-Fi 6标准吸纳了大量5G关键技术,相比Wi-Fi 5带宽提升4倍,终端联接数提升4倍,网络时延从平均30ms降低至20ms,可以支持超高清视频会议(超大带宽)、高密接入(超高并发)、VR(超低时延)等应用。Wi-Fi 7标准802.11BE已于23年7月完成Dr
30、aft4.0的发布,预计将于24年Q1定稿并发布。商用产品将会在2024年大量上市。相比Wi-Fi 6,Wi-Fi 7将用户带宽提升2.4倍,轻松满足4K视频,AOI高清质检,车载软件灌装,AR/VR等高带宽诉求;可将用户平均降低时延25%以上,特别适合高品质办公场景,为高清视频会议,交互式办公,云端多媒体渲染等时延敏感业务提供更好保障;让终端与AP之间可同时建立多条数据连接(2.4Ghz,5Ghz及6GHz),三条链路可同时收发数据,更加可靠。(图 Figure1.15 WIFI连续覆盖)除采用先进的WIFI技术,为保证用户体验,还需要考虑多个因素:Figure1.15 WIFI连续覆盖 组
31、网规划,从2D到3D。借鉴5G实现3D立体式规划,可防止开放办公区、拐角、走道、茶歇区存在覆盖空洞,确保办公空间100%全覆盖。资源调度,从固定天线到动态变焦智能天线。智能感知接入终端密度,当用户集中时,WIFI交换机(AP)自动减小天线角度;当用户分散时,自动增大天线角度,保证用户良好体验。智能射频调优抑制干扰。基于历史负载和行为进行预测,主动优化WIFI的信道、频宽、发射功率,极大减少相邻WIFI接入交换机(AP)的同频和邻频干扰,实现整网体验最优。主动漫游牵引终端切换。Wi-Fi网络由终端来进行漫游切换,会概率性出现黏性终端问题,一直与远端AP保持连接,使接入性能变差。通过主动漫游,网络
32、智能识别终端类型,学习终端行为,主动牵引终端切换,整体漫游效率可提升至95%以上。多媒体智能调度保障高清视频质量。通过应用识别,区分高优先级多媒体业务和低优先级的大文件下载类业务。当发现高优先级业13迈向智能世界趋势一务受损,通过拥塞控制算法精准抑制贪婪下载业务,保障高优先业务不受影响。2.业务随行,随时随地安全接入通过网络管理软件统一规划用户的接入策略,并同步到跨地域的其他园区。当用户在全球不同的办公地点、使用不同终端接入网络,网络均可自动识别用户身份,确保用户在全球任意办公地均可按照统一的安全策略接入,获取一致的业务体验。【案例】欧洲某银行总部大楼网络设备老旧,设计不合理,无线覆盖低于50
33、%,业务质量无保障。疫情后大量客户使用视频会议,网络不堪重负,高层重要会议也会视频卡顿,严重影响办公体验。客户采纳高品质园区交换机+WIFI-6方案升级万兆园区。使用3D类蜂窝方式进行网络规划,确保园区无线全覆盖;同时支持有线、无线网络的智能应用识别;并采用智能HQoS技术提供面向不同用户和应用的QoS策略,有力保障VIP用户和关键业务的网络质量。改造后,客户网络体验改善明显,网络投诉量明显下降,视频会议接入失败率从10%降低到接近于0。1.2.3 构建极简分支网点网络金融分支网点典型痛点:网点数量多,视企业规模从数百到数万不等;网点业务多样化,包含传统生产办公、安防、物联、混业经营和公有云接
34、入;接入线路多,分散度高、线路分布广,网络故障多、定位难;突发大流量易影响关键业务,视频会议、学习材料等短时间会占用极大带宽;Figure1.16 采用SD-WAN构建极简分支网点网14迈向智能世界趋势一 专线租赁费用高,成本敏感。采用SD-WAN实现“极简分支”,是解决分支网点众多问题的利器。(图 Figure1.16 采用SD-WAN构建极简分支网点网)设备极简:一台SD-WAN网关同时支持路由,交换,POE,防火墙,IPS/AV,5G等功能,实现多合1一超融合接入;管理极简:采用一套网络管理平台同时实现上万分支的统一纳管,全网一张图;开局极简:通过站点模板实现批量开局,设备即插即用,1天
35、可配置1000个站点,真正实现业务开通0等待。应用保障:通过应用深度识别,区分关键交易业务、视频业务和其他业务,针对性提供差异化服务。专网优先保证交易类业务,并可将非关键业务卸载到互联网承载,大量节省专网带宽,降低专网租赁费用。切换无感:通过随优选路,根据各链路的质量和拥塞状况选择最优的链路承载业务,确保业务质量最优,链路切换时业务0感知。【案例】中国建设银行打造5G+智能网点建设银行打造集“体验空间、对话空间、娱乐空间”于一体的智慧网点,采用物联网感知多样化数据,通过20+互动游戏获客和留客,支持汽车银行、家居银行、太空舱、仿真机器人场景结合,丰富客户体验。建设银行网点网络采用SD-WAN统
36、一生产网、互联网、物联网,构建5G+MSTP 固移双服务专线,实现网点带宽百倍提升,实测速率超1Gbps;远程核验、AR交互等业务时延降低70%,支撑AR/VR等 300+金融服务。同时,使用SD-WAN实现多链路资源池化,提升带宽利用率;实现应用智能选路和优化,链路切换业务无感,保证了关键应用零中断。15全球央行推动数字货币变革,数字支付重回银行系统趋势二16确保金融交易的准确、安全、稳定和业务连续是金融机构的基本诉求。中国已经步入无现金交易社会,线下交易占比已经不到3%。移动和互联网支付爆发式增长,热点事件、秒杀等线上促销业务引发交易洪峰,对交易系统造成极大冲击。中国每年6.18和11.1
37、1购物节,交易流量会超过日常的30倍。抖音直播、网红导购等线上互动交易的增加,进一步使交易波峰的时刻和量级不可预测。如何应对海量交易波峰的冲击是金融交易系统面临的新课题。互联网和移动支付模式使支付方式发生革命性改变,互联网巨头形成事实上的支付垄断和场景霸权。但随着数字货币的应用,其安全性、便利性将重塑支付产品体验,端到端加密机制规避了互联网获取用户信息的可能,使支付重新回归银行。据估计,企业通过使用央行数字货币进行跨境交易,每年可节省1000亿美元成本。78个国家正着手探索央行数字货币的应用,7个国家已正式推出。超20个国家正在开展数字货币试点,其中瑞士和新加坡进行了跨境支付与结算试点,中国的
38、试点项目更是覆盖了高达1.4亿消费者,累计开立个人钱包2.61亿个,实现95亿美元(875亿人民币)消费支出。中国计划逐步扩大试点场景,并建立对应法规,尽快使数字货币进入市场应用。挑战一 交易稳定性 数字支付加速增长,支撑支付的IT系统组成复杂,难以保证交易长期稳定低时延 海量用户在线交易,传统IT资源调度模式难以承载浪涌式流量挑战二 支持数字货币的海量加密交易 交易安全需要,数字货币一次交易需要进行10余次加解密,加解密速度影响客户体验 数字货币使互联网支付回归银行,银行流量剧增,现有基础设施难以支持行动建议1.确保实时交易的稳定性。构建专用、可靠并具备高度扩展性的软硬件系统,确保交易系统支
39、持极限情况下的稳定低时延。2.E2E构建可信基础设施,采用可信计算、可信网络和可信存储构建数字货币交易系统,并与其他系统隔离;使用央行认证的硬件系统进行数字货币加解密。3.采用分布式可加密数据库和分布式智能合约系统,确保数字交易的扩展性和安全性。17迈向智能世界趋势二2.1 确保实时交易稳定低时延金融核心交易系统以支撑银行存贷汇、保险投保和理赔,证券的柜面和互联网交易为目标。如下为银行核心交易系统在业务架构中的定位示意图。(图 Figure 2.1 银行核心交易系统)核心交易系统对基础设施的TOP诉求:1.稳定低时延:要求在平均的业务压力下,从金融机构渠道前置接收到客户发起的交易指令到交易处理
40、结束的整体时延稳定在120ms内;2.支持流量洪峰:交易洪峰超日均流量的10倍,极限情况下会超30倍。要求交易系统具备极高的弹性,以确保可承载不可预测的高峰期业务流量;3.强业务连续性:随着移动金融、线上交易、跨时区交易的占比扩大,交易时段在全年随时发生,要求交易系统具备可靠的灾备体系,保持99.99%的高业务健壮性。Figure 2.1 银行核心交易系统2.1.1 稳定低时延核心交易系统的关键部件是OLTP交易型数据库。一个典型的支付交易链包含十余次数据库读写,平均每次数据库操作会向数据存储读写40次左右,因此一次典型交易会产生500800次的数据存储读写。(图 Figure 2.2 数字支
41、付交易链)在交易链条中的每一次读写延迟会导致后续读写的等待,形成时延的堆积和放大。该效应类似于城市交通中的“堵车”,一个堵点会导致大量业务拥塞,堵点消除后也有极大的迟滞效应,需逐步缓解,在业务高峰期更为明显。因此,为确保核心交易E2E响应时延,需要保证每次数据读写的时延稳定。金融机构以确保交易数据库的性能和可靠性为目标,需配置高性能、高可靠的专用计算、网络和存储设备,确保资源专用、部件故障业务无中断。在计算层,金融IT系统从大中型机向开放架构逐步转型。大中型机经过四十余年发展已走向衰18迈向智能世界趋势二退,最直接的表现是COBOL语言编程人员越来越少,很多银行已无法在大中型机上进行开发。采用
42、开放架构,X86和ARM服务器通过集群方式,可提供不亚于大中型机的性能,并具备灵活弹性的扩展能力。基于Linux等开放OS,可采用多种语言进行系统开发,确保了业务的可持续性。在存储层,全闪存相较传统机械盘,具备超百倍的读写性能和稳定的读写时延,在交易场景替换机械盘已成为业界共识。采用NVMe SSD替换传统的FC或SAS SSD,数据通路从4跳减少为2跳,读写两端的交互从7次降到2次,E2E时延降低50%以上。Figure2.3 NOF(NVMe over Fabric)在网络层,存储从机械盘升级到全闪存后,系统的性能瓶颈转移到计算设备到存储设备之间的网络上。将NVMe协议应用到这段网络上取代
43、传统的FC(Fibre Channel)网络,可降低50%的时延,该技术称为NOF(NVMe over Fabric)。NOF可以采用传统IP网、FC网和RoCE网络承载。传统IP网缺乏对性能的稳定保障,无法避免数据丢包,只能用于非关键场景。采用零丢包技术的RoCE以太网,可靠性已达到FC的水平,响应时延较FC低20%,带宽更已发展到400G/800G,远超Fibre Channel的64G带宽。因此RoCE会成为NOF的主要承载网络。目前Linux OS、VMware等关键生态已实现对NOF协议的兼容。NOF在部分银行已进入实际应用阶段。2.1.2 故障平滑切换金融IT系统由不同厂商的应用软
44、件、基础软件和硬件系统构成,任一部件故障都可能导致交易性能降低,甚至导致大量的交易超时和失败。因此,需要对系统进行多方面的保护,包括资源冗余保护、业务平滑切换、交易链E2E监控等。Figure2.4 RAID存储冗余资源保护Figure 2.2 数字支付交易链19迈向智能世界趋势二1.资源冗余保护:以基础设施层为例,在存、算、网各层均应预留冗余资源,确保故障时有足够的资源进行保护。典 型 为 存 储 采 用 的 R A I D 技 术,如RAID5(N+1)、RAID6(N+2)、RAID-TP(N+3)等,采用N份业务数据和M份校验数据的方式,实现N+M冗余数据保护。2.业务平滑切换:业务从
45、故障端转移到冗余保护端的过程称为业务切换,切换不平滑极易导致交易失败。要确保平滑,需要做到三点:故障提前预测、负载在工作端和保护端均衡分担、自动化快速切换。在计算层,通过负载均衡和计算集群技术,当一个服务器故障时,业务由集群内的其他服务器分担,确保业务无感知。在网络层,传统数据中心网络的主用和备用路径采用软件握手方式进行故障通知,Figure2.5 存储资源全局均衡感知时间需15秒。通过硬件集成BFD(Bidirectional Forwarding Detection)检测,故障感知时间缩短到毫秒级,链路切换时长减少10倍。在存储层,通过存储控制器Active-Active架构,实现访问路径
46、全局均衡。通过监控存储控制器的指标,提前对“预失效”的劣化控制器进行接管。当控制器失效时,可在1秒内完成切换,业务无感知。(图 Figure2.5 存储资源全局均衡)在数据层面,通过RAID2.0技术,存储不再以盘为粒度进行保护,而划分为上万个数据块(如64MB)随机分布到硬盘池中,实现全局细粒度负载均衡。当数据块损坏时,读写可瞬时切换,直接由其他数据块接管。通过存储系统对硬盘进行多维监测,发现“预失效”的劣化硬盘后自动提前切换,可进一步确保业务无感。20迈向智能世界趋势二2.1.3 全域监控分析传统的IT采用水平式分层监控,业务系统监控、应用系统监控和基础设施监控相互隔离。当出现业务指标劣化
47、时,无法快速定位故障源,导致故障定位时间长、业务受损时间长。(图 Figure2.6 跨层主动监控分析)要切实缩短定位时间,需要打破传统分层墙,做到多层运维联动。打通BPM(业务管理)、APM(应用管理)、NPM(网络管理)、DPM(设备管理)的管理分割,在一套管理系统内实现业务-应用-网络-设备路径分析的无缝衔接,从而可快速收敛故障范围,实现故障快速精准定位。【案例】中国TOP银行Z,同时面临两方面压力,业务爆发增长导致响应时延增大,且多次出现交易失败。经分析,时延增大、部件失效率高、部件亚健康、故障定位时间长为TOP根因。为此,Z银行进行了多方面改造升级:1.在交易链路上采用高端全闪存替代
48、传统存储,并确保0.5ms的稳定读写响应低时延;2.采用NOF替代传统FC联接,使平均响应时延降低28%;3.资源专用,避免交易链路上的系统与非交易系统共用存算网资源;4.打破传统分层,采用AIOps方式监控交易全链路,实现故障快速定位、快速排障。系统改造后,硬盘故障率降低10倍,故障定位效率提升到分钟级,交易失败率降低80%以上。2.2 E2E系统可信和数据加密可信网络:通过“正向建”与“反向查”相结合的安全理念,与网络防护三元素的相结合,持续消除网络不确定性,构实现设备可信、网络可信、管控可信。正向建:通过在规划、设计、开发、部署阶段构建设备和网络的内生安全能力,做到“设备出生就是安全可信
49、的”,确保“业务Figure2.6 跨层主动监控分析业务网络设备支付流程渠道渠道前置支付核心运营防火墙支付终端均衡器计算WAN存储交换机DCI传输层TCP PortUDP port链路层VLANMACVXLANOverlayUnderlay网络层IPv4IPV6SRV621迈向智能世界趋势二Figure2.7 金融机构可信数据流通上线就具备网络韧性”,建设确定性的信任链传递机制。反向查:在网络运行阶段,通过网络流量和日志监测技术,持续监控业务变化/行为异常,对网络的安全状态实时监控,及时遏制风险损失。在网络中分层部署安全大脑,负责全域安全监测,实现安全态势可视化,并基于安全大脑进行威胁关联、网
50、安协同智能协同防御。可信数据流通:数据在流通和处理过程中可能被内部人员或外部黑客伪造、篡改、重放,也可能被未经授权的人员或机构获取、泄露、滥用。金融机构在业务活动中大量依赖内外部数据要素支持。采用数据可信流通机制,实现数据流通过程的全程可追溯,解决多方的安全顾虑,促进数据要素在不同主体和边界间的有序共享、交换和交易,充分释放数据要素的价值。采用数据可信流通,数据统一实现可信流通管控、采用安全可信的硬件能力(TEE、TPM等)构建可信计算环境,采用安全加密的网络进行数据传输,在具有安全可信执行环境的可信数据空间进行全行各部门和行内行外数据共享交换,采用安全加密的存储资源池进行数据存储,从而实现E