1、北京金融科技产业联盟2023 年 11 月DPU 金融行业发展白皮书III前前言言党的二十大报告提出,要增强国内大循环内生动力和可靠性,提升国际循环质量和水平。这既离不开金融对资源配置的引导优化,也离不开科技创新在激发市场活力方面的重要作用。“十四五”时期,我国开启全面建设社会主义现代化国家新征程,数据成为新的生产要素,数据技术成为新的发展引擎,数字经济浪潮已势不可挡。2023 年 2 月,中共中央、国务院印发数字中国建设整体布局规划(以下简称规划),指出建设数字中国是数字时代推进中国式现代化的重要引擎,是构筑国家竞争新优势的有力支撑。加快数字中国建设,对全面建设社会主义现代化国家、全面推进中
2、华民族伟大复兴具有重要意义和深远影响。规划明确了数字中国建设将按照“2522”的整体框架进行布局,“2522”中的第一个“2”即夯实数字基础设施和数据资源体系“两大基础”。数字中国建设是数字金融发展的重要契机,对金融行业的数字化发展指出了明确的方向,也契合了我国促进数字经济高质量发展的总体规划。在云计算、大数据、5G、人工智能等技术的蓬勃发展下,金融云也迎来了发展的契机。金融云依据自身特点对云计算基础设施建设提出了更加严苛的要求,提供高效、安全、高容灾和高可用的云基础设施是金融云发展的重要关切点。中中国国工工商商银银行行高高级级金金融融科科技技专专家家刘刘承承岩岩谈谈到到:“以云计算为核心的数
3、据中心,是金融机构数字化转型的核心基础设施。与公DPU 金融行业发展白皮书IV有云不同,金融行业在追求计算多样化、高性能的同时,更加注重系统的安全可靠、绿色高效和开放兼容。当前,软件定义的云计算架构主要依靠 CPU 算力进行相关云资源的抽象,而随着计算规模和网络带宽的增大,用于云管控和 IO 处理的 CPU 开销越来越大,以 CPU 为核心的云计算架构正在向软硬协同的新型架构演进。从业界实践来看,以数据加速处理为核心,具备通用可编程能力的 DPU 处理器是支撑软硬协同云计算架构的关键。通过将云平台的控制面和数据面卸载至 DPU,并根据金融场景进行定向优化,实现更低的单位算力成本,更高的 IO
4、性能,以及更灵活安全的云管控,将是更加云原生的计算架构。然而,当前 DPU、服务器、云操作系统之间的生态并不完善,制约着金融云架构的演进,需要产业侧和用户侧共同推进构建良性、开放的生态,以促进云原生金融云算力的全行业落地”。面向云基础设施的通用数据处理器(Data Processing Unit,以下简称 DPU)是连接算力资源和网络资源的关键节点。DPU 要解决的不仅是云基础设施“降本增效”的问题,也要解决现有云计算应用中网络资源与算力资源发展不协调的问题。随着各种应用在云环境中部署的复杂度持续增高和规模的不断扩展,数据交换不再仅仅是简单的服务器之间的数据搬运,还需要对数据进行有效的智能化处
5、理。传统网卡(NIC)及其后续的智能网卡(SmartNIC)由于自身技术结构的限制,无法在飞速发展的云计算应用中满足数据交换和智能化处理的需求,正在被 DPU 这种通DPU 金融行业发展白皮书V用数据处理器所取代。DPU 作为通用的数据处理器,不是对 NIC或 SmartNIC 的简单替代,而是对网络基础架构的本质改变。DPU本身所具有的通用可编程特性、低时延网络、统一资源管控以及持续发展的加速卸载特性,使得 DPU 正在促进云计算应用从架构上实现优化和重构。DPU 作为通用数据处理的基础部件,主要聚焦当前应用中消耗 CPU、GPU 算力资源的网络、存储、安全以及和应用相关的数据处理任务。DP
6、U 将这些任务从 CPU、GPU 中卸载下来,释放 CPU、GPU 的算力,支撑 CPU、GPU 发挥更大的效能。针对金融云的发展需求,DPU 本身具有的特点和能力,能很好地促进金融行业的数字化转型。本白皮书分析了金融行业在云部署中的发展趋势及面临的行业挑战,概述了 DPU 的技术演进历程、生态发展和典型案例,系统阐述了 DPU 技术在促进金融云绿色低碳发展方面的重要作用和应用实践,加快助力金融行业构建开放共享、稳定可靠、高效绿色、自主可控的金融级安全云平台。DPU 金融行业发展白皮书VI目目录录一、云原生浪潮下金融行业云基础设施的发展趋势和挑战.1(一)发展趋势.1(二)行业挑战.5二、DP
7、U 发展与趋势.11(一)DPU 历史演进.11(二)DPU 生态发展.17(三)DPU 典型案例.19三、基于 DPU 构建绿色低碳金融云.24(一)统一部署弹性调度.25(二)计算实例高可用.28(三)加速云原生网络.29(四)加速云原生存储.31(五)加速微服务应用.33(六)加速云原生安全.34(七)加速大模型训练.35(八)提升计算资源利用率.36四、DPU 在金融云的应用分析.41(一)弹性裸金属.41(二)零信任安全.43(三)高性能扁平化容器网络.45(四)人工智能大模型.47五、DPU 在金融云平台发展中的展望.50六、结语.52插图附录.54缩略语.55DPU 金融行业发展
8、白皮书1一、云原生浪潮下金融行业云基础设施的发展趋势和挑战(一一)发发展展趋趋势势在云原生技术快速发展、经济与商业模式正发生深刻变化的背景下,金融云平台作为金融行业数字化转型的依托,在金融行业生态格局中扮演着非常重要的角色。金融云包含平台基础设施(IaaS)、应用平台(PaaS)和金融生态(SaaS)3个层面(如图1所示),其中基础设施是构建体系完备、规模超大、自主可控和灵活高效的金融云平台的基石。图 1 金融云平台1 1.绿绿色色计计算算与与低低碳碳发发展展在碳达峰碳中和的双碳背景下,金融机构也在绿色转型和数字化转型升级中寻求突破,促进绿色计算和数字低碳技术创新。有数据显示,我国数据中心年用
9、电量在全社会用电量中的比DPU 金融行业发展白皮书2重正在逐年升高,为确保实现碳达峰碳中和目标,就需要在数据中心建设模式、技术、标准和可再生能源利用等方面进一步挖掘节能减排潜力。近年来,云计算发展迅猛,其本身就是一种绿色技术,提高了CPU的整体利用率。通过聚集计算资源和转移工作负载,云的资源利用率持续得到提高。推动数据中心绿色可持续发展,加快节能低碳技术的研发应用,提升能源利用效率,降低数据中心能耗,从而实现绿色计算与低碳的发展目标。2 2.部部署署模模式式多多样样化化金融领域云计算部署模式主要包括私有云、团体云以及由其组成的混合云等。在实际的落地部署中,不论是采用私有云建设方式,还是采用与第
10、三方合作的公有云建设方式,亦或混合云建设方式,越来越多的金融企业都在尝试利用云计算技术来降低运营成本,促进产品创新。当前,越来越多的金融机构开始尝试将IT 业务搭建在云上,而未来这一趋势还将不断深化。私有云或者混合云的建设模式在传统银行、证券等企业中得到青睐,而公有云模式则成为大量新兴互联网金融企业的选择,通过与第三方公有云厂商合作,得以实现自身业务的快速扩展,业务快速上线。金融业务上云呈现多样化的趋势,不同的金融企业也正在根据自身情况选择适合自身发展的建设模式。3 3.稳稳定定与与敏敏捷捷并并存存当前金融业务的发展中,既有针对稳态业务的高稳定性、高DPU 金融行业发展白皮书3可靠性、高安全性
11、要求,也有针对大数据、人工智能、区块链等新数字化技术业务的敏捷支持要求。随着金融业务规模的不断扩大,以及面向互联网业务场景的不断丰富,传统金融行业的信息管理系统已经严重制约了金融行业向数字化转型的发展。一方面,越来越多的用户通过互联网进行经济活动(例如查询信息、购物和理财等)。另一方面,金融行业也正在借助与互联网技术的结合推出更多业务,增加用户量及用户黏性。因此对未来的金融云平台提出了新的需求。在资源利用上,需要对资源进行池化管理,解耦计算、存储、网络和安全,从而实现对计算、存储、网络和安全资源的统一高效调度管理,进而实现透明、按需供给的资源管理模式。在安全上,不仅是现有的应用层数据需要安全监
12、控和管理能力,随着金融业务的不断变化,虚拟化层的引入以及基于云原生的容器、微服务的应用部署也需要依赖整个云原生平台的安全监控和管理能力。总体上,需要在实现安全和高效的前提下,保证具有高容灾和高可用性。4 4.安安全全可可信信与与可可控控随着金融业务上云的不断深化,经济活动安全越来越受到国家和监管部门的重视。金融行业对于数据的安全性和合规性要求非常高,金融云需要提供高度安全的数据存储和传输机制,确保客户敏感信息的保护和隐私安全。因为金融业务中涉及大量的资金、交易、用户隐私信息等敏感数据,所以对数据和隐私保护有更高的安全要求,这直接关系到国家的经济安全,同时也影响着DPU 金融行业发展白皮书4老百
13、姓生活的方方面面,使得金融云服务的安全可靠、可信、可控成为其发展必须满足的条件。当前,金融云发展所面临的安全问题并没有完全有效解决,已成为阻碍金融云发展的障碍之一。对数据加密性要求最高的金融行业将整体系统上云之后,建设更高的安全、可信、可控的金融云平台是未来的必然趋势。5 5.高高可可用用需需求求金融行业对规划、建设和运维的专业性要求也非常高,从规划、建设到各个系统的迁移和管理,都与其他行业的云服务有着很大的不同,在行业和系统内部都有着严格的规范要求。针对高可用性,规范就要求云计算平台应具备软件、主机、存储、网络节点、数据中心等层面的高可用保障能力,能够从严重故障或错误中快速恢复,保障应用系统
14、的连续正常运行,满足金融领域业务连续性要求。由于金融行业的特殊性,高可用是金融云基础设施建设中需要重点关注的问题。随着金融应用数量和类型的不断增加,以及对网络复杂度的要求也越来越高,高可用性成为金融云持续发展的重要保障。6 6.数数据据分分析析和和A AI I能能力力支支撑撑随着 AI 的发展,金融行业越来越多地使用数据分析和人工智能来优化业务决策和风险管理。因此,金融云通常会提供数据分析和 AI 训练推理的能力。此外,通用人工智能(AGI)所取得的成果使人们看到了一种可能性,即依托基础大模型的训练结果,DPU 金融行业发展白皮书5针对垂直领域特定场景和行业进行精细化模型训练,使 AI 在垂直
15、领域实现落地应用,提高生产率。金融云平台在这个层面也在逐步加大投入,为 AI 训练提供网络和算力的基础设施支撑。总体而言,在金融云基础设施向云计算架构的发展过程中,需要着力打造具有快速响应、弹性伸缩、高可用、低成本和安全的云计算环境。在整体的演进过程中,也面临着诸多挑战需要一一克服,这些挑战主要体现在以下方面。(二二)行行业业挑挑战战1 1.资资源源利利用用率率低低为支撑应用平台(PaaS)和金融生态(SaaS)的服务功能,在基础设施(IaaS)层需要对计算、网络以及安全等基础资源进行优化和管理。目前在 PaaS 和 SaaS 层,金融云的应用有着向以微服务为主,采用容器、K8s 集群、Ser
16、vice Mesh 等管理框架实现管理和部署的趋势。这种“容器+微服务”的方式将基础设施的计算资源释放给上层使用,容器技术拥有自身独特的优势,尤其是在金融云平台的生产环境中得到了广泛应用。然而容器技术的发展却对基础设施的资源管控提出了新的挑战,通过微服务,将复杂系统拆分为易于开发和维护的服务单元,从而实现敏捷性开发,例如 Kubernetes,Istio 等框架和方案都是这种思想的应用和实践。但是,随着各种应用程序组件分布在不同的服务器和虚拟机之中,带来了东西向流量业务激增。这些激增的东西向流量主要是来自不同虚拟机之间、不同容器应用之间的通信流量。DPU 金融行业发展白皮书6这种微服务架构带来
17、了分布式系统的复杂性,每个服务需要进行管理、调度和监控,这些管理组件的引入,无疑加重了额外的资源管理开销。随着容器和微服务部署规模的扩大,Kubernetes、Istio 组件消耗的主机 HOST 算力资源的比重将逐渐增大,最终将导致云计算平台无法提供有效的算力资源给容器和微服务应用,极大降低了金融云平台对计算资源的有效利用。2 2.部部署署模模式式的的挑挑战战在云计算技术金融用规范的要求中,明确金融云平台在实际的部署过程中,首先必须秉持安全优先、对用户负责的原则,根据信息系统所承载业务的重要性和数据的敏感性、发生安全事件的危害程度等,充分评估可能存在的风险隐患,谨慎选用与业务系统相适应的部署
18、模式。所以,如何选择金融云平台系统的部署模式是极具挑战的任务。目前,金融领域云包括私有云,团体云和混合云等多种模式,为了承载不同的业务需求就需要灵活的部署模式,这是未来的发展方向,但当前面临的问题是如何有效管理这种灵活多变的部署模式。从私有云的这个单点上来看,私有云是企业传统数据中心的延伸和优化,可以针对各种功能提供网络、存储、计算资源。在金融云领域,私有云是金融企业单独使用并构建的,对数据、安全和服务质量有自身的要求,需要根据特定的应用场景进行适配,这就对私有云部署过程中具体软件和硬件的底层基础设施技术的支撑提出了要求。通常,金融机构和企业更加关注自身业务DPU 金融行业发展白皮书7的研发和
19、应用,对底层基础设施技术的掌控和管理并不是强项。这就增加了金融企业在部署私有云过程中的成本和技术风险,因为在实现自身私有云应用需求的时候,很难根据来自不同软硬件供应商的软件、硬件组件增加符合自身业务需求的功能。另一个层面,从私有云、团体云和混合云相组合的这个面上来看,也更具挑战性。不同云部署模式下的管理和互联互通也是目前面临的挑战之一。总体而言,金融云平台在部署模式上的挑战是没有成熟和标准的云平台部署方案,需要金融企业投入大量的自有研发力量来进行定制化开发。3 3.资资源源弹弹性性不不足足资源弹性不足主要体现在如下方面。一一是是金融云平台面对的业务类型复杂多变,为了应对不同的业务需求通常会存在
20、多数据中心以及多集群部署情况,资源的调度和编排受到跨集群能力的限制。二二是是实际业务运行过程中存在峰值波动的情况,这就需要整个云平台具有自动伸缩能力,当前的资源管控在面对跨集群、跨资源(例如计算资源、存储资源、网络资源池化之后的管理和调度)管控时能力不足。三三是是裸金属服务器的弹性不足,目前裸金属服务器需要进行操作系统自动安装,创建和回收速度较慢,并且无法迁移。四四是是受到容灾和高可用技术实现的限制,为了保证可靠的业DPU 金融行业发展白皮书8务服务能力,不得不采用折中的双备份资源的方式,但是这样的实现模式限制了资源的灵活调配能力。4 4.安安全全防防护护的的挑挑战战云原生技术在金融云平台的使
21、用促进了金融云的数字化进程,以容器和微服务为代表的云原生技术得到了大力发展,同时基于云原生技术的安全性也得到了更多的关注。在基于容器和微服务提供高可靠、高灵活、高性能的情况下,高安全也非常重要。这里的安全尤其指基于 Docker 和 K8s 的容器安全。从云原生平台的架构来看会面对来自不同层面的挑战。首首先先,在容器及 K8s 层面,镜像安全、容器运行时安全、容器网络安全、权限安全等问题需要进行管理和监控。其其次次,在平台层面,集群隔离、租户安全、用户隔离等问题也对云平台提出了要求,当前云平台对资源的分散管理更凸显了这个问题。基于如上因素,一个典型的挑战来自针对东西向流量的安全管控。如上所述,
22、云原生技术的应用大大增加了数据中心服务器之间的数据交换(东西向流量),有数据表明东西向流量在数据中心总流量中的占比接近 80%,这就面临一个问题,一旦攻击者绕过南北向流量的边界防御,就可能在内网中肆意蔓延,如何有效控制内网中的东西向流量成为一个重要的安全问题。采取更严格的细粒度安全模型是解决这个挑战的路径之一,其中分布式防火墙技术可以将安全和工作负载在细粒度上联系起来。但是,是DPU 金融行业发展白皮书9采用纯软件方式、还是其他软硬一体的解决策略也需要具体分析和讨论。这些因素都对金融云平台在安全防护上提出了持续的挑战。5 5.高高可可用用的的挑挑战战云原生技术在企业实际场景中的实施落地,特别是
23、在金融场景的实施落地,仍然面临诸多挑战。如何实现金融云平台的高可用性是当前的挑战之一。金融云平台的高可用是一个系统级平台层面的要求,是分布式系统架构设计中必须考虑的因素之一。架构实现上可以通过冗余和自动故障迁移来实现,在故障迁移方面,首先就需要能够识别故障,能够在技术风险事件中有全链路的监控和管理能力。这就包括事件发生前、发展中、发生后的连续的业务监控和追溯能力。具体到风险事件发生前,就需要具备日常业务巡检、故障演练、业务监控,建立风险发现等手段;在风险事件发生时,需要具备应急管理快速拉起应急流程的能力,完成故障快速诊断,并通过应急预案、容灾切换实现故障的快速恢复;在风险事件结束后,需要具备风
24、险管理回溯、复盘等机制,加固风险事件发现和诊断能力。这些能力和手段保证了高可用性的实现,但这些功能的具体实现依托于具体的基础设施(IaaS)所能提供的能力。在高可用层面一个有代表性的挑战来自裸金属的应用,在裸金属应用中需要额外的网关服务器来承担虚拟化网络的开销,在 PXE 装机,本地盘迁移等能力上性能不高且耗时长。基于这些基本的能力现状,裸金属服务器在出现硬件故障时,无法DPU 金融行业发展白皮书10像虚拟机一样在短时间内恢复或迁移,不能满足故障应急需要,无法提供高可用能力。另外还有其他的情形,例如容器平台的宿主节点使用了 IaaS 虚拟机且启用了 SDN 网络,当容器平台启用CNI 特性时,
25、容器平台上的应用就可以和 IaaS 虚拟机的业务应用直接通信。如果和传统网络中的旧应用通信,则需要开启 IaaS的 NAT 特性或者为宿主节点配置 EIP 地址。可以看到,不同业务部署和实现方法对保证高可用性需要提供针对性的功能实现,一方面增加了适配开发的工作量和维护成本,另一方面无法解耦软件与软件之间、软件与硬件之间的耦合性。6 6.人人工工智智能能大大模模型型训训练练难难度度大大大模型通过海量数据的训练学习,具备了强大的语言理解和表达、思维链推理等能力,在文本图像理解、内容生成等人工智能任务中表现出显著优势和巨大潜力。相较于传统人工智能算法一事一议的建模方式,大模型具备更强的通用能力,可处
26、理多种任务,可较好解决传统模型的碎片化问题。大模型作为一种新型人工智能技术,在金融领域的应用范围涵盖了风险管理、欺诈检测、语音识别和自然语言处理等方面。通过人工智能大模型可以提高金融行业的应用效率,降低成本,提高精确性和安全性,并且为客户和投资者提供更好的服务和体验。训练一个大模型当前主要面临以下几方面挑战。(1 1)内内存存墙墙。GPT3 模型拥有 1700 亿的参数,光内存消耗需要近 800GB。训练过程因为会有权重、激活、优化器状态,再DPU 金融行业发展白皮书11加上自动微分所产生临时变量,需要 3500GB 内存,一个大模型的训练就需要 100 多块具有 32GB 内存的 GPU。随
27、着大模型的发展,参数会变得越来越大。而 GPU 与 GPU 之间的内存如何高效的进行交换,对大模型的训练效率有直接影响。(2 2)通通信信墙墙。大模型通过模型并行、流水线并行切分到大模型训练集群后,通讯便成了主要的性能瓶颈。对于大规模的深度学习模型,动辄需要几百甚至几千张 GPU 卡的算力,服务器节点多,跨服务器通信需求巨大,使得网络性能成为 GPU 集群系统的瓶颈。传统基于以太网络的 TCP 通信方式,不仅时延高,而且极大消耗了宝贵的计算资源和内存带宽资源,不能满足大规模的深度学习的网络通信需求。(3 3)存存储储墙墙。大模型训练过程中需要读取和存放海量数据到磁盘中,如何高效存放这些数据,以
28、及集群中的 GPU 如何共享这些数据将直接影响到大模型训练的时间。二、DPU 发展与趋势(一一)D DP PU U 历历史史演演进进随着云计算、虚拟化技术的发展,网卡也随之发展,从功能和硬件结构上基本可划分为 4 个阶段。1 1.传传统统基基础础网网卡卡(N NI IC C)。负责数据报文的收发,具有较少的硬件卸载能力。硬件上以 ASIC 硬件逻辑实现网络物理链路层,以及 MAC 层的报文处理,后期 NIC 标卡也支持了,诸如 CRC 校验的功能。不具有编程能力。DPU 金融行业发展白皮书122 2.智智能能网网卡卡(S Sm ma ar rt tN NI IC C)。具备一定的数据平面硬件卸
29、载能力,例如 OVS/vRouter 硬件卸载。硬件结构上以 FPGA 或者是带有 FPGA 和处理器内核的集成处理器(这里处理器功能较弱)来实现数据面硬件卸载。3 3.F FP PG GA A+C CP PU U 的的 D DP PU U 网网卡卡(F FP PG GA A-B Ba as se ed d D DP PU U)。兼具智能网卡功能的同时,可以支持数据面和控制面的卸载以及一定的控制平面与数据平面的可编程能力。硬件结构的发展上,基于 FPGA增加了通用 CPU 处理器,例如 Intel CPU。4 4.D DP PU U S So oC C 网网卡卡(S Si in ng gl l
30、e e-C Ch hi ip p D DP PU U)。单芯片的通用可编程 DPU 芯片,具备丰富的硬件卸载加速和可编程能力,支持不同云计算场景和资源统一管理特性。硬件上,采用单芯片的 SoC 形态,兼顾性能和功耗。FPGA-Based DPU 在硬件设计上的挑战主要来自芯片面积和功耗。面积上,PCIe 接口的结构尺寸限定了板上的芯片面积;功耗上,板卡的散热设计与芯片和整板的功耗密切相关。这两个因素制约着 FPGA 方案的持续发展。DPU SoC方案吸取了从 NIC 到 FPGA-Based DPU 的发展过程的软硬件经验和成果,是目前以 DPU 为中心的数据中心架构的重要演进路径。DPU 作
31、为软件定义芯片的典型代表,基于“软件定义、硬件加速”的理念,是集数据处理为核心功能于芯片的通用处理器。DPU 通用处理单元用来处理控制平面业务,专用处理单元保证了数据平面的处理性能,从而达到了性能与通用性的平衡。DPU 专用处理单元用来解决通用基础设施虚拟化的性能瓶颈,通用处理DPU 金融行业发展白皮书13单元则保证 DPU 的通用性,使得 DPU 能够广泛适用于云基础设施的各种场景中,实现虚拟化软件框架向 DPU 的平滑迁移。1 1.N NI IC C的的发发展展和和应应用用传统基础网卡 NIC,又称网络适配器,是构成计算机网络系统中最基本和最重要的连接设备,其主要工作是将需要传输的数据转换
32、为网络设备能够识别的格式(如图 2 所示)。图 2NIC 在虚拟化中应用在网络技术发展的带动下,传统基础网卡的功能也更加丰富,已经初步具备了一些简单的硬件卸载能力(如 CRC 校验、TSO/UFO、LSO/LRO、VLAN 等),支持 SR-IOV 和流量管理 QoS,传统基础网卡的网络接口带宽也由原来的百兆、千兆发展到 10G、25G 乃至100G。在云计算虚拟化网络中,传统基础网卡向虚拟机提供网络接入的方式主要分为以下 3 种。DPU 金融行业发展白皮书14(1)网卡接收流量经操作系统内核协议栈转发至虚拟机。(2)由 DPDK 用户态驱动接管网卡,让数据包绕过操作系统内核协议栈直接拷贝到虚
33、拟机内存。(3)使用 SR-IOV 技术,将物理网卡 PF 虚拟化成多个具有网卡功能的虚拟 VF,再将 VF 直通到虚拟机中。随着 VxLAN 等隧道协议以及 OpenFlow、OVS 等虚拟交换技术的应用,网络处理的复杂度在逐渐增大,需要消耗更多的 CPU 资源,因此智能网卡 SmartNIC 诞生了。2 2.S Sm ma ar rt tN NI IC C的的发发展展和和应应用用智能网卡 SmartNIC 除了具备传统基础网卡的网络传输功能外,还提供丰富的硬件卸载加速能力,能够提升云计算网络的转发速率,释放主机 CPU 计算资源(如图 3 所示)。图 3SmartNIC 在虚拟化中应用DP
34、U 金融行业发展白皮书15智能网卡 SmartNIC 上没有通用处理器 CPU,需要主机 CPU进行控制面管理。智能网卡 SmartNIC 主要卸载加速对象是数据平面,如虚拟交换机 OVS/vRouter 等数据面 Fastpath 卸载、RDMA网络卸载、NVMe-oF 存储卸载以及 IPsec/TLS 数据面安全卸载等。但是随着云计算应用中网络速率的不断提高,主机仍会消耗大量宝贵的 CPU 资源对流量进行分类、跟踪和控制,如何实现主机 CPU 的“零消耗”成了云厂商下一步的研究方向。3 3.F FP PG GA A-B Ba as se ed d D DP PU U网网卡卡的的发发展展和和
35、应应用用相比智能网卡 SmartNIC,FPGA-Based DPU 网卡在硬件架构上增加了通用 CPU 处理单元,组合成 FPGA+CPU 的架构形态,从而便于实现对网络、存储、安全和管控等通用基础设施的加速和卸载(如图 4 所示)。图 4DPU 在虚拟化中应用DPU 金融行业发展白皮书16在这个阶段中,DPU 的产品形态主要以 FPGA+CPU 为主。基于 FPGA+CPU 硬件架构的 DPU 具有良好的软硬件可编程性,在 DPU发展初期大部分 DPU 厂商都选择了这个方案。该方案开发时间相对较短且迭代快速,能够迅速完成定制化功能开发,便于 DPU 厂商快速推出产品,抢占市场。但是随着网络
36、带宽从 25G 向 100G的迁移,基于 FPGA+CPU 硬件架构的 DPU 受到芯片制程和 FPGA 结构的限制,导致在追求更高吞吐能力时,难以做到对芯片面积和功耗的很好控制,从而制约了这种 DPU 架构的持续发展。4 4.D DP PU U S So oC C网网卡卡的的发发展展和和应应用用DPU SoC 是基于 ASIC 的硬件架构,结合了 ASIC 和 CPU 的优势,兼顾了专用加速器的优异性能和通用处理器的可编程灵活性的单芯片 DPU 技术方案,是驱动云计算技术发展的重要因素。如前一段所述,虽然 DPU 在云计算扮演着重要的作用,但传统的 DPU 方案多以 FPGA-based 方
37、案呈现,随着服务器从 25G 向下一代 100G 服务器迁移,其成本、功耗、功能等诸多方面受到了严重的挑战。单芯片的 DPU SoC 不仅在成本、功耗方面有着巨大优势,同时也兼具高吞吐和高灵活编程能力,不仅支持虚拟机、容器的应用管理部署,也支持裸金属应用(如图 5 所示)。DPU 金融行业发展白皮书17图 5 DPU SoC 在虚拟化和裸金属中的应用随着 DPU 技术的不断发展,通用可编程的 DPU SoC 正在成为云厂商在数据中心建设中的关键部件。DPU SoC 可以实现对数据中心中的计算资源和网络资源的经济高效管理,具备丰富功能和可编程能力的DPU SoC可以支持不同云计算场景和资源统一管
38、理,优化数据中心计算资源利用率。(二二)D DP PU U 生生态态发发展展可以看到 DPU 技术是由需求驱动,然后快速发展起来的新技术形态。近几年来,经过国内外互联网公司在不同应用场景下的尝试和验证,取得了不错的成本收益。例如在国外 AWS 使用 NitroDPU 系统把网络、存储、安全和监控等功能分解并转移到专用的硬件和软件上,将服务器上几乎所有资源都提供给服务实例,降低了数据中心总体的运行成本;在国内阿里云发布了云基础设施处理器 CIPU,实现了网络、存储、虚拟化全硬件卸载。DPU 金融行业发展白皮书18随着 DPU 技术的不断完善和功能定位的逐步明晰,DPU 的生态建设也在积极推进,在
39、行业内取得了很大的进展。在国外,首先 Nvidia 推动 DOCA 软件栈的发展,促进和降低终端用户对 DPU 的使用门槛。从 CUDA 软件生态之于 Nvidia GPU的作用,可以看到 DPU 软件生态对 DPU 技术发展的重要性,因此DOCA 广泛受到了业界的持续关注。其次,除了 DOCA 之外,OPI(Open Programmable Infrastructure,开放可编程基础设施),在 2022 年 6 月由 Linux 基金会发布,旨在为基于 DPU/IPU 等可编程硬件承载的软件开发框架培育一个由社区驱动的开放生态,简化应用程序中的网络、存储和安全 API,从而在开发运维、安
40、全运维以及网络运维之间的云和数据中心中实现更具可移植性和高性能的应用程序。在国内,也在积极推进 DPU 产业的软件生态建设。例如,2023年 6 月 ODPU 作为算网云开源操作系统(CNCOS)项目 1.0 的子项进行了发布,在 DPU 管理、计算卸载、存储卸载、网络卸载、安全卸载和 RDMA 支持等方面提供通用软件开发框架和兼容性接口。与此同时,如中国信息通信研究院、中国通信标准化协会等部门和组织,也在制定积极制定相应的标准,从多个维度,例如兼容性规范、硬件编程规范、应用生态接口规范等维度,来实现 DPU的软硬件解耦和互联互通的互操作能力。当前,国内外都在围绕着 DPU 这个新兴技术积极推
41、进相关软硬件生态的开发和迭代。并且,立足于国内,无论从行业本身还DPU 金融行业发展白皮书19是来自政策的引导,都在积极推动着 DPU 的生态建设和标准化进程。不过需要强调的是,目前 DPU 的生态发展还处在早期。软硬件都还面临诸多挑战。例如在硬件层面,服务器中的电源管理、BMC 带外管控逻辑与 DPU 的需求并不完全匹配;在软件层面还没有形成统一的软件栈(包括 SDK 和运行时环境),也没有完善的定义清晰的 API 接口实现与云平台软件系统的兼容性对接;在操作系统层面,例如 Linux、windows、VMware 以及各类国产操作系统(OpenEuler 等),也面临适配的需求。长期来看,
42、DPU 生态建设是一个不断迭代长期完善的过程。(三三)D DP PU U 典典型型案案例例在 DPU 的设计、开发和使用中,国内外芯片巨头和头部云服务商都投入了大量的研发资源,经过不断探索和实践,取得了很好的成本收益。1 1.D DP PU U在在A AW WS S(亚亚马马逊逊云云)中中的的应应用用AWS 是全球领先的云计算服务和解决方案提供商,AWS NitroDPU 系统已经成为 AWS 云服务的技术基石。AWS 借助 Nitro DPU系统把网络、存储、安全和监控等功能分解并转移到专用的硬件和软件上,将服务器上几乎所有资源都提供给服务实例,极大地降低了成本。Nitro DPU 在亚马逊
43、云中的应用可以使一台服务器每年可以多获得几千美元的收益。DPU 金融行业发展白皮书20图 6AWS Nitro DPU(来源 AWS 官网)Nitro DPU 系统主要分为以下几个部分(如图 6 所示)。(1 1)N Ni it tr ro o 卡卡。一系列用于网络、存储和管控的专用硬件,以提高整体系统性能。(2 2)N Ni it tr ro o 安安全全芯芯片片。将虚拟化和安全功能转移到专用的硬件和软件上,减少攻击面,实现安全的云平台。(3 3)N Ni it tr ro o 控控制制卡卡。一种轻量型 Hypervisor 管理程序,可以管理内存和 CPU 的分配,并提供与裸机无异的性能。
44、Nitro DPU 系统提供了密钥、网络、安全、服务器和监控等功能支持,释放了底层服务资源供客户的虚拟机使用,并且NitroDPU 使 AWS 可以提供更多的裸金属实例类型,甚至将特定实例的网络性能提升到 100Gbps。2 2.N Nv vi id di ia a D DP PU U的的应应用用Nvidia 是一家以设计和销售图形处理器 GPU 为主的半导体公司,GPU 产品在 AI 和高性能计算 HPC 领域被广泛应用。2020年 4 月,Nvidia 以 69 亿美元的价格收购了网络芯片和设备公司Mellanox,随后陆续推出 BlueField 系列 DPU。DPU 金融行业发展白皮书
45、21图 7 Nvidia BlueField-3 DPU 介绍(来源 Nvidia 官网)Nvidia BlueField-3 DPU(如图 7 所示)延续了 BlueField-2DPU 的先进特性,是首款为 AI 和加速计算而设计的 DPU。BlueField-3 DPU 提供了最高 400Gbps 网络连接,可以卸载、加速和隔离,支持软件定义网络、存储、安全和管控功能。3 3.I In nt te el l I IP PU U的的应应用用Intel IPU 是一种具有硬化加速器和以太网连接的高级网络设备,可使用紧密耦合的专用可编程内核来加速和管理基础设施功能。IPU 提供完整的基础设施卸
46、载,并充当运行基础设施应用的主机控制点,以提供额外的安全层。使用 Intel IPU,可以将全部基础设施业务从服务器卸载到IPU上,释放服务器CPU资源,也为云服务提供商提供了一个独立且安全的控制点。DPU 金融行业发展白皮书22图 8 Intel IPU 产品 roadmap(来源 Intel 官网)2021 年,Intel 在 Intel Architecture Day 上发布了 OakSprings Canyon 和 Mount Evans IPU 产品(如图 8 所示)。其中,Oak Springs Canyon 是基于 FPGA 的 IPU 产品,Mount EvansIPU 是基
47、于 ASIC 的 IPU 产品。Intel Oak Springs Canyon IPU 配备了 Intel Agilex FPGA和 Xeon-D CPU。Intel Mount Evans IPU 是 Intel 与 Google 共同设计的 SoC(System-on-a-Chip),Mount Evans 主要分为 IO子系统和计算子系统两个部分。网络部分用 ASIC 进行数据包处理,性能相比 FPGA 高很多,且功耗更低。计算子系统使用了 16个 ARM Neoverse N1 核心,拥有极强的计算能力。4 4.D DP PU U在在阿阿里里云云中中的的应应用用阿里云也在 DPU 的
48、技术上不断进行着探索。2022 年阿里云峰会上,阿里云正式发布了云基础设施处理器 CIPU,CIPU 的前DPU 金融行业发展白皮书23身是基于神龙架构的 MoC 卡(Micro Server on a Card),从功能和定位符合 DPU 的定义。MoC 卡拥有独立的 IO、存储和处理单元,承担了网络、存储和设备虚拟化的工作。第一代和第二代MoC 卡解决了狭义上的计算虚拟化零开销问题,网络和存储部分的虚拟化仍由软件实现。第三代 MoC 卡实现了部分网络转发功能硬化,网络性能大幅提升。第四代 MoC 卡实现了网络、存储全硬件卸载,还支持了 RDMA 能力。阿里云 CIPU 作为一颗为飞天系统设
49、计的数据中心处理器系统,对于阿里云构建新一代完整的软硬件云计算架构体系有着重大意义。5 5.D DP PU U在在火火山山引引擎擎中中的的应应用用火山引擎同样在不断探索自研 DPU 的道路,其自研 DPU 采用软硬一体虚拟化技术,旨在为用户提供可弹性伸缩的高性能计算服务。在火山引擎弹性计算产品中,第二代弹性裸金属服务器和第三代云服务器都搭载了自研 DPU,在产品能力和应用场景上进行了广泛验证。2022 年正式对外商用的火山引擎第二代 EBM 实例首次搭载火山自研 DPU,在整体性能上既保留了传统物理机的稳定性和安全性优势,能够实现安全物理隔离,又兼具虚拟机的弹性和灵活性优势,是新一代多优势兼具
50、的高性能云服务器。2023 年上半年发布的火山引擎第三代 ECS 实例同样结合了火山引擎自研最新 DPU 的架构和自研虚拟交换机、虚拟化技术,网络及存储 IO 性能均实现了大幅提升。DPU 金融行业发展白皮书24三、基于DPU构建绿色低碳金融云近年来,为落实双碳等国家重大战略,金融业积极实施绿色发展转型。数据中心作为金融业的关键基础设施以及数字经济的重要基础,是金融业发展和数字化转型中的重要抓手。而在数字化转型中,数据中心一方面需要支撑大量数据吞吐和运算能力,另一方面还要面对来自服务器等 IT 产品的散热与功耗挑战,需要大量运维成本和能源消耗,已经成为金融机构的主要开支。党的二十大报告最新提出