在网计算(NACA)技术白皮书（2023年）.pdf

资源描述

1、在网计算（NACA）技术白皮书（2023 年）1在网计算（NACA）技术白皮书（2023 年）中移智库中国移动研究院2023 年 8 月在网计算（NACA）技术白皮书（2023 年）人工智能和大数据等新兴科技产业正深刻影响我国经济社会发展，推动各行各业数字化转型升级。大数据处理、高性能计算以及人工智能大模型背后需要庞大的算力资源，对算力的高效稳定供给提出挑战。为推动国家新基建战略的落实和“东数西算”工程走向纵深，中国移动充分发挥中央企业“网络强国、数字中国、智慧社会”主力军作用，系统打造以 5G、算力网络、智慧中台为重点的新型信息基础设施，创新构建“连接+算力+能力”新型信息服务体系。2021

2、年，中国移动发布算力网络白皮书1，制定了算力网络总体发展策略，明确了核心理念、场景展望、发展路径以及技术体系，提出了“泛在协同”、“融合统一”和“一体共生”的三个发展阶段，随后发布算力网络技术白皮书2及算网一体网络架构及技术体系展望白皮书3，持续打造算力网络技术体系，推动算力网络原创技术攻关，助力我国数字经济的健康发展。在网计算是算网一体原创技术体系中的核心技术之一。面向大规模高算力需求的分布式应用，在网计算使用网络设备进行近数据计算，可以在高速转发过程完成应用数据处理，同时缩短数据传输路径，是解决分布式应用通信瓶颈问题的重要技术。在网计算是计算、网络双学科交叉融合的创新方向，赋能通用计算、

3、智能计算以及超算等多样化业务场景，最大化提升业务计算服务能力，为用户提供高效、安全、可靠的算力增强服务，助推算力网络走向纵深，以及数字中国、东数西算等国家战略的实施。在网计算（NACA）技术白皮书（2023 年）本白皮书详细描述了在网计算产生的背景及需求以及典型应用场景，通过总结现有技术存在的问题，提出在网计算新架构，分析关键技术和挑战，并对在网计算未来发展提出倡议。本白皮书的版权归中国移动所有，未经授权，任何单位或个人不得复制或拷贝本白皮书之部分或全部内容。在网计算（NACA）技术白皮书（2023 年）1目目录录.1 背景和需求.22 应用场景.42.1 在网计算赋能先进计算中心.42.2

4、在网计算加速边缘万物智联.63 在网计算（NACA）技术架构.93.1 概念与架构.93.2 NACA 核心特征.113.3 功能视图.154 关键技术及挑战.184.1 计算语义映射.184.2 计算正确性保障.194.3 计算程序网内编排.194.4 网内资源池化.205 推进展望.23参考文献.24缩略语列表.25在网计算（NACA）技术白皮书（2023 年）21 1 背景和需求背景和需求高性能计算（HPC）和人工智能（AI）等技术的发展正不断推动生物医药、航空航天、地质勘探等领域取得重大突破，随之也带来了不断激增的计算量，必须通过大规模集群算力才能充分发挥优势。例如，ChatGPT模

5、型参数总量已经达到千亿级别，高性能计算也已经迈向百亿亿级计算时代。同时，5G、工业互联网等新技术的应用正推动现代网络向万物智联不断演进，推动生产力迈向新台阶。大规模传感器、智能终端产生的海量数据需要高效、实时、便捷、稳定地进行处理，也需要大量泛在算力的支持。在这样的需求下，分布式应用的系统性能提升却面临以下两点挑战：算力能力方面，算力能力方面，随着摩尔定律逐渐失效，单一节点算力增长速度逐渐放缓，已无法满足不同应用场景的性能诉求。多元化的算力承载和以业务为中心的融合方案是演进的必然趋势。必须以融合的视角重新审视计算体系结构和网络体系架构，对CPU/GPU/ASIC/FPGA/NPU等各种计算资源

6、进行整合。分布式系统内部通信方面分布式系统内部通信方面，随着系统规模的不断扩大，计算节点数量已经达到数万甚至数十万，计算节点间的通信量不断增加，且通信模式更加复杂，为分布式系统设计带来巨大挑战。高性能分布式数据处理对实时性、可靠性、安全性、一致性等提出更高要求，通信已经成为成为瓶颈问题，主要来源于以下三点。一一是是网络负载均衡策略无法适应智能计算、HPC等场景下差异化流量模式；二是二是大规模分布式系统接收端面临的incast多打一问题，造成任务完成时间过长；三是三是分布式应用中普遍存在的一对多、多对一、多对多的逻辑通信模式与物理网络中点到点的通信实现不匹配，网络中存在大量冗余信息，影响系统性能

7、。在网计算使用网络设备进行近数据计算，可以在线速处理的同时完成流量压缩，同时缩短数据传输路径，很大程度上解决了上述痛点问题。目前，在网计算技术在智能计算及超算领域已有部分研究成果和产业应用。例如基于在网计算实现分布式机器学习模型训练加速4以及基于Infiniband技术提出的Sharp技术5可以加速HPC等大规模计算密集型任务。但是在网计算当前仍面临应用场景竖井式、协议实现封闭化、编程范式不友好等挑战。基于以上考量，本白皮书提出了在网计算新架构NACA（NetworkAssisted Computing Acceleration），系统化推进在网计算设计和实现。在网计算在网计算（NACA）技术

8、白皮书（2023 年）3NACA是一种与应用深度融合，实现网络辅助计算加速的新模式，通过重塑应用处理和开发模式，实现系统加速，提升算网资源利用率。白皮书第二章全面分析了在网计算的应用场景，第三章给出在网计算NACA的概念、技术架构以及核心特征，第四章分析了NACA关键技术和挑战，最后提出倡议，希望联合产学研持续攻关，推进在网计算技术应用和发展。在网计算（NACA）技术白皮书（2023 年）42 2 应用场景应用场景2.12.1 在网计算赋能先进计算中心在网计算赋能先进计算中心(1)高性能计算高性能计算高性能计算通过发挥规模集群算力，实现复杂任务处理，广泛应用于气象、地震、生物、材料等多个领域。

9、高性能计算网络提供了高带宽、低延迟的互联解决方案，支持各种计算密集型和数据密集型应用的运行。自2013年起，高性能计算TOP50013性能上升速率明显变缓，依靠硬件堆叠单个超算中心计算能力面临技术瓶颈限制，难以满足超大复杂任务的计算需求。传统聚合通信过程中的计算在服务器侧完成，网络只负责转发。当采用参数服务器的方式实现数据并行时，多个工作节点在自己的数据集上进行参数训练，然后将训练结果发送到参数服务器完成参数聚合，再将结果广播给各个工作节点。在这种通信模式下，参数服务器的输入链路往往成为整个系统的性能瓶颈。随着服务器规模和计算量的不断提升，服务器数据交互的次数会显著增加，转发时延不断增大，其对

10、网络性能的压力也越来越大。在网计算功能采用交换设备卸载参数聚合过程，可以有效地提高聚合通信的效率，降低总的任务完成时间。以典型的MPI聚合算子AllReduce为例，其通信交互复杂度为O(logN)（N表示服务器节点规模）。如图1（a）所示，传统聚合通信方式，8个节点（N=8）进行AllReduce计算总共需要3个批次的通信，复杂度为O(logN)；图1（b）为采用了在网计算加速的聚合通信方式，8个节点进行AllReduce计算，由接入leaf进行第一次汇聚，由spine交换机进行第二次汇聚，总的通信批次只与网络的层次数量有关，交互复杂度变为常量O(C)，C表示网络的层级数，与服务器节点规模无

11、关，极大地减少了服务器集群间的通信交互过程，降低了HPC小字节报文场景下的网络时延，提升了计算效率。在网计算（NACA）技术白皮书（2023 年）5图1(a)端侧实现AllReduce1(b)在网计算实现AllReduce聚合通信在分布式机器学习系统中也广泛使用，随着大模型训练的发展，在网聚合操作成为在网计算的典型基础功能，能够有效提升分布式机器学习系统的应用处理效率。(2)高性能存储高性能存储分布式系统的一致性是分布式处理领域最为基础也最为重要的问题。在分布式高性能存储系统中，对于一组服务器，给定一组操作，需要使得最后服务器的执行结果达成一致。具体来说，当其中某个服务器收到客户端的一组指令时

12、，它需要与其它服务器交流，以保证所有的服务器都是以同样的顺序收到同样的指令，从而保证所有的服务器产生一致的结果。现有的分布式数据库、分布式存储系统中，存在大量的并发读、写操作。这些操作对同一对象的并发读取或修改可能造成数据的不一致。为了保证数据的一致性，分布式锁得以广泛应用。当一个进程需要对某个对象进行读、写操作前需要首先获取对应的读、写锁，基于锁的统一管理，进程中的内容可以有序访问，文件内容的修改也可以保证全局唯一性。在网计算可以将保障分布式系统一致性的功能卸载到交换机。其一是交换机位于网络中，请求无需转发到对应的服务器，从而减少传输路径时延；其二交换机具有强大的数据包处理能力，数据包可以线

13、速通过交换机，因而可以降低处理时延。在分布式数据库、分布式存储等场景应用在网计算，可以加速分布式系统的共识，仅需 sub-RTT 的响应时间，并有效提高端侧的吞吐量。(3)大数据流式处理大数据流式处理在各个业务领域，对于海量数据的收集和分析可以为业务提供决策依据。传统的大数据分析系统还是采用传算分离的体系结构，即端侧服务器进行数据的计在网计算（NACA）技术白皮书（2023 年）6算，Shuffle Manager 和网络在服务器间进行数据通信。（Shuffle 是 Spark11作业中对数据进行重新分区的过程，Shuffle Manager 是 Spark 中负责管理 Shuffle 过程的

14、组件。）在网计算可以把部分算子和网络传输联合设计，提升系统效率。大数据典型编程范式 MapReduce12中，一个 Reducer 会从多个 Mapper 中拉取数据，进行规约操作。例如，词频统计应用 WordCount 需要对分散在多机的单词计数进行汇总；SQL 应用中，先分类（groupby）再汇总（sum、count）也是常见的计算模式。在在网计算体系结构中，规约操作可以在数据流经交换机时随路完成，不占用额外的计算时间和服务器资源。另外，过滤（filter）和过滤重复项（distinct）算子也可以卸载到交换机进行。比较两种体系结构，大数据算子在端侧执行时，会涉及到多次内存、磁盘数据读写

15、（例如，外排序），而在网计算可以对数据进行流式处理，减少此类开销，提升系统效率。2.22.2 在网计算加速边缘万物智联在网计算加速边缘万物智联(1)车联网车联网车联网需要人、车、路、网、云高度协同，在网计算技术可以与车载计算平台、路侧计算设备以及边缘计算云进行深度融合，构成多级混合分布式计算系统，以协助压缩数据流量，缩短通信时延，提高处理的实时性。路侧设备的部分数据需要上传云端做处理，由于路侧设备、车辆、行人数量庞大，因此产生的数据也是海量的。利用在网计算做数据处理和聚合，可以减少传输负载，简化云端处理流程，降低时延。同时，对于车联网中需要实时数据识别、推理的业务，利用在网计算技术在路侧边缘设

16、备做数据识别和推理，可以大大减少需要回传云端数据量。在网计算（NACA）技术白皮书（2023 年）7图2 在网计算车联网用例文献6给出了进一步的方案，基于网络推理解决方案，在转发良性流量时，提取流量特征，发现可疑流量时将立即丢弃并记录到控制平面。基于这些流量特征数据，控制平面重新训练当前模型，以从新的流量模式中学习并生成一组新规则来映射新模型的参数，然后将更新的规则插入数据平面并删除过时的规则。通过这个更新的设置，能够从新到达的流量中学习并持续消除异常流量。(2)XR扩展现实（Extended Reality，XR）是 VR、AR 和 MR 等多种技术的统称，是当前产业应用关注的热点。随着 X

17、R 技术不断演化升级，数据流更多源异构、图像分辨率更高、应用场景更多样、用户规模更庞大，对于网络下行带宽、容量、确定性时延和可靠性均提出全新要求。在网计算技术通过网络感知业务的方式，提升网、业、端协同以及构建分布式高性能计算能力，为 XR 终端设备提供高性能计算支撑。XR 业务使用基于图像组编码时，网络设备的计算增强可根据数据包模式识别 XR 业务模型以提供增值服务，可根据数据包载荷获取业务信息以实现业务探测功能，可根据关联数据流方式实现专用承载识别及网络切片识别，提供更精准的服务保障。AR/VR 基于 5G 网络实现端云协同渲染时，需要实现边缘云和终端设备协同分配计算任务，在终端侧进行低延迟

18、的渲染任务，在边缘云进行计算密集型的运在网计算（NACA）技术白皮书（2023 年）8算和图像渲染，并整合两者的计算结果。引入在网计算能力，通过网络设备增强并行分布式计算能力和聚合通信能力，随路卸载边缘云的计算任务，大幅提升AR/VR 渲染能力，提供更实时的用户体验。图3 基于在网计算的XR业务加速在网计算（NACA）技术白皮书（2023 年）93 3 在网计算（在网计算（NACA）技术架构技术架构3.13.1 概念与架构概念与架构在网计算使用网络设备进行近数据计算，可以在高速转发过程完成应用数据处理，缩短数据传输路径，是解决分布式应用通信瓶颈问题的重要技术。然而，在网计算当前仍面临应用场景竖

19、井式、协议实现封闭化、编程范式不友好等挑战。应用场景竖井式方面应用场景竖井式方面，现有在网计算系统设计需要综合考虑设备能力和应用场景，不同场景下待处理的数据结构和数据类型有所不同，目前尚缺乏跨应用场景的通用系统设计。协议实现封闭化方面协议实现封闭化方面，Infiniband 体系架构中已引入 Sharp5在网计算能力，但 Infiniband 实现封闭，和开放的产业生态不兼容。编程范式不友好方编程范式不友好方面，面，目前应用程序开发和网络设备开发模式有差异，对于应用开发者门槛较高，不利于在网计算的设计和实现。针对现有问题，本白皮书本白皮书提出在网计算新架构提出在网计算新架构 NACA（Netw

20、ork AssistedComputing Acceleration）。在网计算在网计算 NACA 以提升在网计算通用性为目标，重构应用处理模式，构建以提升在网计算通用性为目标，重构应用处理模式，构建全新的在网计算通信库全新的在网计算通信库，围绕拓扑映射围绕拓扑映射、编程范式编程范式、计算实现计算实现、资源管理形成资源管理形成”四个统一四个统一”，实现网络辅助计算加速，提升分布式系统算能算效。，实现网络辅助计算加速，提升分布式系统算能算效。图4 在网计算（NACA）技术架构在网计算（NACA）技术白皮书（2023 年）10NACA架构核心体现在架构核心体现在“一横一纵一横一纵”。横向横向：在网

21、计算通信库承上启下在网计算通信库承上启下，以以异构网内算力资源实现统一的在网计算服务异构网内算力资源实现统一的在网计算服务。在网计算通信库层向上对接多种分布式应用，以统一的在网计算原语供不同应用调用，形成通用的在网计算能力；向下对接不同网内资源及多种互联方式，将计算逻辑映射到不同的物理网络实现在网计算。纵向：在网计算编排管理全栈贯通，纵向：在网计算编排管理全栈贯通，优化应用开发模式、协同端网优化应用开发模式、协同端网任务部署任务部署、统筹网内资源管理统筹网内资源管理。多租户、多业务的应用程序通过编排管理层实现跨端侧和网侧的计算任务拆解和分配，在网计算程序以灵活动态的方式分配到异构网络节点实现计

22、算。NACA架构包含异构网元、高性能互联、在网计算通信库、分布式应用和编排管理5个核心功能层。(1)异构网元异构网元异构网元是指在不同场景下具备在网计算能力的物理设备，是实现在网计算的基础底座。异构网元包括数据中心内部服务于高性能计算、智算等业务的数据中心交换机以及用于加速的端侧适配器，如 XPU 等；以及在网络边缘具备在网计算能力边缘汇聚交换机等。这些设备呈现异构多形态的特点，功能也因场景不同有所差异。NACA 架构提出对异构网元资源池化，进行统一管理和调度，提升在网计算性能。(2)高性能互联高性能互联高性能互联层为并行计算中的服务器、在网计算网元提供可靠、高效的连接保障，可以基于现有成熟协

23、议栈实现，如 RoCE、InfiniBand8、Omni-Path9和Slingshot10等，也可以基于自定义协议栈。在此基础上，进一步构建在网计算所需的主要网络功能。一是可靠传输一是可靠传输，是在网计算结果正确的前提，通过端网协同的拥塞控制，保证数据完整性和在网计算任务处理的正确性。二是二是拓扑感知拓扑感知，是提升在网计算拓扑亲和度的关键，通过计算逻辑和物理网络连接相结合，优化在网计算的物理实现。三是三是标识转发标识转发，是在网计算实现集群规模扩展的基础，通过设计特定网络协议支持在网计算信号的识别和处理，实现在网计算算子通告、资源寻址等功能。(3)在网计算通信库在网计算通信库在网计算通信库

24、作为 NACA 架构体系的核心层，为分布式应用提供了通用的在网计算加速能力。面向多种分布式应用，在网计算通信库基于原生的并行计在网计算（NACA）技术白皮书（2023 年）11算通信库进行扩展，丰富网络节点可以参与加速的通信算子，包括一对多的逻辑，如广播操作 Broadcast；多对一通信逻辑，如规约类操作 Reduce、AllReduce 等；多对多的通信逻辑，如 AllGather、ReduceScatter 等；以及同步操作 Barrier）。(4)分布式应用分布式应用NACA 的分布式应用层包含在网计算可以服务的各种应用类型。面向大型计算和存储集群，在网计算可以加速包括 HPC、高性能

25、存储以及分布式机器学习的训练和推理等应用；面向 5G/6G、物联网、工业互联网等场景，在网计算可以提供高速的数据聚合能力，以提取优质的数据资源，同时可以部署轻量化统计模型，实现业务的推理识别。这些应用最大的共性在于需要分布式计算，在分布式的执行过程中，往往面临通信瓶颈问题。在网计算将发挥网络转发节点原生的高速处理和数据汇聚功能，实现业务数据的压缩，以及 Sub-RTT 的快速响应，缩短数据传输路径，优化分布式应用的处理流程。(5)编排管理编排管理在网计算编排管理层主要功能包括在网计算应用程序的编译和部署、计算任务跨端网的分解和分配以及对网络和计算资源的管理。这部分的主要技术包括开发者友好的编程

26、语言以及多种在网计算程序跨架构编译和部署。开发者不需要了解网络底层实现细节，尤其是当底层是异构网络设备协作运行过程，相应的，开发者只需要根据业务的逻辑关系（如计算图）进行程序开发设计，在网计算的编排管理器就可以根据网络节点的资源信息和当前状态进行自动化编译部署。在多租户、多业务并行运行场景下，同一网络设备在同一时刻可能会处理不同的业务。通过运行时动态部署，在不停机中断的条件下实现在网计算任务部署的实时更新，真正做到在网计算即服务。3.23.2 NACANACA核心特征核心特征NACA架构为分布式应用提供网络辅助计算加速，其核心特征体现在拓扑映拓扑映射、计算实现、编程范式射、计算实现、编程范式和

27、和资源管理资源管理四个方面，形成四个方面，形成“四个统一四个统一”。逻辑逻辑物理物理统一统一：NACA以亲和度更高的方式将应用逻辑拓扑映射到实际物理资源；通信通信原语原语统一统一：NACA构建了统一的在网计算通信库，为多样化应用提供通用在网计算能力；在网计算（NACA）技术白皮书（2023 年）12编程范式统一编程范式统一：NACA提供了统一的应用设计和部署方案，简化开发复杂度；网内网内资源资源统一统一：NACA优化了网络资源管理，构建一体化计算资源池，提升在网计算性能。特征一：特征一：逻辑物理统一逻辑物理统一NACA 的在网计算物理实现比传统计算实现方式更加亲和业务逻辑拓扑，网络与业务紧密耦

28、合。计算任务通常以图的形式描述节点间的逻辑关系，再映射到物理网络当中。通过合理的任务分配算法，在网计算将应用中低精度高 IO 的计算从其他任务中剥离出来分配给在网计算资源，从而大大释放了端侧高性能服务器的计算资源，可以更高效地共同完成计算任务。通过设计支持在网计算的拓扑感知和映射算法，部分端侧计算节点可以被放置在网络节点执行。如图 5 所示，在机器学习模型训练中通常使用的参数服务器架构中，参数服务器可以被映射到胖树物理组网中的 spine 交换机。这种映射机制下，实际流量路径更简化，整网流量负载大幅压缩。相比于传统计算模式，基于在网计算的映射方式使映射后的实际拓扑结构与逻辑拓扑更接近，更亲和统

29、一。图5 逻辑拓扑与物理拓扑间的映射特征二：特征二：通信原语统一通信原语统一NACA 可以为 HPC、智能计算以及大数据等多样化应用提供一致的在网计算能力。业务多样性不仅体现在数据流量模式差异性，还体现在应用数据类型及对应的数据结构不同。模型训练数据类型通常为值流（Value Stream），而大数据应用则承载键值流（Key-Value Stream），两者在索引机制、排列方式以及计算上限等方面存在不同。在网计算（NACA）技术白皮书（2023 年）13在 NACA 架构下，不同的应用可以调用统一的在网计算通信库实现计算加速。如图 6 所示，通信算子层面通信算子层面，NACA 为多种分布式应用

30、统一定义了几类高频出现的在网计算通信算子，例如广播、聚合、同步、散播等，方便多种应用按需灵活调用。在网计算原语层面，在网计算原语层面，NACA 规范了设备支持的在网计算原语。在网计算通信算子基于统一的在网计算原语实现，使得异构设备对接得以统一，提高设备易用性，降低应用开发、运维成本。图6 统一的在网计算原语实现在网计算通信库特征三：特征三：编程范式统一编程范式统一NACA 面向应用开发者和底层异构网络设备统一编程范式，实现了异构领域专用编程语言、应用开发和网络运维的兼容。如图 7 所示，对于当前的在网计算开发，异构的网络设备需要使用领域专用的编程语言，如 P4、NPL、Micro-C 等，不同

31、的网络编程语言对于应用开发人员构成了较大的使用门槛。图 7 在网计算编程范式统一示意图在网计算（NACA）技术白皮书（2023 年）14统一编程范式为在网计算应用开发者提供了低门槛、灵活性等便利。基于统一在网计算编程框架，多种在网计算应用程序实现统一编译、中间转译和程序综合，以分配至异构在网计算网元进行计算执行。统一的在网计算编程范式具备简单、易扩展的编程特性，方便在网计算应用程序的灵活高效部署和后续快速的功能扩展维护。特征特征四四：网内资源统一网内资源统一NACA 借助于 RDMA、CXL7等高性能互联协议实现跨网络设备资源一致访问，形成统一协作的在网计算资源池。在网计算在单一网络节点的资源

32、相对受限，包括内存、逻辑运算单元等资源。需要跨节点实现高性能的资源互访和统一管理。RDMA 是 Infiniband 和 RoCE 网络架构下核心的远距离内存直接访问协议，CXL（Compute Express Link）是一种开放的行业互连标准，为主机内部处理器和加速器、内存缓冲区以及主机之间提供高带宽，低成本的 I/O 通信，其核心在于内存访问一致性。在网计算将借助于 RDMA、CXL over Ethernet 等方式实现跨网络设备以及跨端网的内存高速一致访问，有效弥补单一网络节点内部内存资源不足，实现资源弹性扩展，大幅拓展在网计算的适用边界，实现数据中心级在网计算即服务。图 8 在网计

33、算网内资源统一在网计算（NACA）技术白皮书（2023 年）153.33.3 功能视图功能视图图9 在网计算整体功能视图在网计算从逻辑功能层面自上而下可以分为四个层级。最上层是分布式应用，第二层是通用功能里，比如多种分布式应用会调用其中的一种或多种。这两层对应于在网计算 NACA 架构的应用层。下面 2 层是在网计算系统功能的关键层次，对应于 NACA 架构的在网计算通信库。其中，在网计算引擎，构建了加速引擎来完成一些基础功能，从而获得计算任务加速、带宽利用率提升等一系列的收益。在数据计算数据计算、数据排序数据排序、一致一致性性等功能方面主要有以下常用在网计算引擎：(1)在网计算引擎在网计算引

34、擎在网规约：在网规约：在网规约是面向 AllReduce 聚合操作的在网计算引擎。服务器将需要计算的数据通过 MPI 报文发送到叶子交换机。叶子节点对报文信息进行提取后，由内部计算模块对数据进行一级计算，并向脊交换机发送计算结果。脊交换机继续进行二级计算，将最终计算结果转发到叶子交换机。叶子交换机将最终计算结果再通过MPI报文发送给服务器，完成一项数据计算过程。在网规约通过将AllReduce聚合通信的计算从主机卸载到网络交换机，可能会将数据聚合所需的带宽减少到近一半。在网规约通常需要原子粒度的操作比如 SUM(求和)算子。在网序列器：在网序列器：事务管理器是保证分布式事务一致性的集中式解决方

35、案.然而，作为一个集中式模块，事务管理器已经成为大规模高性能分布式系统的瓶颈。在网序列器在在网计算（NACA）技术白皮书（2023 年）16交换机内维护一个随取号请求增加的全局序列号，当客户端请求序列号时，交换机给客户端回复一个唯一的序列号。为了保证全局序列号的可用性，通常可以使用主备方式。但需要设计高效率的主备同步机制，即在不影响主取号的效率的同时，主备之间进行智能同步，确保系统切换到备用时，客户端可以获得正确的序列号。在网序列器可以释放服务器的算力来执行其他计算任务。在网锁：在网锁：在大多数分布式系统中，锁原语是一种广泛使用的并发控制机制。对于大型分布式系统，通常有一个专用的锁管理器，节点

36、可以联系它以获得资源的读和/或写权限。锁管理器通常需要抽象原子粒度的操作，CAS(compare-and-swap,比较和交换)和 FA(fetch-and-Add 添加)。锁管理器通常运行在服务器上，从而导致磁盘 I/O 事务速度对性能的限制。多节点分布式锁处理叠加了节点之间的通信延迟，性能更差。在网锁可以有效加速系统并发控制(2)原子粒度通用算子原子粒度通用算子最下层是原子粒度通用算子，他们一般是简单而通用的数学运算，执行原子粒度的计算和函数操作，从而不会影响网络的转发性能。这些原子粒度的计算功能称之为通用算子，一般是“简单”并且“通用”运算符。原子粒度通用算子有多种类别，比较常见的是聚合

37、通信算子和一致性算子。表 1 聚合通信算子名称和功能说明算子分类算子分类通用算子通用算子 OpCodeOpCode算子说明算子说明聚合通信算子聚合通信算子（通过函数将一组数据聚合为一个较小的集合）MAXMaximum，最大值MINMinimum，最小值SUMSum，求和PRODProduct，乘积LANDLogical and，逻辑与BANDBit-wise and，按位与LORLogical or，逻辑或BORBit-wise or，按位或LXORLogical xor，逻辑异或BXORBit-wise xor，按位异或在网计算（NACA）技术白皮书（2023 年）17表 2 一致性算子名称

38、和功能说明算子分类算子分类通用算子通用算子 OpCodeOpCode算子说明算子说明一致性算子一致性算子（通过增删改查加速分布式系统端到端性能）WRITE写入READ读取DELETE删除CASCompare and swap，比较并替换CAADDCompare and addCASUBCompare and subFAAFetch and add，取原值，并进行加法FASUBFetch and subtractionFAORFetch and orFAANDFetch and andFANANDFetch and nandFAXORFetch and xor在网计算（NACA）技术白皮书（20

39、23 年）184 4 关键技术及挑战关键技术及挑战4.14.1 计算计算语义映射语义映射在网计算将应用数据卸载至网内加速，技术实现的核心是应用消息传递语义和网络数据包转发语义的映射。消息是分布式应用进程间通信的传递内容，通过定义消息传递语义，应用可以实现分布式处理。传统网络数据包转发不感知上层应用，更不参与应用的处理过程，在网计算通过改变应用处理的模式，在网络设备完成消息处理，因此需要把消息和网络中转发的数据包映射起来。图 10 显示了在网计算设备解析消息的过程。图10 面向消息的在网计算目前的在网计算消息解析协议有两种实现方案，一种是复用现有协议栈，和现有系统进行兼容。复用已有协议栈的消息映

40、射机制有显示和透明两种方式；另一种是采用自定义协议栈，网络设备对自定义报文解析并实现基于数据包的在网数据处理，定义协议栈可能引入更多的系统开发和操作的复杂性；显式连接方案由端侧与在网计算网络设备建立传输层连接，端侧设备感知在网计算设备的存在。透明连接方案中依然是端侧与端侧建立传输层连接，在网计算交换机并不实现完整的协议栈，只通过感知传输层连接等信息进行消息级别的数据处理。表3 面向消息的在网计算实现方式实现方式显式连接方式透明连接方式网络设备是否实现完全协议栈需要实现完整或部分协议栈不需要在网计算（NACA）技术白皮书（2023 年）194.24.2 计算正确性计算正确性保障保障维护计算结果正

41、确是在网计算的基础，计算正确性依赖于网络可靠性控制。数据包丢失以及乱序不仅导致网络传输性能劣化，也会影响在网计算的结果可能发生错误。例如在网计算节点收到部分数据包，会出现任务部分聚合甚至错误聚合的现象，从而导致整体结果无法收敛。在保障可靠性及计算正确性的过程中，一方面需要利用网络已有的可靠性控制机制，如网络原生的 RDMA“Go-Back-N”重传机制，以及优化后的选择性重传、乱序接收机制等；另一方面需要在网计算设备维护计算状态，以确认中间结果的正确性。可能的方法包括在网络设备记录应用消息的出现次数以及是否完成计算等指标，在协议报文中携带相应字段信息，这样可以并避免重复计算。同时采用数据校验机

42、制，在网络设备完成数据完整性校验，计算之后需要为分组重新计算校验码。这样逐跳的校验可以保证识别出传输过程中损坏的分组，舍弃掉该分组，并依靠端侧重传机制从错误中恢复。4.34.3 计算程序网内编排计算程序网内编排在实际网络中，存在多个业务和多个用户的在网计算需求。一方面，由于共享流量路径，不同在网计算程序可能同时存在于同一网络设备上；另一方面，由于资源限制等问题，同一在网计算程序也可能被切分并部署于不同的网络设备。需要将在网计算程序进行统一编排，同时为了保障不同程序的正常运行，还需进行相应隔离。端侧与网络设备是否建立传输层连接需要不需要，但需要感知传输层连接在网计算（NACA）技术白皮书（202

43、3 年）20图11 在网计算程序编译与部署架构图 11 显示了在网计算程序统一编译和部署的架构及流程。前端程序需首先转化为中间表述文件，以便后端设备资源映射与程序编排。对于中间表述文件，需要对其进行分析并提取出指令特性和指令间依赖关系两方面信息。前者是为了构建指令与硬件能力匹配的约束，即硬件资源约束，如加解密指令不能放置于交换机设备；而后者用于约束指令在上下游设备的位置关系，即拓扑约束，如依赖于前一指令的当前指令不能放置于前一指令的上游设备，否则违背了流量的顺序执行原则。满足上述资源和拓扑约束条件的程序放置方案可能有很多种，为寻求较优放置方案，需根据用户需求和资源开销等构建统一的优化目标，搜索

44、使得优化目标最大的可行解，并通过相应求解器寻求最优编排方案。对于程序编排结果，还需要将其逐一编译并部署于在网计算设备中。由于网络异构性，一方面，需要保证不同架构和编程语言的异构设备上分配的程序均能正确部署和运行；另一方面，需要保证切分在不同设备上的统一在网计算程序能正确协同运行，同时可靠性亦能得到保障。后端编译器对中间表述程序进行必要的封装与修改，并将综合后的程序片段翻译到不同的目标设备对应语言的程序。4.44.4 网网内资源池化内资源池化在网计算（NACA）技术白皮书（2023 年）21构建池化的网内计算资源是实现弹性、可扩展在网计算的基础，通过动态优化网络设备节点内部资源分配以及构建跨网络

45、设备的资源协同，形成在网计算资源池。分布式应用中的计算特点是周期性的计算和传输。在作业处于非计算状态时，为避免所对应的网络设备内存资源空闲导致设备聚合资源利用不足，需要对网络设备的资源实施动态管理，如图 12 所示，不同分布式作业服从先到先服务机制，在计算、传输的不同状态时复用网络设备资源。图12 网络设备内部多任务动态抢占共享计算资源跨网络节点的内存资源管理通常会部署调度器，用于将资源分配给多个并发作业，从而形成池化的网内资源。如图 13 所示，在网计算统一资源管理中，管理器首先根据网络节点上报的资源信息将物理网络设备存储器组织为虚拟存储器层。管理器进而通过北向接口接受调度器请求，以将设备存

46、储器段分配，用于分配和回收特定作业。在计算任务执行前，管理器将计算任务和网内资源信息通告到南向的计算设备，以明确在网计算资源的聚合器寻址位置和网络设备资源分配规则。在计算任务执行过程中，管理器采用一致性更新协议，使资源池内的网络设备在由于动态作业加载导致的资源区域变更时，确保网络设备资源重分配与服务器访问网络设备计算资源的一致性，实现无中断的资源重新分配。在网计算（NACA）技术白皮书（2023 年）22图13 在网计算统一资源管理在网计算（NACA）技术白皮书（2023 年）235 5 推进展望推进展望当前，中国移动已经开展在网计算关键技术研究，并不断推动在网计算技术的产业应用，但实现面向多

47、场景、多需求、按需灵活且安全可靠的在网计算仍面临多种挑战。为此，中国移动呼吁产学研各界合作伙伴精诚合作，进一步凝聚共识，共同推进在网计算 NACA 技术成熟，繁荣产业生态，提出以下几点倡议：深化在网计算技术攻关深化在网计算技术攻关。围绕在网计算语义映射、计算正确性保障、网内计算程序编排以及网内资源池化等关键技术进行联合攻坚，共同探索解决方案，形成清晰的技术路线，推进在网计算成为网络内生的普适能力，为多样化分布式应用提供高性能、高可靠的网内加速。联合推动在网计算联合推动在网计算技术开源及技术开源及标准化标准化。围绕在网计算的应用场景、技术需求以及技术架构等方面开展在网计算标准制定及开源工作，突破

48、行业技术壁垒。在IETF、ITU、CCSA 等国内外标准组织开展标准化建设，在 OCP、Apache 等开源组织布局在网计算开源项目，共同构筑开放共享的在网计算生态格局。开展在网计算联合试验验证开展在网计算联合试验验证。中国移动正加快步伐构建算力网络试验网CFITI，以“1+9+9”资源布局辐射全国各省市节点。基于 CFITI 试验平台，联合产学研合作伙伴共同开展在网计算创新技术验证，面向垂直行业不断推出创新解决方案，不断推进在网计算赋能千行百业，促进产业生态繁荣。在网计算（NACA）技术白皮书（2023 年）24参考文献参考文献1算力网络白皮书.Computing Force Network

49、 Whitepaper.中国移动.2021.2算力网络技术白皮书.Computing Force Network Technology Whitepaper.中国移动.2022.3算网一体网络架构及技术体系展望白皮书中国移动研究院.20224ChonLam Lao,Yanfang Le,Kshiteej Mahajan,Yixi Chen,Wenfei Wu,AdityaAkella,Michael M.Swift,ATP:In-network Aggregation for Multi-tenant Learning.NSDI 2021:741-761.5Richard L.Graham,

50、Devendar Bureddy,Pak Lui,Hal Rosenstock,Gilad Shainer,Gil Bloch,Dror Goldenberg,Mike Dubman,Sasha Kotchubievsky,VladimirKoushnir,Lion Levi,Alex Margolin,Tamir Ronen,Alexander Shpiner,OdedWertheim,Eitan Zahavi,Scalable Hierarchical Aggregation Protocol(SHArP):AHardware Architecture for Efficient Data

展开阅读全文