网络赋能AI的思考和实践.pdf

资源描述

1、网络赋能AI的思考和实践中国移动研究院陆璐2023年10月目录201网络与AI的融合发展趋势02网络赋能AI的思考与实践数字经济社会步入高质量发展新阶段，通用智能技术加速发展，促进网络从传统通信网络向新型信息通信网络加速转变数字经济和AI发展对网络提出了新的需求3数字经济步入发展新阶段由高速增长阶段转向高质量发展阶段,成为全面建设社会主义现代化国家的首要任务通用智能加速发展通用智能成为推动科技跨越发展、产业优化升级、生产力整体跃升的驱动力量提供通信、感知、计算、智能、大数据、安全等一体融合的新一代信息服务提供语音、短信、移动宽带等各类传统通信服务网络实现智能的普惠泛在，AI赋能未来网络

2、的。智能自治。，二者“双向驱动”网络与AI的融合包括“AI赋能网络”和“网络赋能AI”两个方面新型信息通信网络是实现AI泛在普惠的基础平台，使能AI成为泛在化的社会级服务网络与AI相互驱动发展4AI赋能网络网络赋能AIAI是满足移动通信网络新指标的关键路径，赋能网络提升网络运行效率、降低运维成本、增强用户体验网络网络性能指标要求更全更高网络复杂度逐代递增网络需快速适配多样化场景定制化需求AI已成为社会级服务通用智能时代需要随时随地的AI接入需要泛在算力需要泛在连接由场景驱动，重点解决网络泛在算力和平台化服务网络的构建问题，支撑数据/AI模型流动和一体化AI服务供给，助推AI成为社会级服务6G和

3、算网一体赋能AI的思考56G网络支持网络能力聚合、AI数据和模型流转及AI任务调度执行等，提供按需匹配的、质量可保障的平台化服务网络构建1、算力+能力2、平台赋能场景AI调用服务算网一体6G算网一体通过计算和网络的深层次融合，为AI提供新型智算基础设施、高效智算中心网络和高性能广域互联网络目录601网络与AI的融合发展趋势02网络赋能AI的思考与实践016G架构赋能AI02算网一体赋能AI7 数据面：构建统一数据服务框架，以服务化功能的形式支持数据的采集、预处理、分析、存储、转发，为AI提供高质量数据计算面：以任务为中心进行算网联合编排，为AI的训练和推理提供按需、个性化、可保障的算力资源

4、服务使能层：对AI服务需求进行分解，对数据、计算、连接资源进行编排调度数字孪生体：为AI赋能网络提供真实的训练环境和可靠的预验证平台提出三体、四层、五面的6G总体架构，其中数据面、计算面、服务使能层、数字孪生体共同实现6G AI内生的信息服务全流程支撑服务化功能层服务使能层控制面用户面数据面计算面安全面连接与路由层（空天地多接入，可信连接，异构互联，算力路由，确定性转发）通信与算力层（无线通信，光通信，计算，存储）网络本体数字孪生体管理编排体孪生大模型闭环预验证统一数据与控制接口自治运维管理资源智能调度编排数据管理能力开放管理网内AI服务第三方AI服务通感服务场景模型库任务分解能力+服务编排

5、能力计算服务“三体四层五面”6G总体架构功能异构：聚焦状态、AI模型等数据采集、预处理、存储、共享等；聚焦AI计算等任务的分解、调度、执行等指标各异：数据存储要求高可靠，数据共享要求高同步，AI计算要求高性能演进不同：可用可靠存储、高速数据访问等数据技术，以及高性能计算等技术新增数据面，计算面l 为什么需要新增数据功能和计算功能？l 为什么新增的数据功能和计算功能需要设计新的独立面？网络需新增两类功能：以数据为中心的新的存储和交换机制，以计算为主的新的处理逻辑功能、指标、演进优化路线和传统控制面、用户面差异较大能力问题：l面向机器和智能的业务与传统业务特征不同，控制手段不同l面向新型感知

6、数据的传输、处理没有相应功能设计性能问题：l现有网络采集的数据在数量、质量、性能不足lAI的算法、数据、算力不能高效集成，与网络对象不能有机融合现有架构的不足业务需求跃迁服务于人与物 +服务于机器和智能服务于连接管道 +服务于信息的全流程服务于业务报文转发服务于感知+AI数据综合处理+规则式信息“生产”智能化信息“生产”+86G架构新增数据面和计算面的必要性分析l数据采集：以服务化功能的方式支持6G新型网络数据的采集l数据预处理：对采集的网络数据进行去重、过滤、校正等预处理，为网络AI数据分析提供其所需的高质量数据l数据分析：通过AI模型对采集和预处理的6G新型数据进行分析处理；建立数据管道

7、，实现数据的随路分析l数据存储：用户基础数据和个性化策略数据分级分类存储，实现6G新型数据的统一存储l数据转发：扩展5G用户面的数据转发功能，支持6G网络新型数据的多设备数据传输l数据按需提供：对网络数据进行采集、处理和存储，为网络AI提供高质量数据；l数据高效传输：为AI模型和参数的传输，提供满足其QoS需求数据通道数据面基本功能数据面对AI内生的支持服务使能层连接与路由层通信与算力层数据面控制面用户面计算面数据采集安全面数据预处理数据分析数据存储数据转发数据去重数据过滤数据校正非结构数据存储统一数据存储分析数据存储其他存储数据统计相关分析聚类分析数据汇聚数据分发任意拓扑转发非per UE转

8、发感知数据采集AI数据采集网络状态采集用户数据采集匿名化处理趋势分析管理编排体/数字孪生体数据面通过构建统一可信的数据服务框架，提供数据采集、预处理、分析、存储、转发服务，为网络AI提供高质量数据，为AI模型和参数的传输构建数据通道96G架构数据面设计计算面以任务为中心进行AI在内的计算任务编排，基于服务化设计提供计算即服务，实现算网一体内生设计目标106G架构计算面设计服务使能层管理编排体/数字孪生体连接与路由层l计算资源管理：l资源统一建模：对计算资源的度量和归类l资源注册：将计算节点的相关信息注册在计算面中，从而完成一个对计算节点的整体拓扑l资源感知：计算节点状态感知，对算力节点状态、资

9、源等信息的动态感知能力l计算任务编排：识别应用计算任务需求，按需进行计算任务分解和汇总，根据应用部署需求和算网资源情况，能够将应用动态部署到算力节点上l计算策略控制：根据初始算网业务需求，能够生成算网融合调度策略，并进行合理的算网路径规划l计算会话管理：增强会话模型，在会话QoS参数中携带计算相关需求l多要素按需智能编排：实现AI服务的多样化供给l任务式的AI计算服务提供：构建端到端的AI学习和推理环境l资源与业务深度融合：实现面向AI业务高QoS的全生命周期保障计算面基本功能计算面对AI内生的支持计算面控制面用户面安全面数据面计算任务编排计算任务分解计算任务需求识别计算任务映射部署计算任务汇

10、总计算资源管理计算资源拓扑试图计算资源统一建模计算资源注册管理计算策略控制算网路径规划计算任务移动性调整计算会话管理计算会话模型算网QoS保障计算资源状态感知在控制面的全局控制下，基于统一的数据面、计算面，五面协同，共同完成AI计算任务的分解、调度和执行，形成跨网络功能面的AI能力体系，共同构成AI内生的网络架构11五面协同，使能AI内生网络架构用户面业务报文计算面数据面业务报文计算结果数据、AI模型控制面内生AI网络安全安全面全网统一控制用户接入锚点，业务数据收发，提炼用户、网元等的特征数据，提供给数据面面向AI计算任务，进行计算任务的分解、调度，协同各面共同计算从各面采集数据、预处理、可

11、靠存储、各面共享，为计算面提供算法数据、模型管理、孪生数据AI执行AI计算AI执行计算结果AI执行控制控制控制为AI赋能网络提供真实的训练环境和可靠的预验证平台孪生体AI执行目录1201网络与AI的融合发展趋势02网络赋能AI的思考与实践016G架构赋能AI02算网一体赋能AI13算网一体创新技术筑牢高性能AI基础底座算力卸载算力原生存算一体算力度量云原生多样性算力全程可信算力路由在网计算PON高速全光接入算力交易数据流通安全编排隐私计算算网多要素融合编排芯片节能数据中心节能服务器节能绿色安全400G/800G全光高速互联OTN灵活光电联动算网SPN承载泛在调度应用感知确定性网络新一代SD-W

12、ANSRv6/G-SRv6低碳能源算网数据感知智算中心融合服务技术算力提升技术以网强算技术星云算力运营服务层编排管理层算网基础设施层算网智能化智能网络调度中国移动持续推动算力网络技术创新突破，构建算力网络核心技术体系，已形成一批标志性算网一体创新技术，目标打造标准统一、技术领先、兼容开放的高性能智算底座，为AI应用强实筑基算力网络核心技术体系提出十大技术发展方向和32大核心技术算网一体创新技术入算算间算内算力路由算力路由突破互联网架构协议广域广域高通量网络高通量网络突破广域传输性能瓶颈算力原生算力原生实现应用跨架构迁移在网计算在网计算打破算网边界全调度以太网全调度以太网突破无损以太性能瓶颈G-

13、SRv6G-SRv6统一承载协议400G/800G400G/800G超高速大容量全光网络新一代新一代SD-WANSD-WANundelay与overlay协同全光全光接入接入新型接入网架构入算-算力路由CATS(1/2)创新提出算力路由体系，将算力信息引入路由域，通过统一控制和调度实现算网资源的全局优化当前进展：实现国际标准突破，推进样机研发和性能验证历时4年推动IETF成立算力路由工作组CATS，中国移动担任主席完成首个立项：CATS问题分析、场景及需求研发算力路由样机，初步验证了在负载较重的场景下，全局时延优化和系统处理容量上约30%的性能提升（1）感知：路由系统感知计算资源（2）路由：综

14、合网络和计算信息寻址选路解决思路在路由中引入计算信息，进行联合调度,边缘节点边缘节点中心云问题本质计算和网络是独立系统，算的负载和网的拥塞信息没有产生关联算：降低负载、计算资源预留.网：增加带宽、配置专线.增加网络建设、运维成本造成大量计算资源的闲置-计算负载高及网络队列深的条件下，边缘响应平均时延及尾时延远大于中心云-算的负载状态以及网的拥塞情况均是问题来源发现问题云边以及边边调度之间出现“性能反转”形成算力感知网络CAN的核心方向-算力路由15入算-算力路由CATS(2/2)探索underlay和overlay技术路线需同步探索不同路线，一方面研究新型算力路由架构和协议；另一方面研究面

15、向AI的应用层和网络层跨层协议、算法优化明确广域和局域场景适用范围需分析验证不同方案的协议开销和性能优化，研究量化各个方案的适用范围，重点探索面向AI大模型调度的算力路由方案算力路由的不同技术路线需要面向多种场景、不同范围等进一步深入研究，同时探索与AI结合的性能优化方案验证基于随机森林算法预测的算力路由优化方案算力收集频率设置为15s，在两次收集之间通过预测反馈机制实现90%的平稳性提升，并进一步提升性能推动面向AI大模型的算力路由场景写入CATS WG标准基于CATS的分布式推理基于CATS+AI的内容获取阿里巴巴：draft-an-cats-usecase-ai基于预测的调度分布无

16、预测的调度分布 AI-based Media Distribution and Traffic SteeringBBC:ai4me.surrey.ac.uk进一步攻关算力路由核心技术难点，构建国内外标准体系，推动实现算网一体丰富产业生态丰富产业生态依托CFITI验证核心技术，推进共建算网一体孵化和评测环境深化技术攻关攻关算力指标定义、通告频率优化、多维选路等关键技术推进标准体系推动CATS架构等系列标准，扩展CATS工作组范畴从单域扩展至多域16算内-算力原生CAMA源源转换工具跨架构编译器“芯合”算力原生平台统一编程套件（IDE环境、编程模型、计算库）自适应运行时CANNCUDAVastio

17、neAPIROCmCIM RT/Driver.硬件层1体适配1次开发应用层框架层.模型训练领域应用图像识别视频分析.典型推理类应用4大组件提供跨架构一站式解决方案统一编程套件：统一编程模型+标准IDE+计算库源源转换工具：CUDASYCL转译跨架构编译器：图算融合编译+原生流转文件自适应运行时：异构设备统一抽象+动态映射执行智算应用在3家智算芯片跨架构部署迁移平台实现视频分析、图像识别等典型智算应用在英伟达、华为、瀚博等3家智算芯片上的跨架构部署迁移迁移时间 90%当前：“芯合”算力原生平台1.0未来：“芯合”2.0升级为融通智算生态竖井，中国移动联合产业提出算力原生CAMA

18、原创技术，目标实现“应用一次开发、跨芯部署迁移”，研发“芯合”算力原生平台，开辟以软件为核心的智算产业链牵引全新路径未来将融通更多异构芯片、扩展更多计算库、支撑更多业务场景2023年中国移动合作伙伴大会上，中国移动联合13家合作伙伴发布国内首个支持智算应用一键式跨架构迁移的平台算力原生“芯合”，有望破解AI应用跨架构部署迁移的全球智算生态发展难题，可实现“应用一次开发、跨芯部署迁移”，显著降低了AI应用向国产化芯片的迁移成本和复杂度，是我国在基础软件领域破解国产智算生态发展的突破17算内-全调度以太GSE(1/2)网络性能决定GPU集群算力加速比网络可用性决定GPU集群稳定性丢包敏感，2%丢包

19、RDMA吞吐率下降为0GPU集群性能单GPU性能*N网络设备容量决定GPU集群组网规模17当前：网络性能和成本无法兼得未来：革新以太技术、升级高速互联革新以太网底层转发及调度机制，以开放破垄断，突破传统以太性能瓶颈，以网强算，助力AI大模型训练InfiniBand专用网络、超高性能、成本昂贵传统无损以太生态开放、性价比高、性能受限网络规模=K2/4（K=单台设备端口数量）AI大模型以GPU集群分布式训练为基础，集群节点间频繁地参数同步带来大量通信开销，网络技术和设备能力成为提升GPU集群算力水平的关键集群有效算力GPU单卡算力*总卡数*线性加速比*有效运行时18算内-全调度以太GSE(2/2

20、)全调度以太网（GSE）技术架构，最大限度兼容以太网生态，创新基于报文的转发及调度机制，构建无阻塞、高带宽、低时延的新型智算中心网络，形成标准开放的技术体系，助力AI产业发展创新以太网转发机制，实现三大核心机制转变盲发+被动拥塞控制“局部”决策转发逐流分发感知+主动流量控制“全局”最优调度逐“报文容器”分发分发粒度发流模式转发策略当前未来云网智联大会发布云网智联大会发布全调度以太网技术架构白皮书全调度以太网技术架构白皮书中国算力大会正式启动中国算力大会正式启动全调度以太网（全调度以太网（GSEGSE）推进计划）推进计划中国网络大会发布中国网络大会发布业界首款业界首款GSEGSE原型系统原型系统

21、CCSACCSA成功立项成功立项全调度以太网总体技术要求全调度以太网总体技术要求2023.2023.6 62023.2023.8 82023.2023.9 92023.52023.5 原型系统初步验证结果表明，在多种主流场景下，基于GSE互联的任务完成时间相较传统RoCE网络性能可提升23倍，且参数量越大，提升越明显期待更多产学研合作伙伴加入GSE推进计划，共同开展四层（物理层、链路层、网络层、传输层）+一体（管理和运维体系）攻关19算内-在网计算NACA(1/2)衡量分布式应用通信性能的重要指标是任务完成时间，通信瓶颈问题导致任务完成时间过长，在网计算突破现有计算模式，重构应用处理逻辑，降低

22、节点间通信开销，为系统算效提升带来质变分布式AI系统面临通信瓶颈问题在网计算实现分布式AI性能跃升单单次次聚聚合合时时延延单单次次同同步步时时延延与传统软件实现特定集合通信操作相比，Infiniband 在网计算SHArP方案性能提升近5-9倍在网计算主要优势流量压缩缩短传输路径线速处理网络负载不均衡流量需求不对等通信模式不匹配分布式AI训练以巨型流为主，ECMP等方式造成流量分布严重不均多打一问题造成训练最后一跳和接收方之间Incast拥塞，长尾时延过大进程间多对一、一对多及多对多的通信需求在计算节点间目前以单播实现20算内-在网计算NACA(2/2)产业发展挑战在网计算NACA架构高性能互

23、联分布式应用DC交换机端侧适配器边缘汇聚交换机园区网关编排管理资源管理拓扑管理任务管理跨架构统一编译管理运行时管理在网计算通信库可靠传输InfinibandOmni-PathSlingshot同步/异步控制多对一通信一对多通信多对多通信AI训练/推理大数据MVAPICHHPC标识转发拓扑感知RoCE编排管理异构网元核心特征编程范式统一通信原语统一逻辑物理统一NACA物理实现比传统计算实现方式更加亲和业务逻辑拓扑以统一的网络设备原语实现在网计算通信库，提升通用性为应用程序开发提供统一编程语言及编译部署模式基于RDMA、CXL等高性能互联协议构建统一网内资源池网内资源统一编程方式不友好设计实现封

24、闭化应用场景竖井式面向分布式AI/HPC/大数据等应用需要设计专用系统，数据结构、数据类型实现有差异目前只有Infiniband体系架构支持在网计算，但IB软硬件生态封闭，使用成本高昂应用程序开发和网络设备编程有差异，应用开发者学习使用在网计算门槛高标准推进产业实践联合产业共同发布在网计算（NACA）技术白皮书CCSA牵头完成业界首个在网计算应用场景和技术需求标准立项试验验证基于中国移动CFITI算力网络试验网完成分布式AI模型训练场景性能测试在网计算NACA技术架构围绕拓扑映射、编程范式、计算实现、资源管理形成”四个统一”，全面提升在网计算通用性，为分布式应用加速赋能21算间-广域高通量网络

25、(1/2)随着智算、超算业务的迅猛发展，东数西训、东数西训等多智算/超算中心间数据交互需求逐渐增多，亟需广域高通量网络技术，实现海量数据的高效传输超算、智算数据量在TB/PB级别天文观测：TBPB/次基因测序：TB100TB/次影视素材渲染：10TB100TB/节目属于长肥网络（LFN）跨省远距离传输，高带宽高时延网络传输带宽：10Gbps传输时延：20ms50ms网络多样，无法做到链路完全无损链路层误码率不可避免大象流负载不均，存在拥塞丢包多流竞争，存在微突发丢包传统TCP协议在广域数据传输中吞吐受限，有效吞吐与链路时延、丢包率成反比多流传输时单流吞吐下降，受主机CPU性能限制，同样存在吞吐

26、瓶颈TCP网络吞吐=发送窗口大小RTT*丢包率单流传输时，时延由1ms增加到10ms时，吞吐下降10倍智算、超算业务对广域数据传输提出新的要求22算间-广域高通量网络(2/2)针对东数西训、东数西渲等AI场景中海量数据广域高质量传输需求，提出广域高通量技术体系，在广域网复杂多变的网络环境中，实现高通量算间互联网络广域高通量网络云PE云PE 超算中心数据源（私有云/公有云）广域RDMA技术新型拥塞控制快速丢包恢复智算中心数据源（存储卡/磁盘）精确丢包重传端网协同的广域高通量网络技术体系贵州天眼国家天文台传输距离远：大于2200km链路时延长：约45ms链路带宽大：10Gbps网络类型复杂：云

27、专网、传输网、城域网、DC网络传统TCP协议单流单流435Mbps广域RDMA协议单流单流7.36Gbps广域RDMA协议是传统TCP协议吞吐的16倍贵州到北京数据快递测试广域网核心特征数据传输测试结果在高丢包率环境中，始终保持高通量在流量频繁突变中，始终保持高通量在长肥网络传输时，始终保持高通量23总结数字经济步入发展新阶段，人工智能的发展迎来新一波浪潮，AI与6G、算力网络的融合成为新的趋势，对网络也提出了更高的要求 6G网络基于三体、四层、五面的总体架构，通过数据面、计算面、服务使能层、数字孪生体共同实现6G AI内生的信息服务全流程支撑，如何更好地赋能AI发展，还需要继续研究基于新型智算中心和泛在智能，算网一体赋能AI加速从单点突破迈向泛在智能；另一方面，跨学科技术交叉融合成为新的趋势，以算力路由、在网计算、全调度以太、广域高通量网络等为代表的关键原创技术亟待突破谢谢！

展开阅读全文