收藏 分销(赏)

算力路由(CATS)技术标准进展和展望.pdf

上传人:Stan****Shan 文档编号:1246235 上传时间:2024-04-19 格式:PDF 页数:25 大小:13.28MB 下载积分:20 金币
下载 相关 举报
算力路由(CATS)技术标准进展和展望.pdf_第1页
第1页 / 共25页
算力路由(CATS)技术标准进展和展望.pdf_第2页
第2页 / 共25页


点击查看更多>>
资源描述
算力路由(CATS)技术标准进展和展望中国移动研究院 基础网络技术研究所 刘鹏 2023年10月目录21算力路由的提出背景2算力路由技术介绍及标准进展3算网一体技术和标准展望 中国移动算力网络发展历程中国移动充分发把握算力时代发展脉络,以网强算提出“算力网络”全新理念,两年来持续开拓创新,全力推进算力网络发展,在业界取得广泛共识,理念深入人心3中国移动算力网络白皮书算力网络是以算为中心、网为根基,网、云、数、智、安、边、端、链(ABCDNETS)等深度融合、提供一体化服务的新型信息基础设施。5G智慧中台算力网络发布中国移动算力网络白皮书和发展倡议算力网络成为公司”1225“战略的重要组成发布新理念,融入新战略布局新体系,搭建新平台开创新方向,打造新高峰融入国家战略性新兴产业计划发布“天穹”算网大脑、“百川”算力并网平台、NICC新型智算中心体系发布“321”终端算力产品体系开创东数西算、数据快递等任务式服务算力路由标准取得突破400G超长距离传输创世界纪录.提出十大技术发展方向和核心技术体系发布算网服务体系1.0启动算力网络试验网CFITI与中国算力网、信息高铁联合打造科学装置“算网一体”是中国移动算力网络发展的深化4算力网络的发展经过三个阶段的发展,逐渐深化2021-2023 2024-20252025 十四五阶段 十五五阶段及更长期起步阶段:泛在协同发展阶段:融合统一跨越阶段:一体内生网随算动智能编排算网一体一站服务:一站开通算网服务协同运营:云网运营双入口拉通融合服务:产品融合、确定性服务统一运营:统一入口、统一平台一体服务:多层次智简无感服务模式创新:多方算力可信交易运营服务编排管理基础设施算网融合智慧内生协同编排构建算网一体技术体系5面向新型算力应用极致需求,构建算网一体创新技术体系,助力实现高性能基础网络物理层链路层网络层传输层2新型拥塞控制算法广域高吞吐技术丢包精确重传机制丢包快速恢复算法算力服务通告算力状态通告算力路由生成算网调度算力路由控制算力路由标识算力路由寻址随路算力需求随路算力监控算力路由转发CATS算力路由技术1数据安全加密协议DTN算网数字孪生3广域高吞吐 突破广域传输性能瓶颈,实现RDMA高效传输拉远,实现算间高性能互联算网数字孪生 最大限度兼容以太网,构建无阻塞、高带宽、低时延新型智算中心网络在网计算 打破算网边界,网络内生算力,实现计算任务跨网络节点分布式协同4NACA在网计算在网聚合网内推理网内缓存报文容器转发及负载动态队列请求授权全局管控调度算力路由 突破互联网架构协议,距离向量叠加算力向量,整体优化算网资源算力路由的提出背景2018年开始研究算网融合技术,面向云边协同和边边协同的“性能反转”等问题,提出在路由域引入计算信息进行联合调度(1)感知:路由系统感知计算资源(2)路由:综合网络和计算信息寻址选路解决思路在路由中引入计算信息,进行联合调度,边缘节点边缘节点中心云问题本质计算和网络是独立系统,算的负载和网的拥塞信息没有产生关联算:降低负载、计算资源预留.网:增加带宽、配置专线.增加网络建设、运维成本 造成大量计算资源的闲置-计算负载高及网络队列深的条件下,边缘响应平均时延及尾时延远大于中心云-算的负载状态以及网的拥塞情况均是问题来源发现问题 云边以及边边调度之间出现“性能反转”通过仿真发现在路由中引入算力信息在低中重载情况下均有一定的优化效果。在负载达到60%时,整体系统的算力可用容量提升33.17%,端到端平均时延提升35.29%重载下CATS的QPS较好重载下CATS的时延比较低提出算力感知网络CAN,发布系列白皮书2019 2021目录71算力路由的提出背景2算力路由技术及标准进展3算网一体技术和标准展望1技术进展2标准进展算力路由的典型场景和技术分析AR/VR 时延需要低于20ms保障用户体验,包括:传感器采样延迟:1.5ms(客户端)显示刷新延迟:7.9毫秒(客户端)GPU的帧渲染计算延迟5.5ms(服务器)网络延迟(预算)=20-1.5-7.9-5.5=5.1ms(网络)观察1:计算延迟和网络延迟在同量级 仅根据负载选择边缘站点1,总延迟22.4ms 仅根据网络选择边缘站点2,总延迟23.4ms 根据两者选择边缘站点3,总延迟19.4ms观察2:仅根据网络或计算资源状态,找不到最佳服务器实例结论:需要同时考虑网络和计算资源状态,将流量动态引导到适当的服务节点典型场景:AR/VR等新型计算和网络实时延敏感业务IETF立项文稿:draft-ietf-cats-usecases-requirements1.当前缺乏将计算资源与网络状态相结合以决定最优路径和节点的方案。2.现有的解决方案通常为off-path,如DNS、ALTO或L4/L7负载均衡,查询地址/状态的时延随着协议层的升高而升高!技术路径分析L4 Scheduler L7 Scheduler Upper L7 Scheduler 重定向数据库查询L3 CATS随路调度结论:算力路由将具备更高的性能IETF文稿:draft-draft-yao-cats-gap-analysis算力路由的技术挑战 算力路由需要解决“传什么”、“怎么传”以及“怎么用”等问题,需设计自适应算力通告机制和新型多因子算路算法,实现算力和网络的联合优化在BGP距离矢量上叠加算力向量,改变了BGP选路方法,影响BGP路由决策。简单叠加将导致路由不收敛算力信息维度较多,需要定义面向路由调度的高可用性计算信息,兼顾报文封装成本以及可用性构建算力路由信息表(CA-RIB),考虑距离因子、算力因子以及权重,生成算网cost=w1*网络cost+w2*算力cost技术需求:新型算网多因子算路算法提出分域通告、分类通告,约束算力信息更新的范围,减少算力信息的无效通告通过仿真建模量化分析算力信息通告信令开销的影响,得到通告信令开销与路由调度成功率的最优解 技术需求:简单高效的算力信息封装通告频率越高,算力信息越实时,但开销越大,如何找到通告信令开销与信息实时性的平衡点技术需求:自适应的算力通告问题3:怎么用?路由求解问题2:怎么传?合理通告问题1:传什么?算力扩展统一量纲,使用与网络和业务相同的度量维度信息,应用于路由调度,例如通过BGP Path Attribution扩展封装计算时延信息关键技术1:算力度量算力路由需要统一的度量标准,网络的度量目前已经比较成熟,算力的度量还缺乏统一的标准,需要着重对算力资源、需求以及使用进行度量为什么算力要度量算力度量的复杂性业务需求网络需求算力需求带宽(bits/s)时延(ms/us)抖动(ms/us)?缺乏统一标准算力分类CPU、GPU、FPGA、ASIC通用算力、AI算力、超算算力云、边、端私有、共有、共享算力单芯片,单机,单框,CO,边缘DC,区域DC,中心DC,枢纽DC应用场景部署位置供方来源算力规模技术实现算网度量的基本思路面向不用目的的度量方法 面向应用部署:针对算力资源的度量获取较为全面的、非实时的算力信息,例如节点类型、位置信息、内存大小等 面向任务调度:针对算力状态的度量获取较为简单的实时算力信息,例如算力节点的实时评价信息、计算时延等10关键技术2:算力感知感知是算力路由的前提,需要打通网络领域、计算领域、应用领域的信息边界,为算网一体化调度和编排管理提供基础11用户感知应用感知算力资源感知 网络资源感知多维资源感知配置和管理01APP-IDSLA Level应用ID用户ID流IDAPP参数信息带宽时延丢包率APP状态信息服务状态应用感知02计算资源信息CPU/GPU/NPU性能存储容量网络带宽计算资源状态信息是否在线内容使用率当前连接数算力感知03网络性能时延抖动带宽丢包网络资源信息设备位置设备型号网络状态信息拓扑信息路由信息流量信息网络感知设计多维资源感知体系,基于BGP、IGP、Netconf等协议扩展探索算网一体感知和通告协议,支持从单一维度的感知向多维资源感知演进。搭建算力感知原型系统:依托算力网络试验网,在信息港初步完成功能验证,包括网侧因子、算侧资源因子和应用侧因子感知功能,实现云套餐功能,智能化导航等功能。验证了算力感知方案的可行性和可实施性,具备了在省份进行试点的条件关键技术3:路由寻址通过对算力资源/服务信息的感知,将算力信息引入路由域,在路由层直接决策并转发服务请求至目标服务节点,实现算力和网络的联合优化路径算力参数网络参数A-B-CxxxxA-DCxxxxB-E-Cxxxx多维资源、服务状态感知和通告网络节点ABCE算力路由转发调度用户A应用需求D算力节点BC算力节点资源和服务状态感知通告算力感知路由生成与调优算力路由调度与转发算力信息感知:控制面协议扩展携带算力信息,生成并更新算力拓扑业务需求感知:IPv6/SRV6扩展头中加入应用ID和SLA 需求算力路由信息表:在路由信息表中新增算力信息算力感知的路由调优:基于感知的算力信息动态调整算力路由转发:结合算力路由信息表和业务需求,动态、按需调度和转发SRv6结合:“算力+网络”可编程、路径可指定Overlay算力路由方案:基于应用层进行选路决策,从算、网、业务多目标开展联合优化,形成智能调度方案Underlay算力路由方案:研究从单一距离向量路由到算力、距离多要素叠加融合路由演进,基于IPv6/SRv6等协议进行继承性创新,形成新型路由和寻址机制同步探索Underlay和Overlay路线实践进展算力路由系统的实现根据网络部署情况,支持集中式、分布式、混合式等多种组网方案。从集中式方案开始,分阶段逐步推进算力路由实验验证 阶段I集中式方案开展规模性部署的CATS技术方案验证开展CA-BGP等新型协议的验证测试 分布式算力路由样机已进入平台测试阶段完成算网控制器和算力路由网关原型样机开发,构建业内首个集中式算力路由验证系统推进广东珠海现网试点验证,验证业务承载量提升 30%以上,算网综合资源利用率提升32%以上阶段II 端到端算力路由系统验证总体测试方案算网控制器算力路由网关云管理平台算力路由网关算网控制器算力路由网关算力路由网关算力路由网关算力路由网关云资源池RestfulBGP-LSTelemetryBGP SRv6 PolicyBGP-FSNetconf云资源池用户应用APP应用APP5431分布式算力感知2分布式网络感知3集中式算网一体感知4集中式多策略调度5算力路由转发分布式算力路由样机算网一体技术体系关键技术创新案例荣获CCSA TC6102022年度“最佳实践案例”算力感知和算力路由构建算网一体化调度荣获工信部2022年ICT优秀案例“卓越科技创新奖”算力感知和路由方案通信世界全媒体“2023年度算力应用案例十大标杆”CA-BGPCA-BGPCA-BGPCA-BGP算网一体感知协议CA-BGP-LS12分布式:125集中式:53413面向算网一体的算力路由技术攻关和标准突破方案成功入选2023届未来网络领先创新科技成果目录141算力路由的提出背景2算力路由技术及标准进展3算网一体技术和标准展望1技术进展2标准进展算力路由在IETF的标准化历程15IETF1062019 IETF1092020 IETF11020212022 Mar IETF1133次 CFN/Dyncast side meetingNon-WG Forming CAN BoF2022 July IETF114CAN 进展汇报2022 July IETF115WG Forming CAN BoF获取关注,凝聚热度和共识累计200+参会,包括IETF/IRTF主席场景和需求达成共识220+人参会,包括半数AD解决/澄清问题在RTGAREA会议上汇报讨论技术路线,工作组章程260人参会历经4年,中国移动在IETF发起成立算力路由工作组(CATS,Computing-Aware Traffic Steering)并担任主席,是IETF路由域近10年由中国高校/公司牵头成立的两个工作组之一共识1:网络和计算需要联合考虑共识2:应用层和路由层都可以做优化共识3:路由层暂不指定具体协议推动场景、需求、技术路线初步达成共识CATS WG成立中国移动担任主席2023 Mar 算力路由推进过程中的问题4年共计收集并总结出需求、场景、架构等方向80多个问题Github问题列表问题研讨邮件列表讨论第一次BoF期间,分别从路由层和应用层解决网络和计算联合优化的问题进行讨论,论证了算力路由技术的必要性。第二次BoF期间,再次强调场景、需求,主要讨论charter,会后逐步解决了所有的质疑CATS工作组的章程和范围17CATS面向AR/VR、车联网等新型多节点部署服务的场景,制定算力路由的场景、需求、架构标准范围:基础工作:问题声明、场景、需求、技术分析等 总体架构:定义、组网、功能模块等 其他基础工作:计算指标的分析、控制面和数据面的定义、基于现有协议的实现、潜在新协议需求的分析里程碑:2023年7月,采纳问题声明、场景、需求、技术分析等基础文稿 已完成 2024年7月,采纳架构文稿 2025年11月,提交架构文稿至RFC发布序列https:/datatracker.ietf.org/wg/cats/about/当前,许多服务会创建多个服务实例,这些实例通常在地理上分布在多个站点。CATS工作组主要考虑网络边缘节点如何引导服务的客户端和提供服务的站点之间的流量的问题。CATS WG CharterCATS工作组的文稿情况18CATS目前已经有25篇文稿,完成场景和需求立项,当前聚焦在架构、计算指标定义等工作场景和需求:draft-ietf-cats-usecases-requirements-01,工作组文稿draft-an-cats-usecase-ai-01,CATS+AI大模型场景draft-yuan-cats-end-to-end-problem-requirement-00draft-huang-cats-ps-and-requirements-of-l2-cats-01技术分析:draft-yao-cats-gap-analysis-00架构:draft-ldbc-cats-framework-03draft-yao-cats-awareness-architecture-02架构增强:draft-li-cats-application-aware-computing-network-00draft-shi-cats-with-real-locator-00draft-yi-cats-hybrid-solution-02draft-huang-cats-two-segment-routing-01计算Metric:draft-du-cats-computing-modeling-description-02draft-dunbar-cats-edge-service-metrics-00draft-shi-cats-analysis-of-metric-distribution-01其他:draft-ddcb-cats-sfc-bgp-applicability-00(sfc-bgp方案)draft-wang-cats-awareness-system-for-casfc-00(cats与SFC结合)draft-kjsun-cats-lisp-00(lisp支持cats的方案)draft-lbdd-cats-dp-sr-00(SR支持cats的方案)draft-fu-cats-sr-te-based-solution-00(SR支持cats的方案)draft-yuan-cats-hierarchical-loop-prevention-00(避免环路方案)draft-yuan-cats-middle-ware-facility-00(中间件方案)draft-jaehwoon-cats-mobility-01(移动性)draft-li-cats-attack-detection-00(安全)draft-wang-cats-green-challenges-02(绿色)draft-shi-cats-ipv6-based-con-01(cats与IPv6的应用)https:/datatracker.ietf.org/wg/cats/document/CATS Use Case and Requirements19CATS工作组文稿已经包括AR/VR、车联网、数字孪生、SD-WAN等场景https:/datatracker.ietf.org/doc/draft-ietf-cats-usecases-requirements/考虑增加的use cases阿里巴巴:draft-an-cats-usecase-aiAI-based Media Distribution and Traffic SteeringBBC:ai4me.surrey.ac.uk数据中心多节点之间进行联合推理,基于CATS完成高效地计算和调度任务多边缘计算节点同时提供内容获取服务,基于CATS完成智能化的多媒体内容获取和调度基于CATS的分布式推理 基于CATS+AI的内容获取IETF 118 CATS MeetingDate:Friday,Nov 10,2023 Time:09:30-11:30 Room:Congress Hall 3 Area:Routing AreaAgenda Items:1.Use cases、Requirements、Metrics-70mins2.Framework-30mins3.Gap Analysis-10mins4.Open Discussion-10minsYou are very welcomed to attend this sidemeeting and join the discussions!Chairs:Adrian Farrel(adrianolddog.co.uk)Peng Liu()Secretary:Cheng Li()remoteAD:Jim Guichard()目录211算力路由的提出背景2算力路由CATS技术及标准进展3算网一体技术和标准展望在网计算(NACA)-突破现有计算模式,重构应用处理逻辑在网计算(NACA,Network Assisted Computing Acceleration)技术架构,围绕拓扑映射、编程范式、计算实现、资源管理形成”四个统一”,全面提升在网计算通用性现有挑战在网计算NACA架构异构网元高性能互联分布式应用DC交换机端侧适配器边缘汇聚交换机园区网关编排管理资源管理拓扑管理任务管理跨架构统一编译管理运行时管理在网计算通信库可靠传输InfinibandOmni-PathSlingshot同步/异步控制多对一通信一对多通信多对多通信AI训练/推理大数据MVAPICHHPC标识转发拓扑感知RoCE编排管理核心特征编程范式统一通信原语统一逻辑物理统一网内资源统一编程方式不友好设计实现封闭化应用场景竖井式牵头发布在网计算(NACA)技术白皮书CCSA牵头完成业界首个在网计算相关标准立项基于FPGA开发交换板实现集合通信接口功能卸载IETF118Collective Communication Optimization(CCO)【1】https:/datatracker.ietf.org/doc/draft-yao-tsvwg-cco-problem-statement-and-usecases/【2】https:/datatracker.ietf.org/doc/draft-yao-tsvwg-cco-requirement-and-analysis/I-Ds:CCO use cases&PS+CCO analysis&requirements1,2分析现有大规模AI训练/推理、大数据处理、HPC及存储等分布式应用中存在的通信瓶颈问题,针对应用普遍调用的集合通信操作提出优化需求,在传输层、管控面、应用与IP联合设计等方面提出优化目标Collective Message Transport Issues:Group-to-one transport reliability 多对一传输可靠性Message-Packet Semantic Gap 消息-报文语义映射Blocking and Non-blocking communication 阻塞/非阻塞通信Control&Management Issues:In-network primitives 通信原语管理Topology awareness+Collective offloading 拓扑感知集成在网计算One-to-Group Transmission Issues:一对多优化的传输机制CCO问题分析CCO个人草案(TSVWG)IETF 118 CCO Side-meeting InfoDate:Thursday,Nov 9,2023 Time:14:30-16:00 Room:Palmovka 1/2 Area:Transport Area(TSV),Application and Real-Time(ART)Preliminary Agenda:1.Administritive and agenda-5min2.CCO use cases,ps&requirements-20mins-China Mobile3.CCO talk-20mins-Huawei4.Industrial invited talks-40mins-TBD6.Wrap-up-5minsYou are very welcomed to attend this sidemeeting and join the discussions!Detailed Information:https:/wiki.ietf.org/meeting/118/sidemeetings Contact:Title:Collective Communication Optimization(CCO)希望携手产业界推进算力路由CATS技术、标准、产业成熟!
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 行业资料 > 其他

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2026 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服