收藏 分销(赏)

确定性算力网络白皮书.pdf

上传人:宇*** 文档编号:3786168 上传时间:2024-07-18 格式:PDF 页数:49 大小:3.07MB
下载 相关 举报
确定性算力网络白皮书.pdf_第1页
第1页 / 共49页
确定性算力网络白皮书.pdf_第2页
第2页 / 共49页
确定性算力网络白皮书.pdf_第3页
第3页 / 共49页
确定性算力网络白皮书.pdf_第4页
第4页 / 共49页
确定性算力网络白皮书.pdf_第5页
第5页 / 共49页
点击查看更多>>
资源描述

1、-1-1/5128293031323334353536383940414243434445462.1.4.6.1算网一体机2.1.4.6.2 算网分布式管理平台2.2弹性可扩展的分布式架构和容器技术2.2.1多集群联邦技术2.2.2 GPU、FPGA高性能异构计算技术2.2.3 Serverless无服务计算技术2.2.4分布式容器批量调度技术2.3 确定性网络技术2.3.1 算力网络的确定性需求2.3.2 确定性网络技术体系2.3.3 时延确定性技术2.3.3.1 CQF技术2.3.3.2 DIP技术2.3.3.3 CSQF技术三、典型应用场景3.1 工业互联网3.2科学研究3.3人工智能3

2、.4能源物联网3.5 车联网四、总结与展望-01-前言随着5G/6G时代的到来,随着AR/VR、元宇宙、数字孪生、工业互联网等新型数字应用的发展,需要一个具备云网资源精确感知、全局实时智能调度控制、大带宽低时延低抖动高可靠传输能力的下一代云网融合体系架构,现在的ICT融合技术侧重于解决云网的自动化编排,采用软件定义和虚拟化技术,实现云网资源的灵活调度和统一管理,但是云和网仍然存在算力和网络不感知、算力和网络不均衡、算力分布不均衡,网络连接不确定等诸多问题,因此,如何解决算力网络关键技术痛点难点问题是算力网络应用落地的一个亟需突破的关键抓手,如何在算力网络体系架构上和关键技术上包括算力建模、算力

3、发现、算力路由、算力调度、算力交易明确其技术规范和标准成为推动算力网络从创新概念到产业落地的关键推手。本文聚焦于算力网络体系架构的综述分析,聚焦于算力网络关键技术的分析,着重阐述算网一体确定性网络架构和算网一体计算平台,首次在业界提出确定性算力概念场景。在上述体系架构和关键技术基础上,根据几个典型垂直行业应用场景归纳垂直行业对算力网络的需求为行业应用提供定制化服务参考。最后,总结算力网络在产业的成熟度并展望未来应用趋势。-02-一、算力网络概述1.1算力网络背景作为一种新兴网络技术理念,算力网络的提出是响应国家战略、推动经济发展、加速技术创新的必然趋势。从国家战略角度,近年来国家高度重视互联网

4、发展,算力网络是建设网络强国的根本要求,是建设新型基础设施的重要举措,是实施“东数西算”工程的关键保障。从经济发展角度,5G、云计算、人工智能、区块链等技术的创新与应用加速了经济社会向数字化转型,我国数字经济体量再创历史新高。中国信息通信研究院报告显示,2020年我国数字经济规模达到39.2万亿元,GDP占比为38.6%,2021年我国数字经济规模超过45万亿元,GDP占比超过40%,数字经济已经成为国民经济高质量发展的新引擎1。数字经济的蓬勃发展伴随着多样化应用场景、百亿级联接、爆炸式数据增长的出现,带来了海量数据分析处理的需求。算力网络可为海量数据的分析处理提供泛在计算能力与优质网络服务,

5、从而推动数字经济持续健康发展。从技术创新角度,随着单核硅基芯片的算力与多核堆叠带来的算力提升逐渐走向极限,算力从单核、多核向着网络化演进,计算与网络的边界逐渐被打破,计算与网络开始融合2。而在算力需求持续增长的背景下,受限于网络技术发展以及网络带宽成本,云数据中心与终端的两级计算架构已无法满足需求,算力正从云和端向网络边缘扩散。据IDC预测,2020-2025年,我国边缘计算服务器市场规模年复增长率为22.2%,到2025年,全球边缘计算服务器支出占总体服务器比重将从14.4%提升至24.9%3。未来算力将呈现云-边-端泛在分布的态势,计算与网络的融合将会更加紧密。算力网络是计算与网络两大技术

6、体系深度融合的产物,算力网络的出现将引发大量跨领域融合技术的突破,为占领ICT技术的制高点提供新的机遇。-03-1.2算力网络概念目前,算力网络在概念定义上尚未形成统一的认识。一种相对比较简单且全面的定义是:算力网络是指在算力不断泛在化的基础上,通过网络手段将计算、存储等基础资源在云-边-端之间进行有效调配的资源解决方案,以此来满足业务需求,提升业务服务质量4-5。算力网络以算为中心,以网为根基,其目标是联通散落在全网中的资源孤岛,避免被动资源扩容中的低效陷阱,构造云-边-端的泛在计算体系。正如网络的核心价值是提高效率,电话网提高了人类沟通的效率,互联网提高了人类协作的效率,算力网络将提高云、

7、边、端的协作效率。在算力网络中,用户无需关心网络中的计算资源的位置和部署状态,只需关注自身获得的服务即可,用户的一致体验通过计算和网络的协同调度来保证。算力网络是云网融合发展的新阶段,是对云网融合的深化和升级6。现阶段的云网融合一方面是网络为云计算提供联接服务,例如用于数据中心内部的虚拟网络与数据中心之间的专线网络以及用于联接用户与云的SD-WAN网络,主要体现为云网协同;另一方面是云计算为网络云化提供支持,例如对核心网网元进行云化改造、对承载网进行转控分离的改造、实现网络架构控制云化与转发极简,主要体现为云网一体。随着云网一体的继续演进,云网融合步入算力网络新阶段,算力网络将进一步深化和升级

8、云网融合成果,实现算网协同与算网一体。具体地,在算网基础设施方面,算力泛在化使算网基础设施覆盖面更广,边侧算力成为重要算力分布形态,网络向边缘侧延伸,算力网络需屏蔽异构算力差异、异构网络差异,具备算力资源抽象与标识能力,提供高质量的网络联接服务;在算网控制与管理方面,算力网络上可根据算网需求完成算网编排,下可感知算网资源状况,灵活匹配算力需求与算网资源,实现高效算网运营与调度;在算网服务方面,算力网络能够承载泛在计算的各类应用,根据-04-1.3算力网络现状在政策制定方面,我国政府高度重视数字经济发展,强调要加大投入,加强信息基础设施建设,指出要建设全国一体化的国家大数据中心。2018年-20

9、19年,国家发改委积极推动全国一体化大数据中心体系课题研究,形成了国家算力网络布局方案、“东数西算”实施路径等成果;2020年12月,国家发改委等四部委联合印发关于加快构建全国一体化大数据中心协同创新体系的指导意见,提出在京津冀、长三角、粤港澳大湾区、成渝等重点区域部署大数据中心国家枢纽节点,节点之间建立高速数据传输网络,支持开展全国性算力资源调度,形成全国算力枢纽体系;2021年5月,国家发改委等四部委联合印发全国一体化大数据中心协同创新体系算力枢纽实施方案,明确在国家枢纽节点之间进一步打通网络传输通道,提升跨区域算力调度水平;2022年2月,“东数西算”工程正式全面启动。国家枢纽节点的部署

10、和“东数西算”工程的启动将推动算力网络体系的构建。在标准推进方面,国内与国际标准化组织积极开展算力网络标准化工作。中国通信标准化协会(CCSA)TC3已设立算力网络总体技术要求、算力网络算网编排管理技术要求、算力网络交易平台技术要求、算力网络基于SRV6的算力路由技术要求、算力网络算力度量与算力建模技术要求等标准项目,目前算力网络总体技术要求项目送审稿已经通过审查。国际电联电信标准化部门(ITU-T)SG11组启动了Q.CPN 标准(算力网络的信令要求)与Q.BNG-INC标准(算力网络边界网关智能控制信令要求)的制定工作;ITU-T SG13组通过了Y.2501标准(算力网络框架与架构),启

11、动了Y.ASA-CPN(算力网络认证调度架构)、Y.CAN-req(算力感知网络的功能需求)应用需求,合理解构算力应用、抽象算网需求。-05-等标准的制定工作。互联网工程任务组(IETF)发布了COMPUTING FIRST NETWORK 系列文稿,推动算力路由协议的标准化进程。宽带论坛(BBF)针对算力网络在城域网中的应用,启动了“METRO COMPUTING NETWORK(SD-466)”项目。在生态建设方面,国内三大运营商与各大云计算厂商积极参与算力网络建设,包括开展产业合作、升级云网融合产品、布局数据中心建设等。网络5.0产业和技术创新联盟成立了“算力网络特别工作组”,负责制定算

12、力网络架构、明确算力网络技术规范。中国联通一方面成立了“中国联通算力网络产业技术联盟”,联合华为成立算力网络联合实验室,旨在联合产学研合作伙伴,促进算力网络的标准完善,开展算力网络核心技术攻关和产品研发;另一方面积极探索云网融合迈向算网一体,基于“1+N+X”打造算网一体服务,基于虚拟化+云原生的双引擎技术架构融合场景创新,升级联通云产品,打造物联感知云、数海存储云、5G边缘云等云产品。中国移动借助全面升级的5G专网,完善移动云“N+31+X”资源池布局,深化边缘服务能力,升级云网一体策略及行业应用能力,着力构建算力网络大生态。中国电信提出“网是基础、云为核心、网随云动、云网一体”的云网融合方

13、向,充分发挥云网融合优势,按照国家一体化大数据中心枢纽节点的建设要求,进一步完善“2+4+31+X+O”的云和大数据中心布局。在云计算厂商方面,阿里云已在全球25个地域部署上百个云数据中心,包括规划建设了5座超级数据中心;腾讯云计划未来5年新增多个超大型数据中心集群,加码绿色数据中心建设;华为面向多样性计算,基于“鲲鹏+昇腾”算力底座,推出一体化集群计算解决方案。在试验验证方面,中国电信与中国移动均已完成算力网络领域的实验室原型验证,并在GSMA巴塞罗那展、ITU-T 和GNTC 相关展-06-会上发布成果。中国联通研究院开展了多方面的算力网络试验验证。例如,与广东联通、华为联合发布大湾区算力

14、网络行动计划,研发的算力网络服务系统已在广东上线试验;与北京联通合作,首次在现网验证了算力网络CFN协议体系;与河北联通、华为合作,在雄安新区建设了基于SRV6+FLEXE技术的综合承载网并已投入运营;联合山东联通提出智慧光云十六城规划,以建设全光算力网络为目标,推进云光一体服务体系,目前已启动OTN点到多点创新试点;与中兴通讯携手,基于SDN+SRV6框架完成算力网络服务调度POC验证。由算力网络的概念与算力网络的现状可见,当前算力网络的发展尚且处于初期阶段,确定性算力网络将在算网资源、控制与管理、服务提供等方面持续演进,突破关键技术,最终实现低成本、高性能、高安全、可定制的算网一体化服务供

15、给。在算网资源方面,算力网络打破了原有的围绕数据中心内部算力资源实现共享的围墙,构建了基于异构网络连接、异构算力接入的分布式计算形态。确定性算力网络的算力规模将持续扩大、算力异构化程度将持续加深、网络环境将持续优化。当前,我国算力规模呈现蓬勃发展的态势,2020年算力规模达到135EFLOPS,同比增加48EFLOPS,增长率为55%。2021-2022全球计算力指数报告显示,算力与经济增长紧密相关,算力指数平均每提高1%,数字经济与GDP将分别增长3.5和1.8,保持经济稳定健康发展的目标必将反向推动算力规模的扩大7。现阶段的算力由基于CPU芯片的基础算力、基于GPU/FPGA/ASIC等芯

16、片的智能算力、以及基于超级计算机的超算算力三部分构成,三种算力占比约为57%、41%、2%8。作为经济发展的核心技术驱动力,大数据、人工智能等新兴技术的应用将带来智能算力的1.4算力网络发展趋势-07-持续投入,智能算力在算力结构中的占比将继续攀升,算力异构化程度将持续加深。我国持续推进骨干网、城域网结构优化与关键环节扩容,持续推进5G基站、NB-IOT基站建设,积极探索无损数据中心、确定性网络等先进网络技术,网络环境将持续优化。在算网控制与管理方面,现阶段的云网融合存在云网信息不互通、相互调用接口不标准,难以形成云网整体视图,云网资源缺乏统一、灵活的控制机制,云网资源分域管理,域间管理数据共

17、享程度低,域间协同效率低,端到端管理困难。算网控制将支持对网络、算力、存储等多维资源的全网感知与通告,以集中式或分布式的方式形成算网整体视图,奠定算网高效管控的基础。在此基础上,算网控制将采用IPV6/SRV6等算力路由协议,感知上层业务的需求,结合实时的算网资源状态,采用高效算网编排、调度算法定制算网资源分配方案,支持灵活、可编程的数据面转发。除了实现基于算网整体视图的运维与运营之外,算力注册将成为算网管理的重要内容。区块链技术将融入算力网络,其去中心化、难以篡改、不可抵赖等特点可实现算力可信接入、交易、结算等,保障算力网络的安全性9。在算网服务方面,算力网络将承载各类计算服务与应用,服务对

18、象范围不断扩大至制造业、交通运输业、医疗卫生业、金融业等高精度、高安全垂直行业。在服务架构上,算力网络将从广泛采用微服务架构向着采用SERVERLESS架构的方向演进,以进一步降低服务成本、提升服务安全性与稳定性;在服务部署上,算力网络将采用更加轻量级的容器编排工具,实现服务的敏捷部署。-08-1.5确定性算力网络确定性算力网络以确定性网络为根基,以算力为中心,以产业发展为牵引,为工业企业提供低成本、高性能、高安全的算网一体化服务的新型基础设施。确定性算力网络采用“1+3+3+3”模式,即运营1个一体化算网平台,接入3类算力资源(超算资源、智算GPU资源、闲散算力资源),采用3类接入方式(公有

19、云接入、边缘云接入、私有云接入),通过3种一体化部署设备(算网纳管一体机、算网调度一体机、算网应用一体机)实现算网的部署即建成。推动算力基础设施建设进程,重点满足支撑工业企业的科研探索和数字化转型的算力要求。确定性算力网络发展的基础是确定性网络技术落地、分布式云技术和闲散的算力资源等。基于浪潮在分布式云计算的信息分发、资源调度、可信交易和区块链等技术积累以及山东未来网络研究院确定性网络保证端到端确定性服务质量的技术积累,利用闲散算力资源,面向工业生产企业,率先搭建以确定性网络为根基的确定性算力网络。在网络控制面实现协同与调度网络资源、计算资源、存储资源、算法资源与应用资源,在算力路由层和编排管

20、理层突破关键技术,从根本上解决当前算网无法实现算和网统一调度的难题。图1-1确定性算力网络架构-09-二、突破关键技术2.1异构算力融合技术2.1.1统一标识算力的需求促进了算力架构的多样性和算力性能的不断提升,当前算力网络架构中的算力可以由不同的硬件架构组成,一般包括 CPU、GPU、FPGA 和 AISC 等类型,在不同的应用场景中,异构算力发挥不同的计算效力。围绕以“云、边、端”为主体架构的三级算力调度需要满足不同场景下的算力需求:云端主要面向以高性能计算为主的传统集约化的性能计算,主要处理大流量、高并发的数据处理场景;边缘侧的数据中心主要考虑用户的快速接入和内容推送,为用户提供快速处理

21、和及时响应;而端侧的算力应用主要面向物联网、工业互联网为主要场景的嵌入式设备能够长期稳定运行,要求有低功耗和多连接等算力要求的场景。面对不同的算力场景,通过异构算力的协同能够最大化的实现异构算力的效力。而若将底层算力作为资源进行有效的管理,首先需要建立异构算力的统一标识。异构算力的统一标识体系的建立是将底层异构算力作为资源服务进一步开放和共享的基础。统一标识是实现在算力网络连接范围内异构芯片的统一标识。实现异构厂家和多数据中心算力资源接入算力网络内部以期能够共同打造算力流通、算力溯源以及确保数据在可信算力环境中可管可控提供切实有效的保障机制,对于统一标识的顶层设计应满足以下条件:1)信任接入:

22、基于统一标识,实现算力可信接入、安全认证和鉴权,打造算力安全有效的计算环境,切实保障算力网络安全有效的生态环境。-10-2.1.1.1统一标识技术架构2.1.2统一调度2)算力可塑:基于统一标识,可以实现算力溯源,实现算力在云、边、端侧的溯源和安全等级。3)算力度量:基于统一标识,构建算力度量,实现算力在分场景下的算力匹配和专业推荐,从而实现算力在联盟范围内的流通。基于异构算力统一标识的需求和场景,保障在一个算力接入的算力资源时能够提供切实可信的计算环境和算力溯源机制,提出了异构算力技术架构。1)算力鉴权:在算力接入过程中需要通过第三方认证中心进行算力认证并且发放签名证书并通过操作系统保存在可

23、信区中。只有经过认证合法的算力才能够作为可信算力纳入到算力管理中,并且经过统一资源模型成为算力资源。2)算力纳管:算力管理构建统一算力类型和算力使用情况统计信息体系,通过统一算力标识来维护和管理算力和厂商的唯一性,接入时间、运行情况以及接入地点等算力的上架、算力运行以及算力增加等全生命周期的管理信息。3)算力推荐:结合不同应用场景提供算力度量机制,为算力流通提供可度量、可推荐的算力评价机制。异构算力资源的抽象是为上层应用进一步屏蔽底层算力的差异化,使得用户更关注上层业务代码的开发,而无需关注底层差异性资源的申请和调度等方面。采用异构算力资源抽象能够进一步屏蔽掉底层算力的差异性,并且上层开发者无

24、需关心算力具体部署在哪个集群的节点上。而对于新增加的算力类型能够实时的同步更新到上层开发环境中,从而缩短了新算力上线到用户应用之间的使用周期,可以更好的为用户服-11-务。对于异构算力屏蔽的顶层设计应满足以下条件:1)规范应用接口衔接应用业务对资源的需求与系统资源的统一调度,以用户友好的应用资源需求方式和交互界面屏蔽异构算力的资源调度复杂性,实现调度器使用者与统一调度系统之间对作业的联动控制和实时反馈。2)弹性调度策略调度策略应满足异构算力资源最佳分配,作业调度流程和策略具有高度模块化、灵组合、插件式扩展等能力。3)资源实时感知实时收集系统内各节点的异构算力资源数量,感知硬件拓扑及运行健康变化

25、,反馈到调度引擎用于匹配作业的资源需求。算力是在完成不同的计算任务过程中衡量单位时间内计算设备可处理数据量的指标,数据处理方式包括但不限于浮点计算、稠密矩阵计算、向量计算、并行计算等方式,数据处理过程受硬件、算法、数据提供方式等多方面因素影响,算力度量主要包含以下三个方面:1)异构硬件算力的度量 异构硬件算力的度量主要是指对不同芯片、芯片的组合以及不同形态的硬件进行统一的算力度量,对异构芯片及硬件的度量是建立算力度量的基础。2)多样化算法算力的度量 通过对不同的算法,如神经网络、强化学习、深度学习等算法所需的算力进行度2.1.3多云算力融合技术2.1.3.1 算力度量-12-量,可以有效的了解

26、应用调用算法所需的算力,从而更有效的服务于应用。3)用户算力需求的度量 通过对网络延迟、计算量、计算类型、业务种类等需求的分析构建用户算力需求度量体系,把用户需求映射为对应实际所需的算力资源,从而更有效的感知用户的需求,提高与用户交互效率。通过对异构计算资源进行建模,可以建立统一模型描述语言,从而探索节点资源性能模型,实现异构节点的统一模型化功能描述;通过探索不同算法算力需求的功能描述结合节点资源性能模型,从而构建服务能力模型实现节点服务能力。算力建模过程中,首先需要对异构的物理资源进行建模,将FPGA、GPU、CPU等异构的物理资源构建统一的资源描述模型;然后,从计算、通信、存储等方面对资源

27、性能建模,构建统一的资源性能指标;最后,通过构建资源性能指标与服务能力的映射完成对服务能力的建模,算力建模的最终目的是实现对外提供统一的算力服务能力模型。建模场景主要归类为以下三种类型:异构资源建模现有的 FPGA、GPU、CPU 等计算模块通常采用了各种不同的架构,具备的能力也各不相同,通过对不同计算设备中异构的计算资源进行建模,可以对服务屏蔽底层物理资源的异构性,建模过程需要考虑现有的 CPU、GPU、FPGA、ASIC 等多维异构资源。资源性能建模从计算、通信、存储等方面对资源性能建模,可以构建统一的、可度量的资源性2.1.3.2 算力建模-13-能指标从而可以统一标识不同算力设备在各个

28、方面的性能。3)服务能力建模 算力建模的最终目标是实现对外提供统一的算力服务能力模型,通过建立服务能力指标与资源性能映射机制,可以构建服务能力模型。为了构建可运营、可开放的算力网络资源调度和编排环境,构建面向上层的算力网络编排调度平台,按照业务功能划分为:资源层、路由层、调度层、编排层、应用层和监控层共六个层次,其中:1)资源层:主要面向底层的计算、存储、网络等资源进行统一的纳管,这其中包括金属的管理,同时也包括虚拟机、容器、边缘集群等基础设施资源等;资源从单一的数据中心转变为公有云、私有云、边缘云、数据中心互联等泛在多云分布。2)路由层:算力交换的高速公路高路网,支持SRV6等源路由技术,支

29、持算力切片,支持感知算力的分布式路由交换协议和转发能力,支持确定性转发能力以保障算力SLA指标。3)调度层:通过底层资源的抽象,在调度层主要专注于基于调度策略实现对于算力资源、网络资源以及存储资源的调度,同时为了实现平台能力下沉,在调度层实现四大能力集,即:算力3A能力集、计算能力集、算力交换控制能力集和机器学习能力集。4)编排层:将调度层的能力以服务化的方式提供服务注册、服务发现、服务路由等功能,并且按照最新的服务网格的方式提供扁平化的服务编排方式。2.1.3.3 算力调度编排-14-5)交易层:开放的算力应用市场,根据算力需求的种类,可以划分为四类应用:算力资源服务(CIAAS),算力平台

30、服务(CPAAS),算力应用服务(CSAAS),算力交换服务(COMPUTING EXCHANGE AS A SERVICE:CBASS)算力注册算力感知网络中遍布不同的算力,为了实现节点的管理以及业务的动态卸载,算力感知网络需要对全网的算力节点进行注册,由算力管理平台下发各算力节点的配置,包括算力信息的通告,和业务在计算节点之间的分配与调度策略。因此,算力管理层需要支持算力节点注册功能,包括:1.区分包含算力的网络节点和传统的网络节点 2.算力节点上线后,向算力管理平台通告其算力使能信息 3.算力管理平台获取算力节点的参数信息,包含设备类型、芯片类型、存储等资源 图2-1:算力调度编排层次图

31、2.1.3.3.1 算力调度编排关键技术-15-4.算力管理平台下发配置策略,可以包括算力节点 ID 的分配等。算力节点注册之后可以由管理平台对各节点的算力进行存储,并订阅/接收算力的实时更新信息,进而向路由器下发算力节点信息,由路由器存储节点列表并配置相应的路由通告策略。算力运营算力运营包括建立算力的服务合约以及生成相应的计费管理策略,由统一的算力计费管理中心进行管理。算力服务合约是服务提供商和用户双方之间协商而确定的关于算力服务质量等级的协议或合同,而制定该协议或是合同是为了使服务提供商和用户对服务、优先权和责任等达成共识。该合约一般可保存至用户签约数据库 HSS/AAA/UDM等模块中。

32、算力计费管理:需要具备多维度多量纲的算力服务计费功能,比如按照 API调用次数的计费,按照资源使用情况计费,或者根据用户等级计费等。同时算力计费管理中心可以与现有的网络计费中心合设,通过扩展和增强现有的计费相关接口和协议支持算力计费功能,提供算网一体的新型算力系统。针对网络计算融合的发展趋势,算力感知网络能够实现资源的最优调度,需要这种算网融合的新型计费方案,不仅是对网络资源的要求,也包含计算、存储等多种需求。同时可以基于服务等级协议(SLA)进行算网融合精细化计费,满足未来行业用户多样化的网络和计算资源的需求。算力监控算力监控指对设备的算力性能进行监控,通过多种类型的算力信息采集和上报策略配

33、置,支持最优算力节点的实时选择,并在故障时予以修复。算力信息采集:由路由节点主动周期性地向算力节点发起探测(如通过 ICMP协议等多种方式),或者通过下发算力探针的形式按需采集节点状态,实时收集算力等信息,如果算力节点的链路状态或算力性能不能满足当前业务需求,则进行链路倒换或重新选择节点,保障最-16-优算力服务节点的选择。故障检测:边界路由节点作为多个算力节点的管理设备,需要感知到每个算力节点的节点状态以及链路状态,一旦链路故障或节点故障可以及时的切换到新的链路以及新的节点,满足低时延等极致的用户体验。可以考虑将当前的计算能力状况、网络状况、业务请求作为监控信息发布到路径当中,网络将相关的信

34、息随数据报文转发到相应的计算节点,各节点做 OAM信息表存储,实现最优的计算资源调度,最终实现最优的用户体验和网络利用率。如图2-2所示,算力调度流程主要分为算力认证、算力授权、算力计量和算力审计四个阶段,其中算力认证阶段决定了算力调度的优先级,算力授权阶段决定了算力需求资源的最终分配方式。算力从时间、SLA需求和算力场景三个维度分类定义,不同类型对应不同的核心调度流程和策略:1)队列资源公平调度基于不同资源池、不同资源类型的使用优先级,划分不同的作业资源请求队列,依据使用资源情况,对作业进行优先级排序,保证队列资源使用的公平性。2.1.3.3.2 4A算力调度流程图2-1:算力调度编排层次图

35、-17-2)用户资源配额调度基于集群多用户场景,以树状形式描述不同组织、用户的资源使用策略,根据使用资源情况,对作业进行优先级排序,保证多用户间资源使用的公平性。3)作业优先级调度依据用户作业递交时指定的作业优先级、递交时间、资源请求量、用户资源使用量等维度综合考虑进行排序,优先级更高的作业优先进行调度。4)节点资源排序 不同的场景需要采取不同的节点资源排序策略,如在集群负载均衡场景下,优先选择资源使用量最少的节点;在集群节能场景下,优先选择未休眠的节点,避免不必要的唤醒操作和能源消耗。5)算力亲和性调度 不同作业负载存在多样化的算力需求,如 AI 推理作业对于张量计算需求高,亲和 TPU、N

36、PU 等计算资源、图像处理作业对于矢量计算需求高,亲和 GPU 等计算资源。通过算力亲和调度,实现多样化算力需求任务的最优资源匹配分发,可实现算力资源的最大化利用。6)内存容量、CPU/DPU/GPU XPU资源调度 异构算力资源调度,此外还支持自定义扩展资源调度。7)资源抢占调度 统一调度支持用户、队列间的资源借用,用以提高集群资源利用率,同时涉及高优先级作业针对被借用资源的紧急回收问题,即资源抢占调度。8)资源预留调度 通过资源预留的方式,解决大作业和小作业混合负载的场景下,小作业资源-18-频繁,导致大作业资源需求持续无法被满足的问题。9)资源回填调度 资源回填调度是基于资源预留调度的前

37、提下,通过感知作业结束时间,将已预留但又暂时无法满足作业需求的资源,在一定时间范围内进行重新调度分发,提高集群资源利用率。连接挑战疫情加速了企业上云的步伐,85%以上的应用会承载在云中,未来企业和个人都会与多云进行连接。云应用会根据业务处理的时延、带宽及体验需求,跨公有云、私有云、边缘云等地部署,网络需要具备有广覆盖以及敏捷接入能力,随时、随地、随需将用户接入多云,满足客户按需快速获取内容的诉求。体验挑战企业数字化转型,业务上云分为互联网应用上云、信息系统上云、核心系统上云三个阶段,网络需求差异性显著。互联网应用上云追求高性价比,要求敏捷上云,快速开通;核心系统上云要求网络稳定可靠,确定性时延

38、和高安全;信息系统上云要求大带宽和确定性时延,例如 VR 课堂要求带宽50MBPS/学生,时延20MS;核心系统上云需要低时延,例如某电网差动保护业务要求承载网确保时延2MS。面对不同的业务诉求,网络应能够基于业务的带宽、时延等不同的 SLA 诉求,提供多个分片并做到按需灵活调整,实现一网承载千行百业。运营挑战云和网是企业数字化转型的基石,客户在考虑云网能力的时候,首先考虑的是一2.1.4算网一体确定性算力技术2.1.4.1 算网一体背景-19-体化解决方案能力,以最小的沟通协同成本,最便捷的业务开发,最完善的维护体系形成最高效的业务产出。因此,一体化服务能力是当今企业的迫切需求,管家型的贴心

39、服务最终会在市场竞争中胜出。其次是在线化,在线化是打通“客户最后一米”的环节,提升客户业务感知,在线申请,在线开通,在线服务,实现电商化业务流程体验。安全挑战云计算正在不断改变数据被使用、存储和共享的方式,随着越来越多的数据进入云端,尤其是进入混合云的场景下,原有的安全物理边界被打破,同时在端侧,随着海量 IOT 设备接入,现在的网络不仅需要连接人,同时还要连接物,这将导致更多的潜在威胁。从 2019 年统计数字看,全球平均每天产生的恶意邮件多达 4.65 亿件,DDOS 威胁攻击较上一年增长 64%。为应对新的安全威胁,2019年国家发布了新的信息技术等级保护标准,重点解决云计算、物联网、移

40、动互联和工控领域信息系统的等级保护问题,网络安全等级保护正式进入 2.0 时代。未来的云网融合解决方案不仅要确保云和网的自身安全,同时可以向用户提供云网场景下的安全服务,从网络到业务构筑立体化的安全保障。2.1.4.2 算网一体关键技术算网一体化标识与发现将计算、存储、网络、智能等多维资源和服务统一纳入网络体系架构设计中,构建通算存学一体化融合架构,实现计算、存储、网络、智能一体化管控。目前主流技术方案为:1、采用新型标识解析协议对内容、算力资源统一命名标识,在路由节点集成计算和存储能力(转存+计算)实现基于underlay的转算存融合。-20-2、通过引入PURSUIT技术和计算资源,集中式

41、对计算、存储、网络资源一体化管控,实现转算存融合落地方案 3、在现有IP网络层通过扩展路由协议,添加算力信息和内容存储信息,实现算力和内容路由,实现基于underlay的转算存融合。算网一体智能化编排与部署业务服务无须关注底层基础设施资源异构泛在资源编排管理器,目前主流技术方案为:a)基于Serverless的资源编排,边缘计算应用对节点资源需求的感知(资源消耗或资源极限情况);形成编排配置(可视化);自动化策略制定和策略下发。b)基于人工智能的应用编排,基于用户需求分析、业务历史操作数据分析等,通过机器学习和智能分析,智能化的对服务、应用进行编排。确定性调度与管控 确定化服务调度:域内调度:

42、域内服务放置问题;基于负载均衡的域内调度;跨域调度:跨域的服务放置,基于负载均衡的跨域调度;包括边边和云边的场景。智能化服务与转算存资源协同:Serverless服务调度充分利用底层的转算存资源;通算存学资源基于serverless服务需要进行按需分配,实现服务调度最优;确定性边缘网络管控:在边缘网络中,通过 SRv6 技术简化网络结构,实现灵活的编程功能,实现面向泛在计算场景的网络资源敏捷、按需、可靠调度。在边缘计算架构中,本地数据的实时获取,用户任务的跨节点传输,都对传输时延有较高要求,并且时延对用户服务质量影响巨大;引入TSN等确定性网络技术,实-21-现边缘网络的时延确定性。智能体互联

43、与共享多维度建立智能资源可信互联与共享体系机制,为通算存学一体化边缘计算网络的信任与安全管理提供支持。由山东未来网络研究院牵头,浪潮工业互联网股份有限公司、山东未来集团有限公司、北京大地云网科技有限公司参与的确定性雾计算网络研究,聚焦于确定性网络底座能力、确定性网络综合试验、确定性网络创新示范应用等基础理论和应用,形成一套完备的技术体系,完成相关原型系统研制;基于山东省确定性大网、未来网络试验设施(CENI)、未来网络云网融合试验网建设新型网络承载、智能云网算力编排、云网融合服务三大平面应用系统,面向工业、国防、智慧城市、智慧能源、智慧交通、智能制造等场景构建自主可控的算网一体化应用示范系统,

44、引领工业互联网产业生态发展。主要研究内容包括以下几个方面:下一代互联网不仅仅是围绕人和人、人和机器的消费互联网,正快速迈入一个万物互联的时代,互联网连接的可以是具体的一个人、一台机器、一辆车、一个摄像头、一部手机,也可以是无形的一个API、一个函数、一个服务、一个文件、一个视频片段、一个email,连接对象的种类及其标识数量繁多经常变化且不统一,连接的量级也呈爆炸性增长,连接本身需要一个弹性的可差异化的能保障连接质量的网络。研究方向主要解决下一代互联网如何解决有序可靠可扩展的海量资源标识及其连接问题,通过SRv6技术、SRv6 SRH和SRv6 TLV来实现海量资源的统一且可扩展的2.1.4.

45、3 算网一体化研究现状2.1.4.4 SRv6通用可编程算力标识系统-22-标识,通过SRv6分段路由技术实现弹性的可差异化的资源连接,通过SRv6标识网关实现新旧标识的翻译和映射,通过Anycast SRv6技术实现任务资源连接的就近服务随需随取。SRv6技术和SRv6算力标签如下图2-4所示,IPv6地址有128bit编码,地址空间高达7.9x1028空间,足够给宇宙内每一个原子分配一个唯一的IPv6地址,互联网上每一个资源对象都可以分配一个或一组IPv6地址。SRv6技术充分利用IPv6地址空间分割成多个子空间分别对应“寻址空间”、“指令子空间”、“参数子空间”,每个空间的长度可灵活定义

46、,如图2-4所示,寻址空间用于匹配标识资源对象(match),指令和参数用于传递资源对象的处理策略(action),这样一对match-action相当于一条计算机指令。一组这样的SRv6地址可以描述资源到资源的指令集合,包括连接路径指令、计算指令、存储指定、快照指令等。研究方向主要研究基于SRv6技术的新型资源标识系统,系统设计基于三大原则:(1)资源标识是唯一的,只要是同一个资源,不论处于任何位置任何状态其图2-3:IPV6地址空间-23-SRv6标签是唯一且不变的;(2)资源标识是无状态的,网络节点无需存储资源标识的状态信息;(3)资源是多态的,一个资源可以对应多个资源标识。研究内容包括

47、资源标识解析系统,实现根据用户需求用户意图自动编译成可寻址的可执行的指令集完成资源间交互,包括资源标识发现和注册系统,实现资源的自动化注册、注销、迁移、发现,也就是资源的CRUD抽象,包括资源标识的标准化系统,完成资源标识的格式规范和定义流程框架的指定。根据算力标识设计的顶层原则和SRv6空间格式,建议通过算力SRv6位置SID、算力SRv6资源标识SID,算力TLV属性来表示标识算力资源。算力Token TLV属性保证算力标识的可信认证和完整性验证,HMAC TLV属性保证SRv6 SRH的完整性和未被篡改。SRv6算力路由技术资源在网络上分布式的可处于任何位置和状态,资源和资源之间的交互必

48、须有一个可定制的可控的方式完成资源连接。研究内容基于SDN控制器和实时遥测技术,结合SRv6资源标识系统,实现基于最小时延的、基于最短路径的、基于带宽保障的、基于确定性时延的等SLA需求及组合需求的实时SRv6路径计算和网络设备配置能力。图2-4:SRV6算力标识格式-24-SRv6算力标识网关互联网的演进是渐进的,必须考虑对接存量资源的兼容性问题。SRv6算力标识网关研究内容包括SRv6算力标识和传统的不支持SRv6的算力资源标识的映射,代替存量资源完成SRv6算力标识的注册,代理SRv6连接实现传统资源的sidecar边车服务。SRv6算力标识网关系统必须支持多种形态,支持虚拟化形态、手机

49、APP形态、桌面APP形态、硬件CPE形态、API/SDK形态等多种形态的泛在部署和灵活集成能力。SRv6 Anycast 算力标识技术资源在其生命周期中可能在多个位置出现例如移动算力,或者在多个地域部署例如分布式算力,类似传统互联网的CDN服务,一个视频内容可能存在于多个边缘CDN节点,但其标识是唯一的,用户不感知不关心其位置和状态。本技术方向研究SRv6 Anycast 算力标识技术,通过唯一的SRv6算力标识地址的路由通告,算力消费者可以实时的探知资源的位置,就近获取就近服务。“东数西算”在整体上实现资源的优化配置和按需使用,但是网络和算力仍然是分离的,算力是分布式部署但仍然有高度的集中

50、性,雾计算基于“白盒交换机+xPU(GPU+DPU+X86)+SDN/NFV”的一体化算网融合设备,该设备随网部署随网服务,类比高速公路的服务区,算力遍布于各个网络节点,可以根据算力对时延、对带宽、对资源的需求,可由任意一个满足需求的融合节点提供算力服务,我们称之为雾计算网络。雾计算设备本身支持SRv6标识能力和SRv6标识网关功能,具备高吞吐、低时延、可编程、可扩展能力。同时研究雾计算设备的微服务SDN管控系统,将雾计算设备抽象为一个微服务节点,将雾计算设备的功能抽象为一个个微服务,2.1.4.5 确定性算力和雾计算-25-通过Kubernetes技术和SDN技术,实现雾计算设备及服务的弹性

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 研究报告 > 其他

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服