收藏 分销(赏)

从“算力中心”到“算力网”——从算力角度谈算网一体的机遇与挑战.pdf

上传人:自信****多点 文档编号:614845 上传时间:2024-01-16 格式:PDF 页数:6 大小:1.21MB
下载 相关 举报
从“算力中心”到“算力网”——从算力角度谈算网一体的机遇与挑战.pdf_第1页
第1页 / 共6页
从“算力中心”到“算力网”——从算力角度谈算网一体的机遇与挑战.pdf_第2页
第2页 / 共6页
从“算力中心”到“算力网”——从算力角度谈算网一体的机遇与挑战.pdf_第3页
第3页 / 共6页
亲,该文档总共6页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、主题聚焦:算网一体与智能运营28从“算力中心”到“算力网”从算力角度谈算网一体的机遇与挑战摘要 文章以算力的主视角切入,探讨算网一体概念对算力基础设施建设的重要影响,重点分析由“算力”向“算力网”发展过程中所面临的关键技术挑战,并面向该系列挑战提出一套算力网基础功能架构,开展应用案例分析,为“算网融合”的概念演进与技术发展提供关键参考。关键词 算力网;算网一体;算力互联;协同调度;算力一体化张叶红 董一川 相 洋 王 晖 余 跃鹏城实验室 深圳 518000引言2019年起,国内三大运营商、华为等设备厂商先后发布了算力网络、算力感知网络、计算优先网络、算网一体等相关概念及白皮书1-4,率先开启

2、了对算网融合、算网一体等概念的探索。笔者认为,“算网融合”概念需要从“以网调算”和“算力成网”两个方向进行探讨,通信行业提出的“算力网络”概念通常关注前者,从网络视角切入,重点考虑如何将算力信息和计算能力嵌入网络,通过网络的路由与分发服务实现全网资源的分配调度。然而,若从“算”的视角观察,想要真正将“算力”互联成为“算力网”,除通过网络信息对算力信息进行调度的技术手段外,还存在着异构性兼容、协同效率优化等诸多问题。分散在各地的算力资源真的能协同调度吗?全网算力一体化仍面临着哪些问题?本文从“算”的角度切入,探讨算网融合过程中“算力成网”面临的关键挑战。1 从“算力中心”到“算力网”近年来,随着

3、智能计算产业的快速发展以及人们对ChatGPT等超大规模模型能力的认知不断提升,各行业对算力的需求迅速攀升,算力逐渐成为数字经济时代的核心驱动力。因此,算力中心作为新型基础设施的重要组成部分,已纳入全国各大城市的重点布局和规划中。然而,当前分散在各地的算力基础设施水平不一、形态各异、发展不均衡,严重制约了各地算力、数据等资源的高效使用,急需以部署整体化算力基础资源为核心,对算力进行统筹和协调发展,形成效率更高且可广泛支撑新型计算模式的算力服务体系。“算力互联”并不是一个新的理念,早在21世纪初,国内外便提出了“网格计算”(GridComputing)的概念,通过将各大超算中心的算力进行聚合,有

4、效支持各类科学研究应用5-6;美国谷歌、微软,国内华为等云厂商,也纷纷提出各自的数据中心互联(DataCenterInterconnect,DCI)解决方案,实现企业内部的数字网络平台建设;云际计算(JointCloudComputing)7、天空计算(SkyComputing)8等概念面基金项目:科技创新2030“新一代人工智能”重大项目(2022ZD0115301)主题聚焦:算网一体与智能运营29向云计算产业,通过云服务间的开放协作,实现多云平台间的高效协作。上述工作大多面向超算、企业内数据中心、云计算等传统算力类型的互联需求开展,对近年来兴起的人工智能算力(简称“智算”)互联问题,以及超

5、算、智算、云计算等不同类型算力的互联协作尚未进行深入探讨。“算力网”在以上概念及技术的基础上进一步拓展,是一种覆盖智算中心、超算中心、数据中心等大型异构算力资源的新型算力基础设施,通过对分布在不同地域的异构算力中心进行高速网络互联,形成一台跨地域部署的“大计算机”,实现多中心间的资源共享、自主协作与统一服务,以提升各算力中心的整体运行效率、系统能效和服务能力,如图1所示。?图1“算力网”概念示意图2 算力网建设的技术挑战“算力网”作为网络和计算融合的重要体现,具有广泛的应用前景和发展潜力,其系统天然的高度异构性与复杂性也使得算力网大规模建设与落地应用面临一系列重要挑战。2.1 多层次异构性VS

6、细粒度互操作“算力网”建设的重要目标之一,是实现各算力中心间从底层计算、存储资源到上层应用、服务的多层级互操作。然而,目前全国各算力中心通常面向各自需求、基于不同架构独立建设,软硬件异构性极高,为算力互联互通与任务广域调度带来了极大挑战。在算力资源互联互通方面,各算力中心的集群管理平台异构性是其面临的主要问题。如对于计算资源的互联,涉及到各平台支持的使用方式不同,平台提供的外部访问接口不统一;对于存储资源的统一管理,存在因为各算力中心数据安全策略不同,导致的访问权限差异,同时也存在不同类型的底层存储(如对象存储、文件存储、API形式开放的存储等)导致的访问接口差异。因此,在实现此类异构算力中心

7、的互联互通时,需要对用户屏蔽各平台底层差异,在各类不同的中心间探索统一的互联方式和标准,实现对异构算力中心资源的统一管理和访问。在任务统一调度方面,需考虑如何屏蔽各算力中心从底层计算芯片、驱动程序,到上层开发框架、应用软件等多层次的异构性。以人工智能(ArtificialIntelligence,AI)场景为例,目前大部分AI技术与模型均基于国外主流硬件(如NVIDIAGPU)及主流计算框架(如PyTorch)设计,缺乏对国产软硬件的有效兼容,导致在算力网的任务调度环节,无法有效调动大量的国产算力资源。当前,国内AI硬件(如寒武纪思元、百度昆仑芯、燧原邃思等)和AI计算框架(如PaddlePa

8、ddle、MindSpore、OneFlow等)也已进入高速发展期,对国产软硬件实现更好的适配和兼容,将进一步有助于解决不同算力中心间异构算力的调度问题。如何真正实现“一次编程,随处运行”,从而支撑异构算力资源的统一服务与自主协作,是算力网建设过程中面临的重要挑战。2.2 远程通信代价VS跨域协同优化算力网内的计算、存储资源等广泛分布于不同地理位置,为实现异地资源的协同使用与协同优化,跨地域的远程数据传输不可避免,特别是以“东数西算”、大模型跨域协同训练为代表的算力网业务增长迅速,很多场景数据传输量大且对传输效率需求较高。主题聚焦:算网一体与智能运营30如在“东数西算”业务中,其传输数据量可达

9、PB级;超大规模模型跨域分布式训练业务单次数据传输量在10GB级以上9,且为确保训练效率,需要的数据交互速率可达100Gb/s级。由此可见,当前基于公网的通用数据传输技术无法满足长距离、高带宽、低时延等算力网业务需求,且当前网络传输方面缺乏基于通信技术来简化网络协议栈的相关研究,尚未针对算力网业务流量特征优化传输控制协议。如何实现高速、极简、算网原生的数据传输,利用新型网络技术提高算力网资源的整体利用率,实现算网一体概念中“网”对“算”的有效支撑,是算力网互联技术需要解决的关键问题之一。2.3 算力中心自治性VS算力一体化运营“算力网”建设的一个重要目标是实现各地算力资源的统一服务和统一运营,

10、从而对算力进行统筹和协调发展,以提高全网算力资源的综合使用效能。然而,现实情况中,由于各算力中心大多独立建设,隶属于不同利益主体,其对自身资源分配、数据访问、业务调度等关键环节具有自主决策与控制需求,且通常使用不同的运营标准与服务体系,很难在现有框架内实现完全中心式的一体化运营。因此,在算力网的建设过程中,需要在认证授权、互联适配、网络接入、计量计费等多个方面考虑如何使用非侵入式的技术手段规避过于标准化导致的各主体自主权削弱问题,在各中心“自治性”与算力“一体化”之间实现利益均衡。3 算力网参考架构针对上述挑战,本文提出一套算力网参考架构。如图2所示,算力网系统主要包括调度适配器、统一数据存储

11、、网络设施与控制、云际管理与调度以及运营平台几大部分,各部分之间通过标准化接口进行对接,各业务系统的具体功能设计如下。调度适配器:调度适配器通过在任务与算力中心间增加抽象层,通过低代价、非侵入的方式屏蔽算力中心异构硬件、异构系统等差异,对算力网提交来的任务进行适配转换后提交给算力中心本地管理调度系统;同时,适配器会收集各?1?1?2?2?AI?/?/?图2 算力网系统功能架构图算力中心的任务状态及运维监控信息并上报算力网调度系统,使得算力网可以通过统一的接口收集各中心及任务状态信息,从而对全网资源进行协同调度优化。为保证算力网长稳运行,调度适配器接口访问的服务水平需满足稳定性、可靠性以及性能要

12、求,并同时满足各算力中心的安全控制逻辑以及安全实施策略。统一数据存储:为提高计算任务的执行效率,实现“算随数动”“数随算动”的调度策略,统一数据存储系统基于算力中心的异构存储资源,构建统一的数据存储系统,为计算任务所需要的大量数据集、模型、算法等数据提供高速访问与共享交换服务。首先,需构建全局统一存储视图,从而使得算力网调度系统可以感知数据集在各个算力中心的存储情况;由于各分中心之间的存储介质采用的子存储主题聚焦:算网一体与智能运营31系统本身通常是异构的,对外提供的接口可能是华为云对象存储的OBS、阿里云对象存储的OSS、广泛应用的私有部署对象存储平台MINIO、FTP方式以及自定义存储访问

13、API等,统一存储系统的一项重要功能是对异构存储系统和接口进行适配和统一化,以便在任务调度过程中实现跨中心的数据迁移。网络设施与控制:在算力网各类资源中,除计算、存储资源高度异构外,实现算力互联的网络基础设施也通常存在异构性(如以太网、全光网等),算力网的网络设施与控制系统通过异构网络融合,支持多元化异构网络类型,实现异构网络资源信息的采集上报;当算力网调度系统确定任务的目标计算节点后,网络控制系统在现有网络协议的基础上,额外考虑算力作业对网络的需求,动态调整算力作业中数据包的路由策略,将算力作业等信息路由至指定节点,并通过QoS等技术,保障网络的时延、丢包、带宽等网络性能参数,实现网络系统对

14、算力调度系统的有效支撑与协同优化。云际管理与调度:该系统负责接入各个算力中心,对算力、网络等资源进行统一管理和协同调度,统一对上层应用提供作业操作等能力,以实现全网资源的高效使用。主要功能模块包括资源管理、作业管理、作业调度等。其中资源管理模块实现各算力中心的算力、网络等资源信息采集、监控、管理;作业管理提供了各类任务作业的管理功能;任务调度模块根据集群负载、数据拓扑、网络状态、能耗等调度因子选择最优算力中心执行作业。一体化运营:算力网的运营系统实现多个算力中心算力、数据等资源的一体化运营。首先,通过用户统一认证与授权确保不同算力中心的用户可以互相认证并分配全局统一的用户身份;在用户对资源的使

15、用过程中,对各算力中心的资源贡献进行统一的计量和费用结算;同时,通过构建数据市场、模型市场与应用市场,支持算力网用户进行数据、模型、应用服务等资源的发布、订阅、交易及使用,从而真正实现全网资源的开放共享。4 应用案例分析“算力网”作为新型强力算力底座,可有效支撑“东数西算”“一带一路”等国家重大战略的实施落地。以面向“一带一路”的语言服务场景为例,目前中国已经同140个国家和31个国际组织签署共建“一带一路”合作文件,其中共涉及12语系、28语族、132种语言。由于语种使用人口、地理分布的不均衡、社会信息化水平的差异以及语料收集渠道的隔离,造成语种数据资源的极度不均衡,或产生性能参差不齐的模型

16、及应用,形成天然的数据和模型“孤岛”。针对大规模多语言模型及其应用在低资源语料分散、数据开源意愿不强、各语种数据资源极度不均衡等问题,可基于算力网的构建整合“一带一路”沿线国家的计算及数据资源,进行以中文为核心的“一带一路”多语言大模型研究及应用平台建设,联合优势企业单位、科研院所、优势研发平台,在数据、模型不出本地的前提下,通过多方跨域协同计算,突破多语言模型研究及应用关键技术,促进“一带一路”国家语言互通,成为国家战略落地的重要支撑,如图3所示。?.?图3 面向“一带一路”国家重大战略的多语言大模型跨域协同计算5 结语随着数字经济建设的不断深入,各行各业的发展越主题聚焦:算网一体与智能运营

17、32来越依赖于强大的算力底座,将单点算力互联成网,推进算力资源的协同使用已是大势所趋。“算力网”的建设旨在构建自主创新的技术体系,以建立互联互通、高效协同的一体化算力基础设施为目标,推动实现数字经济时代算力供给模式的变革。在算力网的建设过程中,依然面临着多层次异构性兼容、远距离通信优化、一体化运营机制建设等关键技术挑战,如何在算网融合的新趋势下,基于网络能力释放算力能力,真正实现互联算力的高效协同,仍需在算力网建设过程中进行深入探索。参考文献1 中国联通.中国联通算力网络白皮书R.北京:中国联通,20192 中国联通研究院.算力网络架构与技术体系白皮书R.北京:中国联通研究院,20203 中国

18、移动.算力网络白皮书R.北京:中国移动,20214 中国科学技术信息研究所,AITISA,鹏城实验室,等.人工智能计算中心发展白皮书2.0从人工智能计算中心走向人工智能算力网络R.深圳,20215 王小宁,肖海力,曹荣强.中国国家网格软件集成与应用服务研究J.华中科技大学学报(自然科学版),2010,38(S1):111-1146 Dongarra J,Lastovetsky A.An overview ofheterogeneous high performance and gridcomputingJ.EngineeringtheGrid:StatusandPerspective.2006

19、,2:1-257 史佩昌,王怀民,郑子彬,等.面向云际计算的自主对等协作环境J.中国科学:信息科学,2017,47(9):1129-11488 StoicaI,ShenkerS.FromcloudcomputingtoskycomputingC/HotOS21:WorkshoponHotTopicsinOperatingSystems.20219 BrownT,MannB,RyderN,etal.Languagemodelsarefew-shotlearnersC/InProceedingsofNeurIPS.2020作者简介张叶红博士,助理研究员。主要研究方向为智能算力网、协同机器学习、自动

20、机器学习等。在本领域高水平国际期刊/会议如ICML、AAAI、MLJ等发表论文10余篇。相 洋博士,鹏城实验室网络智能部云计算所副所长。主要研究方向为自然语言处理、大模型、云计算,在Nature子刊、Lancet子刊等多个高水平期刊和IJCAI、DAC等会议上发表论文80余篇。董一川博士,算法工程师。主要研究方向为分布式优化算法、高性能计算、大模型,作为核心成员参与多项国家自然科学基金面上项目,在SignalProcessing和PDCAT等期刊会议上发表论文10余篇。主题聚焦:算网一体与智能运营33余 跃博士,AITISA联盟智算中心和智算网络标准工作组联合组长、算力网络推进组组长,主要从事

21、智能计算、云计算、开源软件等相关领域的研究工作,在CHI、CSCW、TSE、ICSE、FSE、ASE等软件领域国际重要会议和期刊发表论文50余篇,作为技术负责人牵头AITISA联盟智能计算中心与算力网相关标准体系制定与开源平台研发。王 晖博士,鹏城实验室网络智能部云计算所副所长,机器学习与自然语言处理、情报与安全信息学研究方向学术带头人,主持和参与30多项科研课题,曾获得军队科技进步一等奖2项、二等奖4项,发表学术论文80余篇,在分布式机器学习、联邦学习与大模型等领域开展关键技术研究和落地应用工作。Abstract Withthenewtrendofcomputingandnetworking

22、convergence,itsimpactonthedesignanddevelopmentofcomputingandnetworkinfrastructureshasattractedmoreandmoreattention.ThispaperdiscussesthisimpactfromtheperspectiveofcomputingresourcesandanalysesthetechnicalchallengesofdevelopingfromindividualComputingCenterstotheComputingNet.Toaddressthesechallenges,w

23、eproposeanewfunctionalframeworkfortheComputingNetandshowitspotentialusecaseinreal-worldapplications.Keywords ComputingNet;ComputingandNetworkingConvergence;ComputingCenterInterconnection;CooperativeScheduling;ComputationalIntegrationFrom Computing Centers to Computing NetThe Opportunities and Challenges of Computing and Networking Convergence from the Perspective of Computing ResourcesZhang YehongDong YichuanXiang YangWang HuiYu YuePengChengLaboratory,Shenzhen518000,China

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      联系我们       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号  |  icp.png浙ICP备2021020529号-1 浙B2-2024(办理中)  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服