1、1视联战略研究院WWW.VISIONVERA.COM视联动力创新改变世界2视联战略研究院目 录(一)算力网定义(二)政策背景(三)建设必要性1.算力需求与能源资源错配问题亟须解决2.提升“算力效率”至关重要3.确保算力产业安全发展成为构建国家核心竞争力的重要任务(四)算力网架构1.基础资源层:整合算网资源,构建算网基座2.算网调度层:保障算网资源精确匹配终端需求3.算网运营层:建设商业模式完善且安全可信的交易市场4.算网安全层:建设以数据安全为中心的算网安全体系5.算网运维层:协同各要素,提升可视化与智能化水平(一)我国算力产业概况(二)各地算力发展现状(三)我国算力网发展挑战1.没有充足的能
2、源支撑,算力难以“动”起来2.没有高安全的网络,数据不敢“送”过来一、算力网建设背景 5二、算力网发展现状及发展趋势 1055681013123视联战略研究院WWW.VISIONVERA.COM(一)视联网技术优势1.采用自主可控技术实现协议级内生安全保障2.创新交换机制实现高稳定性和超低延时3.跨域传输能力带来实时算力应用范围扩大4.低成本、高效率推动算力入企入园入校入户,创新应用模式(二)视联网在算力网各层级中的应用1.网络资源层:确定性网络提供超快速度、超大规模传输能力2.算网调度层:整合异构算力,实现跨资源池数据安全调度 3.算网运营层:打造安全流通环境,助力算力交易平台建设4.算网安
3、全层:构建自主可控一体协同的数据安全防护体系5.算网运维层:建设端到端监控体系,保证数据全生命周期安全3.没有自主可控的技术,服务难以“走”出去4.没有低时延的网络,应用无法“活”起来(四)算力网发展趋势1.“确定性”是数据中心网络的必要条件2.内生安全的网络安全防护体系是数据中心的保护盾3.算力网与能源网络的高度耦合是能源问题的解药三、V2V视联网在算力网建设中的应用 17四、总结与展望 261520174视联战略研究院伴随着数字中国建设步伐,经济社会数字化转型和国家治理现代化对计算的要求全面升级,生产端、流通端、消费端对高效算力资源的共性需求呈现指数级增长,涵盖先进计算软硬件系统产品供给体
4、系、算法算力平台基础设施、“计算+”赋能行业的算力经济展现出旺盛活力。如同农业经济的核心竞争力是建立在从劳动力人口到大规模水利设施再到机械化持续提升生产效率的基础上一样,算力的规模和效率也已经成为发展数字经济的核心竞争力。在此背景下,支撑算力高效流动的算力网成为数字经济时代的重要基础设施。5视联战略研究院WWW.VISIONVERA.COM浪潮信息、国际数据公司(IDC)和清华大学联合推出的2021-2022 全球计算力指数评估报告指出,随着全球数字经济持续稳定增长,数字经济占比预计到 2025 年有望达到 41.5%。同时,国家计算力指数与 GDP 的走势呈现出了显著的正相关。15 个重点国
5、家的计算力指数平均每提高 1 点,国家的数字经济和 GDP 将分别增长 3.5和 1.8,预计该趋势在 2021 年至 2025 年间将继续保持。并且,一个国家的计算力指数越高,该指数提升对经济的拉动作用变得更加显著。在数字经济时代,算力已经成为拉动国家经济增长的核心引擎。其中,算力网是算力经济的重要基础设施,安全、稳定、高效的算力网对于国家算力经济的发展至关重要。(一)算力网定义算力是集信息计算力、网络运载力、数据存储力于一体的新型生产力,主要通过算力中心、算力网等算力基础设施向社会提供服务。算力网是数字化时代的资源网,是以计算为核心,通过网络实现连接,通过感知实现匹配与调度的服务。算力网的
6、核心理念是推动算力成为水电一样,可“一点接入,即取即用”的社会级服务,实现算力协作化、集约化、普惠化。在全球算力需求暴涨的同时,因为芯片复杂度和芯片材料技术的限制,摩尔定律演进速度却在减慢,硬件技术进步的红利见底,单芯片的算力提升空间越来越窄,成本越来越高。单芯片摩尔定律的失效,以及全球可持续发展目标下对于碳减排的要求,一方面迫使未来的数据中心必须在更优的计算架构,以及更低的能耗下产生更大的算力;一方面需要盘活现有的算力资源,解决算力不足,算力网应运而生。算力网能够提升算力整体利用率,从而解决算力需求急剧膨胀下全网算力供给不足的核心问题。(二)政策背景2021 年 5 月 24 日,多部委联合
7、发布的全国一体化大数据中心协同创新体系算力枢纽实施方案提出“建设全国一体化算力网络国家枢纽节点,发展数据中心集群,引导数据中心集约化、规模化、绿色化发展。国家枢纽节点之间进一步打通网络传输通道,加快实施 东数西算 工程,提升跨区域算力调度水平。”2021 年 12 月 12 日,国务院印发“十四五”数字经济发展规划,提到“加快构建算力、算法、数据、应用资源协同的全国一体化大数据中心体系。加快实施东数西算工程,推进云网协同发展,提升数据中心跨网络、跨地域数据交互能力,加强面向特定场景的边缘计算能力,强化算力统筹和智能调度。”2022 年 2 月 18 日,多部委联合印发通知,同意在京津冀、长三角
8、、粤港澳大湾区、成渝、内蒙古、贵州、甘肃、宁夏 8 地启动建设国家算力枢纽节点,规划了 10 个国家级数据中心集群,全国一体化大数据中心体系完成总体布局设计,“东数西算”工程正式全面启动。2023 年 1 月 11 日,在立体化推进“东数西算”工程研讨会上,与会专家表示,算力网是新型信息基础设施,是数字经济时代的生产力布局,“东数西算”作为推进算力基础设施化的第一步,应坚持整体性能和综合成本最优的算力产业发展道路,布局建设城市算力网、行业算力网,促进算力使用的低成本、低门槛,真正实现算力像水电资源一样“随用随取”。2023 年 10 月 8 日,工信部等六部门印发算力基础设施高质量发展行动计划
9、,针对算力、运载力、存储力以及应用赋能四个方面提出明确的目标,要求到 2025 年,计算力方面,算力规模超过300EFLOPS,智能算力占比达到 35%;运载力方面,国家枢纽节点数据中心集群间基本实现不高于理论时延 1.5 倍的直连网络传输;应用赋能方面,每个重点领域打造 30 个以上应用标杆。一、算力网建设背景6视联战略研究院2023 年 12 月 25 日,国家发展改革委、国家数据局、中央网信办、工业和信息化部、国家能源局联合印发了深入实施“东数西算”工程 加快构建全国一体化算力网的实施意见(以下简称实施意见),标志着全国算力网建设进入快车道,各省、市正在加速布局算力产业。实施意见提出“到
10、 2025 年底,综合算力基础设施体系初步成型。1ms 时延城市算力网、5ms 时延区域算力网、20ms 时延跨国家枢纽节点算力网在示范区域内初步实现。算力电力双向协同机制初步形成,国家枢纽节点新建数据中心绿电占比超过 80%。用户使用各类算力的易用性明显提高、成本明显降低,国家枢纽节点间网络传输费用大幅降低。算力网关键核心技术基本实现安全可靠,以网络化、普惠化、绿色化为特征的算力网高质量发展格局逐步形成”。“东数西算”作为继“西气东输”“西电东送”“南水北调”后又一项国家重要战略工程,是国家层面算力产业的一次大范围、超大项目的落地,是建设数字经济新基座、畅通经济循环新通道、培育经济增长新动能
11、的一次重大战略部署,其内涵是发挥西部清洁能源充沛的优势,通过构建数据中心、云计算、大数据一体化的新型算力网体系,将东部算力需求有序引导到西部,优化数据中心建设布局,促进东西部协同联动,不仅有利于促进区域和产业的平衡充分发展,也有利于提升产业链整体抗风险能力,还能通过算力基础设施建设撬动上层应用创新,带动全国数字经济协同发展。依托国家算力网枢纽节点高质量的算力供给,联动可再生能源丰富地区及算力需求旺盛地区,将形成横跨东西、联通南北、全国一体化的算力“一张网”,成为促进国家范围内高比例、大规模的通用计算、智能计算、超级计算等多元算力一体化并网调度的新型数字基础设施和数字中国建设的重要基座,能够为全
12、社会生产生活提供普惠易用、绿色安全、规模弹性的算力资源和融合创新环境。(三)建设必要性近年来,我国算力产业规模快速增长,年平均增速超过 30%,截至 2023 年 6 月底,全国在用数据中心机架超过 760 万标准机架,算力总规模达到 197EFLOPS,排名全球第二。但在我国算力规模保持强劲增长的同时,也面临着复杂严峻的发展环境,迫切需要集中力量加强算力基础设施建设,突破关键制约。1.算力需求与能源资源错配问题亟须解决我国东西部数据中心布局存在较大不平衡,与能源资源和生产力等布局之间失配、错配矛盾较为突出。土地和能源等资源日趋紧张的东部地区集中了全国绝大部分数据中心,难以继续大规模发展数据中
13、心,而能源和土地等资源相对富集的西部地区、经济欠发达地区的数据中心在全国占比相对较低,具备发展数据中心、承接东部算力需求的潜力。这种不平衡的数据中心布局,不仅难以满足实现碳达峰碳中和目标的要求,不利于区域协调发展,也造成能源、资源等极大浪费。因此,实施“东数西算”工程,推动算力资源有序向西转移,构建全国一体化算力网络国家枢纽节点,可以充分发挥区域比较优势和我国体制机制优势,优化资源配置,增强国家整体算力效能,促进绿色发展,扩大有效投资,推动区域协调发展,释放算力资源“乘数效应”和数据要素“倍增效应”。2.提升“算力效率”至关重要算力是重要的战略资源,但算力绝非无限的,不仅一方面受制于硅、稀有金
14、属、电力、水等自然资源储量的限制,还受摩尔定律等自然规律的限制,在当前技术条件下,各类科技材料和手段已不断迫近各自指标的物理极限(如粒子大小等),同时更受美西方技术封锁、产业链畅通与否等因素的影响。因此,衡量算力效能意义重大,不仅可以科学评估建设成效,而且对于有的放矢提升整体算力网效率意义重大且势在必行。而这一切的前提,是科学测算出算力效率大小。那么,算力效率怎么计算?总体看,算力效率与单芯片效率、算内网效率、广域网效率和能源成本四大因素密切相关。四者的关系类似宏观经济学上的“乘数效应”,各个指标的变动都能形成跃迁式的组织带动作用,效能和影响呈现放大效应和连锁反应。因此,初步看,四者之间可构成
15、以下关系,即可以衡量算力效率。7视联战略研究院WWW.VISIONVERA.COM算力效率指数能源成本芯片效率 x 算内网效率 x 广域网效率=(1)芯片效率:指服务器中的单芯片或组合芯片组的能力大小,即每秒浮点运算次数(FLOPS),又称每秒峰值速度,每秒浮点运算次数越高代表计算速度越快,意味着芯片的算力越强劲。(2)算内网效率:算力中心内部效率,衡量服务器内的芯片间、服务器之间、数据中心域内机架间、机房间的算力调用、数据传输效率和数据传输损耗大小。该效率与单卡内芯片效率、多卡并行效率、机架通信效率正相关。当前有研究表明,现有技术条件下的算内网效率损失高达 40%。(3)广域网效率:算力中心
16、之间、跨省市、跨域的算力调用、数据传输效率以及相关损耗大小,有关指标包括宽带利用效率、时延、丢包、抖动等。当前有研究表明,广域网延时每增加 10ms,整体算力效率将降低 50%,丢包每增加 0.5%,算力效率将降低 50%。(4)能源成本:指为支持服务器、数据中心、传输网等各个算力网组成部分有效运转所需耗用的能源,包括电力、液冷用水等资能源,其中电力成本占绝大部分。据国家统计局,2021 年我国居民平均电价为 0.596 元/度,工业平均电价为 0.61 元/度,而日本 1.74 元/度,美国 0.859 元/度,英国为 1.76 元/度。相较之下,我国电力成本优势明显,为提升算力效率、推动算
17、力网发展奠定了基础。算力效率指数说明了什么?一是芯片不是影响算力效率的唯一因素。单个芯片的算力不能决定一切,在“缺芯少核”的情况下,通过优化其他因子,依然可以有效提升算力网整体效率。二是传输效率意义重大。算内网、广域网会影响 40%80%的算力网整体效率,在算力网全国一盘棋的背景下,单一节点效率降低,其影响都将随着范围等比例放大,影响区域甚至全国算力调度和数据传输效率。三是应高度重视能源成本。数字经济时代和AI智能时代近在眼前且必将到来,得算力者似乎将得天下,而算力最终需要各类资源支撑。能源成本与算力效率负相关,更低的能源成本将有更高的算力效率。相同投资金额,能源成本居高不下将大大影响算力效率
18、,进而影响国家间的算力竞争。3.确保算力产业安全发展成为构建国家核心竞争力的重要任务算力作为数字经济时代集信息计算力、数据存储力、网络运载力于一体的新质生产力,呈现多元泛在、智能敏捷、绿色低碳的发展趋势,已成为赋能科技创新、助推产业转型升级的关键新动能,加速渗透到传统第一、二、三产业,推动各行各业开展数字化、网络化、智能化转型升级,并带动了全球数字经济总量的爆发式增长,重塑着全球经济结构和竞争格局。随着大模型训练、大数据处理和大算力驱动的新型产业加速发展,算力已成为发达国家在科技领域竞相争夺的关键制高点,对数字技术创新和数字经济发展的制约正迅速扩大。同时,国际形势复杂多变,在中美战略博弈大背景
19、下,以自主可控的先进安全技术确保我国算力产业8视联战略研究院健康发展显得尤为重要。提升算网基础设施的建设水平,保障算力产业安全发展,已成为构建国家核心竞争力的重要任务,不但必要,而且紧迫。(四)算力网架构从算力网的技术架构上看,从下到上可分为基础资源层、算网调度层和算网运营层,同时算网运维和算网安全贯穿全程,形成“三横两纵”的支撑形态,支撑上层产业应用。1.基础资源层:整合算网资源,构建算网基座算力网基础资源层主要围绕算力资源与网络资源的整合,以及为进一步提升算网资源利用率,构建绿色、可持续发展的数据中心展开建设。在算力层面,针对基础算力(CPU 为主)主要采用硬件加速的措施;针对异构算力(G
20、PU 为主)和高性能计算可以更多地利用云原生技术以实现算力资源效用最大化。在网络层面,算力传输对网络速率、确定性等方面提出更高要求,同时,更强调软硬协同,在不断完善网络基础设施的同时,利用软件技术进一步优化对网络资源的管理和调度。最后,数据中心作为算网底层资源的载体,需要通过智能化来支持算网资源能力的发挥,也需要满足可持续发展的要求。2.算网调度层:保障算网资源精确匹配终端需求算网调度层作为算力网的神经中枢连接着算网资源和应用,向下对接底层算力资源并进行注册和标识,向上解析终端业务场景的算力需求并智能分解至各个使能平台。算网调度层以算力感知、算力编排和算力路由为核心,现处于探索和初步实施阶段。
21、其中:算力感知需要对底层异构资源进行统一标识和纳管,是算网调度的基础,也是连接资源供需方的关键环节,目前仍缺乏技术标准体系支撑;算力编排需要统筹数据、技术和行业经验进行逻辑编排和架构建设;算力路由正推进通告管理路径的图 1:算力网三横两纵架构来源:艾瑞咨询 图/视联战略研究院制图9视联战略研究院WWW.VISIONVERA.COM建设和探索,同时基于底层算力虚拟化技术实现更灵活的调度。3.算网运营层:建设商业模式完善且安全可信的交易市场算网运营是以成熟的算网编排调度技术为前提,形成的连接算力供给方、算力需求方和合作伙伴的可信算力交易服务体系。算力交易平台向上对接算力需求方,通过意图网络解析终端
22、用户算力需求,并基于多量纲和算力封装为用户提供无感切换的算网使用体验;向下对接算力供应方与算力调度中枢,通过算力并网和算力路由将算力需求与供给连接起来。目前算力交易平台处在探索和试点阶段,相比体系化运营管理平台的搭建,算力交易的商业模式和计费标准的统一更为重要。4.算网安全层:建设以数据安全为中心的算网安全体系大数据环境下,海量数据汇聚时往往存在数据量大、结构复杂等问题,数据安全成为算力经济可持续发展的核心。采集、存储、流通、交换、共享、使用等数据全生命周期中的安全保障都面临着巨大挑战。算力网将进一步模糊传统安全边界,需要在确保安全的前提下实现资源共享和明确资源权限,确保算力网中的供需双方可以
23、合理合法地利用算网资源。算力网加速了数据的流通,提升数据溯源难度,更多样的企业业务和分散的数据对数据全生命周期各环节管理均提出更高要求。同时,还需要从底层硬件着手,提升自研能力与软硬件安全适配性。5.算网运维层:协同各要素,提升可视化与智能化水平算力网对运维的广度与深度均提出了新的要求。首先由于算力网服务规模广,内容庞杂,因此其运维需要智能化的运维管理平台,以实现对资源的集中管理,并将资产和资源更好地可视化,进而兼顾管理的全面性和细粒度。此外,算力网各环节连接紧密,出现潜在问题需要采用灵活多样的处理方式,及时高效地解决问题,以避免因某一要素变化对全局产生影响。图 2:算网安全特征与需求资料来源
24、:艾瑞咨询 图/视联战略研究院制图10视联战略研究院二、算力网发展现状及发展趋势(一)我国算力产业概况近年来,我国算力规模持续壮大。从基础设施侧看,我国数据中心、智能计算中心、超算中心加快布局。根据工信部数据,2022 年我国基础设施算力规模达到 180EFlops,位居全球第二。从设备供给侧看,2022 年我国计算设备算力总规模达到 302EFlops,全球占比约为 33%,连续两年增速超过 50%,高于全球增速。其中,基础算力规模为 120EFlops,增速 26%,在我国算力占比 40%;智能算力规模达到 178.5EFlops,增速为 72%,在我国算力占比达 59%,成为算力规模快速
25、增长的驱动力;超算算力规模为 3.9EFlops,连续两年增速超过 30%。随着全国一体化算力网络国家枢纽节点的部署和“东数西算”工程的推进,我国算力产业应用亦保持快速发展。据工信部介绍,2022 年我国算力核心产业规模达 1.8 万亿元;以计算机为代表的计算产业规模达2.6万亿元,约占电子信息制造业的20%以上;计算技术国内有效发明专利数量位列各行业分类第一,产业高质量发展新格局正加快构建。从需求端看,产业数字化加速对算力的“量”要求不断提升,专业科研和技术进步对算力的“质”提出了更高要求;从供给端看,算力在自发性迭代,一方面算力基础设施逐步向边端渗透,另一方面异构芯片的研发让算力形态越发多
26、元。图 3:我国算力规模及增速资料来源:中国信息通信院、IDC、Gartner、TOP500、HPC TOP100。视联战略研究院制图11视联战略研究院WWW.VISIONVERA.COM图 4:我国各行业算力应用分布情况资料来源:中国信息通信院、IDC。视联战略研究院制图从应用领域看,我国算力应用已加速从互联网、电子政务等传统领域,向服务、电信、金融、制造、教育等行业拓展。在通用算力领域,互联网行业仍是算力需求最大的行业,占通用算力 39%的份额;电信行业加大算力基础设施投入力度,算力份额首次超过政府行业,位列第二。在智能算力领域,互联网行业对数据处理和模型训练的需求不断提升,占智能算力 5
27、3%的份额;服务行业快速从传统模式向新兴智慧模式发展,算力份额占比位列第二。从支撑能力看,算力应用场景向工业制造、城市治理、智能零售、智能调度等领域延伸,激发了数据要素驱动的创新活力,“工业大脑”和“城市大脑”建设初具规模。以中文大模型为代表的办公生产力应用加速推进,2023年3月百度发布文心一言,4月华为发布盘古大模型,阿里发布通义千问大模型,商汤科技公布日日新大模型体系,5 月科大讯飞发布星火大模型,多家上市公司亦开始布局,助力 AI 大模型产业化。12视联战略研究院(二)各地算力发展现状根据不完全统计,目前全国至少有 40 座城市已经建成或正在建设智算中心,这还不包括企业自主建设的智算中
28、心。在这些城市中,既拥有超算中心,又拥有智算中心的城市包括天津、太原、济南、西安、长沙、成都、重庆、广州、深圳、无锡、昆山等 11 座城市。2023 年年底,国家发展改革委、国家数据局等五部门联合印发实施意见,城市算力网、国家枢纽节点等基础设施建设有望进一步增质提速。根据中国信通院发布的各省市算力发展指数,京津冀、长三角、粤港澳大湾区、成渝双城经济圈等区域算力发展水平处于领先。北上广及周边省份依托雄厚经济基础、把握算力发展机遇,在先进计算关键技术创新、算力产业提振、算力基础设施建设、算力发展环境优化、算力创新应用推广等维度均取得突出成果,整体算力发展指数领先。北京、上海等地以政策为导向积极推动
29、算力整体发展,先后出台了加快建设具有全球影响力的人工智能创新策源地实施方案(2023-2025)新型数据中心“算力浦江”行动计划(20222024 年)等政策,围绕人工智能算力发展和算力基础设施等领域加快算力发展布局。中西部核心省份算力发展日益崛起,发展环境有望进一步优化。中西部省份绿色能源充足,西北部省份气候条件优越,随着国家“东数西算”工程的全面推进,贵州、内蒙古、甘肃、宁夏等核心省份算力发展优势突出,随着“东数西存”“东数西训”“东数西算”等链条并行发展,技术创新、算力应用、产业基础等制约算力发展的条件将不断得到改善。贵州加快建设面向全国的算力保障基地,开放“十二大应用场景”,打造大数据
30、产业集群,着力培育算力发展核心竞争力。内蒙古加快绿色算力升级和算力应用赋能,建设一批绿色算力中心,提升云渲染、云游戏、云视频等算力服务能力,有效落实了国家“东数西算”战略。图 5:2022 年中国部分省份算力发展指数资料来源:中国信息通信院。视联战略研究院制图13视联战略研究院WWW.VISIONVERA.COM(三)我国算力网发展挑战目前,我国算力产业在新型基础设施建设、应用场景拓展及技术研发方面取得了一定成绩,但面对更广泛行业领域、更多方参与、更高品质要求的数据流通和应用场景,现有算力产业在基础设施、关键技术等方面仍有不少短板,算力产业及算力网发展仍面临挑战。1.没有充足的能源支撑,算力难
31、以“动”起来数据中心是公认的高耗能行业。根据国际能源署(IEA)发布的 电力2024到2026年的分析与预测,2022 年数据中心、人工智能(AI)和加密货币行业的全球电力消耗占比为 2%,预计到 2026 年将翻倍至1000 太瓦时以上。此外,一项去年十月发表在焦耳杂志的研究预测,到 2027 年,全球新制造的服务器与 AI 相关的电力消耗可能增至 85.4 至 134.0 太瓦时,占全球当前用电量的 0.5%。数据中心的电力需求预计将以 13%至 15%的复合年增长率快速上升。聚焦国内,据生态环境部发布的数据显示,2021 年我国数据中心总耗电量达到 2166 亿千瓦时,占全社会用电量的
32、2.6%,碳排放则占全国碳排放量的 1.14%左右。2022 年全年,全国数据中心耗电量达到2700 亿千瓦时,占全社会用电量约 3%。预计到 2025 年,全国数据中心用电量占全社会用电量的比重将提升至 5%,到 2030 年全国数据中心耗电量将接近 4000 亿千瓦时。在需求旺盛的现状下,数据中心行业如何在“保发展”的同时,实现“碳中和”,是当下数据中心行业,乃至整个算力产业需要面临的“大考”。与此同时,能源的空间供需不平衡和跨区域调度的挑战尤为突出。我国“东数西算”战略的目标之一就是利用大型数据中心,消纳西部风光发电资源。但由于西部远离经济中心和负荷中心,无法解决低时延需求,往往只能实现
33、温冷数据的“东数西存”。“东数西算”工程面临着网络带宽低,跨省数据传输费用高、效率低等难题。随着各行业数字化转型升级进度加快,全社会数据总量呈现爆发式增长,数据资源存储、计算和应用需求大幅提升,迫切需要推动数据中心合理布局、供需平衡、绿色集约和高效互联互通,促进数据要素高效流通应用,实现数据中心绿色高质量发展。2.没有高安全的网络,数据不敢“送”过来安全是算力经济发展的基础。大数据环境下,一旦国家级的数据中心和算力基础设施发生网络安全事件和数据泄露,不仅影响公民和组织的合法权益,甚至将对国家安全、社会稳定造成严重的威胁。依靠固化边界防护理念的传统防护方式在数据安全防护方面缺乏安全能力、灵活调度
34、及统一运营机制,难以适应云架构环境下的业务流、数据流的融合变化。同时,数据交换和业务跨网需求攀升,云、网、端、用户、数据资产之间界限愈发模糊,任一环节存在漏洞或风险,都将危害信息系统整体安全。当前,算力中心仍严重缺乏有效的网络和信息安全保障能力,导致政府和企业用户不愿将敏感信息交给远程运算,他国亦不愿进行跨国远程运算。3.没有自主可控的技术,服务难以“走”出去目前,我国大量关键信息基础设施的通信网络基于 IP 协议体系构建,且 IP 协议体系已被证明存在大量公开和未披露的协议漏洞,相关漏洞被人为阻断共享或恶意利用。网络核心技术仍掌握在西方国家手中,我国底层核心网络协议技术存在安全短板,受制于西
35、方发达国家,无法在网络层为数据要素流通提供安全可信的环境,难以有效防御和根除潜在的网络攻击和威胁。算力网作为我国数字经济发展的基础设施,从软硬件到通信协议的自主可控尤为重要,应尽量采用国产化技术构建自主可控的信息技术底层架构和全周期生态体系,解决网络核心技术的“卡脖子”问题。4.没有低时延的网络,应用无法“活”起来算力网传输对时延要求极高,所有单元都完成计算后才能进行下一轮运算。业界实验发现,时延增加10ms,算力将下降 50%;丢包率每增加 5%,算力将下降 50%。标准以太网络采用尽力而为的工作机制,天然有丢包的特性,对存储的性能稳定性带来了极大的影响。传统网络面对数据流量的剧增,凸显出时
36、延14视联战略研究院高、带宽小、网络拥塞等严重问题,网络和算力发展脱节,难以支撑海量数据低时延高可靠的传输需求。目前算力中心的实际效率普遍在 30%左右,极大地浪费了投资。对于广域网来说,东西部节点之间网络传输能力不足,目前分布在东西部的 8 个国家级枢纽节点及10 个数据集群之间缺少过渡性的合作桥梁,导致算力资源未能得到充分利用。从数据中心内部“算内网”来看,人们期望通过规模部署 GPU(加速器),采用分布式内存的并行机制,来避免单一内存的限制,但在GPU之间的数据通信瓶颈更加明显。传统的网络无论是带宽还是协议,难以应对千亿甚至万亿参数(神经网络)大模型训练所需要的大带宽、高利用率以及零丢包
37、的性能要求。综上,无论是广域网还是算内网,传输能力成为制约算力应用的重要因素,高宽带、低延时、无损化的网络是打破传输瓶颈,提升算力效率的关键。具体来讲,在算力网传输方面,目前存在以下问题:高性能应用的瓶颈:在传统数据中心内,业务主要是基于 Web 服务的调用,业务特征在数学上属于基于时间的宏观统计复用,交换网络普遍采用 TCP 作为主要传输协议,通过 10G100G 交换设备构建逐级收敛的 Tree 网络。TCP 网络的时延由于丢包重传等因素,时延大概在毫秒级水平。随着技术发展以及制造工艺的迭代,数据中心高性能应用的器件性能得到了高速发展。存储场景中,已经从 HDD 发展到 SSD,介质的访问
38、时延从1ms 下降到 10us,而 SCM 存储技术的出现,将介质访问时延进一步压缩到百纳秒的水平。随着存储介15视联战略研究院WWW.VISIONVERA.COM质不断发展,访问时延大幅降低。网络成为阻碍数据中心算力发挥的最大瓶颈。超大规模组网的障碍:在生成式大模型训练时,数据并行、流水线并行和张量并行同时存在。数据并行和流水线并行所需的“参数面大网”需要跨服务器通信,规模可达十万甚至百万级别的卡数,具有超大规模、高网络容量以及高接入带宽等特点。而实现张量并行的“参数面小网”则通常局限于单个服务器范围内,具有规模小、容量超大以及高接入带宽等特点。超高带宽的限制:机内通信中 GPU 间的 Al
39、lReduce 集合通信数据量可达百 GB 级别。机间 GPU 通信涉及多种并行模式,产生大量集合通信数据,这就要求高速互联网络具备高单端口带宽、多链路及总带宽。同时,高速串行计算机扩展总线标准(PCIe)的总线带宽限制了网卡性能的发挥,需适配更高带宽的总线技术以提升机间通信效率。流控与拥塞控制技术仍不完善:数据中心网络广泛采用基于优先级的流量控制(PFC,Priority-based Flow Control)机制来避免因缓存溢出而丢包。然而,PFC 机制在保证无损传输的同时带来了队头阻塞、拥塞扩散和死锁等负面影响。当交换机入端口被其缓存队列第一个数据包的出端口暂停时,将导致队列中发送到其他
40、出端口的数据包也被阻塞。更严重的是,当网络中某个交换机发生拥塞,PFC 逐跳流控机制最终会使得与该拥塞无关的上游交换机都会接收到拥塞信号并暂停数据包的转发。拥塞不断向源端扩散会造成高排队延时和低网络吞吐率,大大增加了流传输时间。对于千亿参数模型来说,通信的端到端耗时占比仅为 20%,而对于万亿参数模型,占比增加至 50%。RDMA 技术种类繁多:远程内存直接访问技术(RDMA)正在被越来越多地应用到数据中心来获得更优异的性能表现。RDMA 技术允许应用绕过远端 CPU,直接访问远端机器的内存,并且通过将网络协议栈卸载到网卡和内核旁路的方式提供超低的延迟和更高的网络带宽。目前,RDMA 技术在超
41、算、AI 训练、存储等多个高性能场景大量部署,已形成广泛应用。但是 RDMA 技术路线种类繁多,用户及各家厂商对于 RDMA 技术路线的选择也不尽相同。当前的 RoCE 技术难以满足业务需求:在 RDMA 的多种技术路线中,RoCE 技术的应用最为广泛。然而受限于传统以太网络的性能瓶颈,一般的 RoCE 应用在高性能业务中,仍然存在拥塞丢包、延迟抖动等性能损失,难以满足高性能计算和存储的需求。在 HPC 应用中,传统以太消息封装能力较弱,查表流程复杂导致转发时延较高,网络的传输损失会造成处理器空闲等待数据,进而拖累整体并行计算性能。计算的稳定性要求自动化运维:当 GPU 集群规模达到一定量级后
42、,保障集群系统的稳定高效运行就成为大模型工程化实践中极其重要的环节。与单点 GPU 故障相比,网络故障会影响数十个甚至更多 GPU 的连通性。高性能网络的自动化部署、一键式故障定位和业务无感自愈,将决定整个集群的计算稳定性。(四)算力网发展趋势为了满足海量数据处理的需要和爆发式增长的计算场景,算力网需要在云、边、端之间按需分配和灵活调度分散的计算资源、存储资源以及网络资源,让“算力”基于“网络”被共享、被调度、被使用、被16视联战略研究院协同并最终实现“网络无所不达、算力无所不在、智能无所不及”。所以,对于算力网来说,一张具有超大带宽、超低时延、海量连接、多业务承载的高品质网络是关键。1.“确
43、定性”是数据中心网络的必要条件从数据中心内部看,高宽带、低延时、无损化的“确定性网络”,才能够支撑存算网络融合、资源池化的数据中心一体化架构。首先,在人工智能、大数据、机器学习,以及高清视频、AR、VR 等技术和业务的驱动下,数据中心对网络的带宽需求将继续呈加速发展的趋势。超高带宽和超低延时的网络正在将本地存储和网络存储的界限变得模糊,为数据中心一体化架构奠定基础。其次,构建高性能网络,提高数据在计算、存储之间的搬运效率(运效),最重要的是在数据包转发过程中实现无损化,即不允许出现数据包的丢失,“尽力而为”的传统网络已然成为过去。从广域上看,对分布在不同地域的异构算力中心进行高速网络互联,实现
44、多中心间的资源共享、自主协作与统一服务,需要网络具备超大规模、超低时延、超大带宽、超高可靠性等关键特征。如何突破地理服务区的物理边界制约,实现跨区域的“横向泛协作”,成为下一代云数据中心架构势在必行的重要发展趋势。同时,“东数西算”工程体系庞大,且各级算力枢纽分散在不同地方,通过“超高带宽、超低时延、超低抖动和丢包”的“确定性网络”,实现算力网节点互联互通,探索打造区域数据安全可信流通体系,让“网”更好地服务于“算”,是当前“算网”建设的核心。确定性网络是算力网全效运营的基础,只有建设确定性网络才能确保数据跨区域传输的安全性,保障数据要素在数字经济条件下的高效配置,充分释放生产力。2.内生安全
45、的网络安全防护体系是数据中心的保护盾随着数字化、智能化程度的加深,网络安全风险也在成倍增加,网络攻击越来越常态化。面对越来越严峻的网络安全风险挑战,传统被动式的网络安全建设方法已经不能满足现有安全形势的需要。新时代和新形势对数据防护提出了新的安全保障需求,数据中心基础设施需要构筑硬件加软件的全生命周期网络安全防护体系,为数据中心的安全可靠运行保驾护航。网络安全必须从“面向合规”转向“面向能力”,从“单点防护”转向“系统防控”,从“静态防护”转向“动态防御”。网络安全不是产品的简单堆砌,也不是一两个漏洞的发现,建设自主可控、具备主动安全特性的基础网络,保障网络与数据全生命周期安全,成为当前算力产
46、业发展必须解决的问题。内生安全的数据中心网络有三个关键发展趋势:一是全面摆脱西方技术,打造从底层协议到软硬件全面自主可控的网络基础设施;二是采用主动性安全的通信技术,打破传统网络被动防御的固有思维,破除TCP/IP 协议的安全瓶颈,从通信机制层面实现对外部攻击的主动防御;三是结合密码算法、可信计算等技术,进一步加固网络内生安全性。3.算力网与能源网络的高度耦合是能源问题的解药中国拥有全球最大规模的特高压输电网,有效实现了电力的远距离输送和区域互补,展现出在应对电力供需不平衡方面的独特优势。然而,长距离能源转移的损耗和技术挑战不容忽视,因此,长远来看,推动区域内的可再生能源生产和消费,实现就近消
47、纳,才是最优解。早在 2020 年,发改委就出台了关于加快构建全国一体化大数据中心协同创新体系的指导意见提出要探索电力网和数据网联动建设、协同运行机制。2021 年,工信部出台新型数据中心发展三年行动计划(20212023 年)鼓励企业探索建设分布式光伏发电、燃气分布式供能等配套系统,引导新型数据中心向新能源发电侧建设,就地消纳新能源。人工智能尤其是大模型训练阶段的新增算力需求需要集中布局,而且需要可以根据能源情况调整计算资源,比较适合在西部水、电资源丰富地区重点布局。但短期内快速增长的人工智能算力需求,特别是靠近需求侧的推理阶段需求,仍然有大量需要在东部解决,实现 1ms 时延城市算力网、5
48、ms 时延区域算力网。这就需要重新思考在数据网和电力网的分布式联动与微观布局协同。一方面需要引导数据中心向西部布局靠近发电侧,同时也要在已经布局的数据中心和算力中心附近,积极布局分布式可再生能源。整个算力网、输电网络、分布式能源网络的高度耦合,实现“算电一体化”也许才是解决我国未来能源问题的终极解药。17视联战略研究院WWW.VISIONVERA.COM(一)视联网技术优势1.采用自主可控技术实现协议级内生安全保障全国一体化算力网是国家战略,要求具备独立自主可控的关键技术体系,增强产业链供应链韧性和自主可控能力。国内完全掌握 V2V 协议的核心技术,包括通信协议、地址资源、域名解析体系和根服务
49、器的控制权,具备协议级国密加密算法保护能力。整套网络所采用的协议、芯片、设备、操作系统、应用软件均实现了国产化,符合信创要求。同时,V2V 协议有效解决了 TCP/IP 协议栈导致的数据多级转发产生的安全问题,并通过对多项网络通信、加密芯片和国密算法等技术的融合应用,实现在通信寻址机制、信息传输机制、数据加密机制和可信认证管理机制等方面的创新。V2V 协议采用主动性安全理论,通过“先管理、后通信”的工作机制对每次服务单独进行通信许可,实现设备终端与用户数据的完全隔离,配合对 SM2 非对称密码算法、SM3 摘要算法以及 SM4 对称密码算法等多项国产加密算法的组合应用,完全抵御 IP 网络攻击
50、与渗透的同时,消除 TCP/IP 协议的“先通信,后管理”工作机制所带来的制约,最大程度地降低传统网络通信技术的安全风险。2.创新交换机制实现高稳定性和超低延时首先,基于MAC地址通信的视联网V2V协议,三、V2V 视联网在算力网建设中的应用视联网是采用我国自主研发的“V2V”视联网协议和国产化设备构建的确定性网络,国内完全掌握其核心技术,包括通信协议、号码资源、域名解析体系和根服务器的控制权。视联网技术具备超低延时、超大宽带、高兼容性、高安全性、非 IP 协议、自主可控六大特征。通过其创新的通信寻址机制、通信节点交换机制,可达到逼近电路和光纤物理特性极限的数据交换的实时性和低延时性。结合实施