1、E0我国算力产业发展挑战与建议郭亮(中国信息通信研究院云计算与大数据研究所,北京 100191)摘要:随着各项国家相关重要政策的落地实施,我国算力产业发展进程进一步加快。算力已经成为支撑互联网、通信、教育、交通、金融等行业数字化转型,推动国民经济发展的重要基础。作为当前数字化建设以及未来智能化发展的核心支撑,算力产业自身发展也面临着一系列挑战。全面梳理我国算力产业发展的现状,客观分析当前我国算力产业发展面临的挑战,针对性地提出对策和建议,以期进一步推动我国算力产业高质量发展,助力我国网络强国建设。关键词:算力产业;挑战;建议中图分类号:TP30;F124 文献标志码:A引用格式:郭亮.我国算力
2、产业发展挑战与建议J.信息通信技术与政策,2024,50(2):2-6.DOI:10.12267/j.issn.2096-5931.2024.02.0010 引言算力作为数字经济的坚实基础,备受各方关注。从我国东南沿海到西北内陆,从工业生产到百姓生活,算力正为各行各业的数字化注入新动能,成为经济社会高质量发展的重要驱动力。自新型数据中心发展三年行动计划(20212023 年)的发布实施,到生成式人工智能(Artificial Intelligence,AI)大模型掀起 AI应用热潮,再到算力基础设施高质量发展行动计划的发布,都将进一步推动我国算力产业的高质量发展1。研究算力发展实际情况,分析算
3、力发展现存问题,是制定未来算力发展策略的关键举措。本文立足当前我国算力发展现状,客观分析我国算力产业发展现存挑战,为推进我国网络强国新征程提供发展建议。1 我国算力发展现状1.1 算力规模增长迅猛近年来,我国数据中心在用标准机架数量年复合增长率超过 30%,截至 2023 年 6 月,我国在用数据中心机架总规模超过 760 万标准机架,算力总规模达到197 EFLOPS,存力总规模达到 1 080 EB,年增速达到25%2。算力设施内、算力设施间、用户入算等网络创新发展,有力支撑 AI、云边端协同、“东数西算”等应用场景。1.2 布局结构日益优化“东数西算”实施后,我国西部枢纽算力设施建设加快
4、,国家枢纽节点省内边缘协同发展的算力梯次布局体系初步形成,算力结构也逐步从早期通用占主体演变为通用智算超算协同发展的格局。随着AI 应用的快速兴起,智算中心建设步伐加快,截至2023 年 6 月,全国已投运的 AI 计算中心达到 25 个,在建的 AI 计算中心超过 20 个,智能算力规模占整体算力规模的比例已提高到 25.4%3。1.3 算力技术创新活跃我国计算机领域发明申请数量剧增,算力、存力、2N510 运力领域创新成果不断涌现。科技公司加速图形处理器(Graphics Processing Unit,GPU)等 AI 芯片研发,国内相关企业纷纷推出自研产品;“星河”AI 网络、先进存储
5、、液冷技术等很好地支撑了当前的智算需求。我国在计算、网络和存储方面都取得了很大进展。1.4 算力赋能产业发展随着我国算力规模的持续扩大,互联网、大数据、AI 等与实体经济融合发展的新业态、新模式正加速涌现,算力正加速从互联网、电子政务等领域向服务、金融、制造、交通、医疗等行业渗透,成为传统产业智能化改造和数字化转型的重要支点。与此同时,算力应用也逐渐向城市治理、智能零售、智能调度等领域延伸,激发数据要素新活力,助力数字经济高速发展。2 算力发展面临的挑战2.1 算力协同仍需稳步推进“东数西算”工程助力我国算力发展踏上新台阶,但就目前实施效果来看,距离我国东西部算力协同均衡发展仍有差距。首先,我
6、国东西部之间商业模式协调机制仍需持续完善。我国东西部算力协作发展不仅需要依靠自身努力,也需要一定的商业模式来激励,我国西部能源供应价格优势与东部产业西迁成本收益之间的平衡需要一定的协调机制来保障。其次,枢纽节点算力结构需要持续优化。虽然目前我国已在大力推动智算中心建设,但大模型的训练迭代对智能算力需求的拉动远超预期,当前枢纽通用算力与智能算力的供需比例仍有一定差距。最后,同质化竞争带来的市场压力需要调解。由于同质化竞争,部分地区价格战加剧,导致原本的成本定价被转变为市场定价,对数据中心相关企业发展带来一定压力。2.2 算力生态仍需持续完善近年来,我国不断巩固算力基础设施,培育算力产业优质企业,
7、推进算力赋能经济发展,健全算力产业生态,但目前发展仍需进一步提升,算力生态建设仍需持续完善。我国部分地区数据中心的实际运行业务效果与算力设计规模构想存在一定差距,以“筑巢引凤”的方式实现“新旧”动能转换的期待尚未实现,亟待推动从企业个体的位置空间聚集到有机融合的产业链条聚集,从而促进算力上、下游产业及应用生态市场协同发展。算力拉动经济增长的潜力仍有较大挖掘空间。算力产业发展与当地资源禀赋结合不够紧密的现象仍然存在,导致算力产业未能深入赋能当地实体经济发展,算力产业发展带来的技术创新和成果尚未充分转化为当地数字经济的增长动力等问题,仍需持续开展算力应用赋能的举措、深挖算力赋能经济增长的潜力空间,
8、将算力真正融入当地实体产业,充分转化为当地经济发展动能。2.3 算力创新仍需全面提升大模型等技术的迅速发展为算力产业发展带来了新挑战,目前我国算力核心技术创新力度不够,技术方面仍存在相对短板。在绿色低碳方面,我国现有先进数据中心电能利用效率最低已达 1.05 以下,达世界先进水平,但源网荷储一体化供电系统等低碳发展重要技术推广仍然受限,源荷对接存在一定困难1。在算力调度方面,部分省市已上线调度平台;中国算力平台持续完善算力监测、匹配和调度等方面的能力,部署节奏加快,但算力调度的商业模式和技术细节仍需进一步探讨。在高端芯片和软件研发方面,我国自主创新能力仍需加强,对进口产品和技术仍有一定依赖,关
9、键技术的“卡脖子”风险依然存在,难以支撑大模型、元宇宙等高性能场景建设。此外,国产数据库、中间件、操作系统等基础软件适配性、兼容性不足,对主流软件应用环境构建的支撑能力偏弱。2.4 算力应用仍需深化拓展当前,我国算力应用行业持续多元化拓展,为产业注入发展新动能,但算力应用深度仍需推进,算力供给与行业应用之间的衔接仍需加强。一方面,我国算力提供商缺少一体化解决方案,技术到落地过程仍存在一定障碍。算力技术与行业场景结合过程中需要较强的行业经验,而目前我国算力企业与人才在细分领域的储备尚不足支撑现有项目的长期深耕和成果应用转化。另一方面,传统企业缺乏对算力增益效用的认知与实践。传统企业的数字化转型日
10、益加速,但现有的3E0算力应用相对较浅,在顶层规划、转型方法、项目落地等思维方式和实践部署方面仍需进一步强化。2.5 算力安全仍需加强保障随着算力向生产生活各个领域的渗透逐渐深入,算网融合持续推进,算力作为转换数据价值的生产要素,安全保障至关重要,系统安全影响需重视。随着虚拟化技术的发展,算力应用对各种服务组件的依赖加大,而底层服务组件往往支撑着大量业务,一旦发生故障,诸多产品将受到影响,引发行业震动。集群安全防护亟需增强。算力产业不断集聚发展,集群部署让算力资源更为集中,攻击目标更为明显,网络供给与威胁升级,影响后果更为严重,在传统设备级、系统级、算力中心级的安全防护基础上,亟需构建集群安全
11、防护体系,增强防护能力。不稳定的水电供应,或者对传输线路和设施的物理破坏都会导致算力集群的宕机。3 算力互联面临的挑战3.1 产业需求无场景大模型训练需要大规模的集群算力处理。随着数据并行和模型并行技术的不断完善和提升,分布式训练中可以使用千卡或万卡规模的 GPU 来缩短整体训练时长。数据显示,GPT-4 的参数规模为 1.8 万亿个,训练 GPT-4 约为 2.15e25 FLOPS,在大约 2.5 万个A100 上训练了 90 100 天,利用率仅在 32%36%之间4。2023 年,购入超过 2 万张 GPU 卡的国内公司仅腾讯、百度、阿里巴巴和字节跳动 4 家5。为充分发挥算力算效,这
12、些企业均自建了大规模智算集群,为业内提供算力相关的服务。在正常发展情况下,未来大模型需要的计算能力相对于目前只增不减。大规模集群算力处理大模型、小规模算力处理小模型将成为业界常态。3.2 技术瓶颈难突破大模型并行计算模式采用分布式计算能力来处理大量的训练任务。由于带宽和时延的限制,并不是把几个小规模的集群远程连起来就能处理大模型。在完成自身的计算任务后,节点需要将结果快速地同步给其他节点,以便进行下一轮计算;在此之前,计算任务处于等待状态。目前,每块 GPU 至少会配置100 Gbit/s 的网卡6,且带宽占用较满;如果带宽不够,会造成网卡间通信时间变长,影响加速比和训练效果。算力中心存在大量
13、东西向流量,思科全球云指数统计,数据中心内部之间的流量占比为 71.49%7,随着智算的爆发,比例会更高。通常每机架配置百兆带宽,但如果要实现所谓的 GPU 远程互联,理论上单机架两台GPU 服务器就需要 1.6 Tbit/s 的带宽,换算成智算中心的出口带宽将是天文数字。在时延方面,智算中心内“一跳可达”的场景下,无限带宽技术和基于以太网的远端直接内存访问技术均能支持应用层的端到端时延微秒级。为了保证性能损失在 5%以内,数据库集群系统要求至少 40 Gbit/s的吞吐和 3 s 的网络往返时延8。目前,北京呼和浩特的端到端时延为 12 ms,是集群内应用层端到端时延的 1 000 倍。这样
14、的网络时延,对大模型训练、数据库等应用来说是不可接受的。3.3 安全稳定难保障由于计算量较大,分布式训练任务需要持续数天或数周。在训练期间如果出现故障,轻则任务回退到上一个断点进行重训,重则整个任务将从 0 开始。分布式 AI 计算是同步的,并且希望训练任务具有可预测的完成时间9。在智算网络中,每千分之一的丢包将导致网络性能下降 50%10。在正常情况下,互联网的丢包率在 0%1%,“尽力而为”的互联网显然不符合智算网络的稳定性需求。4 我国算力发展建议为进一步推动政策措施有效落地,增强算力应用赋能实效,针对我国算力发展现存挑战,结合我国现阶段算力产业发展基础,提出我国算力高质量发展对策建议。
15、4.1 以市场为导向,政府引导应用发展加强算力发展的宏观指引,明确产业发展方向。充分发挥市场作用,在北京、上海、深圳等应用需求旺4N510 盛的地区及其周边地区适度加大发展力度。强化工程的引领作用,通过创建算网城市、打造算力中心标杆等方式形成示范效应,促进各地算力设施的高质量建设。4.2 以协同为重点,推动全面一体发展探索解决我国东西部的资源使用和利益分配问题,充分结合我国东西部自身优势,创新合作模式与机制,鼓励开展“以数换电”商业合作。推动我国西部枢纽紧抓机遇,对算力全产业链进行孵化,构建“算力租赁+AI 应用”的生态体系,激活西部算力产业活力。鼓励企业适度超前部署大规模智算算力,提高算力中
16、心自主可控比例。4.3 以突破为目标,重点攻关核心技术围绕算力发展需要,增强企业自主创新能力,持续推进 GPU 等关键产品和技术的研发。推动硬件、基础软件、应用软件等适配协同,进行算力调度技术的应用试验,形成一批具有自主产权的完整解决方案。加强对外技术交流合作,加深算力产业链的沟通协作。4.4 以应用为牵引,推进算力赋能产业构建多部门、多行业交叉合作机制,充分发挥算力对工业、农业、交通、能源、金融和教育等行业的赋能价值。在项目引进、企业扶持的过程中,培育算力龙头企业,协同带动算力上下游产业的发展,构建完善的算力产业生态链。通过“华彩杯”算力大赛等形式,挖掘并培育优质算力应用项目,推动优秀项目案
17、例的复制推广。4.5 以安全为保障,筑牢产业安全防线统筹建设集群级安全防护能力,适当增加算力企业在安全方面的投入,解决好基础性问题,打造安全可靠的算网能力。鼓励算力中心进行多点热备,实现业务无缝切换。引导行业打造安全运维体系,提高运维人员应对突发事件的应急响应水平。5 结束语算力基础设施高质量发展行动计划等国家政策文件的发布,以及 GB/T 43331-2023互联网数据中心(IDC)技术和分级要求等国家标准的实施,都将引领我国算力产业高质量发展。我国产业界应针对算力发展过程中遇到的问题不断加强技术攻关,将算力产业发展走深向实,持续增强我国算力基础力量,助力我国早日实现网络强国目标。参考文献1
18、 中华人民共和国工业和信息化部.工业和信息化部等六部门关于印发算力基础设施高质量发展行动计划的通知Z,2023.2 中国算力大会.中国综合算力指数(2023 年)R,2023.3 新华三集团,中国信息通信研究院.2023 智能算力发展白皮书R,2023.4 PATEL D,WONG G.GPT-4 architecture,infrastructure,training dataset,costs,vision,MoEEB/OL.(2023-07-11)2023-12-20.https:/ 财联社.今年英伟达 H100 GPU 都流向了哪?微软和Meta 是最大两个买家EB/OL.(2023-
19、12-06)2023-12-20.https:/ 百度智能云,度小满.智算中心网络架构白皮书R,2023.7 思科系统公司.思科云指数报告(20162021 年)R,2018.8 华为技术有限公司,中国信息通信研究院.数据中心超融合以太技术白皮书R,2022.9 GUO L,CONGDON P,MARKS R,et al.IEEE 802 nendica report:intelligent lossless data center networksR,2021.10 DCN 学院.全球算力巅峰 ATLAS900 背后的网络技术 揭 秘 EB/OL.(2020-04-01)2023-12-20
20、.https:/ 中国信息通信研究院云计算与大数据研究所总工程师,正高级工程师,长期从事算力中心的计算、网络和存储等方面的政策支撑、技术研究、标准编制和产业推进工作5E0Challenge analysis of computing power development in China and suggestionsGUO Liang(Cloud Computing&Big Data Research Institute,China Academy of Information and Communications Technology,Beijing 100191,China)Abstrac
21、t:With the implementation of various important national policies,the development process of computing power industry in China has further accelerated.Computing power has become an important foundation for supporting the digital transformation of industries such as the Internet,communication,educatio
22、n,transportation,and finance,and promoting the development of the national economy.As the core support for current digital construction and future intelligent development,the computing power industry also faces a series of challenges in its own development.This article comprehensively reviews the cu
23、rrent development of Chinas computing power industry,objectively analyzes the current challenges,and proposes targeted countermeasures and suggestions to further promote the high-quality development of the computing power industry and boost Chinas strength in computing power.Keywords:computing power industry;challenge;suggestion(收稿日期:2023-12-26)6