资源描述
人工智能算力基础设施赋能
研究报告
(2025 年)
中国信息通信研究院产业与规划研究所
2025年11月
前 言
在人工智能落地破局与赋能千行百业进程中,以智算中心为代表 的人工智能算力基础设施,被赋予更重要的定位和使命,成为支撑人 工智能技术及产业发展的重要基石。然而,目前人工智能算力基础设 施利用负载情况差异较大,尤其是地方政府或国资平台主导投建的智 算设施,赋能价值有待进一步提升。因此,需要厘清智算中心赋能的 需求场景、需求场景与所需关键能力的匹配,以及推进赋能落地的生 态模式,助力人工智能算力基础设施真正实现赋能价值。本报告聚焦 智算中心赋能,围绕需求场景、关键能力、落地生态这三个关键环节, 阐述最新发展趋势,致力于进一步释放智算中心的赋能效应,助力人 工智能与实体经济深度融合。
需求场景方面,大模型预训练、微调、推理场景对计算需求不一, 当前各方主体已针对性开展各类场景的支撑。推进基础预训练大模型 的训练,需要具备 E 级(EFlops)计算能力的高端万卡集群中心支撑。 推进小模型(百亿级及以下参数)的训练、微调,或推进模型的推理, 依托百 P 级(PFlops)计算能力的中小型智算中心即可支撑。
关键能力方面,训练场景与微调/推理场景在底层支撑能力、创新 服务能力、运营保障能力要求有较大区别。在算力市场高阶技术服务 需求暴涨的当下,智算中心亟需针对性夯实关键能力,支撑数据处理 服务、算力调度服务及推理应用服务等。
落地生态方面,智算中心赋能需要分场景聚合 AI 能力主体,推 进智算中心赋能所需核心要素主体的协同。智算中心需求场景和关键
能力需要有落地生态的加持才能落地,而落地生态需要推进算力、数 据、算法、场景、产业等要素间协同协作,助力 AI 大模型赋能行业 场景落地。
当然,报告仍有诸多不足,恳请各界批评指正。
目 录
一、人工智能算力基础设施演进态势 1
(一)技术创新:三位一体智算设施升级 1
(二)布局优化:全国智算设施协调发展 3
(三)产业升级:智算全产业链协同发展 4
二、人工智能算力基础设施赋能的重要走势 6
(一)需求场景逐步明晰,促使智算资源优配 7
(二)关键能力逐步聚焦,提升智算服务水准 7
(三)落地生态逐步聚和,加速智算价值释放 8
三、人工智能算力基础设施需求场景 8
(一)大模型预训练场景 9
(二)大模型微调场景 10
(三)大模型推理场景 11
四、人工智能算力基础设施关键能力 13
(一)基础支撑能力 14
(二)创新服务能力 17
(三)运营保障能力 19
五、人工智能算力基础设施落地生态 21
(一)智算与数据要素协同 22
(二)智算与模型算法协同 23
(三)智算与跨域智算协同 24
(四)智算与行业场景协同 25
(五)智算与区域产业协同 26
六、发展展望 28
(一)需求场景更加多元、复杂 28
(二)关键能力更加集约、软性 29
(三)落地生态更加聚合、协同 30
人工智能算力基础设施赋能研究报告(2025 年)
一、人工智能算力基础设施演进态势
人工智能算力基础设施,是基于人工智能专用算力芯片及加速芯 片等组成异构计算架构,以智能计算设施为核心设施,以智能算力集 群为核心载体,面向人工智能应用场景,提供所需算力服务、数据服 务和算法服务的公共算力基础设施。大模型加速技术迭代与工程创新 步伐,对人工智能算力基础设施技术创新、布局优化、产业升级也提 出了更高阶的要求。
(一)技术创新:三位一体智算设施升级
当前,我国人工智能算力基础设施正处于系统性升级与架构演进 的关键时期,正加速向集约高效、低碳共生、高速泛在的融合形态纵 深发展,全面步入以超大规模集群化、绿色低碳化与高速互联化为核 心特征的新发展阶段。在顶层设计与政策引导协同驱动下,我国智算 中心规模持续扩大、技术体系日益自主、能效水平不断提升、互联能 力显著增强,逐步构建起支撑数字经济高质量发展和现代化产业体系 建设的算力底座。
超大规模集群化实现突破。超大规模集群指由万或超十万颗高性 能 GPU/NPU/DPU/CPU 等异构算力卡、HBM/DRAM/SSD 等异构存 储单元构成的异构计算/存储集群,通过高速互联网络实现近乎线性 的算力扩展,以支撑千亿乃至万亿参数大模型的训练与复杂推理任务。 超节点作为智算集群化发展的关键技术之一,正逐渐成为行业焦点。 以华为昇腾 384 超节点为例,通过高速总线实现 384 卡高速总线互 联,跨节点通信带宽提升 15 倍,并通过全局内存统一编址技术,将
1
人工智能算力基础设施赋能研究报告(2025 年)
分散在各节点的内存池虚拟为统一地址空间,支持跨节点直接内存访 问,配置 8 节点存储超节点集群,具备超大带宽、超低时延、超强性 能的三大优势。中兴通讯提出 AI 加速器高速互联开放架构,构建国 产化 GPU 卡大规模高速互联的系列 Nebula 星云智算超节点,支持 Scale-Up 与 Scale-Out 双重扩展模式,高带宽域可扩展至2048 卡,为 AI 训练及推理场景提供软硬协同、开放解耦、高效高稳的算力底座。
绿色低碳化发展成效显著。当前 AI 爆发式增长带来巨大的算力 能耗挑战,人工智能算力基础设施的绿色低碳发展趋势正驱动商业模 式创新。绿色低碳不仅是用户选购智算中心及算力服务的重要考量, 也是企业服务方案的核心竞争力。目前业界广泛采用液冷、算电热碳 一体化、模块化建设及智能化运维等先进技术,持续优化智算中心能 效水平。中国移动长三角(苏州)云计算中心机房通过利用液冷技术, 使散热能耗降低 50%~60%,数据中心 PUE 值降低至 1.25 以下。目 前主流冷板式液冷仍需风冷辅助散热,未来将通过优化冷板设计、推 广单相浸没式或全覆盖冷板液冷,逐步减少风冷依赖,提升单机柜功 率密度并简化数据中心架构。此外,在智算中心平台侧,可通过算力 编排管理系统、碳排放监测与统计平台等,适应不断变化的应用需求 和能效要求。
高速互联化加速探索。智算中心的发展不仅取决于单点算力性能, 更依赖于跨节点、跨地域的高效互联,分布式训练和跨中心协作成为 当前探索的技术热点领域。我国正通过构建“物理网络+虚拟网络” 双层协同技术体系,加快推进算力基础设施的高质量互联化发展,提
2
人工智能算力基础设施赋能研究报告(2025 年)
升算力资源的整体效能。目前 400G 技术体系基本完善,我国运营商 逐步启动干线场景规模部署,对于更高速率的传输技术,业界加快 800G/1.6T 技术标准研制,OIF 和 ITU 等标准化组织正在开展相关项 目研究工作,产业界也已经启动试点验证。此外,G.654.E 光纤、空 芯光纤等新型传输媒介加快应用步伐,为构建高性能智算网络基础设 施提供有力支撑。
(二)布局优化:全国智算设施协调发展
政策引导推动智算中心高质量发展。我国高度重视智算中心建设, 自 2020 年发改委将智能计算中心纳入新基建范畴以来,国家相关部 门相继出台了《新型数据中心发展三年行动计划(2021-2023 年)》、 《算力基础设施高质量发展行动计划》等多份文件,提出统筹建设高 性能智算中心,对于智算中心从鼓励建设转向深化布局,指引方向更 加明确。2025 年 5 月,国家数据局印发《数字中国建设 2025 年行动 方案》,提出逐步实现各地区算力需求与国家枢纽节点算力资源高效 供需匹配。2025 年 8 月国务院印发《关于深入实施“人工智能+”行 动的意见》,明确提出强化智能算力统筹,加快超大规模智算集群技 术突破和工程落地,优化国家智算资源布局,完善全国一体化算力网, 加强智能算力互联互通和供需匹配,创新智能算力基础设施运营模式, 推动智能算力供给普惠易用、经济高效、绿色安全。
智算中心建设加快布局,总体规模进一步增长。近年来,我国持 续加大对计算、存储和算力网络基础设施的投入,算力作为支撑人工 智能发展的核心生产力,呈现出稳中有进的发展态势。据中国信通院
3
人工智能算力基础设施赋能研究报告(2025 年)
《2025 综合算力指数》数据显示,截至 2025 年 6 月底,我国在用算 力中心机架总规模达 1085 万标准机架,智能算力规模达到788EFlops1 (FP16),为海量数据计算提供智能底座。与此同时,区域智能算力 向统筹化和集约化部署布局。一方面,在全国一体化算力网建设、“东 数西算”战略等大背景下,新建智能算力中心逐渐融入八大枢纽节点 建设。截至 2025 年一季度,我国“东数西算”八大枢纽节点算力总规 模达到 215.5EFlops2,智能算力规模占枢纽节点算力规模的 80.8% , 枢纽节点间 20 毫秒时延圈已基本实现。另一方面,重点城市区域智 能算力供给能力持续提升。北京市 2024 年新增算力达 8620PFlops , 累计智能算力规模超过 33EFlops3;截止 2025 年 7 月,上海市智能算 力规模已达到 100EFlops4;截至 2025 年 3 月,深圳已建和在建智能 算力规模超过 62EFlops5。
(三)产业升级:智算全产业链协同发展
智能算力产业发展提质增速。智算中心作为集算力、存力、运力 于一体的新型基础设施,为越来越多的行业数字化转型注入新动能, 产业规模持续跃升。据国际数据公司(IDC)《中国人工智能计算力发 展评估报告》显示,2024 年我国智能算力市场规模达 190 亿美元,同
1 数据来源:中国信通院
2 数据来源:国家数据局
3 数据来源:北京市科协
4 数据来源:上海市经信委
5 数据来源:深圳发布
4
人工智能算力基础设施赋能研究报告(2025 年)
比增长 86.9%。产业链各环节深度融合。上游核心硬件国产化突破加 速,硬件产品性能实现跃升。据 IDC 数据显示,2024 年我国加速芯 片市场规模超过 270 万张,GPU 卡占据 70%的市场份额,我国本土 AI 芯片出货量已超过 82 万张,市场渗透率从 2023 年的 15%提升至 30% 。中游算力设施建设规模化推进,成熟大模型的运营有望为我国 带来持续的智能算力需求。下游算力应用向金融、医疗、教育、交通、 工业、传媒娱乐等诸多产业加速渗透,从通用场景迈向专业领域的特 定场景。据中商产业研究院数据显示,从当前应用占比情况来看,互 联网占比 53%,服务行业占比 18%,政府占比 9%,电信、工业制造、 教育、金融等行业均占比 4%。
三大运营商的算力布局紧密围绕国家“东数西算”与“人工智能+” 战略展开,已形成覆盖全国的立体化算力网络。中国移动在智算领域 “N+X”智算能力布局不断完善,京津冀、长三角、粤港澳大湾区、成 渝等区域首批 13 个智算中心节点投产,呼和浩特、哈尔滨两大万卡 级超大规模智算中心高效运营,为 AI 应用的发展提供了强大的算力 支撑。其中,黑龙江哈尔滨的智算中心节点,是全球运营商规模最大 的单集群智算中心,智算卡算力规模达到 6.93 EFlops。中国电信适度 超前开展智算建设,重点规划“2+3+7+N+M”的智算布局,建设“中心 集群+边缘 DC”一体化的 AIDC,在内蒙古和贵州打造两个公共智算 中心,在京津冀、长三角、粤港澳大湾区、成渝等地建设大型智算中 心和超算集群,重点承载 AI 训练、高性能计算等需求。中国联通智 能算力为“1+N+X”梯次布局,即建设 1 个超大规模的单体智算中心、
5
人工智能算力基础设施赋能研究报告(2025 年)
N 个智算训推一体枢纽,布局属地化的X 个智算推理节点,最终构建 以算力为核心的一体化算网融合生态体系,打造数字经济“第一算力 引擎”。中国联通上海临港智算中心,凭借在技术创新、绿色低碳与 产业赋能方面的突出表现,成功入选《中国信通院 2025 年智算中心 典型案例》,成为长三角区域智算中心建设的重要标杆。
AI 大厂纷纷加速布局智算领域,聚焦大规模智算中心建设,注 重技术创新与场景融合,助力 AI 技术落地应用。阿里云构建了完整 的 AI 基础设施,来满足训练和推理的规模化发展需求,打造了灵骏 超级智算集群,提供可扩容到 10 万张 GPU 卡规模的能力,主要包含 四个重要组件:灵骏计算集群、HPN 高性能网络、磐久 AI 计算服务 器,以及 CPFS 高性能存储集群。火山引擎近年来在智算中心领域布 局迅猛,通过“自建+合作”模式,在内蒙古、安徽等重点区域投建 大型绿色智算中心,并自研底层技术栈,目标是构建支撑 AI 大模型 训练与推理的高效能算力网络。百度智能云聚焦在阳泉、沈阳、盐城 等城市构建普惠的 AI 算力基础设施,通过“AI 大底座”输出整体解 决方案,赋能地方产业数字化转型和智能化升级,特别是在自动驾驶 等领域有较深积累。商汤科技突出“AI 大装置”基座能力,追求超大 规模集群的性能和效率,并通过“算力 Mall”等模式降低 AI 使用门 槛,在支撑自身前沿研究和多元业务的同时,也向行业输出能力。
二、人工智能算力基础设施赋能的重要走势
目前人工智能算力基础设施利用负载情况差异较大,尤其是国资 平台主导的地方智算中心,赋能价值有待进一步提升。面向“十五五”,
6
人工智能算力基础设施赋能研究报告(2025 年)
人工智能算力基础设施推进科学赋能,围绕需求场景、关键能力、落 地生态,有三个重要的发展趋势。
(一)需求场景逐步明晰,促使智算资源优配
需求场景定位日益清晰,助推智算中心精准赋能。“十四五”以 来,各地政府及相关主体积极探索、系统推进,人工智能算力基础设 施建设正逐步由“建得好”向“用得好”转变。地方及央国企在推进 智算中心建设过程中,正逐步厘清核心服务对象与投资建设主体的边 界,深化对地方特色经济和央国企核心业务智能化转型痛点、真实算 力需求类型及应用优先级的系统性洞察,推动智算建设与行业应用紧 密结合,实现从“以建促用”到“以用带建”的科学路径转变。同时, 政府、央国企、技术提供商、应用开发商等各方权责体系正在不断明 晰,协同机制持续完善。这种系统性定位的日益清晰,正有力促进资 源优化配置,避免重复建设与服务偏离,保障智算中心高效运行,显 著提升投资回报水平,为数字经济发展注入强劲动能。
(二)关键能力逐步聚焦,提升智算服务水准
关键能力供给持续强化,提升智算中心服务效能。“十四五”期 间,人工智能算力基础设施的服务向高层次、全栈化的支持体系快速 演进。在基础支撑方面,智算中心正从基础算力资源供给,向全面支 持异构计算资源智能管理、大规模集群高效调度、高带宽低延迟网络 传输及高可用容灾体系等核心能力加快演进,为复杂业务场景提供更 坚实支撑。在创新服务方面,对前沿 AI 框架、工具链、行业大模型 开发与软硬件协同创新的支持力度不断加大,预训练模型库、行业知
7
人工智能算力基础设施赋能研究报告(2025 年)
识库与低代码平台等应用加速普及,显著降低 AI 应用门槛,有效激 发本地创新活力。在运营保障方面,运营保障体系日趋完善,正在扭 转“重建设轻运营”现象,专业化的算力调度优化能力与模型全生命 周期管理服务逐步落地,用户体验和运营可持续性稳步提升,助力实 现智算中心的价值闭环与长效发展。
(三)落地生态逐步聚和,加速智算价值释放
生态体系加速整合,协同机制持续完善,有力促进智算赋能价值 规模化释放。“十四五”期间,人工智能算力基础设施建设正逐步由 基础算力供给,向“算力+算法+数据+场景+服务”一体化解决方案能 力方向演进,与地方特色产业及央国企核心业务的融合不断深化。可 持续、高价值的合作伙伴网络初步构建,一批具备行业专业知识、能 够提供垂直领域解决方案的独立软件开发商(ISV)、系统集成商(SI), 以及关键数据供给方和算法研究机构等核心主体加快集聚,合作模式 由项目制向更稳定、长期的协同关系过渡。有效生态协作机制初步形 成,利益共享、协同创新与风险共担的规则体系逐步健全,有助于降 低协作成本、提升主体互信。整体生态建设正朝着更加系统、稳健的 方向发展,与实际需求场景及关键能力供给的衔接更为紧密,为智算 中心实现长期健康、可持续发展提供了有力支撑。
三、人工智能算力基础设施需求场景
大模型计算需求场景主要包括训练、微调以及推理,模型参数规 模与对算力的消耗成正比,参数规模越大,对智能算力的需求越大。 不同体量的智算中心支撑不同的大模型计算场景。推进基础预训练大
8
人工智能算力基础设施赋能研究报告(2025 年)
模型(千亿级以上参数)的训练,需要具备 E 级(EFlops)计算能力 的高端万卡集群中心支撑。推进小模型(百亿级及以下参数)的训练、 微调,或推进模型的推理,依托百 P 级(100PFlops)计算能力的中小 型智算中心即可支撑。
(一)大模型预训练场景
万卡集群推进支撑基础大模型(千亿级以上参数)预训练。大模 型训练阶段消耗的资源主要集中在预训练阶段,需要数千至上万块 GPU 并行运算、处理千亿级至万亿级 Token 数据、耗时数周至数月, 占总算力消耗的 90-99%。随着基础大模型参数量从千亿迈向万亿, 大模型预训练过程对底层智能算力的诉求进一步升级。头部基础大模 型的训练算力需求已达到十万亿兆量级,且仍以每年 4.1 倍的速度快 速增长。据相关数据显示,OpenAI 依托 2.5 万张英伟达 A100 GPU, 处理了 13 万亿个 token,用时 100 天才完成 GPT-4 模型预训练。Meta 的 LLaMA-3 则动用约 1.6 万张英伟达 H100 GPU 在 54 天内训练 15 万亿 Token 。由此可见,基础大模型预训练迫切需要高质量万卡智算 集群支持。
国内通信运营商、AI 头部厂商积极建设万卡智算集群,持续研 发推出基础通用大模型。中国电信人工智能研究院依托天翼云上海临 港国产万卡算力池,并基于天翼云自研“息壤一体化智算服务平台”和 电信人工智能公司自研“星海 AI 平台”的支持,可以实现万亿参数大 模型的常稳训练,自主研发了国内首个全尺寸、全模态、全国产化的 万亿参数“星辰”基础大模型体系。中国移动依托国产万卡级智算集群,
9
人工智能算力基础设施赋能研究报告(2025 年)
与多款国产芯片完成了深度适配优化,预训练数据量达 15 万亿(T) tokens 数据,完成了九天大模型(2000 亿参数)高效训练。阿里依托 阿里云飞天平台的万卡 GPU 集群,完成通义千问 Qwen3(2350 亿参 数)预训练,预训练数据量达 36 万亿(T)token,是前代 Qwen2.5 的 两倍。百度智能云推出国内首个自研昆仑芯三代万卡集群,采用昆仑 芯 P800 GPU,目前该集群已通过中国信通院测评,成为首个获“五星 级”认证的国产万卡集群,可同时承载多个千亿参数大模型的全量训 练。
(二)大模型微调场景
小体量智算中心可有效推进行业模型微调训练。大模型微调训练 是连接预训练模型与下游应用场景的关键环节。90%的训练场景主要 集中在 L1/L2 大模型微调,即开展百亿级以下参数的行业模型训练与 微调。L1/L2 大模型微调是指基于预训练好的大型语言模型,通过调 整模型参数以适应特定任务或数据集的过程,以使模型在特定任务上 的性能得到显著提升。与基础大模型的训练相比,L1L2 大模型微调 对智算资源需求规模成指数级下降。地方推出的小体量(百 P 级)智 算中心在百亿级以下参数的行业模型微调方面具有显著优势。一方面, 地方可以通过快速整合当地计算资源满足模型微调需求;另一方面, 在保证性能的同时,还能够显著降低计算成本和时间成本。整体来看, 地方推出的小体量(百 P 级)智算中心,以其高效、灵活的计算资源,
足以满足当前主流行业模型训练微调需求,实现对特定区域进行精准 服务。
10
人工智能算力基础设施赋能研究报告(2025 年)
当前国内多数智算中心着力支撑行业模型微调训练。南京智能计 算中心已完成超过 150 种主流大模型的调优与适配工作,贯穿模型训 练构建、高质量数据应用直至实际场景部署的全过程,可量身实施大 模型微调策略,整合包括分布式训练效能提升、模型轻量级实施及边 缘节点计算在内的核心能力,现已为上百家科研机构、高等院校及创 新型企业提供高性能算力资源服务。杭州人工智能计算中心依托全国 产软硬件平台,帮助企业用户在行业模型训练中显著缩短时间成本, 提供不同规模的 DeepSeek 蒸馏版本模型,可按需灵活选择,覆盖金 融、医疗、教育、制造等多行业场景,企业用户无需从头搭建底层模 型,即可快速进行业务数据的迁移学习或微调训练。目前,已服务本 地校企单位 500 余家,培育行业大模型 30 余个,孵化行业应用与解 决方案 200 余个。
(三)大模型推理场景
当前推理需求场景中,云侧推理需求占据主导。推理智算需求场 景包括网页端智能助手、移动端智能助手和企业侧应用等。其中网页 端智能助手需要大量的实时计算资源来支持用户的高并发请求和快 速响应,当前主要依托云侧推理完成。由于需要处理大量并发请求, 对网络带宽智能资源调度和优化延迟也有较高要求。具体场景包括图 像处理、信息检索、智能问答等。移动端智能助手,通常对实时性和 功耗有较高要求,一般多采用轻量化模型并结合云端推理的方式,移 动端主要处理前端数据采集和初步处理,复杂计算任务则交由云端处 理,具体场景包括手机语音助手、语音识别、自然语言处理等。对于
11
人工智能算力基础设施赋能研究报告(2025 年)
企业侧应用,对于推理精度、稳定性和实时性要求均相对较高,企业 需要构建专门的智算中心或采用云服务提供商的智算解决方案,另一 方面需要低延迟、高带宽的网络连接以满足场景实时性要求。具体场 景包括智能客服、智能制造等。
不同推理应用场景对于推理模型及智算中心需求各不相同。在文 本对话、智能客服等互联网实时性要求高的推理场景中,时延要求一 般在 50ms,可依托 GPT3 或 GLM 等百亿级大语言模型实现低时延应 用推理;对于机器人语音对话等推理场景,时延要求一般在 100ms, 可基于 Llama 等亿/十亿级别模型来实现推理;在文生图、视频等非 实时性交互推理场景中,时延在 200ms,基于 Stability 等模型即可实 现推理。整体来看,应对不同的推理场景,智算中心在加速卡选型方 面有针对性的方案,以实现最佳的性能和效率。针对大模型推理应用 场景,智算中心倾向于选择配备较大内存的训练卡来支撑推理过程, 或者采用训练与推理一体化的解决方案,根据推理工作负载的需求, 动态调整算力资源,通过“削峰填谷”的方式,来实现推理算力资源的 高效利用,以及智算资源的错峰利用。对于实时性要求较高的小模型 推理场景,智算中心同样需要选用训练卡来支撑推理工作,以满足快 速响应和高效处理的要求。对于实时性要求低的小模型推理场景,智 算中心可以选择专用推理卡来支撑推理任务,以优化成本效益并满足 基本的处理需求。
专用于推理的智算中心持续涌现。杭州灵汐类脑智算集群已于 2025 年 7 月底实现了大模型快速推理 API 的企业服务试运行,该智
12
人工智能算力基础设施赋能研究报告(2025 年)
算集群部署异构融合类脑芯片,具有兼容 PyTorch 框架的类 CUDA 软 件栈,可直接服务于多类开源大模型的快速推理、而不需要转换类脑 算法,并通过存算一体、众核并行、稀疏计算、事件驱动等特性,实 现将单用户的推理延迟控制在毫秒级别,首 token 延迟可降至百毫秒 乃至十毫秒级,大幅降低智算中心的功耗。山东移动千卡资源池采用 中兴通讯全栈全场景的智算解决方案,硬件层面使用中兴高性能智算 服务器和自研 ROCE 交换机,算力资源包括 304 张天垓 150 GPU 和 720 张天垓 100 GPU 卡,实现同厂家异代算力统一纳管,软件层面部 署了中兴通讯 TECS 资源管理平台和 AIS 平台,通过推理引擎二次优 化,大幅提升推理资源池性能。广东电信基于中国电信粤港澳大湾区 (韶关)算力集群已上线昇腾超节点智算集群,采用中国电信研究院 自研的“翼芯”智算测试与适配优化平台,针对多种推理场景开展了大 模型性能优化及测试,通过对主流模型与昇腾超节点的适配调优,不 同场景下的推理性能均实现了大幅提升,通过尝试采用算子融合替换、 PD 分离调度、KV cache 优化、集合通信优化、并行策略优化等多维 度的调优策略,DeepSeek 671B 模型在多种场景下的单卡推理吞吐性 能较优化前提升 2.5~4.3 倍。
四、人工智能算力基础设施关键能力
整体来看,当前人工智能算力基础设施正从“重硬轻软”向“软 硬协同、服务赋能”加速演进。在持续夯实底层算力支撑能力的同时, 各方日益重视提升创新服务与运营保障能力,不断拓展服务边界、增 强发展韧性。面对算力市场对高阶技术服务的迅猛增长需求,智算中
13
人工智能算力基础设施赋能研究报告(2025 年)
心正加快面向应用场景系统构建关键能力,有效提升应对市场波动和 实现可持续发展的综合实力。
(一)基础支撑能力
基础支撑能力是智算中心基础技术能力的核心体现,为用户提供 最核心的技术服务。训练场景主要关注集群算力有效性、集群稳定性、 单体集群算力规模,以及主流计算框架的兼容性等。集群算力有效性 主要指智算中心算力的利用率,决定了智算中心最终的有效算力供给 能力。在实际应用中,算力有效性普遍不高,通过尽可能降低在多卡 互联、多机互联中的算力损耗,能够提升集群算力有效性。计算集群 稳定性是智算中心可稳定支撑模型训练长时间运行的能力,直接关系 到 AI 大模型训练的连续性和效率, 目前可以通过冗余设计、负载均 衡、数据备份等方式来提升智算中心的稳定性。单体集群算力规模是 可支撑模型训练的单体集群算力规模上限,主要是对大规模计算需求 的支撑能力。此外,底层算力卡可兼容主流计算框架的能力、支持多 种主流通用基础大模型的能力、支持多种主流通用数据集及行业数据 集等能力等,也是智算中心需要关注的基础支撑能力指标。推理场景 主要关注 token 吞吐率、时延以及智算卡的异构多样性。吞吐率是智 算中心支撑推理服务在所有用户请求中每秒可生成的输出 Token 数, 高吞吐率意味着可以更快地响应用户请求,因此也是衡量智算中心对 推理场景支持的重要指标。端到端时延为用户生成完整响应所需的总 时间,同样,时延也影响着对用户的响应情况。异构多样性是指智算 中心提供多元异构智算加速卡供用户选择,这是响应不同模型对算力
14
人工智能算力基础设施赋能研究报告(2025 年)
个性化需求的支撑能力。
表 1 智算中心基础支撑能力重点指标
能 力
训练场景
推理场景
指标
含义
指标
含义
基 础 支 撑 能 力
集群算力有效性
尽可能降低在多卡互
联、多级互联中的算
力损耗
吞吐率
智算中心支撑推理 服务在所有用户请 求中每秒可生成的 输出词元(Token)数
计算集群稳定性
计算集群可稳定支撑 模型训练长时间运行
端到端时延
为用户生成完整响 应所需的总时间。
单体集群算力规模
可支撑模型训练的单 体集群算力规模上限
异构多样性
提供多元异构智算 加速卡供用户选择
主流计算框架兼容性
底层算力卡是否可兼 容主流计算框架
云服务高效性
可通过云方式提供 高效的算力服务
算法模型多样性
支持多种主流通用基 础大模型
数据集丰富性
支持多种主流通用数 据集及行业数据集
大模型预训练对智算中心的绝对算力性能有强要求。反向传播中 的梯度计算和参数更新均是计算密集型任务,因此模型训练性能是训 练阶段最核心诉求,主要体现为在一定的智算资源下缩短训练花费的 时间。训练消耗时间主要包括:数据加载时间、模型前反向时间、优 化器时间、模型后处理时间、通信时间、调度时间等,能反映训练性 能的主要指标包括吞吐率、单步时间、线性加速比、模型算力利用率 等。其中集群线性加速比和模型计算利用率是集群算力性能的关键指 标。集群线性加速比,指单机拓展到集群的效率度量指标,是集群算 力性能的核心指标之一,高性能网络是让线性加速比尽可能逼近于 1 的关键,在高性能网络优化下,集群加速比可达到 90%以上。摩尔线
15
人工智能算力基础设施赋能研究报告(2025 年)
程夸娥(KUAE)智算中心实现了系统级全栈协同优化,覆盖硬件、 软件、集群及云服务,提供全局综合解决方案。其在 70B 至 130B 参 数的大模型训练中,线性加速比均可达 91% 。模型计算利用率 MFU (Model FLOPS Utilization)是一个用于评估人工智能加速器在模型 训练期间利用程度的指标,表示在模型训练期间实际使用的浮点运算 数(FLOPS)与理论上可用的 FLOPS 之间的比率,高 MFU 表明加速 器在模型训练中被充分利用。从业界实践调研结果看,智算集群算力 有效性能普遍不高,达到 40-50%属于较为优秀。部分主体在特定条 件探索,可超过 50%。
模型推理对智算卡的内存和通信带宽有强要求。对于推理场景, 模型推理目标是首 Token 输出尽可能快、吞吐量尽可能高以及每个输 出 Token 的时间尽可能短,因此模型推理核心要求是高吞吐量和低时 延。对于智算卡而言,推理场景的高吞吐量和低时延,对其内存和通 信带宽有着较高的要求;一方面,智算卡需要具备充足内存容量,以 满足推理过程中快速加载和存储大量数据以及模型参数的要求,为高 效的推理提供存储基础。另一方面,通过高通信带宽确保数据在智算 卡与其他设备之间能够快速传输,使得输入数据迅速得到智算卡处理, 同时推理结果能够及时传输回应用程序,以减少数据传输时间损耗。 由于推理过程主要是基于已训练好的模型对输入数据进行处理和输 出结果,无需像模型训练需要进行大量复杂的计算操作,所以相比之 下,推理场景对计算的需求相对较低。高内存和通信带宽是实现推理 应用高吞吐量和低时延的关键。整体来看,应对不同的推理场景,智
16
人工智能算力基础设施赋能研究报告(2025 年)
算中心在加速卡选型方面有针对性的方案,以实现最佳的性能和效率。
(二)创新服务能力
创新服务能力是智算中心推进产业创新的核心体现,为用户提供 高阶价值的技术服务。训练场景主要关注云服务高效性、模型迁移高 效性以及数据治理多样性。云服务高效性,即可以通过云方式提供高 效的算力服务的能力,也是智算中心场景应用支撑的重要指标,通过 云来提供算力服务,是智算中心发展的重要趋势。模型迁移高效性指 智算中心可高效完成用户模型的迁移适配,决定着模型是否能快速进 入产业化阶段。数据治理多样性是指智算中心可以通过为用户提供多 样的数据汇聚、共享、清洗等工具,帮助用户实现模型的落地应用。 推理场景主要关注智算资源池化调度能力、模型迁移部署高效性。池 化调度能力通过支持异构算力的统筹调度来衡量,集中管理和调度能 够提高资源利用效率、降低成本、支持异构算力管理,并提供弹性计 算服务的能力,推进池化调度。
表 2 智算中心创新服务能力重点指标
能 力
训练场景
推理场景
指标
含义
指标
含义
创 新 服 务 能 力
云服务高效性
可通过云方式提供高 效的算力服务
池化调度能力
支持异构算力的统
筹调度,并推进池
化调度
模型迁移高效性
可高效完成用户模型 的迁移适配
模型迁移高效性
可高效完成用户模 型的迁移适配
数据治理多样性
为用户提供多样的数
据汇聚、共享、清洗
等工具
开发工具完整性
提供丰富完整的模
型量化、剪枝、部
署开发工具
开发工具完整性
提供丰富完整的模型 训练、推理、部署开
17
人工智能算力基础设施赋能研究报告(2025 年)
能 力
训练场景
推理场景
指标
含义
指标
含义
发工具
场景方案丰富性
提供丰富的行业场景 模型及行业场景解决
方案样例
模型训练突出智算中心的全栈软件能力要求,要求智算中心提供 训练过程的全栈 MaaS 服务能力。全栈服务能力实现从硬件适配、资 源池化到异构调度的完整全栈一云多芯,向下纳管异构芯片资源、向 上屏蔽硬件差异,保障训练任务高效稳定运行。在模型开发阶段,需 要智算中心提供包括模型训练、调优和部署等在内的全栈平台型服务, 以支持低门槛的模型开发与定制,用户无需关注 AI 算力、框架和平 台即可生产和部署模型。对于训练所需数据,需要智算中心支撑数据 工程,提供包括大小模型及公私域数据集的丰富资产库服务,以支持 模型和数据集的灵活快速调用,用户无需生产和部署模型即可调用模 型和数据集服务。
智算中心的池化调度能力同样是推理场景关注的重要指标之一。 在实际生产部署中,AI 推理往往与前端的业务/应用网络形成紧密配 合,经由智算中心对外提供云服务,因此要求智算中心要能够支持提 供各种异构算力(GPU 、CPU 、NPU)的能力,实现一云多芯调度。 在具体应用中,智算中心应兼容华为昇腾、海光等国内外主流 AI 芯 片,确保推理任务能够在由不同品牌、不同型号芯片组成的智算集群 中顺利执行混合推理。此外,还需整合 GPU 硬分片和虚拟分片技术, 实现 GPU 资源的池化管理以及跨集群调度能力,从而实现对多芯集
18
人工智能算力基础设施赋能研究报告(2025 年)
群的精细化运营,使得推理算力能够灵活应对各种不同类型的任务处 理需求。此外, 推理场景多应用于产业一线,对于底层算力的地理位 置、端应用服务的快速连接性等要求较为严格,算力供给主体需具备 海量的、可扩缩容的高性能算力资源,并确保算力能够稳定、可靠地 交付给用户使用。
(三)运营保障能力
运营保障能力是智算中心实现科学运转的核心体现,为用户提供 闭环商业服务。训练和推理场景都重点关注算力被调度的灵活性、算 力租赁性价比、安全合规性等,此外训练场景还关注可协调合作主体 的丰富性。算力调度灵活性,是指智算中心可依托外部算力调度平台 被灵活调度,通过调度平台可对接更多区域外用户主体,从而提升智 算资源利用率。算力租赁性价比也是训练和推理场景中用户都关注的 重点指标。安全合规性,是指智算中心建设覆盖大模型全生命周期的 安全服务能力,包括合规咨询、内容安全、数据防护及评测体系,保 障用户安全合规地部署大模型应用。此外,服务的响应、服务质量跟 踪等运营能力,也是用户较为关注的维度。
表 3 智算中心运营保障能力重点指标
能 力
训练场景
推理场景
指标
含义
指标
含义
运 营 保 障 能 力
算力调度灵活性
可依托外部算力调度
平台被灵活调度算力
池资源
算力调度灵活性
可依托外部算力调
度平台被灵活调度
算力池资源
算力租赁性价比
可提供高性价比的算 力租赁服务
算力租赁性价比
可提供高性价比的 算力租赁服务
安全合规性
保障用户安全合规地
安全合规性
展开阅读全文