收藏 分销(赏)

2023年智算产业发展白皮.pdf

上传人:Stan****Shan 文档编号:1239431 上传时间:2024-04-19 格式:PDF 页数:53 大小:3.81MB
下载 相关 举报
2023年智算产业发展白皮.pdf_第1页
第1页 / 共53页
2023年智算产业发展白皮.pdf_第2页
第2页 / 共53页
2023年智算产业发展白皮.pdf_第3页
第3页 / 共53页
2023年智算产业发展白皮.pdf_第4页
第4页 / 共53页
2023年智算产业发展白皮.pdf_第5页
第5页 / 共53页
点击查看更多>>
资源描述

1、1智算产业发展白皮书(2023 年)中国电信研究院天翼智库2023 年 8 月3.4.5以大模型为代表的通用人工智能不断演进,人工智能、机器学习、大数据分析等技术在金融、制造、汽车等领域持续渗透,大模型应用场景愈加广泛,正加速算力产业结构变革,智能算力将取代通用算力成为算力结构最主要构成,智算产业迎来了高速发展期。工信部最新数据显示,我国算力总规模已位居全球第二,保持年约 30%快速增长,新增算力设施中智能算力占比过半,成为算力增长的新动能;我国算力产业创新能力持续增强,面向大模型训练、推理等高性能芯片供给持续增强,多元异构计算技术加速普及,有力支撑人工智能、区块链、元宇宙等新兴应用发展。算力

2、是数据中心的服务器通过对数据进行处理后实现结果输出的一种能力1。智算是算力的一种,指具有提供人工智能应用所需算力服务、数据服务和算法服务的智能算力,利用 CPU 与 GPU、FPGA、ASIC 等加速芯片的异构组合,实现高精度通用算力和低精度专用算力的融合供应2,20。智算涵盖从底层高性能芯片、服务器和网络设备,到智算中心基建、机电配套和软硬件服务平台,再到顶层人工智能应用等完整体系,产业上下链长、集聚效应显著。智算为经济增长提供数字转型、智能升级、融合创新的新动力,带动人工智能及相关产业倍速增长,成为我国数字经济发展的新引擎。本白皮书系统分析了智算产业发展环境、产业链全景特点、最新进展及面临

3、挑战,指出了智算产业五大发展趋势、七大技术关键词,提出了我国智算发展潜力评估体系及分省指标结果,并介绍了典型智6算中心建设场景案例。本白皮书由中国电信研究院编制,我们希望通过此白皮书为我国智算产业市场洞察、技术创新、生态建设,高水平发展提供参考启示。71、AI 大模型驱动的智算时代正加速到来图 1 人工智能产业发展历程神经网络相关基础理论被提出,搜索式推理、自然语言等大量 AI 程序和创新研究涌现。但由于大部分AI 程序不具备解决复杂问题的能力,造成 AI 研究经费开始大幅削减,AI 迎来第一次发展低谷。该阶段算力主要以 IBM 大型计算机为主,以集中的方式分配使用。80 年代名为“专家系统”

4、的 AI 程序问世,极大增强了 AI 的实用性。但“专家系统”应用仅限于特定领域,迭代升级难度及维护成本高,规模推广难度大,AI 再次进入发展低谷。90 年代小型计算机性能每 18 个月翻一番,且价格和耗电量大幅降低,算力逐渐进入分布式发展阶段3。深度学习等算法的突破使得 AI 性能8大幅提升。移动通信技术快速发展,共享计算资源、提高算力利用率等需求催生出以云计算为中心的集中式共享算力模式。2016 年,谷歌研发的 AlphaGo 将 AI 推向大众视野,语音识别、视觉处理等 AI 应用逐渐渗透到各行各业。同年,中国电信提出“云网融合”发展方向,将云计算和网络技术有机结合,实现计算和网络资源的

5、统一管理和优化配置,推动网络和算力一体化供给、运营和服务。2022 年 11 月,OpenAI 公司正式推出 ChatGPT,推动生成式AI 应用进入爆发期,M6、文心一言、盘古等国内 AI 大模型层出不穷,AI 算力需求被推到“井喷”状态,开启智算时代。随着数据指数级增长,计算密度越来越高、计算节点分布越来越广,加速云网与AI、安全等要素融合。算力逐渐由终端计算等需求驱动的“被动式”发展,转向促进 AI 大模型训练、实现通用人工智能等代表的“主动式”发展,从“技术工具”进阶为社会经济发展的“底层动力”。2、智能算力成为数字经济发展的新引擎IDC 预测,全球以 AI 为中心的各类系统的软件、硬

6、件与服务支出,2023 年将达到 1540 亿美元,到 2026 年将超过 3000 亿美元,预计2022 年至 2026 年间复合年增长率(CAGR)为 27%4。2021 年中国 Al服务器市场规模为 53.9 亿美元,预计 2025 年达到 103.4 亿美元,2021 年至 2025 年间 CAGR 达 17.7%5。9到 2035 年,人工智能的发展将给我国甚至全球经济增长带来突出贡献。预计到 2026 年,人工智能技术对于全行业的渗透率将超过 20%6。据信通院数据,2022 年我国算力核心产业规模达到1.8 万亿元,其中人工智能核心产业规模达 5080 亿元,同比增长 18%7;

7、2022 年我国新增算力基础设施中智能算力占比过半,智算成为算力增长新曲线,智算中心正在支撑人工智能产业的快速发展,支撑其到2025 年达到 4000 亿,带动 5 万亿产业目标;2030 年达到 1 万亿,带动 10 万亿元产业目标8。3、国家和地方密集出台政策支持智算布局表 1.我国部委智算中心建设相关政策数据来源:各部委官方文件“十四五”规划和 2035 年远景目标纲要中明确提出要“加快构建全国一体化大数据中心体系,强化算力统筹智能调度,建设若干国家枢纽节点和大数据中心集群”。工信部、国家发改委等先后出台新型数据中心发展三年行动计划10(2021-2023 年)、全国一体化大数据中心协同

8、创新体系算力枢纽实施方案等文件,启动“东数西算”重大工程。2023 年 4 月,中共中央政治局会议中强调“要重视通用人工智能发展,营造创新生态,重视防范风险。”7 月,科技部批复 25 个平台建设国家新一代人工智能公共算力开放创新平台(含筹建)。表 2.我国各省市智算中心建设相关政策数据来源:各省市官方政策文件北京发布北京市促进通用人工自能创新发展的若干措施高效推动算力基础设施建设,将新增算力建设项目纳入算力合作伙伴计划,加快推动智算中心建设,形成规模化先进算力供给。上海出台上海市助力中小微企业稳增长调结构强能力若干措施助力中小企业数字化转型,发放“AI 算力券”,重点支持租用本市智能算力且用

9、于核心算法创新、模型研发的企业,最高按合同费用 20%进行支持。成都印发成都市围绕超算智算加快算力产业发展的政策措施明确每年发放总额不超过 1000 万元的算力券,11用于支持算力中介服务机构、科技型中小微企业和创客、科研机构、高校等使用国家超算成都中心、成都智算中心算力资源。121、智算产业链初步形成,生态集聚效应不断增强图 2 智算产业链图谱目前,我国智算产业链已经初步形成,涵盖由芯片、软件、硬件供应商构成的上游产业,由云商、电信运营商、第三方数据中心服务商等构成的中游产业,以及由互联网、交通、金融、工业等行业等用户构成的下游产业。英伟达(NVIDIA)凭借 NVLink、NVSwitch

10、 等集群性能优势以及良好的 CUDA 生态,成为全球 GPU 主要供货商,其 A100 芯片占据了数据中心 GPU 市场 90%以上的份额。据 IDC 数据,预计到 2025 年 GPU 仍将占据 AI 芯片 8 成市场份额。同时赛灵思(Xilinx)和英特尔(Intel)已在 FPGA 领域形成双寡头格局,市场份额占比约 90%9。以 TPU、NPU 为代13表的 ASIC 凭借吞吐量、功耗、算力等优势,逐渐被广泛应用于人工智能领域。国外以谷歌为首发布 TPU 芯片,国内寒武纪、华为、阿里等公司也都推出了深度神经网络加速的 ASIC 芯片,如华为昇腾 NPU、阿里平头哥 NPU。Omdia

11、数据显示,2022 年全球数据中心以太网交换机市场份额白盒供应商占比 32%,其中 Arista 占比 18%。在北美市场,全球 TOP3 云商亚马逊、谷歌和 Meta 的白盒交换机购买规模已超市场总规模的三分之二。InfiniBand 网络方案及配套设备供应商主要包括英伟达、英特尔、思科,其中英伟达市场占有率超七成。支持 RoCE 的交换机厂商较多,主要以新华三、华为为主。支持 RoCE 的 NVIDIA ConnectX 系列网卡当前市场占有率比较高。主流云商一方面自建大型智算中心,如 Meta 宣布取消或暂停部分正在建设的数据中心,对其 11 个正在开发的项目进行重新设计,彻底转向人工智

12、能数据中心的建设。另一方面加速布局 AI 大模型,如谷歌“PaLM-2”、Meta“Llama 2”等。特斯拉、苹果等科技公司基于自身14业务优势,一方面自建定制化智算中心,如特斯拉面向自动驾驶等领域建设超算中心 Dojo,拥有超过100万个训练节点,算力达到1.1EFLOPS10。另一方面,积极布局 AI 大模型体系,巩固自身行业优势壁垒,如特斯拉 AI 机器人“擎天柱”、苹果“Apple GPT”。国内运营商积极建设智算中心及平台,如中国电信推出息壤智能计算平台,提供智算、超算、通算多样化算力服务,为大模型训练、无人驾驶、生命科学等场景提供软硬一体解决方案,RDMA 吞吐可高达 1.6Tb

13、11。国外 IDC 服务商仍在布局阶段,如 2023 年日本 NTT 宣布将在 5 年内投资 8 万亿日元(约合 590 亿美元)用于人工智能、数据中心和其他增长领域12;Equinix 的 2023 年全球科技趋势调查报告显示,人工智能应用率上升,但 IT 基础设施没有为人工智能做好充足准备。互联网、交通、金融、工业等行业,基于大模型带动自动驾驶、机器人、元宇宙、智慧医疗等下游产业发展。海外大模型行业应用主要在传媒游戏、机器人、办公等领域落地,如 Meta 推出 AI Sandbox为广告生成不同的文字、Apple 推出生成式人工智能元宇宙产品Visin Pro 头显,并计划在 siri 嵌

14、入类 GPT 功能。哈维基于 GPT 及行业数据推出 AI 法律助手。国内大模型行业应用主要聚焦金融、医疗、传媒游戏、智能汽车等领域,如百度文心大模型助力浦发银行、泰康保险在投资决策、理赔信息检索等方面的应用。华为盘古大模型为国家电网电力巡检提供智能服务。15图 3 国内外大模型行业分布13特斯拉基于 Dojo超级计算机先后推出 BEV 大模型、端到端自动驾驶大模型,推动高阶智能驾驶落地,预计到 2024 年算力将达 100EFLOPS。吉利星睿智算中心自研汽车行业 AI 对话模型,初步完成百亿参数的大模型训练,吉利星睿智算中心(湖州)预计 2025 年算力规模将达 1.2EFLOPS14。小

15、鹏汽车自动驾驶智算中心“扶摇”(乌兰察布),基于阿里飞天智算平台,算力可达 600PFLOPS,将小鹏自动驾驶核心模型的训练提速近 170 倍15。毫末智行智算中心“雪湖绿洲”(山西大同),基于火山引擎智算云解决方案,算力达 670PFLOPS,模型训练效率提升 100倍16。2、国产自研 AI 芯片加速入场,短期高效供给仍受限华为推出昇腾 910,性能对标英伟达 A100,可用于智能手机、云计算、自动驾驶等领域,同时推出 AI 开源计算框架 MindSpore,支持用户进行AI 开发。寒武纪提供云边端一体、训练推理融合等系列 AI 芯片产品及平台化基础系统软件,重点对推荐系统和大语言模型的训

16、练推理等16场景进行优化。壁仞科技等初创公司不断与多方建立合作关系,如万国数据、浪潮、中国移动等,聚焦云端通用智能计算,重点在 AI 训练和推理、图形渲染等领域发力。阿里面向自身电商、汽车、家电等领域需求自研 AI 芯片,基于 RISC-V 架构和自研算法推出含光 800 NPU,支持 TFlops 级别浮点运算。百度面向搜索、智能交通等领域的深度学习运算需求,推出昆仑系列 AI 芯片,用于大模型推理。腾讯依靠蓬莱实验室推出 AI 推理芯片“紫霄”,已用于腾讯会议等多个内部业务。我国自主 AI 芯片在系统效率等方面与国际领先产品仍有差距,并存在性价比待提高、架构不够兼容、配套工具不够成熟、应用

17、场景不够广泛等问题目前英伟达已率先到达 4 nm,而国内厂商多集中在 7 nm17;国内厂商大多不支持双精度(FP64)计算,且仅在单精度(FP32)及定点计算(INT8)方面与国外中端产品持平;与英伟达 CUDA 的成熟生态相比,国内企业多采用 OpenCL 进行自主生态建设,存在明显差距。3、智算中心建设版图持续扩张,智算服务灵活多样截至 2023 年5 月,全国超 35 个城市在建或投运 44 个智算中心(在建 15 个智算中心,投运 29 个智算中心),其中明确面向 AI 大模型应用的有 11个。智算17中心建设以东部为主,京津冀、长三角、粤港澳共29个(占比近 66%),其中 9 个

18、在建,20 个投运,面向西部枢纽节点逐渐开展布局。地方政府牵头主导 34 个(占比近 80%),主要满足当地 AI 产业发展,且以华为昇腾、寒武纪等为主要合作方提供国产化能力。西部以云商为主,如阿里乌兰察部智算中心、字节跳动与毫末智行合建雪湖绿洲(山西大同)智算中心。智算 中 心规模在 100-300PFLOPS 内占比超 70%以上,超过 1EFLOPS 规模的智算中心约占 25%(超半数为云商及大型企业自建),且全部集中在京津冀、长三角和粤港澳区域。图 4 我国智算中心及大模型分布18包括机房托管、算力租赁、智算平台、工具集及咨询等增值服务、模型即服务(MaaS)、大模型应用服务以及各种组

19、合模式。机房托管服务与传统数据中心服务模式类型相同,但需要面向智算提供更高层次的定制化(功耗、配电、网络等),主要面向云商、AI 公司、大型央企等客户。主要面向中小型科技公司、IT 公司、小参数量的模型(10B 规模)等客户,通过将闲置 GPU 资源通过云服务的形式将服务器或虚拟机租用给用户,采用按使用时间及利用率收费。一是提供 GPU 主机、高性能计算、批量计算等 IaaS 产品。二是依靠智算平台提供公有云和专有云,为各类科研、公共服务和企业机构提供算力调度、数据处理、模型开发等一体化智能计算服务。三是通过 MaaS 提供模型定制、精调、部署等一站式模型服务。四是基于大模型和 MaaS 能力

20、全面智能升级 SaaS 应用,帮助企业构建行业大模型或集成在企业应用上、以及面向公众用户提供搭载大模型应用的基于大模型的搜索引擎、数字人等服务。19图 5 智算服务体系未来智算服务模式将由现阶段集成 AI 大模型能力的云产品的卖方市场,逐步过渡到围绕产品提供配套衍生服务,最终形成基于标准化智算中心基于“AI 原生”生态服务的买方市场。4、大模型呈蓬勃发展态势,助力产数业务发展从全球已发布的大模型分布来看,中国和美国大幅领先,超过全球总数的 80%,美国在大模型数量方面始终居全球最高,中国从 2020 年进入大模型快速发展期,目前与美国保持同步增长态势。据不完全统计,目前中国 10 亿参数规模以

21、上的大模型已发布 79 个,14 个省市/地区都在开展大模型研发,与智算中心布局一致,主要集中在北京(38个)、广东(20 个)、浙江(5 个)和上海(5 个)18。其中大模型开源占比过半,高校/科研机构是开源主力。清华大学的 ChatGLM-6B、复旦大学的 MOSS 以及百度的文心系列大模型开源影响力最高。通用大模型不仅需要海量数据与雄厚算力支撑,对资金实力、人20才队伍等也提出更高要求。如 ChatGPT 单次训练成本高达数百万美金,OpenAI 核心团队 87 人,全部来自世界顶尖高等院校。行业大模型通过对垂直细分领域的数据进行更有针对性的训练和优化,从而更好地理解行业的语义和规范,更

22、有效地执行专业性更强的任务如金融的风险控制和投资决策,医疗的图像识别和诊断,交通的调度和路径优化,能源的能耗预测、碳排放监测等。预计生成式 AI 能为这些行业带来 1000 亿美元到 3000 亿美元的收益。通用大模型企业基于自有通用大模型+外部行业数据的模式拓展多个行业大模型,行业公司基于开源大模型+内部行业数据赋能自身应用。截至 2023 年 8 月,国内已落地的行业大模型共 72 个,主要集中在金融(14 个,19.4%)、医疗(14 个,19.4%)、传媒游戏(8 个,11.1%)及教育科研(8 个,11.1%)图 6 大模型潜在影响矩阵1921趋势 1:国产多元异构算力融合推动智算长

23、效发展CPUGPUDPUXPU一方面,模型训练、边缘推理、数值模拟等不同智能应用需要智算中心提供不同的算力,如自动驾驶、智慧医疗等场景既需要高精度通用算力也需要低精度专用算力20。另一方面,随着多模态大模型流量规模增长,CPU、GPU 需要拿出更多精力处理数据传输,需要利用 DPU减负,从而更好地处理“本职工作”。中国电信自研紫金 DPU 实现服务器虚拟化零损耗,全面释放算力,同时网络 PPS性能翻倍、存储IOPS 性能提升两倍、网络时延降低至原来的四分之一。AI一方面,我国 AI 芯片需求增长迅猛,华为数据显示,我国对人工智能芯片的需求半年内增长了十倍以上;IDC 预测,未来 18 个月,G

24、PU、ASIC 和 FPGA 等 AI 芯片搭载率将持续增高。另一方面,我国高端AI 芯片性能与国际领先水平仍有差距,对美国依赖较大。随着美国对中国高端 AI 芯片的管制进一步加强,如英伟达等厂商对中国(含香港)禁运高性能 GPU,需要我国持续加强芯片技术攻关,提升 GPU的国产化替代能力。趋势 2:智算从单节点向区域化协同、边端部署演变由于异构算力封装、22超大带宽和超低延迟传输网络技术仍未解决,以当前模型训练参数量(千亿级)为参考,大模型训练等的 AI 计算基本依靠单智算中心完成,且基本集中在同构智能算力中心。智算中心选址多位于东部地区,东部区域在传统数据中心建设方面,由于受能耗、成本等因

25、素的影响发展放缓,但各地政府为实现大模型的创新培育与产业聚集,短期内将主导智算中心发展,形成布局一线及省会城市。长期来看(5 年以上),受成本、双碳目标以及业务模式等因素影响,集约、规模化的智算中心向全国一体化枢纽节点布局的趋势不会改变。未来随着计算机视觉、科学计算等多模态大模型的发展以及参数量的规模增长(万亿以上),将带动东数西训、东数西渲成为东数西算场景落地的最佳实践,并呈现两大趋势:一是大模型演进为多个智算中心分布式训练,且此时智算中心间可以通过全光网等方式实现 us 级时延,智算中心间交互带宽达 T 级别以上;二是业务应用调用多个专业大模型,可能形成云计算中心与智算中心间一对多的互联需

26、求,流量规模增长。西部地区具备发展智算中心、承接东部算力需求的潜力,东西跨区域协同将更加突出。现有大模型业务模式主要包括与大模型直接交互和基于大模型能力的产品改造。前者以猎奇为主,短期并发难以持续,如 ChatGPT 的访问量增长率 1月环比增长 131.6%,5 月下降至 2.8%。后者更多实现大模型与产品、业务流程的融合,将成为主流形态,如集成了 GPT4 的 Bing 搜索引擎用户访问规模已超 ChatGPT。随着多模态大模型逐步成熟,将推动 2B23生产型和 2C 消费型流量渐成规模,以高频富媒体即时交互为主,业务应用调用多个专业大模型成为主要方式,驱动分布式推理智算中心下沉,中心(训

27、练)-边缘(推理)将成大模型的主流部署方式。此外,随着大模型轻量化处理、终端性能的持续提升,大模型从云端到终端部署渐成发展趋势。截至 2023 年 2 月国内存量手机终端智能算力总规模是我国数据中心算力总规模 12 倍以上,相当于近一百万片英伟达 H100 芯片算力21,大模型的云-边-端协同应用将在未来几年快速发展。图 7 智算中心业务访问模式趋势 3:普惠泛在的智算服务生态正逐步构建AI 大模型以“大规模预训练微调”为主,前期预训练工作量大,且需要高性能大算力 AI 芯片支撑,算力需求呈现周期性,后期推理算力对芯片计算能力要求相对较低。智算中心的算法模型、AI 架构定制化程度高,其他场景难

28、以复用。据 IDC 调研,超过 80%的受访组织表示会考虑购买预先训练好24的人工智能模型,但未来 2-3 年私有化部署仍将是整个智算市场的主流。由于当前国内高性能芯片受限、智能算力建设及使用门槛高等原因,借助平台调度实现算力错峰使用,并整合数据集、组件、算法模型提供平台级服务,可实现全社会算力服务普适、普惠和高效利用,因此成为业界运营智算中心的趋势。算力服务多以场景化云服务的形式交付,用户按业务需求采购算力、存储、带宽等专业服务,实现无处不在的计算,服务模式将从“资源式”向“任务式”转变。政府以城市为单位建设公共算力服务平台,用于连接社会多方智算中心,主要面向中小型企业或科研机构提供普惠算力

29、,同时助力当地人工智能产业孵化,如上海公共算力服务平台、北京多元智算中心等。现有智算中心的软硬件通用性和兼容性较低,需要进一步推动产业链上下游开放协同,实现不同品类、不同技术路线的芯片、算法、模型、应用等要素实现“横向”兼容、“纵向”耦合,确保各层次灵活构建,降低迁移应用门槛,共同推动行业赋能。趋势 4:确定性、高性能网络助推大规模智算集群构建大模型对数据中心内网络的传输效率有着严格的要求。一是网络丢包 0.1%会导致算力损失 50%(华为实验数据),对于一个可以承载 1.6 万卡的集群而言,近 10万个光模块平均 4 天左右就会有故障发生。二是面对千亿、万亿参数规模的大模型,训练过程中通信占

30、比最大可达 50%,仅单次计算迭代25内梯度同步需要的通信量就达百 GB 量级。因此,无阻塞、高吞吐量成为面向大模型训练的智算中心内网络的核心诉求。现阶段大模型的训练、推理主要在单一智算中心内进行,未来随着大模型发展以及训练任务的增多,单点算力资源无法满足训练需求,需要将物理位置上分散、归属于不同方所有的多个智算中心之间构建高性能互联网络(DCI),从而整合成一个更大规模的虚拟智算中心以期达到智算中心内部无损网络传输水平。当前中国电信已完成单波 400Gbit/s、传输容量 44Tbit/s、传输距离 1050km 的传输系统,创造了实时光传输容量距离积的新世界纪录(46.2Pbitkm/s)

31、,为部署 400G 光传输骨干先现网提供了实验验证22;自研算力网关在东数西渲等业务场景中,解决跨域算力调度。鹏城实验室开展深圳和广州超算 10 TB 全光网络互联研究。趋势 5:低碳化发展格局需创新智算-电网协同模式中国工程院院士戴琼海表示,预计 2030 年智能计算年耗电达到 5000 亿度,占发电总量 5%。根据斯坦福人工智能研究所的研究数据,OpenAI 的 GPT-3单次训练耗电量高达 1287 兆瓦时,相当于 120 个美国家庭 1 年的用电量、10000 辆特斯拉跑满 10 万公里消耗的电量,而这仅仅是训练AI 模型的前期电力,占模型实际使用时所消耗电力的 40%。作为用电大户,

32、智算中心必须因地制宜利用各种可再生能源,针对地域、时间、26天气等对绿电供给影响较大的问题,通过储能、源网储荷一体化等方法应对。零碳是指直接或间接产生的温室气体排放总量,通过节能减排、清洁能源、碳交易等方式进行正负抵消,实现总碳排放为零。一是通过减碳,运用技术手段降低用能、提高能效、提高绿色能源使用等;二是通过碳抵消,购买绿电、绿证等来进行碳排放的消纳。谷歌宣布计划 2030 年实现零碳运营,开发并部署了碳智能计算平台,通过获得各国与地区历史、实时和未来 24小时内每小时电力能源结构及碳强度,通过在时间或空间上转移计算任务,实现计算任务与低碳电力供应的最佳匹配。27关键词 1:存算一体存算一体

33、作为一种新型算力,是突破 AI 算力瓶颈和大数据的关键技术。与以往的冯诺依曼架构相比,打破了由于计算单元与存储单元过于独立而导致的“存储墙”(CPU 处理数据的速度与存储器读写数据速度之间严重失衡的问题,严重影响目标应用程序的功率和性能),达到用更低功耗实现更高算力的效果。作为可 10 倍提升单位功耗算力的颠覆性技术之一,存算一体有望降低一个数量级的单位算力能耗,在 VR/AR、无人驾驶、天文数据计算、遥感影像数据分析等大规模并行计算场景中,具备高带宽、低功耗的显著优势。目前主流的实现方案包括:一是利用先进封装技术把计算逻辑芯片和存储器(如 DRAM)封装到一起;二是在传统 DRAM、SRAM

34、、NOR Flash、NANDFlash 中实现存内计算;三是利用新型存储元件实现存算一体。当前存算一体技术仍处于早期阶段,我国存算一体芯片创新企业与海外创新企业齐头并进,在该领域的先发制人,为我国相关技术的弯道超车提供了巨大可能性。关键词 2:一云多芯一云多芯是指用一套云操作系统来管理不同架构的硬件服务器集群,可以支持多种类型的芯片,解决不同类型芯片共存所带来的多云管理问题,最大限度利用云上资源池的强大算力。作为 IT 产业链28承上启下的关键环节,向下纳管和兼容底层各种芯片、整机、操作系统等软硬件基础设施,向上支撑大数据、人工智能、物联网、5G 等新一代企业级应用,有效规避算力孤岛,逐步实

35、现从算力的并存到算力的统一。一云多芯通过纳管不同指令集的芯片,包括 CPU、GPU、DPU等,为各类应用场景提供异构多元化的算力支持,满足智算业务高性能计算和数据处理要求,助力算力平台建设标准化、统一化、服务化。中国电信云骁智算平台基于天翼云全栈自研操作系统,打造一云六芯,全面支持主流国产芯片。阿里飞天操作系统正在全面兼容 X86、ARM、RISC-V 等多种芯片架构,实现一云多芯。关键词 3:CPOCPO(共封装光学)是光模块未来的一种演进形式,被视为 AI 高算力下高能效方案。CPO 是指把光引擎和交换芯片共同封装在一起的光电共封装,使电信号在引擎和芯片之间更快传输,缩短光引擎和交换芯片间

36、的距离,有效减少尺寸,降低功耗,提高效率。800G 光模块可提高服务器之间互联密度,在同等算力下计算效率倍增,高效支撑AI 大模型 100%释放算力。随着 AIGC 发展趋势明朗,高算力需求催化更高速率的 800G/1.6T 光模块需求,LightCounting 预测,硅光模块有望在 2025 年高速光模块市场中占据 60%以上份额。多家厂商也开始大力研发用于数据中心的硅光模块,如新华三发布 51.2T 800G CPO硅光数据中心交换机,单芯片带宽 51.2T,支持 64 个 800G 端口,支撑 3.2 万台节点单个 AIGC 集群,单位时间内 GPU 运算效率提升 25%,29硅光+液

37、冷技术融合实现单集群 TCO 降低 30%,满足大模型智算网络高吞吐、低时延、绿色节能需求23。图 8 以太网转发芯片演进关键词 4:RDMARDMA(Remote Direct Memory Access)是一种远程直接数据存取技术,可以有效降低多机多卡间端到端通信时延,满足智算网络的低时延、大带宽需求。当前 RDMA 技术主要采用的方案为 InfiniBand和 RoCEv2 两种。InfiniBand 网卡在速率方面保持着快速的发展,主流 200Gbps、400Gbps 已规模商用。当前用于大模型训练的智能算力节点内部大多采用 InfiniBand 技术构建数据中心内高性能网络,提供高速

38、连接,以及微秒级的时延、无丢包,避免 GPU 计算等待数据传输导致算力效率的下降。目前 InfiniBand 技术为英伟达独家控制,成本偏高、开放性较弱,因此业界也在考虑用 RoCEv2 等无损网络技术替代 InfiniBand 技术,但存在配置复杂、支持万卡规模网络吞吐性较弱等问题。30图 9 InfiniBand 和 RoCEv2 的技术对比关键词 5:DDC传统 CLOS 网络架构面临多级转发导致时延高、设备低缓存、易丢包等挑战,目前业界主要围绕优化 CLOS 架构、DDC 等开展研究。在多轨道网络架构中,大部分流量都聚合在轨道内传输(只经过一级 ToR switch),小部分流量跨轨道

39、传输(需要经过二级 switch),让任一同号卡在不同机器中的通信中的跳步数尽可能少,大幅减轻了大规模下的网络通信压力。31图 10 多轨道流量聚合DDC 将传统软硬一体的框式设备组件进行拆解,使用若干个低功耗盒式设备组成的集群替换框式设备业务线卡和网板等硬件单元,盒式设备间通过线缆互联。整个集群通过集中式或者分布式的 NOS(网络操作系统)管理,以软件化的方式灵活部署于任何一台标准服务器或多台服务器,能有效节省部署成本,提升系统冗余性和可靠性。DDC 架构简单,支持弹性扩展和功能快速迭代、更易部署、单机功耗低,可以根据 AI 集群大小来灵活选择。基于 VOQ+Cell 机制实现端到端流量调度

40、,充分利用缓存大幅减少丢包,且解决了 ECMP 策略下流量负载不均衡的问题,能有效提升宽带利用率。但由于 DDC 硬件要求专用设备、大缓存设计增加网络成本等问题,目前可交付的 DDC 产品较少,有待进一步优化。32图 11 DDC 架构24关键词 6:并行计算智算在数据迁移、同步等环节,千卡以上规模的算力输出最低往往仅有 40%左右。随着大模型规模的增长,需要考虑千卡甚至万卡规模的 GPU 集群训练,在多个 GPU 上进行并行计算,将训练任务分解为多个子任务并同时训练,以提升训练速度和效率。针对大规模并行计算的特点,数据并行、模型并行、流水并行、混合专家、增量更新等一系列优化算法和技术有效提升

41、了算法的运行效率和并发性能以及算力的资源利用率,支撑更高更复杂的训练速度和效率。当前业内普遍采用多种并行方式联合优化的策略,如在机内做张量并行,同时配合数据并行进行分组参数切分操作,在多组机器组成流水线并行,以此来承载千亿甚至万亿的模型参数。关键词 7:液冷AI 服务器的功率较普通服务器高 6-8 倍,通用型服务器原来只需要 2颗800W服务器电源,而AI服务器的需求直接提升为4颗 1800W33高功率电源,当前商汤、阿里等高性能 AI 服务器已达到 25kw 以上,而风冷空调的极限在 25-30kw25。传统风冷面临散热不足、能耗严重的问题,液冷技术成为了降低数据中心 PUE 的优解,其在

42、15kW/柜以上时更具经济性优势。浸没式和喷淋式液冷实现了 100%液体冷却,具有更优的节能效果,PUE 均在 1.2 以下,甚至可低至不足 1.1;浸没式液冷散热节能优势明显,在超算、高性能计算领域取得了广泛应用。在机架功率密度要求和 PUE 限制下,液冷已成为智算中心制冷必选项,预计 2025 浸没式液冷数据中心占比将达 40%26。34自大模型等 AI 业务爆火以来,人工智能驱动智算发展进入快速发展阶段。为了全面客观评价我国各省份智算发展水平,本章节设计了智算发展的评估方法和评估结果。该评估主要围绕各省的智算整体发展,以及智算在外部环境、基础设施、服务应用方面的发展展开评估,并依据评估结

43、果进行了相关的分析,为全国及各省份智算发展潜力判断提供参考依据。1、评估方法基于全国及各省智算业务相关政策、智算发展特点、行业专家意见,并结合国内外科研机构对智能算力的评估指标研究,借助统计学、指标筛选方法等构建智算发展潜力的评估指标。我们将智算发展潜力评 估 简 称 为ICDP-EM(Intelligentcomputingdevelopmentpotential evaluation model)。ICDP-EM 如图 1 所示,包括外部环境、基础设施、服务应用 3 个一级指标,以及相应的8个二级指标。图 12 中国智算产发展潜力评估模型(ICDP-EM)35我们从外部环境、基础设施、服务

44、应用三个方面对评估模型进行分析。AI 产业、智算中心、双碳等相关智算政策,将影响智算中心选址的具体位置。城市的商业电价、太阳能风能水等绿色发电能力决定了智算中心建设的总体成本,对智算中心的发展区域选择有较大影响。员工薪资、GDP 等是经济发展水平高低的体现,对智算建设能力有一定影响。网络高带宽、低延迟是提升智能算力性能的重要因素,如光宽用户数、每万人 5G 基站数、IPV6 渗透率等网络基础能力作为智算中心算力、数据互通的基础,将影响智算对大模型等 AI 业务的训练推理速度、处理能力和结果的准确性。IDC 机架规模、总算力规模影响智算中心的建设和服务能力。大模型数量、AI 企业数量、AI 发明

45、专利数等是衡量每个区域 AI研发能力的关键,企业上云率、互联网网站数等体现了数字化能力,将影响智算服务未来的发展潜力。数字城市百强渗透率、人工智能产业园区数促进产业实践,影响智算服务应用能力。1依据 ICDP-EM 模型分析,设计评估体系的评估方案,流程如下:1详细的评估流程,见附录361)通过 ICDP-EM 模型分析,构建中国智算发展潜力评估指标体系包括一、二、三级指标,详情见附录中表 3。2):基于省人民政府、工信部、国家统计局等官网统计三级指标对应的最新数据,为三级指标赋值提供权威、客观的依据。3)基于 AHP 和熵权法主客观结合为各指标的权重设计方案,其中一二级指标采用 AHP 方法

46、确定权重,三级指标基于各省统计的指标赋值采用熵权法确定权重。4):最终根据指标的得分和权重得到各省相应的评估结果,包括综合评估指数、外部环境评估指数、基础设施评估指数、服务应用评估指数。2、评估结果图 132023 中国 31 省智算发展综合评估指数37基于评估方法确定的指标、权重和评估指数,本报告从综合评估指数、发展环境评估指数、基础设施评估指数、智算服务评估指数四个方面给出了我国 312省智算发展潜力排序的建议。由图 13、14 所示,广东、北京、江苏、上海、浙江属于智算发展的第一梯队,综合指数在 50 以上。山东、四川、湖北、河北、河南、陕西、贵州、重庆、安徽属于智算发展第二梯队,综合指

47、数在 25以上。如图 14 所示,以北京为代表的京津冀地区和以上海为代表的长三角地区人均 GDP 较高,拉动了智算整体的产业发展,在智算的发展建设上有更大的优势,助力大模型等 AI 业务快速发展。图 14 人均 GDP 与综合指数的象限图2因数据获取难度等限制,本报告只统计中国 31 省数据,不包括中国香港、中国台湾和中国澳门38如图 15 所示,四川、云南、湖北地区因水电等绿色能源供应量充足,内蒙古、新疆等因工业电价低,均跻身第一梯队,适合发展绿色智算相关业务。北京、上海、江苏因 GDP、高薪等因素在智算发展的外部环境方面也具有一定优势。图 15 2023 中国 31 省智算发展外部环境评估

48、指数。图 16 2023 中国 31 省智算发展基础设施评估指数如图 16 所示,上海、江苏、浙江、安徽长三角地区均处于第一梯队,京津冀基础设施能力处于中上游水平,山东跻身第一梯队。西39部地区在基础设施建设上还有很大发展空间,尤其宁夏、甘肃作为八大枢纽节之二,在光纤、5G 基站、IDC 机架建设等方面可重点发力。图 17 2023 中国 31 省智算发展服务应用评估指数。如图 17 所示,北京、广东处于第一梯队,尤其北京在智算服务应用方面远高于其他省份。服务应用能力受基础设施能力的影响较大,服务应用评估指数的第一梯队(北京、广东)和第二梯队(上海、江苏、浙江、山东),其均处于基础设施评估指数

49、的第一梯队。图 18 综合评估指数 Top10 省份细分评估指数对比基于以上评估指数排序,对综合评估指数 top10 的城市进行外部40环境、基础设施、服务应用的能力分析。如图 18 所示,北京在综合能力和服务应用能力方面遥遥领先,广东、上海、江苏、浙江在基础设施能力方面占有优势,四川因出色的绿电供应(水电)使其在外部环境能力方面名列前茅。山东、湖北、河北、陕西等在各方面处于中等水平,整体能力较稳定。411中国电信安徽智算中心位于合肥市高新区南岗科技园,园区规划占地面积 150亩,累计投资将达 100亿元,一期于 2021年 12 月投产使用。该项目预计 2024年全量完工,将成省内规模最大、

50、标准最高、网络最快、算力最智能、绿色低碳最节能的超大型智算中心。基础设施方面,按照国家数据中心最高A 级标准建设,包括 6栋数据中心,2 栋动力中心,1 栋 110KV 变电站和 2 栋产业孵化中心,建成后将具备 16000 架中高密度机柜,可容纳约 30 万台服务器,支持算力规模可达到 2.2 EFLOPS,使安徽省的整体算力规模翻番27。网络方面,园区的网络出口带宽达 20T,通过四平面全光传送网直连国家级互联网骨干节点,网络层级高度扁平化,可实现业务流量的高效疏导。同时与新建的合肥国家级互联网骨干直连点高速互通,省内互访时延将降低 90%。算力应用方面,目前安徽智算中心已落地合肥人工智能

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 研究报告 > 其他

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服