1、 y 计算机行业计算机行业 报告日期:报告日期:20232023 年年 1212 月月 0 04 4 日日 摘要:摘要:国产大模型发展方兴未艾。大模型规模、数据量和数量的全面国产大模型发展方兴未艾。大模型规模、数据量和数量的全面增长将持续拉动增长将持续拉动 AIAI 算力需求。算力需求。国内千亿级参数规模大模型持续落地。2023 年 10 月,百度发布万亿参数级大模型文心一言 4.0,正式宣布对标 GPT-4。近两年国产大模型数量呈爆发式增长态势,仅 2023 年 1 到 7 月,国内大模型就新增 64 个,短期内增速有望维持。美国再收紧对华高端芯片出口标准,美国再收紧对华高端芯片出口标准,A
2、IAI 芯片国产化替代成为趋芯片国产化替代成为趋势。势。近年来,受国际局势影响,国内厂商加快自研芯片速度。华为昇腾 AI 算力已经为至少 30 个国产大模型训练提供算力支持,具备大规模商用能力。短期关注华为昇腾和昇思 MindSpore 产业链,长期关注国产芯片研发的突破性进展。算力租赁业务模式逐渐清晰,预期强需求下定价将大幅上涨。算力租赁业务模式逐渐清晰,预期强需求下定价将大幅上涨。随着美国对华高端芯片禁令进一步收紧,较早布局 AI 算力租赁的厂商容易形成资源优势,估算行业成本回收周期约为 17 个月。算力租赁业务的商业化路径逐渐明晰,加之近期行业频释放提价信号,算力租赁利润空间将进一步增长
3、。长期关注芯片性能和算力资源调配效率提升。长期关注芯片性能和算力资源调配效率提升。一方面,Chiplet技术有望打破芯片的物理极限,延续、甚至提高摩尔定律中提出的芯片性能增长速度。另一方面,AI 算力资源上云有望从资源配置灵活性方面提升算力供给效率。建议关注:建议关注:1 1)开展算力服务的厂商:)开展算力服务的厂商:中贝通信、莲花健康、恒润股份、汇纳科技、鸿博股份;2 2)具备国产芯片)具备国产芯片 IPIP 设计能力设计能力的厂商:的厂商:寒武纪、海光信息、芯原股份;3 3)具备云服务能力的)具备云服务能力的厂商:厂商:中科曙光、浪潮信息、紫光股份、神州数码;4 4)芯片封)芯片封测厂商:
4、测厂商:长电科技、通富微电、华天科技。风险提示:风险提示:国际紧张局势加剧;国产大模型发展不及预期;国产芯片技术突破速度不及预期;台积电产能恢复不及预期;数据估算风险。华龙证券研究所华龙证券研究所 投资投资评级:评级:推荐推荐(首次覆盖)(首次覆盖)最近一年走势最近一年走势 研究员:孙伯文 执业证书编号:S0230523080004 邮箱: 相关阅读相关阅读 请认真阅读文后免责条款请认真阅读文后免责条款-20%0%20%40%60%80%100%2022-12-022023-02-172023-04-282023-07-072023-09-152023-12-01沪深300AI算力指数证券研究
5、报告证券研究报告 智算供给格局分化,国产化进程有望加速智算供给格局分化,国产化进程有望加速 AIAI 算力行业深度研究报告算力行业深度研究报告 行业行业研究报告研究报告 内容目内容目录录 1 1 大模型浪潮推动作用下,算力需求缺口将持续扩大大模型浪潮推动作用下,算力需求缺口将持续扩大 .1 1 1.1 大模型发展对算力需求的推动作用.1 1.1.1 国外大模型的发展.1 1.1.2 国内大模型的发展.3 1.2 国产大模型 AI 算力需求测算.5 1.2.1 通用大模型 AI 算力需求测算.6 1.2.2 行业大模型 AI 算力需求测算.7 1.3 AI 算力供给方面:高端芯片进口受限,国产替
6、代为大势所趋.10 1.3.1 国际形势:美国进一步收紧芯片对华出口标准.10 1.3.2 AI 芯片国产化替代.11 1.3.3 AI 芯片产能:台积电产能复苏伴随订单激增,供不应求情况仍将持续.12 2 AI2 AI 算力租赁行业的内在价值算力租赁行业的内在价值 .1212 2.1 AI 算力租赁对下游公司:带来成本和时间优势.12 2.2 对具备算力资源的公司:算力租赁可为公司带来第二业务增长线.13 2.2.1 AI 算力租赁成本回收周期测算.13 3 AI3 AI 算力未来发展方向算力未来发展方向增质提效增质提效 .1414 3.1 以云网融合为前提,算力调度成为提高资源配置效率的核
7、心.14 3.2 芯片数据传输效率:关注 Chiplet 技术和芯片互联技术.15 3.2.1 Chiplet 技术.15 3.2.2 芯片互联技术.16 4 4 重点关注公司重点关注公司 .1616 4.1 寒武纪-U(688256.SH).16 4.2 中贝通信(603220.SH).17 5 5 风险提示风险提示 .1919 jVdYqVmVmUvYsV8OcM9PnPrRsQsRkPpOoMkPmMmR8OqQyQvPmOnNxNqQyQ行业行业研究报告研究报告 图目录图目录 图 1:2018 年海外大模型发布数量.1 图 2:2017-2023 年海外大模型参数量演进情况.2 图 3
8、:国内大模型发布数量.3 图 4:国产通用大模型与行业大模型分布.4 图 5:国内部分垂类大模型应用.4 图 6:国内通用与垂类大模型比例.4 图 7:华为盘古大模型层级分布.5 图 8:基于华为昇思 MindSpore 的医药垂类大模型-鹏程神农.8 图 9:Megatron 框架下大模型训练规模和算力利用率.9 图 10:美国 2023 年 10 月 18 日高端芯片出口禁令标准.10 图 11:寒武纪思元 370 芯片.16 图 12:2020-2025 年寒武纪营业收入及增长率.17 图 13:2020-2025 年寒武纪归母净利润及增长率.17 图 14:2020-2025 年寒武纪
9、 ROE(摊薄).17 图 15:2020-2025 年中贝通信营业收入及增长率.19 图 16:2020-2025 年中贝通信营业归母净利润及增长率.19 图 17:2020-2025 年中贝通信 ROE(摊薄).19 图 18:2020-2025 年中贝通信 PE.19 表目录表目录 表 1:部分国内外公开数据的通用大模型训练计算量和规模对比.6 表 2:2023 年国产通用大模型训练侧算力需求测算.7 表 3:2023 年国产通用大模型推理侧算力需求测算.7 表 4:2023 年国产垂类大模型算力需求测算.9 表 5:国内主流 AI 芯片性能参数对比.11 表 6:算力租赁行业成本回收周
10、期测算(以 H800 服务器为租赁产品).14 表 7:中贝通信算力租赁业务的成本回收期估算.18 请认真阅读文后免责条款 1 1 1 大模型浪潮推动作用下,算力需求缺口将持续大模型浪潮推动作用下,算力需求缺口将持续扩大扩大 1.11.1 大模型发展对算力需求的推动作用大模型发展对算力需求的推动作用 大模型的训练效果、成本和时间与算力资源有密切的关系。大模型发展浪潮有望进一步增加 AI 行业对智算算力的需求规模。1.1.11.1.1 国外大模型的发展国外大模型的发展 大模型数量加速增长,算力成为模型竞赛底座。大模型数量加速增长,算力成为模型竞赛底座。自2018 年以来,海外云厂商巨头接连发布
11、NLP 大模型。据赛迪顾问 2023 年 7 月发布的数据显示,海外大模型发布数量逐年上升,年发布数量在五年中由 2 个增长至48 个。且仅 2023 年 1-7 月就发布了 31 个大模型。自 2021 年起,海外大模型数量呈现加速增长的趋势,结合 2023 年 1-7 月的情况,该趋势有望延续。图图 1 1:20182018 年海外大模型发布数量年海外大模型发布数量 资料资料来源:赛迪顾问,华龙证券研究所来源:赛迪顾问,华龙证券研究所 2017-2023 年,从各公司发布的公开信息来看,大年,从各公司发布的公开信息来看,大模型在模型在7年的时间里实现参数量从千万到万亿级的指数年的时间里实现
12、参数量从千万到万亿级的指数型增长。型增长。2017 年,谷歌团队提出 Transformer 架构,奠定251438483101020304050602018年2019年2020年2021年2022年2023年1-7月大模型数量(个)行业行业研究报告研究报告 请认真阅读文后免责条款 2 了当前大模型领域主流的算法架构基础。2018 年 6 月,OpenAI 发布了 Transformer 模型GPT-1,训练参数量 1.2 亿。同年 10 月,谷歌发布了大规模预训练语言模型 BERT,参数量超过 3 亿。2019 年,OpenAI 推出 15 亿参数的 GPT-2。2019年 9 月,英伟达推
13、出了 83 亿参数的 Megatron-LM。同年,谷歌推出了 110 亿参数的 T5,微软推出了 170 亿参数的图灵 Turing-NLG。2020 年,OpenAI推出了大语言训练模型 GPT-3,参数达到 1750 亿。微软和英伟达在同年 10 月联合发布了 5300 亿参数的 Megatron-Turing 大模型。2021 年 1 月,谷歌推出 Switch Transformer 模型,参数量达到 1.6 万亿,大模型参数量首次突破万亿。2022 年,OpenAI 推出基于 GPT-3.5 大模型的ChatGPT,宣告了 GPT-3.5 版本的存在。2023 年,OpenAI 推
14、出 GPT-4,估计参数规模达到1.8 万亿。图图 2 2:20172017-20232023 年海外大模型参数量演进情况年海外大模型参数量演进情况 资料资料来源:来源:Attention Is All You Attention Is All You NeedNeed等论文,中国信通院,华龙证券研究所等论文,中国信通院,华龙证券研究所 GPU 数量与不同量级大模型所需的算力之间的线数量与不同量级大模型所需的算力之间的线性关系。性关系。根据 2021 年 8 月 Deepak Narayanan 等人发布的论文,随着模型参数增加,大模型训练需要的总浮点数与 GPU 数量呈现正相关的线性关系。1
15、75B 参数量级的大模型所需的 A100 级别芯片数量为 1024 片(Token数为 300B,训练 34 天情况下)。当参数增长到 1T 时,大模型训练所需的 A100 芯片数量为 3072 片(Token 数为 450B,训练 84 天情况下)。加大成本投入,海外大模型训练周期有望进一步缩加大成本投入,海外大模型训练周期有望进一步缩0.12 0.34 1.5 8.3 11 17 175 530 600 1,600 1,800 05001,0001,5002,000GPT-1BERTGPT-2Megatron-LMT5T-LNGGPT-3Megatron-TuringGshardSwitc
16、h-TransformerGPT-4模型参数量(十亿)行业行业研究报告研究报告 请认真阅读文后免责条款 3 短。短。从 2020 年 6 月 OpenAI 发布首个千亿参数量级大模型 GPT-3 到 2021 年 1 月谷歌推出首个万亿参数量级的Switch Transformer 模型,大模型实现参数量级从千亿到万亿的跨越只用了不到一年。随着海外大厂商加大对大模型训练的成本投入,预计大模型发布周期将进一步缩短。在商业逻辑上,大模型发布数量指数型增长,意味着市场竞争越来越激烈。厂商更愿意通过使用高性能的芯片缩短大模型训练时间,使大模型更早投入应用为公司带来业务增长。因此,芯片性能的提高并不会削
17、弱厂商对芯片数量的需求意愿。1.1.21.1.2 国内大模型的发展国内大模型的发展 数量增长情况与海外类似,短期内呈现密集发布的数量增长情况与海外类似,短期内呈现密集发布的特点。特点。自 2019 年至 2023 年 7 月底,国内累计发布 130个大模型,2023 年 1-7 月国内共有 64 个大模型发布,大模型发布数量呈现加速增长趋势。数量增长趋势与海外情况一致,我国大模型研发起步较晚,随着在大模型领域布局的厂商数量快速增加,大模型发布周期逐步缩短,预期未来两到三年内国产大模型数量将呈现爆发式增长局面。图图 3 3:国内大模型发布数量:国内大模型发布数量 资料资料来源:赛迪顾问,华龙证券
18、研究所来源:赛迪顾问,华龙证券研究所 巨头引领,千亿级参数规模大模型陆续落地。巨头引领,千亿级参数规模大模型陆续落地。2023年 3 月,百度发布文心一言 1.0;同年 4 月,阿里发布通义千问大模型、商汤科技发布日日新大模型体系;同年 5 月,科大讯飞发布星火大模型;同年 7 月,华为发布面向行业的盘古大模型 3.0,千亿级参数规模大模型密集发布。2023 年 10 月,随着百度发布万亿级参数大模型文心一言 4.0,国产大模型或将具备对标 GPT-4 性能的能力。按类型划分,大模型分为行业大模型和通用大模型。按类型划分,大模型分为行业大模型和通用大模型。1231326401020304050
19、60702019年2020年2021年2022年2023年1-7月大模型数量(个)行业行业研究报告研究报告 请认真阅读文后免责条款 4 据赛迪顾问于据赛迪顾问于 2023 年年 7 月统计的数据显示,我国通用月统计的数据显示,我国通用大模型和行业大模型占比分别为大模型和行业大模型占比分别为 40%和和 60%。行业大模型分布较多的领域为商业(14 个)、金融(13 个)、医疗(10 个)、工业(7 个)、教育(6 个)和科研(6个)。研究显示,通用大模型在行业领域及行业细分场景的表现一般。但行业模型可以在通用模型的基础上通过行业数据库进一步训练出来。图图 4 4:国产通用大模型与行业大模型分布
20、:国产通用大模型与行业大模型分布 资料资料来源:赛迪顾问,华龙证券研究所来源:赛迪顾问,华龙证券研究所 图图 5 5:国内部分垂类大模型应用:国内部分垂类大模型应用 图图 6 6:国内通用与垂类大模型比例:国内通用与垂类大模型比例 资料资料来源:中国日报,京报网,中国网科技,来源:中国日报,京报网,中国网科技,各公司官网,华龙证券研究所各公司官网,华龙证券研究所 资料资料来源:赛迪顾问,华龙证券研究所来源:赛迪顾问,华龙证券研究所 大模型应用向细分场景下沉大模型应用向细分场景下沉。华为发布的盘古大模型实际分为 L0(基础大模型)L1(行业大模型)L2(场景模型)三个层级。采取 5+N+X 模式
21、,即 5 个基础大模型、N 个行业大模型和 X 个细分场景应用模型。目前行业模型主要应用于矿山、政务、气象、汽车、医学、数字人和研发共七大领域,覆盖 14 个细分场景。这种这种211171613644611442211031405101520253035404550发布数量(个)60%40%通用大模型垂类大模型 行业行业研究报告研究报告 请认真阅读文后免责条款 5 通过基础大模型通过基础大模型+行业大模型实现大模型商业化落地的行业大模型实现大模型商业化落地的模式已经逐渐得到验证,未来行业大模型有望带动大模模式已经逐渐得到验证,未来行业大模型有望带动大模型本地化部署热潮,在解决行业长尾问题上将发
22、挥更大型本地化部署热潮,在解决行业长尾问题上将发挥更大优势并成为打通大模型“最后一公里”的桥梁。优势并成为打通大模型“最后一公里”的桥梁。图图 7 7:华为盘古大模型层级分布:华为盘古大模型层级分布 资料资料来源:华为官网,华龙证券研究所来源:华为官网,华龙证券研究所 1.21.2 国产大模型国产大模型 AIAI 算力需求测算算力需求测算 大模型算力需求测算方法:大模型算力需求测算方法:根据 2023 年 8 月腾讯公布的大模型算力评估通用方法,在大模型训练过程中,训练侧算力需求可量化表达为:训练所需浮点运算量(FLOPs)=6参数量Training Tokens 若训练中使用激活重计算技术,
23、则对应算力需求可量化表达为:训练所需浮点运算量(FLOPs)=8参数量Training Tokens 同时,在大模型推理过程中的算力需求可量化表达为:推理侧所需浮点运算量(FLOPs)=2参数量Prompt Tokens 由于激活重计算技术是可选的,因此假设在训练中没有选择使用激活重计算技术,按照以上计算方法可得:训 练 GPT-3 量 级 的大 模 型 算 力 需 求 估算 为3.15E+23 FLOPs;训练 GPT-4 量级的大模型算力估算为 2.15E+25 FLOPs,由于 GPT-4 采用了混合专家(MoE)模型,实际训练调用参数量按约 2770 亿计算。行业行业研究报告研究报告
24、请认真阅读文后免责条款 6 表表 1 1:部分国内外公开数据的通用大模型训练计算量和规模对比:部分国内外公开数据的通用大模型训练计算量和规模对比 名称名称 发布时间发布时间 发布方发布方 模型规模模型规模 (参数量)(参数量)估计训练数估计训练数据量据量(TOKENS)(TOKENS)估计训练计算量估计训练计算量(FLOPs)FLOPs)Baichuan2 2023 年 10 月 百川智能 7B、13B 2600B 1.092E+23、2.028E+23 Llama 2 2023 年 7 月 Meta 7B、13B、34B、70B 2000B 8.4E+22-8.4E+23 书生浦语 2023
25、 年 6 月 商汤等 104B 1600B 9.98E+23 GPT-4 2023 年 3 月 OpenAI 1800B 1300B 2.15E+25 GLM-130B 2022 年 10 月 清华大学、智谱 AI 130B 400B 3.12E+23 GPT-3 2020 年 6 月 OpenAI 175B 300B 3.15E+23 资料资料来源:来源:Llama 2:Open Foundation and Fine-Tuned Chat Models等论文,等论文,商汤科商汤科技技,中国信通院,中国信通院,华龙证券研究所,华龙证券研究所 1.2.11.2.1 通用大模型通用大模型 AIA
26、I 算力需求测算算力需求测算 训练侧:训练侧:2023 年 10 月,百度发布文心一言 4.0 大模型。据百度公开的信息,该大模型在综合水平上可以对标GPT-4。乐观预期下,2023 年内,国内头部互联网厂商中,百度能够训练出 GPT-4 量级的大模型。且假设阿里、腾讯、字节跳动、商汤、科大讯飞、浪潮、华为这 7 家厂商能够训练出 GPT-3 量级的大模型。参考 2023 年上半年国产大模型发布数量情况,预估到 2023 年年底,国内大模型发布数量可达约 200 个,年内新增约 134 个,其中通用大模型新增约 80 个。除头部大厂商外,其他厂商和科研机构发布的通用大模型数量估计为 72 个,
27、参数在百亿至千亿之间,保守估计平均参数量级为 500 亿。由此计算,由此计算,2023 年年内国产通用大模型训练侧算力年年内国产通用大模型训练侧算力需求为需求为 3.03E+25 FLOPs。行业行业研究报告研究报告 请认真阅读文后免责条款 7 表表 2 2:20232023 年国产通用大模型训练侧算力需求测算年国产通用大模型训练侧算力需求测算 大模型量级大模型量级 单模型所需单模型所需算力(算力(FLOPsFLOPs)数量(个)数量(个)各量级大模型总算力需求各量级大模型总算力需求(FLOPsFLOPs)其他量级 9E+22 72 6.48E+24 GPT-3 量级 3.15E+23 7 2
28、.2E+24 GPT-4 量级 2.16E+25 1 2.16E+25 训练侧总算力需求训练侧总算力需求(FLOPs)FLOPs)3.03E+25 资料资料来源:华龙证券研究所来源:华龙证券研究所 推理侧:推理侧:推理侧的算力需求需要在用户的访问峰值情境下计算。通常情况下,访问时间中,80%的访问量都集中在 20%的访问时间里。以 GPT-4 为基准,按日访问量 2 亿(次),每个用户占用 Tokens 数 80 计算,单模型推理算力需求为4.10E+17 FLOPs。以 GPT-3 为基准,按日访问量 1 亿(次),每个用户占用 Tokens 数 80 计算,单模型推理算力需求为1.30E+
29、17 FLOPs。以 500 亿参数大模型为基准,按日访问量 5000 万(次),每个用户占用 Tokens 数 80 计算,单模型推理算力需求为 1.85E+16 FLOPs。结合各参数基准下的大模型数量,结合各参数基准下的大模型数量,2023 年国产通用年国产通用大模型推理侧算力需求预估为大模型推理侧算力需求预估为 2.65E+18 FLOPs。表表 3 3:20232023 年国产通用大模型推理侧算力需求测算年国产通用大模型推理侧算力需求测算 大模型量级大模型量级 单模算力需单模算力需求(求(FLOPsFLOPs)数量(个)数量(个)各量级大模型算力需求各量级大模型算力需求(FLOPsF
30、LOPs)GPT-4 量级 4.10E+17 1 4.10E+17 GPT-3 量级 1.30E+17 7 9.07E+17 其他量级 1.85E+16 72 1.33E+18 推理侧总算力需求推理侧总算力需求(FLOPsFLOPs)2.65E+18 资料资料来源:华龙证券研究所来源:华龙证券研究所 由此,由此,2023 年国产通用大模型训练和推理侧的算力年国产通用大模型训练和推理侧的算力需求总和为需求总和为 3.03E+25 FLOPs。1.2.21.2.2 行业大模型行业大模型 AIAI 算力需求测算算力需求测算 行业行业研究报告研究报告 请认真阅读文后免责条款 8 我国垂类大模型主要分布
31、在遥感、生物制药、气象、轨道交通、代码生成/编辑、金融等领域。未来垂类大模型数量有望随着其在各行业细分场景的渗透上升而加速增长。华为已经在算力和软硬件方面,为多个国产垂类大模型的训练提供支持。在医疗方面,华为和医渡科技于 2023 年 9 月在华为全联接大会上联合发布医疗垂类领域大模型训推一体机。该一体机由昇腾 AI 提供算力支持,内置医渡科技研发的医疗垂类大模型,目标是帮助医院、机构等医疗场所实现大模型私有化。在遥感方面,2022 年 8 月,中科院推出了“空天灵眸”遥感预训练大模型。该大模型基于华为昇腾 AI 澎湃算力和MindSpore 训练而成,有望在中科星图的线下业务中,通过 AI
32、赋能公司的数字化产品。总结近年来国内大模型商业化落地的过程和效果总结近年来国内大模型商业化落地的过程和效果可以得出,商业化的一般路径为:厂商基于通用大模型可以得出,商业化的一般路径为:厂商基于通用大模型训练行业垂类大模型,再通过定制化服务为企业提供所训练行业垂类大模型,再通过定制化服务为企业提供所处行业的细分场景处行业的细分场景 AI 解决方案。解决方案。从垂类大模型数量上看,截至从垂类大模型数量上看,截至 2023 年上半年,垂年上半年,垂类大模型占国产大模型的类大模型占国产大模型的 40%,预计,预计 2023 年新增量为年新增量为54 个。个。图图 8 8:基于华为昇思基于华为昇思 Mi
33、ndSporeMindSpore 的医药垂类大模型的医药垂类大模型-鹏程神农鹏程神农 资料资料来源:来源:MindSpore 官网,华龙证券研究所官网,华龙证券研究所 垂类大模型训练侧算力需求测算:垂类大模型训练侧算力需求测算:2023 年国内发布的垂类大模型参数量在百亿-千亿量级范围内,按平均 500 亿参数和5,000 亿Tokens 估算,训练侧总算力需求为 8.1E+24 FLOPs。垂类大模型推理侧算力需求测算:垂类大模型推理侧算力需求测算:按日访问量 3000 万(次),每个用户占用 Tokens数 80 计算,2023 年国产垂类大模型推理侧算力需求为6E+17 FLOPs。行业
34、行业研究报告研究报告 请认真阅读文后免责条款 9 由此,由此,2023 年国内发布的垂类大模型训练侧和推理年国内发布的垂类大模型训练侧和推理侧总算力需求为侧总算力需求为 8.1E+24 FLOPs。表表 4 4:20232023 年国产垂类大模型算力需求测算年国产垂类大模型算力需求测算 训练侧算力需求(训练侧算力需求(FLOPsFLOPs)推理侧算力需求(推理侧算力需求(FLOPsFLOPs)单模算力需求 1.5E+23 单模算力需求 1.11E+16 数量 54 数量 54 训练总算力需求 8.1E+24 推理总算力需求 6E+17 垂类大模型总算力需求(垂类大模型总算力需求(FLOPsFL
35、OPs)8.1E+24 资料资料来源:华龙证券研究所来源:华龙证券研究所 综上,根据我们对国产通用大模型和垂类大模型的综上,根据我们对国产通用大模型和垂类大模型的算力需求测算,预计算力需求测算,预计 2023 年国产大模型总算力需求为年国产大模型总算力需求为3.84E+25 FLOPs。AI 芯片需求芯片需求大模型算力需求具象表现。大模型算力需求具象表现。据英伟达 2023 年 5 月的研究数据所示,训练 GPT-3 的 GPU数量随着模型规模的增长而增加,同时 GPU 的利用效率从 44%提升到了 52%,说明 GPU 的利用率存在较大的限制。因此在大模型算力需求细化到 GPU 数量需求上时
36、,需考虑 GPU 在模型训练时的实际每秒浮点吞吐量。按 44.8%的 GPU 利用率来计算(GPT-3 训练用 A100的实际利用率),A100 在 FP16 精度下的算力约为140TFLOPS。图图 9 9:MegatronMegatron 框架下大模型训练规模和算力利用率框架下大模型训练规模和算力利用率 资料资料来源:来源:NVIDIANVIDIA,华龙证券研究所,华龙证券研究所 随着模型参数量增加,GPU 实际利用率会相应有所提升,因此以大模型训练周期 60-90 天、GPU 效率 50%计算,2023 年国内大模型训练和推理一共约需要31,648-47,472 块 A100 级别芯片。
37、根据以上结论,结合芯片性能和深度学习时代的算根据以上结论,结合芯片性能和深度学习时代的算32641282565121024153619022520307244%44%46%43%44%45%47%50%52%52%0%10%20%30%40%50%60%05001000150020002500300035001.7B3.6B7.5B18.4B39.1B76.1B145.6B310.1B529.6B1008B模型参数量(B:十亿)GPU数量(个)实际每秒浮点吞吐量占理论峰值的百分比 行业行业研究报告研究报告 请认真阅读文后免责条款 10 力需求增速情况,力需求增速情况,2025 年大模型带来的算
38、力需求估算如年大模型带来的算力需求估算如下:下:芯片性能方面,按摩尔定律所述,芯片算力每 18个月性能会提升一倍。根据 OpenAI 的测算,在深度学习快速发展的 2012年之后,训练大模型的算力需求约每 3.4 个月翻一倍。近年来,从2020年6月GPT-3发布到2023年3月GPT-4发布,大模型计算量增长约 7 倍。未来大模型计算量增速可能受限于成本和硬件效率,因此估计未来两年,即到 2025 年,训练大模型所需的算力需求增速范围约为 5倍到 133 倍。对比摩尔定律中芯片算力的增速,训练训练大大模型带来的算力需求增长速度预估远大于算力性能的模型带来的算力需求增长速度预估远大于算力性能的
39、增长速度。增长速度。1.3 AI1.3 AI 算力供给方面:高端芯片进口受限,国产替代算力供给方面:高端芯片进口受限,国产替代为大势所趋为大势所趋 1.3.11.3.1 国际形势:美国进一步收紧芯片对华出口标准国际形势:美国进一步收紧芯片对华出口标准 2023 年 10 月 18 日,美国发布新禁令提出对高端芯片出口限制标准,从原来对单芯片算力(TTP)的关注向“性能密度阈值”(PD)转移,首次提出对小型高性能芯片的出口限制。意在防范 Chiplet 技术对芯片性能利用率的提升效果。图图 1010:美国美国 20232023 年年 1010 月月 1818 日高端芯片出口禁令标准日高端芯片出口
40、禁令标准 资料资料来源:来源:BISBIS 官网,华龙证券研究所官网,华龙证券研究所 行业行业研究报告研究报告 请认真阅读文后免责条款 11 1.3.2 AI1.3.2 AI 芯片国产化替代芯片国产化替代 智算规模计划稳步提升,以长足发展为目标。智算规模计划稳步提升,以长足发展为目标。根据10 月 8 日,工业和信息化部等六部门联合印发的算力基础设施高质量发展行动计划,我国算力发展的主要目标是:到 2023 年,智算规模达到 5.5 E+19 FLOPS。到 2025 年,算力规模超过 300 EFLOPS,智能算力占比达到 35%,将超过 1.05 E+20 FLOPS。按照计划指标,按照计
41、划指标,国内智算供给与实际需求差距较大。国内智算供给与实际需求差距较大。国产国产 AI 芯片短期看好华为,长期关注各厂商研发芯片短期看好华为,长期关注各厂商研发进度。进度。按本次美国禁售芯片的性能标准,市面上主流国产芯片中只有少数能够对标美国禁售的 A100/A800 等芯片。国产芯片替代化道路还处于起步阶段,距离在大国产芯片替代化道路还处于起步阶段,距离在大模型训练中大规模使用仍有一段距离。模型训练中大规模使用仍有一段距离。一方面,在芯片IP 设计之后,厂商需要根据芯片在大规模生态中应用的实际效果对算子做出调整,不断做出优化以使芯片达到实际应用级别。另一方面,在芯片量产的过程中还需考虑芯片代
42、工厂商的制造工艺、交货周期和定价等等。目前华为发布的昇腾910与英伟达A100/A800性能较为接近,且经过大模型自用和调整,已经具备了大规模商业化应用的条件。截至 2023 年 5 月,基于昇腾算力的华为昇腾 AI基础软硬件平台已孵化和适配了 30 多个主流大模型。随着更多国内厂商宣布进入芯片自研领域和发随着更多国内厂商宣布进入芯片自研领域和发布自研芯片,如百度、腾讯等,未来将持续看好国产芯布自研芯片,如百度、腾讯等,未来将持续看好国产芯片领域。片领域。表表 5 5:国内主流:国内主流 AIAI 芯片性能参数对比芯片性能参数对比 公司公司 产品型号产品型号 精度精度 算力算力 制程制程 生产
43、商生产商 理论对标英理论对标英伟达产品伟达产品 华为 昇腾 910-英伟达A100/A800 昇腾 310 FP16 8TOPS 12nm-壁仞 BR-100 FP16 1000TFLOPS 7nm 台积电 寒武纪 思元 590-英伟达A100/A800 思元 370 INT8 256TOPS 7nm-百度 昆仑芯 2 代 FP16 128TFLOPS 7nm-昆仑芯 3 代-4nm(计划)-阿里 含光 800 INT8 825TOPS 12nm 台积电 海光 深算二号-资料资料来源:来源:各公司官网各公司官网、财联社、中国财联社、中国网、华龙证券研究所网、华龙证券研究所 行业行业研究报告研究
44、报告 请认真阅读文后免责条款 12 1.3.3 AI1.3.3 AI 芯片产能:台积电产能复苏伴随订单激增,芯片产能:台积电产能复苏伴随订单激增,供不应求情况仍将持续供不应求情况仍将持续 短期内台积电的芯片制造工艺难有替代。短期内台积电的芯片制造工艺难有替代。目前台积电依靠 2.5D、3D 等适用于高端芯片的先进封装技术,在芯片制造行业仍然处于垄断地位。其他代工厂商,如三星、格芯等,所占市场份额较少。为提高良率、降低成本、提高芯片制造的精度,目前各芯片 IP 厂商在芯片量产环节广泛依赖台积电。台积电产能复苏,同时英伟达等大客户订单激增。台积电产能复苏,同时英伟达等大客户订单激增。2023 年
45、10 月,台积电的产能利用率释放回暖信号,目前 7/6nm 产线利用率从 40%恢复到 60%,到年底预估可以达到 70%。另外,5/4nm 产线利用率为 75-80%。预计台积电明年的 CoWoS(即 2.5D、3D 封装技术)月产能将同比增长 120%。与此同时,国外大厂商也在大量追加订单。在英伟达 10 月份确定扩大下单后,苹果、超威、博通、迈威尔等重量级客户近期也开始向台积电追单。加上国内四大厂商到 2024 年共计 50 亿美元的芯片订单,台积电大客户订单量全面激增。虽然在台积电在明年计划将 7nm以下芯片代工定价提高 3-6%,但英伟达、微软等大客户对定价接受度比较高,侧面表现出大
46、厂商对台积电代工的依赖程度比较大。因此短期内订单量仍有保持增速的趋势,且考虑到台积电出货周期拉长以及产能恢复周期的情况,短期内可能出现大量订单积压的现象。2 2 AIAI 算力租赁行业的内在价值算力租赁行业的内在价值 具有大模型训练需求的厂商,按算力付费方式,可分为自建算力的重资产模式和租赁算力的轻资产模式。2.1 AI2.1 AI 算力租赁对下游公司:带来成本和时间优势算力租赁对下游公司:带来成本和时间优势 对下游公司来说,在大模型训练方面,自建算力成本过高,且自建算力对设备的运维能力要求很高。这就意味着自建算力的公司除了支付购买硬件设备的高额成本之外还需要支付运维成本,组建运维团队以及付出
47、额外的时间成本。目前市场上购买硬件设备及安装调试的时间过长(1-2 年),过长的设备等待时间会导致大模型训练速度和数量落后于行业整体水平。另一方面,行业行业研究报告研究报告 请认真阅读文后免责条款 13 能够通过自建算力形成规模效应的大厂商较少,小型厂商既有算力需求又难以通过自建算力的方式形成规模效应。这类小型厂商的算力需求使拥有算力资源的公司从业务中分化出算力租赁这一新的业务模式。2.22.2 对具备算力资源的公司:算力租赁可为公司带来第对具备算力资源的公司:算力租赁可为公司带来第二业务增长线二业务增长线 2.2.1 AI2.2.1 AI 算力租赁成本回收周期测算算力租赁成本回收周期测算 算
48、力租赁业务模式近年来在国外头部云厂商中已算力租赁业务模式近年来在国外头部云厂商中已经得到验证。经得到验证。国内具备 AI 算力资源的公司可以分为三类。一类是传统云计算服务提供商,如三大运营商、阿里、腾讯等。一类是具备 IDC 建设运营能力的企业,如云赛智能、中科曙光(海光信息)、中贝通信等。以及跨界厂商,如恒润股份、莲花健康等。国内算力租赁目前的定价方式分为两种,一种按单台设备定价、一种按每 P 算力定价。国 内 市 场 上 用 于 算 力 租 赁 的 服 务 器 主 要 有A100/A800/H800 等型号。本报告中以英伟达 H800 服务器(8 卡)为例测算短期算力租赁成本回收周期。按恒
49、润股份披露的采购公告,英伟达 H800 服务器的采购价格为228万元每台。每台服务器搭载8块GPU,算力约为 16P。按鸿博股份 2023 年披露数据显示,该公司 H 系列服务器刊例价格为 29.9 万/月/台,与其他同行业同类型服务的租金基本持平,或价差浮动不超过 5%。参考阿里云年租定价折扣(年租约 5 折),同时考虑到租金浮动因素,因此市场面上的租赁均价按因此市场面上的租赁均价按 12 万元万元/P/年计算。年计算。国内厂商平均算力租赁成本回收周期按以下公式计算(以 H800 为主要租赁服务器):年租赁收入(万元)=服务器算力(P)年租金(万元/P)年费用支出(万元)=人工/管理/销售费
50、用(万元)+修理费用(万元)+机柜租赁费用(万元)+宽带费用(万元)总设备投入成本(万元)=服务器购买合同价格(万元)行业行业研究报告研究报告 请认真阅读文后免责条款 14 算力租赁成本回收周期算力租赁成本回收周期(月月)=总设备投入成本(万元)总设备投入成本(万元)年租赁收入年租赁收入(万元万元)年费用支出年费用支出(万元万元)假设厂商出租 H800 服务器的算力租赁利用率为100%,未来市场上租金价格较为稳定且 H800 服务器的折旧年限为 5 年(无残值)。则当前以则当前以 H800 服务器作为租赁产品的厂商成本回服务器作为租赁产品的厂商成本回收周期约为收周期约为 17 个月。个月。实际
©2010-2024 宁波自信网络信息技术有限公司 版权所有
客服电话:4008-655-100 投诉/维权电话:4009-655-100