ChatGPT对GPU算力的需求测算与相关分析.pdf

资源描述

1、2023年年2月月16日日半导体行业专题半导体行业专题ChatGPT对对GPU算力的需求测算与相关分析算力的需求测算与相关分析中信证券研究部中信证券研究部雷俊成雷俊成/王子源王子源/徐涛徐涛/杨泽原杨泽原1 1核心观点：单个大模型可带来核心观点：单个大模型可带来2万万GPU销售量，搜索引擎带来成倍空间销售量，搜索引擎带来成倍空间核心观点：核心观点：1.1.短期内短期内GPUGPU增量与市场规模：增量与市场规模：参考OpenAI算法，假设每日1亿用户，每人进行10条交互，每个问题的回答长度为50词，算力利用率30%，则单个大语言模型（LLM）的日常需求有望带来2.13万片A100的增量，对应市

2、场规模2.13亿美元。假设有假设有5 5家大企业推出此类家大企业推出此类LLMLLM，则总，则总增量为增量为10.710.7片片A100A100，对应市场规模，对应市场规模10.710.7亿美元。亿美元。2.2.短期服务器增量与市场规模：短期服务器增量与市场规模：单个服务器包含8个GPU，因此单个LLM带来2669台服务器需求，对应市场规模3.39亿美元，5 5家大企业共需要家大企业共需要1334513345台，对应市场规模台，对应市场规模2020亿美元。亿美元。3.3.长期市场空间：长期市场空间：参考谷歌，若每日搜访问30亿次，需要需要106.74106.74万张万张A100A100，对应，

3、对应13.313.3万台服万台服务器务器DGX A100DGX A100，带来市场空间，带来市场空间200200亿美元。亿美元。资料来源：Raconteur，OpenAI：Language Models are Few-Shot Learners，NVIDIA官网，Amazon，中信证券研究部市场规模相关参数市场规模相关参数/假设假设A100单卡算力：19.5TFLOPS/s日常算力利用率：30%（依据经验）GPU单价：1万美元（A100）服务器单价：15万美元（DGX Station A100）做LLM模型的企业数量：5（BAT、华为、字节）每台服务器搭载GPU数量：81亿用户所需GPU数量

4、：21348（A100）近期单日交互+训练总算力1.08E+10TFLOPSA100单卡算力19.5T/s算力利用率30%关键中间变量：关键中间变量：GPU与服务器增量与服务器增量一个LLM模型所需GPU数量：21348（A100）1亿用户所需服务器数量：2669（DGX A100）每台服务器搭载GPU数量：85家企业对应10.7万片A100、1.33万台服务器短期国内短期国内GPU/服务器增量市场规模服务器增量市场规模一个LLM模型所需GPU数量：21348（A100）GPU单价：1万美元（A100）1亿用户带来国内GPU总市场规模：2.13亿美元一个LLM所需服务器数量：2669服务器单价

5、：15万美元（A100）1亿用户带来国内服务器市场规模：3.39亿美元远期远期GPU增量空间增量空间谷歌+LLM所需GPU数量：1067415（A100）远期总算力需求：5.4 E+11 TFLOPSA100单卡算力：19.5TFLOPS/s算力利用率：30%5家企业对应10.7亿美元GPU、20亿美元服务器谷歌+LLM所需服务器数量：133427（GPU/8）注：远期由于更高算力的注：远期由于更高算力的GPUGPU出现或更高效的计算出现或更高效的计算方式，对应市场空间可能变化。方式，对应市场空间可能变化。2 2核心观点核心观点技术差距：技术差距：GPGPU的核心壁垒是高精度浮点计算及的核心壁

6、垒是高精度浮点计算及CUDA生态生态。从高精度浮点计算能力来看从高精度浮点计算能力来看，国内国内GPU产品与国外产品的计算性能仍或有一代以上差距；在软件和生产品与国外产品的计算性能仍或有一代以上差距；在软件和生态层面与英伟达态层面与英伟达CUDA生态的差距则更为明显生态的差距则更为明显。AI计算GPU领域，国内壁仞科技发布的BR100产品在FP32单精度计算性能上实现超越NVIDIA A100芯片，但是不支持FP64双精度计算；天数智芯推出的天垓100的FP32单精度计算性能实现超越A100芯片，但是在INT8整数计算性能方面却低于A100；海光推出的DCU实现了FP64双精度浮点计算，但是其

7、性能为A100的60%左右，大概相当于其4年前水平。因此，从高精度浮点计算能力来看，国内GPU产品与国外产品的计算性能仍或有一代以上差距。但是，GPU不仅在硬件上需要提升算力，软件层面对于GPU的应用和生态布局尤其重要，英伟达凭借CUDA构建生态壁垒占领全球GPU市场90%的份额。目前国内企业多采用开源的OpenCL进行自主生态建设，但这需要大量的时间进行布局；我们对比AMD从2013年开始建设GPU生态，近10年时间后用于通用计算的ROCm开放式软件平台才逐步有影响力，且还是在兼容CUDA的基础上。因此我们认为国内厂商在软件和生态层面与英伟达CUDA生态的差距较计算性能更为明显。虽然目前国内

8、产品的计算性能和软件生态实力与国际厂商还有差距，但是，国内厂商依然在奋起直追，努力实现GPGPU的国产化突破。我们认为长久来看我们认为长久来看，美国对中国高端美国对中国高端GPU的禁售令反而给国产的禁售令反而给国产GPGPU和和AI芯片厂商带来快速发展的机会芯片厂商带来快速发展的机会。短期来看，我们认为对高端通用计算GPU的禁令可能会影响英伟达和AMD的GPU产品在中国的销售，中国AI计算、超级计算和云计算产业进步受到一定的阻碍。可使用英伟达和AMD还没有被禁止的及国产厂商的中高计算性能CPU、GPU、ASIC芯片等替代。长期来看，国产CPU、GPU、AI芯片厂商受益于庞大的国内市场，叠加国内

9、信创市场带来国产化需求增量，我们预期国内AI芯片的国产化比例将显著提升，借此机会进行产品升级，逐渐达到国际先进水平，突破封锁。对于国内厂商对于国内厂商，建议重点关注实现自主创新建议重点关注实现自主创新，打造自主生态体系打造自主生态体系，打磨产品实现稳定供货的公司打磨产品实现稳定供货的公司。重点关注能够实现GPU领域的自主创新，实现架构、计算核、指令集及基础软件栈的全自研的设计公司。同时，不止成功点亮，要能满足测试、客户适配、稳定供货等一系列要求，成功量产并实现规模应用，实现GPGPU的国产替代。建议关注：建议关注：国内企业：1）芯片：龙芯中科（国内PC CPU龙头，自主研发GPGPU产品）、海

10、光信息（国内服务器CPU龙头，推出深度计算处理器DCU）、景嘉微（国内图形渲染GPU龙头）、寒武纪（国内ASIC芯片龙头）、澜起科技（国内服务器内存接口芯片龙头）；2）PCB：胜宏科技、兴森科技、沪电股份；3）先进封装：通富微电、甬矽电子、长电科技、长川科技等。海外企业：英伟达（全球GPU龙头）、AMD（全球CPU/GPU领先厂商）、英特尔（全球CPU龙头）、美光（全球存储芯片龙头）。风险因素：用户拓展不及预期风险风险因素：用户拓展不及预期风险，AI技术及新产品开发发展不及预期风险技术及新产品开发发展不及预期风险，外部制裁加剧风险外部制裁加剧风险，宏观经济需求下行风险宏观经济需求下行风险。3

11、3ChatGPT相关上市公司及近期涨跌幅（截至相关上市公司及近期涨跌幅（截至20232023年年2 2月月1414日）日）相关上市公司相关上市公司分类公司名代码市值（亿元人民币）ChatGPT 2022年11月30日上线至今涨跌幅2023年初至今涨跌幅CPU龙芯中科688047.SH488.7849%43%海光信息688041.SH1,235.8528%33%中科曙光603019.SH425.8824%31%英特尔INTC.O8,049.41-4%9%AMDAMD.O9,134.637%28%GPU景嘉微300474.SZ381.5145%54%英伟达NVDA.O36,527.9029%49%

12、AI芯片寒武纪-U688256.SH342.6235%57%澜起科技688008.SH713.46-7%0%MobileyeMBLY.O2,343.4450%22%FPGA紫光国微002049.SZ1,032.70-8%-8%复旦微电688385.SH443.24-9%-1%安路科技-U688107.SH283.4313%10%DPU左江科技300799.SZ136.254%2%IP芯原股份-U688521.SH308.6630%41%AI SoC瑞芯微603893.SH368.6214%28%晶晨股份688099.SH348.4112%20%富瀚微300613.SZ152.0618%32%P

13、CB兴森科技002436.SZ205.111%25%胜宏科技300476.SZ155.6328%39%生益电子688183.SH94.0011%21%沪电股份002463.SZ294.9323%31%先进封装长电科技600584.SH513.5815%25%通富微电002156.SZ334.5828%34%甬矽电子688362.SH112.76-1%27%华峰测控688200.SH276.3223%10%长川科技300604.SZ289.65-17%8%存储美光MU.O4,470.815%20%资料来源：Wind，中信证券研究部目录目录CONTENTS41.ChatGPT是什么是什么OpenA

14、I开发的聊天机器人，拥有创造能力开发的聊天机器人，拥有创造能力2.GPGPU是什么是什么3.GPGPU的壁垒是什么的壁垒是什么4.GPGPU主要应用场景主要应用场景5.国内国内GPGPU发展水平发展水平5 5不同于分析式不同于分析式AI只能做些分析型或机械式的认知计算只能做些分析型或机械式的认知计算，生成式生成式AI可以创造有意义并具备美感的东西可以创造有意义并具备美感的东西，而且在某些情况下而且在某些情况下，其生成的结果可能其生成的结果可能比人类手工创造的还要好比人类手工创造的还要好。机器可以分析数据，并针对不同用例需求找到相应的规律，且在不断迭代，变得越来越聪明，这种机器被称为“分析式人工

15、智能”（Analytical AI），或者传统AI。机器并非如之前那样仅分析已有的数据，而是创造了全新的东西，这一新型的AI被称为“生成式人工智能”（Generative AI）。2017年谷歌推出一种用于自然语言理解的新型神经网络架构年谷歌推出一种用于自然语言理解的新型神经网络架构Transformers模型模型，不但能生成质量上乘的语言模型不但能生成质量上乘的语言模型，同时具有更高的可同时具有更高的可并行性并行性，大大降低了所需的训练时间大大降低了所需的训练时间。这些小样本学习模型这些小样本学习模型，可以更容易地针对特定领域做定制修改可以更容易地针对特定领域做定制修改。2015-2020年

16、，用于训练这些模型的计算量增加了6个数量级，其表现在手写、语音和图像识别、阅读理解和语言理解方面超过了人类的基准水平。资料来源：机器学习三个时代的计算趋势Sevilla等人，arXiv，2022，生成式AI：充满创造力的新世界红杉汇内参微信公众号资料来源：生成式AI：充满创造力的新世界红杉汇内参微信公众号随着随着AI模型逐渐发展壮大，已经开始超越人类的基准水平模型逐渐发展壮大，已经开始超越人类的基准水平生成式生成式AI的应用格局的应用格局1.1 生成式生成式AI：实现创造，部分领域的能力超越人类的基准水平：实现创造，部分领域的能力超越人类的基准水平6 6预训练模型使得模型的训练可以被复用预训练

17、模型使得模型的训练可以被复用，大幅降低训练成本大幅降低训练成本，但是前期需要大量的数据进行预训练但是前期需要大量的数据进行预训练。预训练模型是一种迁移学习的应用，对句子每一个成员的上下文进行相关的表示，通过隐式的方式完成了语法语义知识的学习。预训练模型通过微调的方式具备很强的扩展性，每次扩展到新场景时，只需要针对这个场景的特定标注数据进行定向的学习，便可以快速应用。2018年以来年以来，国内外超大规模预训练模型参数指标不断创出新高国内外超大规模预训练模型参数指标不断创出新高，“大模型大模型”已成为行业巨头发力的一个方向已成为行业巨头发力的一个方向。谷歌谷歌、百度百度、微软等国内外科技巨头纷纷投

18、入大量人微软等国内外科技巨头纷纷投入大量人力力、财力财力，相继推出各自的巨量模型相继推出各自的巨量模型。国外厂商自国外厂商自2021年开始进入年开始进入“军备竞赛军备竞赛”阶段阶段。2018年，谷歌提出3亿参数BERT模型，大规模预训练模型开始逐渐走进人们的视野，成为人工智能领域的一大焦点。2019年，OpenAI推出15亿参数的GPT-2，能够生成连贯的文本段落，做到初步的阅读理解、机器翻译等。紧接着，英伟达推出83亿参数的Megatron-LM，谷歌推出110亿参数的T5，微软推出170亿参数的图灵Turing-NLG。2020年，OpenAI以1750亿参数的GPT-3，直接将参数规模提

19、高到千亿级别。2021 年 1 月，谷歌推出的Switch Transformer模型以高达1.6 万亿的参数量打破了GPT-3作为最大AI模型的统治地位，成为史上首个万亿级语言模型。2020年10月，微软和英伟达联手发布了5300亿参数的Megatron-Turing自然语言生成模型（MT-NLG）。2021年12月，谷歌还提出了1.2万亿参数的通用稀疏语言模型GLaM，在7项小样本学习领域的性能超过GPT-3。资料来源：Xavier Amatriain，陈巍谈芯知乎资料来源：Large Language Models:A New Moores Law?Julien SimonHugging

20、 Face2018年以来年以来LLM算法（大规模语言算法）成长的时间线算法（大规模语言算法）成长的时间线近年来超大规模预训练模型参数增长趋势近年来超大规模预训练模型参数增长趋势1.2 预训练模型：大模型提高准确率，预训练模型：大模型提高准确率，2018年开始步入快车道年开始步入快车道7 7ChatGPT（Chat Generative Pre-trained Transformer，聊天生成式预训练器聊天生成式预训练器）是是OpenAI开发的聊天机器人开发的聊天机器人，于于2022年年11月推出月推出。它建立在它建立在OpenAI开发的开发的GPT-3大型语言模型之上大型语言模型之上，并使用监

21、督学习和强化学习并使用监督学习和强化学习（人类监督人类监督）技术进行了微调技术进行了微调。虽然聊天机器人的核心功能是模仿人类谈话者，但ChatGPT是多功能的。例如，它可以编写和调试计算机程序，创作音乐、电视剧、童话故事和学生论文；回答测试问题(有时根据测试的不同，答题水平要高于平均水平)；写诗和歌词；模拟Linux系统；模拟整个聊天室等。ChatGPT背后的公司为背后的公司为OpenAI，成立于成立于2015年年，由特斯拉由特斯拉CEO埃隆埃隆马斯克马斯克、PayPal联合创始人彼得联合创始人彼得蒂尔蒂尔、Linkedin创始人里德创始人里德霍夫曼霍夫曼、创创业孵化器业孵化器Y Com

22、binator总裁阿尔特曼总裁阿尔特曼（Sam Altman）等人出资等人出资10亿美元创立亿美元创立。OpenAI的诞生旨在开发通用人工智能的诞生旨在开发通用人工智能（AGI）并造福人类并造福人类。ChatGPT中的中的GPT（Generative Pre-trained Transformer），是是OpenAI推出的深度学习模型推出的深度学习模型。ChatGPT就是基于就是基于GPT-3.5版本的聊天机器人版本的聊天机器人。截至2022年12月4日，OpenAI估计ChatGPT用户已经超过100万；2023年1月，ChatGPT用户超过1亿，成为迄今增长最快的消费应用程序。2023年2

23、月，OpenAI开始接受美国客户注册一项名为ChatGPT Plus的高级服务，每月收费20美元；此外，OpenAI正计划推出一个每月42美元的ChatGPT专业计划，当需求较低时可以免费使用。资料来源：The GPT-3 language model,revolution or evolution?Hello Future资料来源：6个问题，用专业视角带你全方位了解ChatGPT甲子光年微信公众号GPT系列模型的数据集训练规模系列模型的数据集训练规模ChatGPT与与GPT 1-3的技术对比的技术对比1.3 ChatGPT：基于：基于OpenAI推出的深度学习模型推出的深度学习模型GPT打造

24、，成为迄今打造，成为迄今增长最快的消费应用程序增长最快的消费应用程序8 8OpenAI预计人工智能科学研究要想取得突破预计人工智能科学研究要想取得突破，所需要消耗的计算资源每所需要消耗的计算资源每34个月就要翻一倍个月就要翻一倍，资金也需要通过指数级增长获得匹配资金也需要通过指数级增长获得匹配。在算力方面，GPT-3.5在微软Azure AI超算基础设施（由V100GPU组成的高带宽集群）上进行训练，总算力消耗约 3640PF-days（即每秒一千万亿次计算，运行3640天）。在大数据方面，GPT-2用于训练的数据取自于Reddit上高赞的文章，数据集共有约800万篇文章，累计体积约40G；G

25、PT-3模型的神经网络是在超过45TB的文本上进行训练的，数据相当于整个维基百科英文版的160倍。按照量子位给出的数据按照量子位给出的数据，将一个大型语言模型将一个大型语言模型（LLM）训练到训练到GPT-3级的成本高达级的成本高达460万美元万美元。最新的GPT3.5在训练中使用了微软专门建设的AI计算系统，由1万个英伟达V100 GPU组成的高性能网络集群，总算力消耗约3640PF-days（PD），即假如每秒计算一千万亿（1020）次，需要计算3640天。采购一片英伟达顶级GPU成本为8万元，GPU服务器成本通常超过40万元。对于ChatGPT而言，支撑其算力基础设施至少需要上万颗英伟达

26、GPUA100，一次模型训练成本超过1200万美元。资料来源：做AI做的事儿微信公众号，6个问题，用专业视角带你全方位了解ChatGPT甲子光年微信公众号资料来源：AI算力的阿喀琉斯之踵：内存墙Amir GholamiOneFlow社区注：蓝线上的是 CV，NLP和语音模型，模型运算量平均每两年翻 15 倍，红线上的是 Transformer 的模型，模型运算量平均每两年翻 750 倍。而灰线则标志摩尔定律下内存硬件大小的增长，平均每两年翻 2 倍。预训练模型参数及所需要的算力情况预训练模型参数及所需要的算力情况目前目前 SOTA 模型训练的浮点数运算量（以模型训练的浮点数运算量（以 FLO

27、Ps为衡量单位）为衡量单位）1.4 算力需求：计算资源每算力需求：计算资源每34个月翻一倍，投入资金指数级增长个月翻一倍，投入资金指数级增长9 9根据根据财富财富杂志报道的数据杂志报道的数据，2022年年OpenAI的收入为的收入为3000万美元万美元，但净亏损预计为但净亏损预计为5.445亿美元亿美元。公司预测其公司预测其2023年收入年收入2亿美元亿美元，2024年收入预计超过年收入预计超过10亿美元亿美元。投入上：公司CEO阿尔特曼在推特上回答马斯克的问题时表示，在用户与ChatGPT的每次交互中，OpenAI花费的计算成本为“个位数美分”，随着ChatGPT变得流行，每月的计算成本可能

28、达到数百万美元。创造价值上：ARK认为，AI工具的发展将不断提高生产力，到2030年，人工智能或将知识工作者的生产力提高4倍以上，将软件工程师的效率提高10倍以上，创造约200万亿美元的价值。大模型高昂的训练成本让普通创业公司难以为继大模型高昂的训练成本让普通创业公司难以为继，因此参与者基本都是科技巨头因此参与者基本都是科技巨头。在国内科技公司中，阿里巴巴达摩院在2020年推出了M6大模型，百度在2021年推出了文心大模型，腾讯在2022年推出了混元AI大模型。这些模型不仅在参数量上达到了千亿级别，而且数据集规模也高达TB级别，想要完成这些大模型的训练，就至少需要投入超过1000PetaFlo

29、p/s-day的计算资源。资料来源：Xavier Amatriain，陈巍谈芯知乎资料来源：6个问题，用专业视角带你全方位了解ChatGPT甲子光年微信公众号注：1、清华大学和阿里达摩院等合作提出；2、上海人工智能实验室联合商汤科技、香港中文大学、上海交通大学发布；3、Pflops-day 为算力单位，意为一天可以进行约 1020运算。大模型计算布局呈爆发增长态势大模型计算布局呈爆发增长态势目前全球大模型计算布局情况目前全球大模型计算布局情况1.5 产业竞争：训练成本逐渐降低，国内外科技巨头加速布局产业竞争：训练成本逐渐降低，国内外科技巨头加速布局10101.6 ChatGPT带来的算力带来

30、的算力/GPU需求需求测算原理、预训练需求分析测算原理、预训练需求分析模型模型训练总计算训练总计算量（量（PFPF日）日）训练总计算训练总计算量量(flops)(flops)模型参数量模型参数量(百万百万)训练词数训练词数(十亿十亿)单个词语消耗单个词语消耗的总计算次数的总计算次数计算反向传播后计算反向传播后的算力消耗倍数的算力消耗倍数正向计算时每个词正向计算时每个词消耗浮点计算次数消耗浮点计算次数BERTBERT-BaseBase1.89 1.64E+20109250632BERTBERT-LargeLarge6.16 5.33E+20355250632RoBERTaRoBERTa-Base

31、Base17.36 1.50E+211252,000632RoBERTaRoBERTa-LargeLarge49.31 4.26E+213552,000632GPTGPT-3 Small3 Small2.60 2.25E+20125300632GPTGPT-3 Medium3 Medium7.42 6.41E+20356300632GPTGPT-3 Large3 Large15.83 1.37E+21760300632GPTGPT-3 XL3 XL27.50 2.38E+211,320300632GPTGPT-3 2.7B3 2.7B55.21 4.77E+212,650300632GPTGP

32、T-3 6.7B3 6.7B138.75 1.20E+226,660300632GPTGPT-3 13B3 13B267.71 2.31E+2212,850300632GPTGPT-3 175B3 175B3637.50 3.14E+23174,600300632算力消耗测算原理算力消耗测算原理资料来源：OpenAI：Language Models are Few-Shot Learners：附录D，中信证券研究部，注：为简单起见，本测算方法忽略了Attention计算的算力消耗，该部分占总算力消耗的10%以下核心原理：核心原理：每个训练词都会导致模型所有参数的更新，且每个训练词都需要消耗固定

33、的浮点算力。因此：总算力需求=模型参数量*训练词数*每个词的运算量测算过程：测算过程：表格从右向左计算1.最基础的“原子”运算：1个词更新1个参数，需要计算1次乘法和1次加法，共2次浮点运算。2.如果是训练，则需要反向传播算法，反向传播需要的运算次数是正向传播2倍，故训练时每个词的运算量是推理情况的3倍，需要消耗6次浮点运算。（2次运算*算力消耗倍数3）3.按照核心公式求解，GPT-3的总算力消耗为1.746E+11*3E+11*6=3.14E+23 FLOPS4.进行单位换算，3.14E+23 FLOPS=3640 PF日预训练算力消耗及预训练算力消耗及GPU需求测算需求测算假设1：Cha

34、tGPT使用的数据集与GPT-3 175B模型相同假设2：ChatGPT使用FP32数据格式完成训练GPU数量总计算量GPU算力计算用时总计算量GPU数量GPU算力计算用时3.14E+23 FLOPS19.5 TFLOPS/s(A100 FP32)1天/1个月/2个月/3个月186538/7723/3861/2574测算数据来源：测算数据来源：1.总计算量来自上表OpenAI论文2.GPU算力来自NVIDIA官网3.计算用时取决于语言模型开发者试图在多长时间内完成训练左侧求得左侧求得GPUGPU数量与右侧数量与右侧计算用时一一对应，例计算用时一一对应，例如一个月完成训练需要如一个月完成训练需

35、要77237723张张A100 GPUA100 GPU资料来源：OpenAI：Language Models are Few-Shot Learners，NVIDIA官网，中信证券研究部3000亿训练词如何构成亿训练词如何构成数据集数据集词数（十亿）词数（十亿）训练轮数训练轮数权重占比权重占比网页爬虫网页爬虫4100.4460%WebText2WebText2192.922%Books1Books1121.98%Books2Books2550.438%维基百科维基百科33.43%不同数据集的数据质量和重要度不一致，因此重要度和质量更高的数据集会进行更多轮次的训练，从而提升其权重占比。将每个数据

36、集的词数乘以训练轮数，加在一起即得到3000亿词的训练数据。11111.7 ChatGPT带来的算力需求带来的算力需求日常交互、日常训练需求分析日常交互、日常训练需求分析阶段阶段1：ChatGPT+bing日常算力需求日常算力需求参数量总计算量词数单个词语计算次数1.75B300亿2（推理）1.05E+10T参数量交互计算量词数单个词计算量参数量总计算量词数单个词语计算次数1.75B9.06亿6（训练）3.14E+8T参数量训练计算量词数单个词计算量参数量总计算量词数单个词语计算次数1.75B15000亿2（推理）5.24E+11T参数量交互计算量词数单个词计算量参数量总计算量词数单个词语计算

37、次数1.75B150亿6（训练）1.57E+10T参数量训练计算量词数单个词计算量阶段阶段2：LLM+Google日常算力需求日常算力需求核心假设核心假设2 2-算力需求分配：算力需求分配：训练采用的数据占当日新训练采用的数据占当日新生成数据的生成数据的1%1%。假设依据：根据OpenAI论文Language Models are Few-Shot Learners，GPT-3采用的数据集清洗前大小45TB，清洗后大小570GB，清洗前后存在2个数量级的差距，因此可以认为每天新生成的数据有1%用于训练。阶段阶段1 1假设：假设：每日用户访问量每日用户访问量1 1亿亿（根据SimilarWeb

38、统计，2023年1月ChatGPT注册用户1亿，单月访问量6.16亿，月底日访问2800万次；bing日访问约4000万次，二者结合后短期有望迅速增长）核心假设核心假设1 1-算力需求影响算力需求影响因素：因素：模型参数量（175B）和单个词计算量（训练6次，推理2次）不变，算算力需求变化主要取决于词力需求变化主要取决于词数变化。数变化。词数=用户访问词数*每次访问的提问数量（默认10）*每个回答包含的词数（默认50），词数词数与用户访问数成正比与用户访问数成正比。阶段阶段2 2假设：假设：Bing有望逐渐占据更多市场份额，市场空间参考谷歌，根据SimilarWeb，谷歌月访问量约900亿次，

39、每日用户访问每日用户访问3030亿次亿次。测算核心假设测算核心假设资料来源：SimilarWeb，OpenAI：Language Models are Few-Shot Learners，中信证券研究部0.15272666160100200300400500600700Nov-22Dec-22Jan-23ChatGPT月度访问量（百万次）月度访问量（百万次）Google/Bing/百度月度访问量（亿次）百度月度访问量（亿次）资料来源：SimilarWeb，中信证券研究部资料来源：SimilarWeb，中信证券研究部8518648831212115049490100200300400500600

40、7008009001000Nov-22Dec-22Jan-23GoogleBing百度目录目录CONTENTS121.ChatGPT是什么是什么2.GPGPU是什么是什么通用计算通用计算GPU，算力强大，应用于加速计算场景，算力强大，应用于加速计算场景3.GPGPU的壁垒是什么的壁垒是什么4.GPGPU主要应用场景主要应用场景5.国内国内GPGPU水平水平1313GPU（Graphics Processing Unit，图形处理器图形处理器）：是一种专门在个人电脑：是一种专门在个人电脑、工作站工作站、游戏机和一些移动设备游戏机和一些移动设备(如平板电脑如平板电脑、智能手机等智能手机等)上做图上

41、做图像加速和通用计算工作的微处理器像加速和通用计算工作的微处理器。GPU是英伟达公司在1999年8月发表NVIDIA GeForce 256（GeForce 256）绘图处理芯片时首先提出的概念。GPU应用场景应用场景图形加速图形加速：此时GPU 内部的顶点渲染、像素渲染以及几何渲染操作都可以通过流处理器完成。通用计算通用计算：计算通常采用CPU+GPU异构模式，由CPU负责执行复杂逻辑处理和事务处理等不适合数据并行的计算，由GPU负责计算密集型的大规模数据并行计算。GPU 与与 CPU 对比对比CPU 的逻辑运算单元较少，控制器（Control）和缓存（Cache）占比较大；GPU 的逻辑运

42、算单元小而多，控制器功能简单，缓存也较少。GPU 单个运算单元（ALU）处理能力弱于 CPU，但是数量众多的ALU可以同时工作，当面对高强度并行计算时，其性能要优于 CPU。GPU可以利用多个ALU来做并行计算，而CPU只能按照顺序进行串行计算，同样运行3000次的简单运算，CPU需要3000个时钟周期，而配有3000个ALU的GPU运行只需要1个时钟周期。资料来源：中信证券研究部资料来源：CUDA 编程手册系列第一章：CUDA 简介英伟达技术博客GPU的主要分类的主要分类CPU 与与 GPU 的芯片资源分布示例的芯片资源分布示例2.1 GPU是什么？是什么？类型类型应用场景应用场景特点特点代

43、表产品代表产品独立GPU封装在独立的电路板，专用的显存（显示储存器）性能高，功耗大NVIDIA Geforce系列AMD Radeon系列集成GPU内嵌到主板上，共享系统内存性能中等，功耗中等Intel HD系列AMD APU系列苹果M芯片GPU移动端GPU嵌在 SoC（System On Chip）中，共享系统内存性能低，功耗低Imagination PowerVR系列高通 Adreon系列AMD Mali系列苹果A芯片GPU1414GPGPU（general-purpose GPU，通用计算图形处理器通用计算图形处理器），利用图形处理器进行非图形渲染的高性能计算利用图形处理器进行非图形渲染

44、的高性能计算。为了进一步专注通用计算为了进一步专注通用计算，GPGPU去掉或减弱去掉或减弱GPU的图形显示部分能力的图形显示部分能力，将其余部分全部投入通用计算将其余部分全部投入通用计算，实现处理人工智能实现处理人工智能、专业计算等加速应用专业计算等加速应用。2007年年6月月，NVIDIA推出了推出了CUDA（Computer Unified Device Architecture计算统一设备结构计算统一设备结构）。CUDA是一种将是一种将GPU作为数据并行计算设备的软硬件体系作为数据并行计算设备的软硬件体系。在CUDA 的架构中，不再像过去GPU架构那样将通用计算映射到图形API中，对于开

45、发者来说，CUDA 的开发门槛大大降低了。CUDA 的编程语言基于标准C，因此任何有C 语言基础的用户都很容易地开发CUDA 的应用程序。由于这些特性，CUDA在推出后迅速发展，被广泛应用于石油勘测、天文计算、流体力学模拟、分子动力学仿真、生物计算、图像处理、音视频编解码等领域。GPU并不是一个独立运行的计算平台并不是一个独立运行的计算平台，而是需要与而是需要与CPU协同工作协同工作，可以看成是可以看成是CPU的协处理器的协处理器。GPU与与CPU通过通过PCIe总线连接在一起来总线连接在一起来协同工作协同工作，因此因此GPU并行计算实际上指的是基于并行计算实际上指的是基于CPU+GPU的异构

46、计算架构的异构计算架构。资料来源：GPU与GPGPU泛淡夕阳叹CSDN资料来源：Preofessional CUDA C ProgrammingGPGPU的架构与生态的架构与生态基于基于CPU+GPU的异构计算应用执行逻辑的异构计算应用执行逻辑2.2 从从GPU到到GPGPU的跨越，英伟达的跨越，英伟达CUDA降低开发门槛降低开发门槛1515根据根据Verified Market Research数据数据，2020年年，全球全球GPU市场规模为市场规模为254.1亿美元亿美元（约约1717.2亿人民币亿人民币）。随着需求的不随着需求的不断增长断增长，预计到预计到2028年年，这一数据将达到这

47、一数据将达到2465.1亿美元亿美元（约约1.67万亿人民币万亿人民币），年复合增长率为年复合增长率为32.82%。市场研究机构市场研究机构Jon Peddie Research的最新数据显示的最新数据显示，2022年二季度年二季度，全球独立全球独立GPU市场出货量同比增长市场出货量同比增长 2.4%至至 1040万台万台，但是较一季度环比则下滑了但是较一季度环比则下滑了22.6%。从市场份额来看，英伟达的独立的独立GPU的市场份额从的市场份额从22Q1的的75%增加到增加到22Q2的的79.6%，保持了与去年同期相当的份额。AMD和Intel则分别占比20%/1%。据据Verified Ma

48、rket Research数据数据，2020年中国大陆的独立年中国大陆的独立GPU市场规模为市场规模为47.39亿美元亿美元，预计预计2027年将超过年将超过345.57亿亿美元美元。资料来源：Verified Market Research（含预测），中信证券研究部资料来源：Jon Peddie Research，中信证券研究部GPU全球市场规模（亿美元）全球市场规模（亿美元）全球独显全球独显GPU市场各厂商份额占比市场各厂商份额占比2.3 2020年年GPU全球市场全球市场254亿美元，独显市场英伟达份额约亿美元，独显市场英伟达份额约80%0200400600800100012001400

49、16001800200020202021E2022E2023E2024E2025E2026E2027E81%80%83%81%75%79%1%1%19%20%17%19%24%20%0%10%20%30%40%50%60%70%80%90%100%21Q121Q221Q321Q422Q122Q2NVIDIAINTELAMD1616伴随着人工智能应用场景的多元化伴随着人工智能应用场景的多元化，新算法新算法、新模型不断涌现新模型不断涌现，模型中的参数数量呈指数级增长模型中的参数数量呈指数级增长，对算力的需求越来越大对算力的需求越来越大。OpenAI预估预估算力需求每算力需求每3.5个月翻一倍个月翻

50、一倍，每年近每年近10倍倍。根据WSTS数据，2020年全球人工智能芯片市场规模约为年全球人工智能芯片市场规模约为175亿美元亿美元。随着人工智能技术日趋成熟，数字化基础设施不断完善，人工智能商业化应用将加落地，推动AI芯片市场高速增长，预计2025年全球人工智能芯片市场规模将达到726亿美元。未来，随着自动驾驶级别的不断提高，对于AI芯片的需求正不断增长。L2和L3+级汽车都会用AI芯片来取代分立的MCU芯片进行自动驾驶相关的计算工作。WSTS预计AI芯片的数量将从2020年的899万套增长至2025年的2380万套。据IDC数据，2021年，中国加速卡出货量超过80万片，其中英伟达占据超过

展开阅读全文