Sora算力倍增国产架构+生态崛起.pdf

资源描述

1、华西计算机团队华西计算机团队2024年2月19日Sora算力倍增，国产架构+生态崛起请仔细阅读在本报告尾部的重要法律声明请仔细阅读在本报告尾部的重要法律声明证券研究报告|行业深度研究报告分析师：刘泽晶SAC NO：S1120520020002邮箱：AIGC行业深度报告(12)核心逻辑:全球算力架构升级战已打响。英伟达架构持续升级，升级迭代速度明显加快，平均两年架构升级，我们判断目的是维持在GPU霸主地位，根据新浪财经报道，B100将于2024年第三季度开始量产，部分早期样品将于明年第二季度出货。而我们认为英伟达Tensor Core专为AI而生，目前其Hopper架构已经为第四代，Hopper

2、架构超强性能，可加速所有精度，性能领先，应用广泛，我们判断其广泛应用于训练市场。AMD奋起直追，欲挑战英伟达龙头地位，第三代Instinct MI300系列性能优异，满足生成式AI强劲需求，相较于H100，MI300X性能优异，单从跑分情况更具性价比。打响关键自主可控保卫战，华为领先演绎国产计算生态崛起:自2018年来，美国通过多种制裁手段，严重限制我国高科技领域发展。根据同花顺财经报道，拜登政府2023年10月17日更新了针对AI芯片的出口管制规定，计划阻止英伟达等公司向中国出口先进的AI芯片。根据钛媒体报道，英伟达应对制裁，推出中国特供版H20芯片，其性能相较于H100大打折扣。华为海思昇

3、腾AI芯片，有望构建算力的第二极，目前我们判断，华为昇腾910已具性价比。华为昇腾计算平台CANN已经实现从0至1突破，已支持50+主流大模型，同时兼容主流加速库及开发套件，加速型创新落地；此外已经支持主流框架，周级实现新版本适配。SORA彻底颠覆文生视频领域，算力有望呈现几何倍数需求：OpenAI 2月16日凌晨发布了文生视频大模型SORA，它能够仅仅根据提示词，生成60s的连贯视频，“碾压”了行业目前大概只有平均“4s”的视频生成长度。SORA震撼发布，彻底颠覆文生视频领域，SORA根本区别在于，可以理解成是一种融合Transformer模型与Stable Diffusion的一种模型。通

4、过我们的测算，Sora架构的训练与传统大语言模型(LLM)Transformer架构的训练算力需求存在近百倍差距。因此我们推测由于SORA，算力需求有望持续呈现几何规模的倍增，同时在信创和AI的大背景下，国产算力有望大放异彩。投资建议:受益标的：服务器相关产业链：高新发展、神州数码、拓维信息、中国长城等；电源相关产业链:泰嘉股份等；算力一体机相关产业链:开普云、云从科技、科大讯飞、安恒信息、新致软件等；鸿蒙相关产业链：九联科技、润和软件、软通动力、中软国际等；PC等相关标的：华勤技术、智微智能、东方中科、芯海科技等；AI应用：润达医疗、万兴科技等。风险提示:核心技术水平升级不及预期的风险、AI

5、伦理风险、政策推进不及预期的风险、中美贸易摩擦升级的风险。2目录301 SORA横空出世，算力需求倍增02 全球算力架构升级战已打响03 国产算力生态崛起04 投资建议:梳理AI算力相关受益厂商05 风险提示01SORA横空出世，算力需求倍增41.1 大语言模型、文生图、文生视频加速演进大语言模型(LLM)：LLM是一种利用机器学习技术来理解和生成人类语言的人工智能模型。LLM 使用基于神经网络的模型，通常运用自然语言处理(NLP)技术来处理和计算其输出。我们判断GPT3、GPT3.5皆为大语言模型，GPT在此基础上引入了多模态。文生图：与大预言模型不同，多模态可以根据文字描述创建原创、逼真的

6、图像和艺术作品。它可以组合概念、属性和样式，我们认为文生图功能对于传统图型生成工具具有颠覆性。文生视频：多模态人工智能技术实现了从AI文生图到AI文生视频的跨越，实为解放生产力的双手，我们认为其功能颠覆摄影、传媒、电影制作等行业，例如Gen2。SORA推开新世界的大门，文生视频加速演进：OpenAI 2月16日凌晨发布了文生视频大模型Sora，它能够仅仅根据提示词，生成60s的连贯视频，“碾压”了行业目前大概只有平均“4s”的视频生成长度。5资料来源：Open AI官网，Runway官网，华西证券研究所主流模型多模态加速演进(从左到右分别是GPT-4、DallE2、Gen2、Sora)1.1

7、大语言模型、文生图、文生视频加速演进Transformer架构是AI向生成式跨越的重要一步：是一种采用自注意力机制的深度学习模型，这一机制可以按输入数据各部分重要性的不同而分配不同的权重。我们判断其广泛应用于大语言模型中(LLM)，例如ChatGPT系列中。Transformer模型旨在处理自然语言等顺序输入数据，可应用于翻译、文本摘要等任务。注意力机制可以为输入序列中的任意位置提供上下文。文生图的基础采用的是Stable Diffusion架构：Stable Diffusion架构是一种自回归模型，基于扩散模型，因此训练和推理代价都很高。它主要用于生成以文本描述为条件的详细图像，但它也可以

8、应用于其他任务，例如修复、外绘以及在文本提示引导下生成图像到图像的翻译。首先需要训练好一个自编码模型，然后利用编码器进行压缩，然后在潜在表示空间上做diffusion操作，最后再用解码器恢复到原始像素空间即可，整个流程类比物理学中的“扩散”。6资料来源：知乎，华西证券研究所Transormer架构(左图Encoder，右图Decoder)Stable Diffusion原理图1.2 SORA震撼发布，彻底颠覆文生视频领域Stable Video Diffusion是文生图到文生视频的跨越：Stable Video Diffusion 的核心思想是将视频生成任务分解为两个阶段。首先，它使用扩散模

9、型将随机噪声逐步转化为与输入图片相似的图像。这一阶段是通过逐步添加细节来完成的，类似于将一张图片逐渐“放大”。然后，在第二个阶段，该方法使用一个条件变分自编码器（cVAE）将生成的图像序列转化为视频。cVAE 是一种生成模型，能够学习数据分布的特征，并根据特定条件生成新的数据样本。SORA震撼发布，彻底颠覆文生视频领域：而SORA模型根本区别在于，可以理解成是一种融合Transformer模型与Stable Diffusion的一种模型，通过Transformer原理的编码器-解码器架构处理含噪点的输入图像，并在每一步预测出更清晰的图像版本。GPT-4被训练于以处理一串 Token，并预测出下

10、一个 Token。SORA 不是预测序列中的下一个文本，而是预测序列中的下一个“Patch”。7资料来源：百度开发者中心，新智元公众号，华西证券研究所Stable Video Diffusion效果图SORA与其他主流模型比对1.2 SORA震撼发布，彻底颠覆文生视频领域SORA具有划时代文生视频的大模型：SORA将可视数据转换成数据包(patchs)，大语言模型通过token将各种形式的文本代码、数学和自然语言统一起来，而SORA则通过视觉包(patchs)实现了类似的效果。从宏观角度来看，首先将视频压缩到一个低维度的潜在空间：这是通过对视频进行时间和空间上的压缩实现的。这个潜在空间可以看作

11、是一个“时空包”的集合，从而将原始视频转化为这些包。我们判断SORA模型的出现，算力需求有望呈现几何倍数的递增：我们判断Patchs与token的差别在于图片与文字，然而时空间数据相较于语言文字呈现的数据维度有着几何维度的差异，因此我们推测由于SORA，算力需求有望持续呈现几何规模的倍增，同时在信创和AI的大背景下，国产算力有望大放异彩。8资料来源：Sora官网，华西证券研究所SORA与其他主流模型比对1.3 SORA模型算力空间测算根据AI新智界数据，ChatGPT-3的参数为1750亿，训练数据的token为3000亿，训练所需要每秒浮点运算为3.14x1023FLOPS，假设训练数据精度

12、为FP16，英伟达H100FP16每秒浮点运算为989.5TFLOPS，假设训练10天，需要英伟达H100卡数为3.14 x 10 23 1012（60 x 60 x 24 x10）=367.28 368张；根据博客园援引谷歌论文AN IMAGE IS WORTH 16X16 WORDS:TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE，例如对于CIFAR-10，一般的设定是大小为16 x 16 x 3(3代表3原色，自然界的每种颜色可以通过红、绿、蓝三种颜色表示，AI模型的图片本质即像素点)的patch，因此我们假设SORA适用16 x 16 x 3的p

13、atch 表示一串有损表示图像的tokens；由于SORA的本质是可以理解成是一种融合Transformer模型与Stable Diffusion，即在扩散模型基础上的Transformer模型，而与Transformer的本质不同在于训练数据分别是patch与token，分别代表图片与文字。图像的输入数据不是一个一个字符，而是一个一个像素。假设每个像素有C个通道，图片有宽W和高H，因此一张图片的所有数据可以用一张大小为H x W x C 的张量来无损地表示。我们假设C=3(3代表3原色)；根据澎湃新闻数据，Runway GEN-2模型由 2.4 亿张图片和 640 万个视频片段组成的内部数据

14、集上训练，我们判断SORA架构的训练参数比GEN-2更大，然而为了方便计算，因此我们假设SORA与Runway GEN-2所训练的数据量相同。我们假设每一张图片分别为1920 x 1080分辨率，每个视频分别为30秒30FPS，因此patch大小为(2.4 x 108）+(6.4 x 10 7 x 30 x 30)x 1920 x 1080 x 3=3.73 x 10 16；我们将Patch大小转换成token 大小即(3.73 x 10 16)(16 x 16 x 3)=4.86 x 10 13；Transformer架构持续升级，所需参数量有望增加，然而为了方便计算，我们假设SORA应用的

15、Transformer架构与ChatGPT Transformer架构相同，且参数量相同，同时假设数据数据精度为FP16，假设训练10天，则需要应为英伟达H100卡数为(4.86 x 10 13)(3 x 10 11)x 367.28=59499.74 59500张。我们推算Sora架构的训练与传统大语言模型(LLM)Transformer架构的训练算力需求存在近百倍差距。9资料来源：AI新智界，AN IMAGE IS WORTH 16X16 WORDS，华西证券研究所02全球算力架构升级战已打响102.1.1 英伟达架构持续升级，升级迭代速度明显加快平均两年架构升级，目的是维持在GPU霸主地

16、位：根据CSDN数据，英伟达14年期间发布8款芯片架构，我们判断芯片架构的持续升级有望维护其在GPU市场的龙头地位。英伟达架构升级速度明显加快：根据财联社以及SemiAnalysis消息，预计在H200芯片架构后，B100将于2024年第三季度开始量产，部分早期样品将于明年第二季度出货。而GH200和H200也是于2023年开始问世，同时，AMD也推出了MI300AI算力芯片，谷歌直接表示要打造自己的人工智能基础设施，其TPUv5和TPUv5e可用于内部培训和推理，还供苹果、Anthropic、CharacterAI等公司客户使用。我们判断英伟达架构升级明显处于加速状态。11资料来源：CSDN

17、，财联社，SemiAnalysis，华西证券研究所英伟达GPU发展时间表英伟达全新产品架构升级图2.1.2 英伟达GPU的硬件核心CUDA Core与Tensor CoreCUDA Core和Tensor Core 构成了英伟达AI的绝对护城河：在机器学习领域，训练一个机器学习模型需要对大型数据进行筛选。但是随着数据集的数量、复杂度和交叉关系的增加，处理能力的需求呈指数级增长。机器学习经常通过内置的CUDA core和Tensor core 阵列来完成机器学习任务(训练和推理)。CUDA Core 是用于通用并行计算任务的计算核心：可以执行单精度和双精度浮点运算，以及整数运算。它在处理广泛的并

18、行计算任务方面非常高效。CUDA Cores是实时计算、计算密集型3D图形、游戏开发、密码散列、物理引擎和数据科学计算的主要硬件，在机器学习和深度学习领域，以及TB级别数据训练上，GPU也是重要核心硬件。CUDA 的广泛应用造就了GPU计算专用 Tesla GPU的崛起。Tensor Core专为AI而生：Tensor Core 是针对深度学习和 AI 工作负载而设计的专用核心，可以实现混合精度计算并加速矩阵运算，尤其擅长处理半精度（FP16）和全精度（FP32）的矩阵乘法和累加操作。Tensor Core 在加速深度学习训练和推理中发挥着重要作用。而Tensor Core的推出是在Volta

19、架构上推出。12资料来源：GitHub，知乎，华西证券研究所CUDA Core 与 Tensor Core 对比对比对比精度精度任务任务目标目标特点特点适用适用CUDA Core精度高，以速度为代价可以用来做深度学习训练但是业界更多使用其来做有丰富图形功能的任务适用于各种任务的通用核，适用于渲染、视频编辑、数据分析、机器学习等各种任务一个时钟周期完成一个操作擅长光线追踪、物理引擎等高端图形操作Tensor Core精度相较于CUDA较低，但是计算速度极快企业级AI部署首选，无论训练还是推理都是更好的选择专门用于混合精度的计算核一个时钟周期完成多个操作擅长AI中的大规模矩阵计算2.1.2 Ten

20、sor Core 架构持续升级，龙头地位更加巩固截至Hopper系列前，Nvidia已经发布了4代Tensor Core，我们判断Tensor架构的更新有助于英伟达巩固其在AI的龙头地位。第一代Tensor cores使用VoltaGPU微架构:第一代Tensor cores提供了FP16数字格式的混合精度计算，通过V100的640个Tensor Cores，比早期的Pascal系列GPU相比，第一代Tensor cores可以提供高达5倍的性能提升；第二代Tensor cores使用TuringGPU微架构:第二代Tensor cores执行速度是Pascal GPU的32倍，并且将FP16

21、计算扩展到Int8,Int4和Int1，从而提高计算精度；第三代Tensor cores使用AmpereGPU微架构:第三代Tensor cores增加了对bfloat16,TF32和FP64精度的支持，进一步扩展了Volta和Turing微架构的潜力；第四代Tensor cores使用HopperGPU微架构:第四代Tensor cores可以处理FP8精度，在FP16、FP32和FP64计算方面比上一代A100快三倍，在8位浮点数学运算方面快六倍。13资料来源：GitHub，知乎，华西证券研究所不同代Nvida 数据中心GPU支持计算精度2.1.3 从超算到智算，从HPC到AI，英伟达成为

22、AI领域佼佼者HPC面向超算市场，需要强大的计算功能：HPC通过聚合计算能力来提供比传统计算机或服务器更强大的计算性能。HPC面向的应用领域为CAE 仿真、动漫渲染、物理化学、石油勘探、生命科学、气象环境，由于HPC应用领域面向的是更加“精细化”的市场，准确度的要求明显超过速度要求，单精度和双精度浮点运算更加符合其要求。生成式AI引燃算力需求，AI领域计算速度要求超过精度：由于生成式AI的应用目的为“成为释放生产力”的双手，面向的是模型训练和模型推理，其目的是赋能千行百业的人工智能应用，应用场景相较于HPC更加“通用化”，因此其对计算性的要求能力更高，对精度要求相较于HPC较低，因此低精度(相

23、较于HPC)更符合AI的需求。HPC与AI加速融合，英伟达Tensor Core持续升级，巩固其龙头地位：目前HPC与AI呈现加速融合的态势，我们判断支持单一类型精度运算逐渐被市场淘汰，英伟达Volta架构Tensor Core只支持FP16精度，而Hopper架构支持FP64、TF32.bfloat16、FP16FP8、INT8等精度的计算，更符合现在市场对于生成式AI与HPC加速融合的需求。14资料来源：GitHub，知乎，华西证券研究所浮点范围与精度尾数对应的领域2.2.1 英伟达AI开山之作：Volta架构AI计算的开山之作Volta架构：我们判断2015年前后是AI的起源，而应用场景

24、方面例如语音识别、自动驾驶依旧是属于前沿技术，英伟达早在2013年未来架构图中预透了Volta架构是Pascal的继任者。在2017年GPU 技术大会（GTC 2017）上，英伟达 CEO 黄仁勋正式发布了新一代处理器架构 Volta，以及使用新架构的第一款设备适用于深度学习任务的加速卡 Tesla V100。黄仁勋在发布会上表示，全新的 Tesla V100 专为 HPC 和 AI 的融合而设。Volta架构的核心是Tensor Core的引入，Tensor Core专为深度学习而生:V100 配有 640 个 TensorCore，可提供 130 teraFLOPS(TFLOPS)的深度学

25、习性能。与 Pascal 相比，可为深度学习训练提供 12 倍张量浮点运算性能，为深度学习推理提供 6 倍张量浮点运算性能。采用是第二代NVLINK技术，与HBM2显存，生态上支持Caffe2、mxnet、CNTK、Pythrch、TensorFlow、Theano等学习框架。目前，根据我们的判断，英伟达V100 GPU更多的需求是放在推理侧。15资料来源：机器之心，英伟达官网，华西证券研究所NVIDIA V100 GPU 产品规格NVIDIA PASCAL架构与VOLTA架构关于深度学习的区别2.2.2 面向AI推理的下一极：Turing架构面向AI推理的下一极：Turing架构于2018年

26、8月推出，相较于上一代版本最大的不同是Turing架构配备了RT Core光纤追踪技术，能够以高达每秒10 Giga Rays 的速度对光线和声音在 3D 环境中的传播进行加速计算，其目的是达到电影效果的最终帧渲染。Turing架构在数据中心代表是NVIDIA T4 GPU：可加速各种云工作负载，包括高性能计算、深度学习训练和推理、机器学习、数据分析和图形。T4基于全新 NVIDIA Turing 架构，采用节能的70瓦小型 PCIe 封装，针对主流计算环境进行了优化，并具有多精度 TuringTensor核心。性价比高于V100，然而重要变化是Tensor Core升级：NVIDIA Tur

27、ing Tensor Core 技术是第二代Tensor Core技术，能进行多精度计算，可实现高效的AI 推理。相较于Volta架构 Tensor Core只支持FP16精度，Turing架构Tensor Core 支持精度为FP16、INT8、INT4、INT1。Turing架构的目标市场为AI推理、渲染、游戏：我们判断Turing架构目前不仅广泛用于数据中心的AI推理侧、渲染侧，例如T4系列，目前，根据我们的判断，T4是市场上最多的推理显卡，已经广泛应用于数据中心的建设，此外更多的产品应用于消费级显卡中，例如较为熟知的GeForce RTX 2060系列等。16资料来源：机器之心，英伟达

28、官网，华西证券研究所NVIDIA Turing T4 GPU 产品规格2.2.3 英伟达突破性创新，AI龙头由此启航：Ampere架构跨时代巅峰之作品Ampere架构，采用第三代Tensor Core技术：Ampere架构于2020年5月发布，NVIDIA A100 Tensor Core GPU 可在各个规模下为AI、数据分析和高性能计算（HPC）应用提供出色的加速性能。NVIDIA A100 的深度学习运算性能可达 312 teraFLOPS(TFLOPS)。其深度学习训练的Tensor 每秒浮点运算次数(FLOPS)和推理的Tensor 每秒万亿次运算次数(TOPS)NVIDIA Vol

29、ta GPU的20倍，其Tensor Core全面支持FP64、TF32、FP16、INT8、INT4、INT1等精度。由于其出色的性能与支持精度，因为我们认为其具有跨时代的意义。Ampere同样采用NVlINK与高带宽显存来提高其性能：A100中采用的NVIDIA NVLink可提供两倍于上一代的吞吐量。此技术可将多达 16 个A100 GPU互连，并将速度提升至600GB/s。高带宽显存(HBM2E)，A100 提供超过 2TB/s 的超快GPU显存带宽，并将动态随机存取存储器(DRAM)的利用效率提高至95%。Ampere由于其出色的性能被广泛应用于AI训练市场：我们判断由于生成式AI的

30、爆发，英伟达A100架构芯片供不应求，同时造就了AI龙头的启航。生态方面：其支持多种深度学习框架，例如Pythorch、Tensor Flow、Mxnet等，且支持2000余款的GPU加速应用。17资料来源：英伟达官网，华西证券研究所NVIDIA A100 GPU 产品规格2.2.4 采用Transformer架构，掀起新一代加速浪潮：Hopper架构Hopper架构掀起新一代加速浪潮，变革AI训练：2022年3月22日英伟达发布全新GPU架构Hopper架构。H100 配备第四代 Tensor Core和 Transformer 引擎(FP8 精度)，与上一代产品相比，可为多专家(MoE)模

31、型提供高 9 倍的训练速度。通过结合可提供 900 GB/sGPU 间互连的第四代 NVlink、可跨节点加速每个 GPU 通信的NVLINK Switch 系统、PCIe 5.0 以及 NVIDIA Magnum IO 软件，为小型企业到大规模统一 GPU 集群提供高效的可扩展性。Hopper架构超强性能，可加速所有精度：H100 进一步扩展了NVIDIA 在推理领域的市场领先地位，其多项先进技术可将推理速度提高 30 倍，并提供超低的延迟。第四代 Tensor Core 可加速所有精度(包括 FP64、TF32、FP32、FP16和INT8)。Transformer 引擎可结合使用 FP8

32、和 FP16 精度，减少内存占用并提高性能，同时仍能保持大型语言模型的准确性。性能领先，应用广泛，我们判断其广泛应用于训练市场：英伟达自推出 Tensor Core 技术以来，其GPU 的峰值性能提高了60倍，推动了 AI 和 HPC 计算的普及化，我们判断目前Hopper系列依旧是英伟达核心产品，全球市场依旧供不应求。GPU 的峰值性能提高了 60 倍18资料来源：英伟达官网，华西证券研究所NVIDIA H100架构规格2.2.5 美国连续发动对我国高科技行业制裁，自主可控势在必行自2018年来，美国通过多种制裁手段，严重限制我国高科技领域发展。2022年8月，拜登正式签署芯片与科学法案，

33、其中提到禁止接受联邦奖励资金的企业，在中国扩建或新建先进半导体的新产能；同年10月，美国政府进一步紧缩半导体产品对华出口的政策，主要包括限制英伟达、AMD等公司向中国出售高算力人工智能芯片；限制应用材料、泛林、科磊等美国设备厂商向任何中国公司出售半导体设备；将31家中国公司、研究机构及其他团体列入所谓“未经核实的名单”（UVL清单），限制它们获得某些受监管的美国半导体技术能力。美国政府禁止英伟达、AMD向中国出口用于人工智能的顶级计算芯片。根据钛媒体，2022年9月，美国商务部宣布限制英伟达（NVIDIA）和AMD等美国公司向中国出口先进计算机图像处理器（GPU），该禁令主要限制了英伟达的A1

34、00、H100高端芯片以及AMD的MI250出口中国，目的是瞄准国内先进计算进行遏制，影响国内人工智能领域发展。19资料来源：澎湃新闻，华西证券研究所美国制裁、限制事件汇总时间时间事件事件2018/11/1美国商务部发布涉及人工智能和机器学习技术、先进计算技术、数据分析技术等14项新兴和前沿技术的对华出口管制框架2019/5/1“布拉格5G安全大会”召开：联合发布了“布拉格提案”，该提案从政策、安全、技术、经济四个方面探讨如何排除中国5G技术产品。2020/1/1特朗普政府发布限制人工智能软件出口新规，应用于智能化传感器、无人机和卫星的目标识别软件都在限制范围之内。2020/2/1推动42个加

35、入瓦森纳协定的国家扩大半导体对华出口管制范围，旨在加强防备相关技术外流到中国。2020/2/1美国商务部更新出口管制条例，将“用于自动分析地理空间图像的软件”列入对华管制清单中，应用于智能化传感器、无人机、卫星和其他自动化设备的目标识别软件。2020/5/1美国宣布将加入七国集团“人工智能全球合作伙伴组织”，力图以霸权力量主导构成不利于中国的全球人工智能管理规则，限制中国人工智能技术发展。2020/5/1发起七国集团（G7）加澳大利亚、韩国和印度的“D10俱乐部”（D10 Club），以减少对中国电信技术的依赖。2020/10/1美国家人工智能安全委员会提出通过多边合作、数字联盟等形式与北约、

36、印度等建立国际联盟，推广美国标准和规则，形成对我人工智能的封锁围堵之势。2022/7/1美国半导体设备制造商收到美商务部的通知，拟要求禁止向中国大陆供应用于14nm或以下芯片制造的设备。2022/8/1美国总统拜登正式签署芯片与科学法案芯片与科学法案，以补贴美国的半导体产业。关于补贴资助对象资格的内容里，明确写到，禁止接受联邦奖励资金的企业，在中国等对美国国家安全构成威胁的特定国家扩建或新建某些先进半导体的新产能，期限为10年，违反禁令或未能修正违规状况的公司，可能需要全额退还联邦补助款。2022/9/1美国两大芯片制造巨头英伟达（NVIDIA）与AMD同时发布公告，声称均已接到美国拜登政府下

37、达的最新命令，要求停止向中国出口用于人工智能的最先进芯片。制裁主要针对的两个芯片是Nvidia A100和H100图形处理单元以及 AMD的MI250 人工智能芯片。2022/10/1BIS修订出口管理条例：美国从多方面加强对出口到中国的半导体的管制措施。新的管控措施主要涉和先进计算及半导体制造业以及超级计算机和半导体最终用途。2.2.5 英伟达应对制裁，提出特供版A800、H800芯片A800和H800分别是A100和H100的下位替代版。根据快科技，在美国限制英伟达向中国出售高算力芯片A100、H100后，英伟达发布公告，确认发布新款中国特供版A800 GPU芯片来替换A100，以满足制裁

38、政策。A800完全符合美国政府有关出口管制的测试。根据快科技，2023年3月21日，英伟达在GTC 2023春季图形大会上，宣布为中国市场开发了第二个特供版H800，该产品是在已有的H100基础上进行了调整，以符合美国政府的规定。的峰值性能提高了 60 倍A800和H800在带宽性能方面劣于A100与H100。A800芯片的数据传输速率为400GB/s，低于A100芯片的600GB/s，而其他参数变化不大。这也说明A800相比于A100在整体通信带宽性能上低了33%左右，影响了多卡互联性能，但是单卡性能保持不变。而H800芯片的数据传输速率为400GB/s，较H100相比在整体通信带宽性能上低

39、了55%左右，这种削弱会导致在AI大模型训练上消耗更长的时间。的峰值性能提高了 60 倍20资料来源：英伟达官网，华西证券研究所NVIDIA A800架构规格NVIDIA H800架构规格2.2.6 专为加速计算和生成式AI的集成显卡：Grace Hopper系列专为加速计算和生成式AI，Grace Hopper系列：NVIDIA GH200 Grace Hopper Superchip 是一款突破性、全新设计的加速 CPU，其采用使用 NVIDIA NVLink-C2C 结合 NVIDIA Grace 及 Hopper 架构，为加速人工智能及高效能运算应用程序提供 CPU+GPU 一致性内存

40、模型。规格方面与H100芯片相近，然而性能方面远超于普通X86+H100：NVIDIA GH200 Grace Hopper Superchip 是一款集成式显卡(CPU+GPU)，是一款异构加速芯片，通过NVLINK-C2C技术可以显著提高AI的工作效率，CPU和GPU可以同时访问CPU+GPU常驻内存，使AI性能更加高效，性能超过X86+H100的独立显卡架构。我们判断集成式显卡(CPU+GPU)有望成为主流：原因是其有望大幅提高AI的利用效率，此外，AMD新发布MI300A APU同样为集成式显卡，另一方面，集成式显卡有望帮助科技厂商可快抢夺其市场份额。预计业界2024年第二季度开始交付

41、搭载该平台的系统。21资料来源：英伟达官网，华西证券研究所英伟达GH200产品规格英伟达GH200与X86+H100 AI性能差异英伟达GH200架构示意图2.2.7 高显存、高带宽、性能更强的H架构：H200我们判断H200是H100系列的升级版，其明显差异点在于显存与带宽：在2023年全球超算大会（SC23）上推出了一款最新的AI芯片H200，H200是英伟达H100的升级版，与H100同样基于Hopper架构，主要升级包括141GB的HBM3e显存，显存带宽从H100的3.35TB/s增加到了4.8TB/s。据SK海力士介绍，HBM3e芯片拥有更快的速度，容量也更大，在速度、发热控制和客

42、户使用便利性等所有方面都达到了全球最高水平。H200的最大升级为HBM3e，其性能优异：H100相比，H200 的性能提升主要体现在推理性能表现上。在处理 Llama 2等大语言模型时，H200的推理速度比H100提高了接近2倍。相同的功率范围之内实现 2 倍的性能提升，意味着实际能耗和总体成本降低了50%。根据新浪消息，H200将于2024年第二季度出货。英伟达称，从2024年开始，微软Azure和甲骨文云将成为首批部署基于H200实例的云服务提供商。22资料来源：英伟达官网，新浪财经，华西证券研究所英伟达H200产品规格英伟达H200与H100性能差异英伟达芯片能效持续提升2.2.8 芯片

43、出口管制升级，打响关键自主可控保卫战根据新浪新闻的消息，拜登政府计划阻止英伟达等出口高性能AI芯片：拜登政府2023年10月17日更新了针对人工智能(AI)芯片的出口管制规定，计划阻止英伟达等公司向中国出口先进的AI芯片。根据最新的规则，英伟达包括A800和H800在内的芯片对华出口都将受到影响。这些限制还将影响AMD和英特尔等公司向中国销售的芯片，包括应用材料公司、泛林集团和KLA等芯片设备厂商也受牵连。这是由于新措施扩大了向中国以外的40多个国家出口先进芯片的许可要求，并对中国以外的21个国家提出了芯片制造工具的许可要求，扩大了禁止进入这些国家的设备清单。此外，新措施还旨在防止企业通过Ch

44、iplet的芯片堆叠技术绕过芯片限制。第一，此前英伟达A100及H100两款型号限制出口中国后，为中国专供的“阉割版”的A800和H800就是为了符合规定。英特尔同样也针对中国市场，推出了AI芯片Gaudi2，如今看来，企业们又要在新一轮出口禁令下再进行调整应对。第二，根据21世纪经济网报道，第二个规则是关于扩大半导体制造设备的出口管控，包括强化对美国人才的限制，还增加了需要申请半导体制造设备许可证的国家数量，从中国扩大到美国能够长臂管辖到的21个国家。第三个规则是把更多公司列入到“实体清单”，增加了两家中国实体及其子公司(共计13家参与先进计算芯片开发的实体)，这些公司制造芯片就需要BIS的

45、许可。被新列入“实体清单”的13家中国企业名单如右图所示，主要包括壁仞科技、摩尔线程等GPU公司。23资料来源：21世纪经济网，新浪官网，华西证券研究所被列入“实体清单”的企业名单2.2.9 英伟达应对制裁，推出中国特供版H20芯片我们判断H20为Hopper架构的低配版本，其性能远不及H100：英伟达推出H20、L20、L2来面对美国10月禁令，根据芯榜消息，英伟达HGX H20与H100、H200同系列，均采用英伟达Hopper架构，但显存容量增大至96GB HBM3，GPU显存带宽4.0TB/s。算力方面，该产品的FP8算力为296 TFLOPS，FP16算力为148 TFLOPS，仅为

46、当今AI芯片H200的1/13。我们判断其性价比低于H100：根据新浪财经消息，英伟达为中国特供AI芯片H20设定的价格为每颗1.2万美元至1.5万美元，而根据第一财经搜狐等消息，我们推测英伟达H100售价为4万美元至5.5万美元(相较于2022年，明显提价，其本质在于生成式AI的爆发，H100供不应求)。芯片出口管制持续升级，打响关键自主可控保卫战：自2018年来，美国通过多种制裁手段，严重限制我国高科技领域发展，因此自主可控显得尤为关键。24资料来源：新浪财经，据媒体，芯榜，第一财经，热点科技，华西证券研究所英伟达H20、L20、L2相关产品规格2.3.1 AMD奋起直追，欲挑战英伟达龙头

47、地位AMD加入AI全球算力争夺战：北京时间2023年12月7日凌晨，美国加州圣何塞，AMD Advancing AI大会上，AMD正式公布了Instinct MI300系列加速器的详细规格与性能，AMD已经将2023年、2027年的数据中心AI加速器市场规模预期分别调高到400亿美元、4500亿美元，年复合增长率超过70，AMD CPU方面有世界领先的EPYC处理器，GPU方面有不断壮大的Instinct加速器，网络方面则有Alveo、Pensando等技术，软件方面还有ROCm开发平台，从而形成一个有机的、完整的解决方案。第三代Instinct MI300系列性能优异，满足生成式AI强劲需求

48、：基于CDNA3架构，它采用小芯片技术的先进封装，旨在减少数据移动开销并提高能效。Instinct MI300X是属于传统的GPU加速器方案，纯粹的GPU设计(独立显卡)，其采用了第四代Infinity Fabric连接通道，总带宽最高896GB/s，还有多达256MB，内存方面八颗HBM3高带宽内存，总容量多达192GB，可提供约5.3TB/s的超高带宽。根据AMD出示数据，相较于H100，MI300X性能优异，单从跑分情况更具性价比：MI300X FP64双精度浮点矩阵、矢量性能分别高达163.4TFlops(每秒163.4万亿次计算)、81.7TFlops，FP32单精度浮点性能则都是1

49、63.4TFlops，分别是H100的2.4倍、无限倍(H100不支持)、2.4倍、2.4倍。AI方面，MI300X TF32浮点性能为653.7TFlops，FP16半精度浮点、BF16浮点性能可达1307.4TFlops，FP8浮点、INT8整数性能可达2614.9TFlops，它们全都是H100的1.3倍。25资料来源：快科技，华西证券研究所AMD加速卡升级路线示意图AMD MI300 GPU与英伟达H100对比2.3.2 AMD MI300系列，传统GPU的革命性进化AMD MI300A是真正意义上的集成显卡，再次印证我们的观点集成显卡有望成为主流：相较于NVIDIA Grace Ho

50、pper架构，虽然也是CPU、GPU合体，然而需要通过外部连接，放在一块PCB板上，MI300A是全球首款面向AI、HPC的APU加速器，同时将Zen4 CPU、CDNA3 GPU整合在了一颗芯片之内，统一使用HBM3内存，彼此全部使用Infinity Fabric高速总线互联，从而大大简化了整体结构和编程应用。其优势在于统一内存、共享缓存、动态功耗均衡、简化编程。性能方面，单从跑分来看，相较于H100依旧具备性价比：MI300A相较于有六个XCD模块,(MI300X为8个，原因是MI300AXCD位置替换成CCD)，内存方面有所下降，区别就是HBM3内存从12H堆叠降至8H堆叠，单颗容量从2

展开阅读全文