GPU：研究框架-构筑中国科技基石系列报告.pdf

资源描述

1、请务必阅读末页的免责条款和声明2023年年2月月13日日计算机行业“构筑中国科技基石”系列报告25GPU：研究框架（100页）中信证券研究部计算机团队杨泽原，丁奇2核心观点核心观点核心结论：核心结论：GPU的核心竞争力在于架构等因素决定的性能先进性和计算生态壁垒。国内的核心竞争力在于架构等因素决定的性能先进性和计算生态壁垒。国内GPU厂商纷纷大力投入研发快速厂商纷纷大力投入研发快速迭代架构，推动产业开放构建自主生态，加速追赶全球头部企业。国产替代需求持续释放叠加国际局势不确定性加剧，迭代架构，推动产业开放构建自主生态，加速追赶全球头部企业。国产替代需求持续释放叠加国际局势不确定性加剧，AI&数

2、据中心、智能汽车、游戏等数据中心、智能汽车、游戏等GPU需求有望高增，国产需求有望高增，国产GPU迎来发展黄金期，我们看好国产迎来发展黄金期，我们看好国产GPU公司的发展与投资机公司的发展与投资机遇。遇。理解理解GPU的核心：性能先进性的核心：性能先进性+生态计算壁垒生态计算壁垒GPU物理性能取决于物理性能取决于微架构、制程、流处理器数量、核心频率等，微架构、制程、流处理器数量、核心频率等，其中微架构是核心点其中微架构是核心点。我们认为微架构的快速创新迭代是GPU性能领先的前提，其图形渲染单元和通用计算单元设计向着“更多、更专、更智能”的方向优化迭代。根据应用场景来划分，数据中心要求强算力、高

3、并发吞吐量；游戏业务要求浮点运算能力强、访存速度快；图形显示要求图显专业化、精细化等。生态：生态：GPU生态构筑通用计算极深壁垒，生态构筑通用计算极深壁垒，CUDA生态占据大部分市场，类生态占据大部分市场，类CUDA生态蓬勃发展生态蓬勃发展。GPU生态由上层算法库，中层接口、驱动、编译器和底层硬件架构三大部分基本构成。GPU研发难度在图形渲染硬件层面和通用计算软件生态层面，在IP、软件栈方面研发门槛较高，需要较长的积累，先发优势明显。CUDA生态从2006年推出至今，经过不断发展完善，几乎已在行业生态内处于垄断地位，目前ROCm等兼容Cuda的类计算生态蓬勃发展并处于快速推广阶段。海外复盘：海

4、外复盘：NVIDIA与与AMD（ATI）的竞争贯穿）的竞争贯穿GPU发展历程，架构创新升级和新兴发展历程，架构创新升级和新兴AI等领域前瞻探索是领跑的关键等领域前瞻探索是领跑的关键NVIDIA长期居于长期居于GPU市场领导地位，近年市场领导地位，近年AMD凭借凭借RDNA架构在游戏市场强势崛起。架构在游戏市场强势崛起。Verified Market Research数据显示，2022年全球独立GPU市场规模约448.3亿美元，NVIDIA和AMD的市场份额占比约为8:2。根据JPR数据，NVIDIA凭借自身性能领先和CUDA生态优势性始终占有GPU领域超50%的市场份额，数据中心业务更是全面领

5、先，在游戏显卡领域，近年AMD凭借RDNA系列架构强势崛起。NVIDIA先后与先后与AMD等企业在性能方面竞争博弈，架构创新升级和新兴领域前瞻探索是领跑等企业在性能方面竞争博弈，架构创新升级和新兴领域前瞻探索是领跑GPU行业的关键。行业的关键。NVIDIA凭借性能领先长期占据超五成市场份额，AMD（ATI）也曾因架构出色、性能惊艳实现反超。同时NVIDIA早在2006年前瞻性布局通用计算、构建CUDA生态，为如今AI&数据中心领域的全面领先构筑牢固的壁垒。NVIDIA积极布局异构芯片、汽车、元宇宙等新市场，寻找新的强有力业务增长点。pOoNsPmNtMvMpQtRqMoRmNbRbP9PmOr

6、RtRoNlOqQoMjMoPoN9PnMrNuOnQsONZnRqR3核心观点核心观点国内国内GPU市场：各应用场景市场广阔市场：各应用场景市场广阔，国内厂商大有可为国内厂商大有可为需求端需求端1AI：数据中心和终端场景不断落地对计算芯片提出更多更高需求。：数据中心和终端场景不断落地对计算芯片提出更多更高需求。新一轮AI对算力需求远超以往：ChatGPT类语言大模型底层是2017年出现的Transformer架构，该架构相比传统的CNN/RNN为基础的AI模型，参数量达到数千亿，对算力消耗巨大，对算力硬件有大量需求。甲子光年预测，中国AI芯片市场规模2023年达到557亿元。AI芯片可进一步

7、细分为云端和终端，中国云端芯片市场规模较大，甲子光年预计2023年增长至384.6亿元，对应复合年增速到52.8%；终端芯片市场规模甲子光年预计2023年增长至173亿元，对应年复合增长率达62.2%，伴随各AI终端落地预计将保持较快增长速度。需求端需求端2汽车：汽车智能化浪潮下域控制器汽车：汽车智能化浪潮下域控制器GPU市场前景广阔。市场前景广阔。自动驾驶和智能座舱是智能汽车中具有广阔前景的方向。盖世汽车数据预计，2025年自动驾驶域控制器出货量将达到432万台，每台自动驾驶域控制器配备1-4片高性能计算GPU；智能座舱域控制器出货量达到528万台，绝大多数智能座舱域控制器配备1片GPU。自

8、动驾驶技术不断提高和座舱进一步智能化拉动汽车GPU市场规模快速扩张。需求端需求端3游戏：游戏玩家人数持续增游戏：游戏玩家人数持续增长长，游戏，游戏GPU市场稳中有升。市场稳中有升。Newzoo Expert数据显示全球游戏玩家人数在2021年已达到30.57亿人，且预计2020-2025年全球游戏玩家人数复合年增率为4.2%；游戏市场内，游戏机和PC两大主体出货量再创新高，游戏机三大巨头2021年出货量高达4008万台；2021年Q4全球PC GPU出货量（包括集成和独立显卡）高达11000万片。投资建议投资建议:产业逻辑：产业逻辑：GPU的核心竞争力在于架构先进性能和生态丰富性，国产厂商正持

9、续大力投入研发实现GPU架构创新升级和快速迭代，力争赶超国际领先水平；同时构建与主流适配良好的生态环境，打造自主开放的软硬件生态和信息产业体系。投资建议：外部不确定因素叠加内部加速自主创新背景下，投资建议：外部不确定因素叠加内部加速自主创新背景下，国产国产GPU厂商厂商有望有望加速加速崛起。伴随崛起。伴随政策大力扶持、国际科技贸易政策影响、国政策大力扶持、国际科技贸易政策影响、国产厂商产厂商产品产品性能性能提升提升及及生态生态逐步逐步完善完善，国产，国产GPU龙头龙头正迎来关键发展机遇。正迎来关键发展机遇。1）推荐：海光信息（）推荐：海光信息（CPU+GPGPU）。建议关注景嘉微、寒）。建议关

10、注景嘉微、寒武纪（电子覆盖）。武纪（电子覆盖）。2）一级市场（排名不分先后）：关注壁仞科技、摩尔线程、沐曦、天数智芯、登临科技、燧原科技等。）一级市场（排名不分先后）：关注壁仞科技、摩尔线程、沐曦、天数智芯、登临科技、燧原科技等。风险因素：风险因素：产业链安全风险；市场竞争加剧风险；商业需求不及预期风险；产品研发不及预期风险；国产替代进程不及预期风险；宏观经济产业链安全风险；市场竞争加剧风险；商业需求不及预期风险；产品研发不及预期风险；国产替代进程不及预期风险；宏观经济环境风险。环境风险。4报告亮点与创新之处报告亮点与创新之处第一，我们我们从性能和生态从性能和生态2个维度构建个维度构建了了GP

11、U完整完整的的研究研究体系体系。1）性能性能：决定GPU是否“高效”，其中微架构/制程是影响GPU性能的核心要素。2）生态生态：CUDA构筑通用计算坚固壁垒。第二，提出在评估提出在评估GPU性能的指标的重要性上：性能的指标的重要性上：微架构微架构、制程制程、流处理器数量流处理器数量、核心频率核心频率对对GPU性能影响性能影响较大较大。我们详细梳理了GPU的微架构、制程、显存容量/位宽/带宽/频率、核心频率等各类性能参数及重要性程度，并利用“核心数*核心频率*2”公式对性能算力进行量化，揭示可用3DMark、MLPerf 等GPU软件跑分进行相关性能测试评估。第三，详细拆解了详细拆解了NVIDI

12、A Fermi和和Hopper两大典型微架构的具体硬件实现两大典型微架构的具体硬件实现，在顶点处理、光栅化计算、纹理贴图、像素处理的图形渲染流水线上对Fermi架构进行了拆分；在指令接收、调度、分配、计算执行的通用计算流水线上对Hopper架构进行了简单易懂的描述，并指明更多、更专、更智能等未来架构升级迭代的方向。第四，明晰了生态是构建通用计算壁垒的基石明晰了生态是构建通用计算壁垒的基石。提出GPU研发难度在图形渲染硬件和通用计算软件生态层面，在IP、软件栈方面研发门槛较高，需要较长的积累，先发者优势明显。CUDA生态从2006年推出至今，经过不断发展完善，几乎已在行业生态内处于垄断地位。第五

13、，深度复深度复盘盘Nvidia/AMD（ATI）的的产品迭代和竞争产品迭代和竞争发展史发展史，通过对NVIDIA长期保持领先和AMD（ATI）反超进行总结得出结论：架构创新升级和新兴领域前瞻探索是领跑架构创新升级和新兴领域前瞻探索是领跑GPU行业的关键行业的关键。第六，梳理和测算了国内GPU在AI&数据中心、智能汽车、游戏行业的市场空间和发展趋势市场空间和发展趋势。目录目录CONTENTS51.理解理解GPU的核心：性能的核心：性能+生态生态2.他山之石：他山之石：Nvidia/AMD竞争启示竞争启示架构创新升级和新兴领域前瞻探索架构创新升级和新兴领域前瞻探索是主旋是主旋律律3.国内市场：国内

14、市场：GPU细分市场前景广阔，国内细分市场前景广阔，国内厂商大有可为厂商大有可为4.风险因素风险因素5.投资建议投资建议61.理解理解GPU的核心：性能的核心：性能+生态生态I.GPU：计算机图形处理以及并行计算的核心：计算机图形处理以及并行计算的核心II.性能：决定性能：决定GPU是否“高效”，其中微架构是是否“高效”，其中微架构是GPU性能领先的关键性能领先的关键III.生态：构筑通用计算壁垒生态：构筑通用计算壁垒7GPU全称全称是Graphic Processing Unit，即图形处理单元，是计算机显卡的核心。GPU是计算机的是计算机的图形处理以及并行计算内核图形处理以及并行计算内核。

15、它的主要功能可以分为：1）图形图像渲染计算 GPU；2）作为运算协作处理器 GPGPU。GPU的功能主要集中于执行高度线程化、相对简单的并行任务处理。GPU vs GPGPU：GPGPU全称通用GPU，运用CUDA及对应开放标准的OpenCL实现通用计算功能运算，能够辅助CPU进行非图形相关程序执行。由GPU性能拓展至计算密集领域，将GPU强大的并行运算能力运用于通用计算领域。多侧重科学计算、AI领域、大数据处理、通用计算、物理计算、加密货币生成等领域。资料来源：NVIDIA官网资料来源：搜狐十一号组织，中信证券研究部GPU内部架构内部架构1.1 GPU定位：计算机图形处理以及并行计算的核心定

16、位：计算机图形处理以及并行计算的核心GPU与与GPGPU对比对比GPUGPGPU主要执行任务图形渲染并行计算功能图形渲染、图形计算，对于游戏性能有关键影响多进行AI领域相关计算，科学计算和通用计算国内主要公司景嘉微、摩尔线程、象帝先、芯动科技、格兰菲、励算、深流微、芯瞳、绘智微壁仞、沫曦、登临、天数智芯、红山微电子、瀚博8依据接入方式不同分为：独立依据接入方式不同分为：独立GPU和集成和集成GPU。1）独立GPU：大部分封装于独立显卡电路板上，使用PCIE接口和特定显存，不受空间和供电限制，性能相对更好、渲染画质更佳。主要厂商包括AMD（Radeon系列）、NVIDIA（Geforce系列）。

17、2）集成GPU：通常未拥有独立显存，集成于CPU内部，与CPU共同使用Die和系统内存，节省空间占位和制作难度，价格较低、兼容性更佳且供电量少。主要厂商包括Intel（HD系列）、AMD（APU系列）。依据应用端不同分为：依据应用端不同分为：PC GPU、服务器服务器GPU和移动和移动GPU。1）PC端：集成GPU主要运用于提高轻办公效率，对性能要求较低；独立GPU主要运用于图形设计、提高图片制作清晰度以及3A游戏绘图渲染能力，对性能要求较高。2）服务器端：主要进行专业可视化处理、AI训练、AI推断的深度学习、提高计算运行能力以及视频编解码等功能，以独立GPU为主。3）移动端：提高游戏体验、提

18、升游戏处理性能，应用场景包括AR、桌面、云计算、数据中心等。受移动端功耗和体积限制，一般为集成GPU。资料来源：微信公众号GPU and Computing资料来源：微信公众号GPU and Computing独立独立GPU集成集成GPU1.1 GPU分类：应用于分类：应用于PC、服务器、移动端、服务器、移动端主要厂商及产品主要厂商及产品主要厂商主要厂商产品系列产品系列PC GPUNVIDIA、Intel、AMDXe LP、TITAN V 服务器GPUNVIDIA、AMDTesla、FireStream移动GPUImagination、高通、苹果、ARM、三星、华为、联发科PowerVR系列、

19、Adreno系列、公版Mali系列、Exynos、麒麟资料来源：NVIDIA官网，CSDNFinovy Cloud，中信证券研究部9GPU产业链主要包括三大环节：设计产业链主要包括三大环节：设计、制造和封装制造和封装。GPU整体商业模式包括三种：整体商业模式包括三种：IDM和和、Fab+Fabless和和 Foundry。IDM模式：指将GPU产业链的三个环节整体化，充分结合自主研发和外部代工，集设计、制造、封装为一体，公司垂直整合GPU整体产业链。Fab+Fabless：充分发挥各企业比较优势，仅负责芯片电路设计，将产业链其他环节外包，分散了GPU研发和生产的风险。Foundry：公司仅负责

20、芯片制造环节，不负责上游设计和下游封装，可以同时为多家上游企业服务。1.1 GPU产业链：产业链：设计设计制造制造封装封装GPU产业链产业链供给模式代表厂商供给模式代表厂商资料来源：华经情报网，各公司官网，中信证券研究部资料来源：IT智库，eefocus，中信证券研究部供给模式供给模式代表国外厂商代表国外厂商IDM英特尔、三星、TIFab+FablessNVIDIA、Apple、AMD、ARM、Qualcomm、华为、海思、MTK、BroadcomFoundry台积电、SMIC、UMC、Global Foundries芯片制造芯片制造封装测试封装测试芯片设计芯片设计10性能是衡量性能是衡量GP

21、U运行运行、执行命令高效的指标执行命令高效的指标。GPU物理性能评估主要在于比较各硬件的物理参数物理性能评估主要在于比较各硬件的物理参数。评估GPU物理性能的参数主要包括：微架构、制程、图形处理器数量、流处理器数量、显存容量/位宽/带宽/频率、核心频率。我们认为，评估GPU性能的指标依次为：微架构/制程流处理器数量/核心频率显存带宽/容量其他。1.2 GPU性能：衡量性能：衡量GPU“高效”的指标“高效”的指标资料来源：CSDNCharles Ren，NVIDIA官网，中信证券研究部GPU性能参数性能参数性能指标性能指标含义含义微架构GPU的硬件电路设计构造方式制程GPU的制造工艺和设计规则，

22、代表不同电路特性，通常以生产精度nm表示图形处理器单元数量包含了光栅单元ROP，纹理单元TMU的数量，数量越多可执行指令越多CUDA核数CUDA是执行函数的重要部件，CUDA核数越多，性能运行越好Tensor核数指张量处理单元的数量，Tensor Core核数越多，性能越好核心频率指显示核心的工作频率，能反映显示核心的性能优良显存容量显存容量越大，GPU能够处理的数据量越大显存位宽指显存在单位时钟周期内所传送数据的位数，位数越大瞬间传送数据量越大显存带宽等于显存频率显存位宽/8，与显存频率、位宽成正比显存频率反映显存速度，以MHz为衡量单位，越高端的显存，频率越高11微架构：微架构：又称为微处

23、理器体系结构，是硬件电路结构，用以实现指令执行。制程：制程：指GPU集成电路的密集度。在晶体管硬件数量一定的情况下，更精细的制程能够减少功耗和发热。现阶段GPU主流最先进工艺制程为5nm。核心频率：核心频率：代表GPU显示核心处理图像频率大小/工作频率，能够反映显示核心的性能。1.2 GPU性能影响因素：微架构、制程、核心频率性能影响因素：微架构、制程、核心频率GPU制程制程GPU微架构微架构资料来源：阿里云官网资料来源：半导体行业观察微信公众号12图形处理器单元数量：图形处理器单元数量：指GPU内部图形处理单元，涵盖光栅单元（ROP）和纹理单元（TMU）等数量。光栅单元（ROP）：进行光线、

24、反射计算，负责游戏中高分辨率、高画质的效果生成。纹理单元（TMU）：能够对二进制的图形进行一系列翻转、缩放变化，再将其纹理传输至3D平面模型中。CUDA核数：核数：作为GPU内部的流处理器，是主要的计算单元，CUDA核数越多，GPU性能等级越高。Tensor核数：核数：能够进行张量核加速GEMM计算以及加速卷积和递归神经网络运行，Tensor核数越多，在人工智能、深度学习领域的性能越强。1.2 GPU性能影响因素：图形性能影响因素：图形处理器单元数量、处理器单元数量、CUDA核数、核数、Tensor核数核数GPU Tensor CoreGPU CUDA Core资料来源：SHERLOCK资料来

25、源：NVIDIA A100 Tensor Core GPU Architecture白皮书13显存容量：显存作为显存容量：显存作为GPU核心部件核心部件，用以临时存储未处理数据用以临时存储未处理数据。显存容量的大小对于GPU存储临时数据的多少起决定性作用，在GPU核心性能能够提供充足支撑前提下，越大的显存容量能够减少数据读取次数，减少延迟出现。显存位宽：显存位宽：是GPU在单位时钟周期内传送数据的最大位数，位数越大GPU的吞吐量越大。显存频率：显存频率：显存数据传输的速度即显存工作频率，通常以MHz为显存频率计数单位。显存带宽：显存带宽：显存带宽=显存频率X显存位宽/8，为显存与显卡芯片间数据

26、传输量。1.2 GPU性能影响因素：显存容量、显存位宽、显存频率、显存带宽性能影响因素：显存容量、显存位宽、显存频率、显存带宽显存带宽显存带宽显存频率显存频率资料来源：EXPreview资料来源：NVIDIA官网14微架构微架构（Micro Architecture）：GPU的硬件电路设计构造方式的硬件电路设计构造方式。微架构又称为微处理器体系结构，是在图形函数和指令集条件下处理器中的执行方法。某一特定指令集可以在不同微架构中执行，但在运行过程中因设计目的不同而存在技术效果不同。GPU微架构包括流处理器微架构包括流处理器、渲染核渲染核、双精度浮点运算单元双精度浮点运算单元、特殊运算单元特殊运算

27、单元、流式多处理器流式多处理器、纹理处理器纹理处理器、图形处理器图形处理器、流处理器阵列流处理器阵列。GPU架构工作流程为：Vertex Shader（定点着色器）建立图形骨架，再通过算法转化进行光栅化计算，进而进行纹理映射，再由PixelShader（像素着色器）像素处理，最终由ROP（光栅化引擎）输出。不同微架构决定了GPU各方面性能的不同，NVIDIA等国际GPU厂商均加大投入研发新架构作为提升竞争力的重要抓手提升竞争力的重要抓手。1.2 微架构的先进性：微架构的先进性：GPU性能的抓手性能的抓手微架构中各单元简介微架构中各单元简介微架构工作流程微架构工作流程资料来源：厦门大学许少聪，中

28、信证券研究部资料来源：搜狐爱玩客iVankr，中信证券研究部绘制顶点着色器光栅生成器像素着色器光栅操作纹理单元名称名称功能功能流处理器（流处理器（SP）GPU最基本单元渲染核（渲染核（shader）升级版本的流处理器，用于顶点处理、像素处理双精度浮点运算单元双精度浮点运算单元（SFU）仅用于双精度浮点运算流式多处理器（流式多处理器（SM）基本计算单元，由SP、DP、SFU等构成纹理处理器簇（纹理处理器簇（TPC）由SM控制器、多个SM和L1缓存构成光栅化处理单元（光栅化处理单元（ROPs）对3D图形进行几何、设置、纹理和光栅处理张量单元（张量单元（Tensor Core）专门用于矩阵乘积累加的

29、高性能计算核心几何处理光栅处理15Fermi架构共含架构共含4个个GPC，16个个SM，512个个CUDA Core。每每32个个CUDA Core组成组成1个个SM，每个每个SM为垂直矩形条带为垂直矩形条带。核心性能：核心性能：晶体管数高达30亿个，引入缓存单元，合计1MB可同时执行线程指令流24576个使用并行内核，全局分配逻辑支持与CPU并行传输1.2 微架构的先进性：以微架构的先进性：以 Fermi架构为例架构为例总览总览资料来源：NVIDIA官网Fermi核心微架构核心微架构16GPC为图形处理团簇为图形处理团簇，是是Fermi架构的组成核心架构的组成核心，负责顶点负责顶点、几何几何

30、、光栅化光栅化、纹理和像素处理纹理和像素处理。组组成部分包括：成部分包括：1个光栅引擎Raster Engine（上部黄色部分）4个SM单元（矩形部分）SM之间彼此独立之间彼此独立，可各自调度多个可各自调度多个ThreadWraps到内部的图形渲染到内部的图形渲染、计算执行单元上运行计算执行单元上运行。1.2 微架构的先进性：以微架构的先进性：以 Fermi架构为例架构为例GPC架构拆分架构拆分资料来源：中关村在线Fermi GPC 核心微架构核心微架构17SM全称全称Streaming Multiprocessor，Fermi架架构下构下，每个每个SM具有具有32个个 CUDA Core，组

31、成部组成部分包括：分包括：2 个 Warp Scheduler/Dispatch Unit（橙色部分）分别位于两条 lane 上的32 个 CUDA Core（绿色部分）1个register file-寄存器文件和 L1 cache（浅蓝色部分）16 个 Load/Store units(LD/ST Unit)，支持各线程同时从Cache/DRAM存取数据4 个 Special Function Units(SFU)，用于计算sin/cos这类特殊指令1.2 微架构的先进性：以微架构的先进性：以 Fermi架构为例架构为例SM架构拆分架构拆分资料来源：NVIDIA官网Fermi SM 核心微架

32、构核心微架构18Host Interface（黑色部分黑色部分）为主机接口，图形渲染流水线中负责接收指令。通过PCI-Express 将 GPU和CPU相连接，并读取CPU指令。再通过Front End（前端）处理指令。GigaThread Engine（橙色部分橙色部分）为全局调度器，图形渲染流水线中负责将特定的数据从HostMemory中复制到Framebuffer中，创建Thread Blocks（线程块）再分配给各个彼此独立的SM线程调度器。1.2 微架构的先进性：以微架构的先进性：以 Fermi图形渲染流水线为例图形渲染流水线为例指令接收指令接收资料来源：NVIDIA官网，中信证券研

33、究部Fermi核心微架构核心微架构Giga Thread EngineHost Interface19单个单个CUDA Core 组成部分包括：组成部分包括：1个Dispatch Port和1个Operand Collector、1个FPUnit和1个INT Unit和Result Queue。在图形渲染流水线中：在图形渲染流水线中：Vertex-shader执行单元对GPU前端读取的图形信息进行顶点数据确定，通过Vertex-shader 建立3D图形框架。1.2 微架构的先进性：微架构的先进性：以以 Fermi图形渲染流水线为例图形渲染流水线为例顶点处理顶点处理资料来源：NVIDIA官网，

34、中信证券研究部Fermi 核心微架构核心微架构201.2 微架构的先进性：微架构的先进性：以以 Fermi图形渲染流水线为例图形渲染流水线为例顶点处理顶点处理资料来源：NVIDIA官网，中信证券研究部Fermi 核心微架构核心微架构PolyMorph Engine（黄色部分黄色部分，多形体引擎多形体引擎）是全球首款实现了可扩展几何学流水线的重要元件。主要负责顶点拾取（Vertex Fetch）、细分曲面（Tessellation）、视口转换（Viewport Transform）、属性设定（AttributeSetup）、流输出（Stream Output）五个方面的处理工作。在图形渲染流水线

35、中：在图形渲染流水线中：Vertex Fetch通过三角形索引取出三角形数据。Viewport Transform负责模块处理已完成vertex-shader的所有指令，进行裁剪三角形，准备栅格化。Attribute Setup确保经过插值后的vertex-shader数据在pixel-shader中的可读性。PolyMorph EngineVertex FetchTessellatorViewport TransformAttribute SetupStream Output211.2 微架构的先进性：微架构的先进性：以以 Fermi图形渲染流水线为例图形渲染流水线为例光栅化计算光栅化计算资

36、料来源：NVIDIA官网，中信证券研究部Fermi 核心微架构核心微架构Raster Engine（黄色部分黄色部分）为光栅引擎，将光栅化处理硬件单元进行结合，包括Edge/Triangle Setup（边缘/三角形设定）、Rasterization（光栅化）和Z-Culling（Z轴压缩)。以流水线的形式运行指令，每时钟循环周期能够处理8个像素。在图形渲染流水线中：在图形渲染流水线中：将Vertex-shader生成图形上的顶点和线段转化为对应的像素点，光栅化引擎在过程中负责接受三角形的像素信息生成和背面提出、Early-Z剔除。Raster EngineEdge SetupRasteriz

37、erZ-Cull221.2 微架构的先进性：微架构的先进性：以以 Fermi图形渲染流水线为例图形渲染流水线为例纹理贴图纹理贴图资料来源：NVIDIA官网，中信证券研究部Fermi 核心微架构核心微架构Texture Mapping Unit（蓝色部分蓝色部分）为纹理映射单元，能够移动、变形、调整图形的大小和位置，主要功能是执行纹理采样。在图形渲染流水线中：在图形渲染流水线中：将图片对应贴至经过顶点处理、光栅化计算后形成的3D多边形骨架的表面上，进一步形成直观的图形。TexTexTexTex23在图形渲染流水线中：在图形渲染流水线中：Pixel-shader执行单元对经过光栅化处理的像素点进行

38、计算和处理，进而确定每个像素的最终属性。1.2 微架构的先进性：微架构的先进性：以以 Fermi图形渲染流水线为例图形渲染流水线为例像素处理像素处理资料来源：NVIDIA官网，中信证券研究部Fermi 核心微架构核心微架构24L1 Cache为SM中的L1缓存，提高临时寄存器的使用效率，大幅降低CUDA运行耗时。在图形渲染流水线中负责处理寄存器溢出、堆栈操作和全局LD/ST，并且作为Vertex-shader和Pixel-shader的数据通信缓存。L2 Cache为L2缓存，与内部全部SM均相连通，为SM计算过程中需要读取相同数据的需求（如Vertex-shader和Pixel-shader

39、）提供缓存支持。在图形渲染流水线中支持最终图形输出数据存放、读取操作，纹理操作，并且提供有效且高频的数据支撑。1.2 微架构的先进性：以微架构的先进性：以 Fermi图形渲染流水线为例图形渲染流水线为例最终输出最终输出资料来源：NVIDIA官网，中信证券研究部Fermi核心微架构核心微架构L2 Cache64 KB Shared Memory/L1 Cache25完整的完整的GH100 GPU架构包括以下单元架构包括以下单元:8个个 GPC、72个个TPC、2个个SM/TPC、每个完整每个完整 GPU 内含内含144 个个 SM。核心性能：核心性能：新型流式多处理器(SM)，第四代Tensor

40、 Core提速6倍，DPX指令最高提速动态编程7倍，IEEEFP64和FP32芯片处理提速3倍。第二代多实例 GPU(MIG)技术，扩增计算容量将近3 倍。GPU 实例的显存带宽大幅度扩容近 2 倍，采用50MB 二级缓存架构，支持大数据量重复访问。第三代NVSwitch、PCle 5.01.2 微架构的先进性：以微架构的先进性：以 Hopper架构为例架构为例总览总览资料来源：NVIDIA H100 Tensor Core GPU Architecture白皮书Hopper 核心微架构核心微架构26每个每个GPC由由9个个TPC即纹理处理集群即纹理处理集群(TextureProcessor

41、Cluster)组成组成。每个每个TPC包括包括2个个SM单元单元，256个个 FP32 CUDA Core 核心核心，8个个Tensor Core 核心核心。1.2 微架构的先进性：以微架构的先进性：以 Hopper架构为例架构为例GPC模块拆分模块拆分资料来源：NVIDIA H100 Tensor Core GPU Architecture白皮书，中信证券研究部Hopper GPC核心微架构核心微架构GPC线程块簇：线程块簇：相比先前架构中的线程块分布，Hopper架构中新增了簇层次结构，该线程块簇在GPC内跨不同SM并发运行，新增了全新的内存访问方式和协作功能，能够实现不同SM之间的数据

42、共享。27SM全称全称Streaming Multiprocessor，Hopper架构下架构下，每个每个SM包含包含128 个个 FP32 CUDA Core核心和核心和 4 个第四代个第四代 Tensor Core 核心核心，主要组主要组成部分包括：成部分包括：1个L1 Instruction Cache，1个 Data Cache Cache 和4个L0 Instruction Cache（浅蓝色部分）4 个 Warp Scheduler（橙色部分）4个 Dispatch Unit（红褐色部分）4个Register file-寄存器文件（青色部分）128个 FP32 Unit（草绿色部分

43、）64 个 FP64 Unit(墨绿色部分)4 个 Special Function Units(SFU/橘红色色部分)32个 LD/ST Unit（深红色部分）1.2 微架构的先进性：以微架构的先进性：以 Hopper架构为例架构为例SM模块拆分模块拆分资料来源：NVIDIA H100 Tensor Core GPU Architecture白皮书Hopper SM核心微架构核心微架构28L0 Instruction Cache：全称指令缓冲区，能够存储 GPU用以绘图显示、数据变更、复制资源等指令的存储容器。在通用计算在通用计算-GPGPU流水线中：流水线中：主要负责检查当前指令（inst

44、ruction）中的数据是否完备（ready）。分为两种情况处理：数据完备，传入Warp；数据不完备则存储于Instruction Buffer中。Instruction Buffer可以屏蔽掉总线延时。因为GPU流水线上任务是并行处理，互不依赖的。1.2 微架构的先进性：以微架构的先进性：以 Hopper通用计算流水线为例通用计算流水线为例指令接收指令接收资料来源：NVIDIA H100 Tensor Core GPU Architecture白皮书，中信证券研究部Hopper SM核心微架构核心微架构L0 Instruction Cache29Warp Scheduler：全称线程束调度器

45、，在CUDA中，每32个线程组成线程束（warp）,指令以一个warp为单位执行。在通用计算在通用计算-GPGPU流水线中：流水线中：主要负责任务调度。Warp Scheduler需要先确认当前Function Unit的状态，再将Instruction Buffer中已完备（ready）的指令调度给下一级的DispatcherUnit。在单个时钟周期内可以同时调度两个warp指令。1.2 微架构的先进性：以微架构的先进性：以 Hopper通用计算流水线为例通用计算流水线为例指令调度指令调度资料来源：NVIDIA H100 Tensor Core GPU Architecture白皮书，中信证

46、券研究部Hopper SM核心微架构核心微架构Warp Scheduler30Dispatcher Unit：全称调度单元，可依据输入的数据、信息决定下一步需要调动的程序模块。在通用计算在通用计算-GPGPU流水线中：流水线中：主要负责根据指令（instruction）和Threadmask计算出下属各个 function unit 的 instruction 和register offset，用其计算结果，将指令传递至处于闲置状态的function unit下运行。1.2 微架构的先进性：以微架构的先进性：以 Hopper通用计算流水线为例通用计算流水线为例指令分配指令分配资料来

47、源：NVIDIA H100 Tensor Core GPU Architecture，中信证券研究部Hopper SM核心微架构核心微架构Dispatch Unit31Function Unit：为SM中的核心组成部件，称作功能单元，包括INT32 Unit、FP32 Unit、FP64 Unit、LD/ST Unit和SFU。在通用计算在通用计算-GPGPU流水线中：流水线中：FP32 Unit和 FP64 Unit分别支持FP16/FP32的低精度计算以及FP64的高精度计算。LD/ST Unit即加载/存储单元负责处理寄存器文件中的读写值SFU负责用于计算正弦函数、余弦函数、指数、对数、

48、倒数等特殊指令。1.2 微架构的先进性：以微架构的先进性：以 Hopper通用计算流水线为例通用计算流水线为例计算执行计算执行资料来源：NVIDIA H100 Tensor Core GPU Architecture，中信证券研究部Hopper SM核心微架构核心微架构FP64 UnitFP32 UnitSFULD/ST Unit32Tensor Core：专门用于MMA(矩阵乘积累加)的高性能计算核心，可大幅度提升AI和HPC应用的性能。与其他运算相比，能够实现在GPU 内跨 SM 并行运行，并大幅提高吞吐量和效率。在通用计算在通用计算-GPGPU流水线中：流水线中：Tensor Core

49、专用于矩阵运算执行，对各类型数据高效管理，能够节省30%的操作数传输功耗。1.2 微架构的先进性：以微架构的先进性：以 Hopper通用计算流水线为例通用计算流水线为例计算执行计算执行资料来源：NVIDIA H100 Tensor Core GPU Architecture，中信证券研究部Hopper SM核心微架构核心微架构33全能计算型浮点运算单元全能计算型浮点运算单元CUDA Core：架构上划分为不同精度的计算核心支持多种数据类型，包括INT32、FP32、FP64，每次运算执行一次乘法 1 x 1 per GPU clock。张量运算专用执行单元张量运算专用执行单元Tensor Co

50、re：专门为深度学习、神经网络训练和推理运算设计的运算内核，支持 FP8、FP16、BF16、TF32、FP64 和 INT8 MMA 数据类型，每次运算执行一次矩阵乘法 1 1 11 1 11 1 1x1 1 1per GPU clock1 1 11 1 11.2 微架构的先进性：以微架构的先进性：以 Hopper架构为例架构为例CUDA vs Tensor Core资料来源：NVIDIA H100 Tensor Core GPU Architecture，中信证券研究部Hopper SM核心微架构核心微架构34L1 Data Cache为SM中的L1数据缓存，也称共享缓存，单个L1缓存有2

展开阅读全文