AIGC行业深度报告：华为算力分拆：全球AI算力的第二极.pdf

资源描述

1、华西计算机团队华西计算机团队2023年10月9日华为算力分拆:全球AI算力的第二极请仔细阅读在本报告尾部的重要法律声明请仔细阅读在本报告尾部的重要法律声明仅供机构投资者使用证券研究报告|行业深度研究报告分析师：刘泽晶SAC NO：S1120520020002邮箱：AIGC行业深度报告(11)核心逻辑:全面对标英伟达，华为开启国产自主可控新征程。我们认为英伟达作为全球AI算力芯片龙头坐拥三大法宝，分别是高性能芯片、其中IC设计是重点，CUDA架构、助力AI加速计算生态，Nvlink、NVSwitch助力芯片快速互联互通与InfiniBand配合组网技术实现高效互联互通；而华为作为国产计算之光全面

2、对标英伟达，在算力方面，昇腾910芯片单卡算力已经可以与英伟达A100相媲美；统一达芬奇架构助力AI计算引擎；HCCS互联技术，实现卡间高速互联。华为构筑世界AI算力第二选择:全连接大会上，华为发布多款AI产品，为世界AI算力第二选择。华为Atlas 900 SuperCluster、全新的华为星河AI智算交换机亮相，打开国产算力集群想象空间，同时发布“三力四总线”，打造智能世界数字基础大设施，此外发布星河AI网络解决方案，以高运力释放AI时代的高算力；软件方面，华为携手基础软硬件创新，开启国产AI生态；华为鲲鹏、昇腾、AI助力国产千行百业数字化升级，包括金融、智能制造、工业、教育、医疗等方面

3、。为领衔演绎国产AI计算产业崛起:我们认为华为AI计算产业的核心在于芯片的自主可控，其中以鲲鹏和昇腾为主导的海思芯片尤为重要，因此与之相关的国产集成电路产业突围尤为重要，其中重中之重是EDA、光刻、代工产业；AI与信创双轮驱动，国产服务器需求火爆，AI 服务器中的主要元器件包括 CPU、GPU 板组、内存、硬盘、网络接口卡组成，配合电源、主板、机箱、散热系统等基础硬件以提供信息服务，计算服务器基础硬件供应商和华为生态伙伴也将迎来发展机遇；算力组网方面，华为有望带动相关产品快速放量，其中包括国产AI服务器、交换机、光模块等产品，此外，在算网的趋势下，网络可视化将迎来黄金发展周期。投资建议:受益标

4、的：EDA：华大九天、概伦电子、广立微等；光刻：福晶科技、奥普光电、苏大维格、美埃科技、腾景科技等；PCB：沪电股份、胜宏科技等；内存接口：澜起科技、聚辰股份等；连接器：华丰科技、鼎通科技等；BIOS：卓易信息等；电源：杰华特、欧陆通、中国长城等；服务器：拓维信息、神州数码、天源迪科、四川长虹、高新发展等；光模块：天孚通信，剑桥科技、太辰光、中际旭创等；网络可视化：恒为科技、浩瀚深度、中新赛克等；操作系统：润和软件、测绘股份、中国软件、麒麟信安、诚迈科技等；技术开发：软通动力、常山北明等；传统应用：海量数据、超图软件、赛意信息等；AI应用：润达医疗、云鼎科技、梅安森、万达信息、龙软科技、金山办

5、公、梦网科技等。风险提示:核心技术水平升级不及预期的风险、AI伦理风险、政策推进不及预期的风险、中美贸易摩擦升级的风险。2目录301 全面对标英伟达，开启国产自主可控新征程02 华为领衔演绎国产AI计算产业崛起03 投资建议:梳理AIGC相关受益厂商04 风险提示01全面对标英伟达，开启国产自主可控新征程41.1 全球龙头英伟达业绩持续高度景气，印证全球AI产业趋势英伟达二季度业绩持续超预期，印证AI景气度：美东时间8月23日，英伟达公布2024财年第二财季季报。二季度营收135.07亿美元，同比增长101%,远超市场预期的指引区间107.8亿到112.2亿美元，相较于华尔街预期水平高22%-

6、29%以上。业绩指引方面，英伟达预计，本季度、即2024财年第三财季营业收入为160亿美元，正负浮动2%，相当于指引范围在156.8亿到163.2亿美元之间。以160亿美元计算，英伟达预期三季度营收将同比增长170%，连续两个季度翻倍增长，高于市场预期。AI芯片所在业务同环比均翻倍激增较市场预期高近30%，游戏业务同比重回增长:AI对英伟达业绩的贡献突出。包括AI显卡在内的英伟达核心业务数据中心同样收入翻倍激增，二季度数据中心营业收入为103.2亿美元，同比增长171%，环比增长141%；二季度游戏营收24.9亿美元，同比增长22%，环比增长11%，英伟达称，数据中心收入主要来自云服务商和大型

7、消费类互联网公司。基于Hopper和Ampere 架构GPU的英伟达HGX平台之所以强劲需求，主要源于开发生成式AI和大语言模型的推动。5资料来源：techpowerup，Bloomberg，英伟达官网，英伟达2023财年年报，新浪，华西证券研究所产品实现云、边、端全面布局云端GPU加速云计算（在云端完成计算）Omniverse Cloud：自部署云容器、托管服务终端游戏：驱动器、Reflex、G-SYNC 显示器可视化：虚拟工作站、NVIDIA RTXDI光线追踪等智能驾驶：舱内智能服务软件、地图软件、辅助驾驶平台等边缘计算Jetson嵌入式系统：Orin系列、Xavier系列、TX2系列、

8、Nano（在数据源或数据源附近完成计算）1.2.1 英伟达三大AI法宝：高性能芯片，其中IC设计是重点全球高端GPU领导者，经数十代产品迭代，技术指标全面升级。从2011年英伟达推出Tesla M2090数据中心GPU，到2022年H100、L40等型号产品，多项核心技术指标大幅提升。其中，CUDA作为GPU内部主要的计算单元，从512个升级到超14000个；芯片工艺尺寸也从40nm降至4nm；单精度浮点算力从1332GFLOPS增至超50TFLOPS。GPU产品性能整体大幅跃升。推出Grace系列，加速大型 AI、HPC、云和超大规模工作负载。2022年公司发布首款CPU产品Grace，用于

9、高性能计算和云计算。Grace CPU超级芯片采用NVLink-C2C 技术，可提供 144 个 ArmNeoverse V2 核心和 1 TB/s 的内存带宽，每瓦性能是当今领先CPU的 2 倍。此外，公司还推出的Grace Hopper超级芯片将 Grace 和 Hopper 架构相结合，为加速 AI 和高性能计算(HPC)应用提供CPU+GPU 相结合的一致内存模型。2023年，英伟达发布多款AI超算产品，助力全球生态：其中包括DGX服务器、DGX GH200 AI超级计算机、AI foundations云服务等产品，其中DGX GH AI超级计算机由NVIDIA GH200 Grace

10、 Hopper超级芯片和NVIDIA NVLink Switch System驱动，相比上一代将NVLink带宽提升了48倍以上。6资料来源：techpowerup，Bloomberg，英伟达官网，英伟达2023财年年报，华西证券研究所英伟达部分数据中心GPU产品及参数英伟达DGX GH200 AI超级计算机1.2.2 英伟达三大AI法宝：CUDA架构，助力AI加速计算生态GPU适用于处理大数据集，CUDA核是本质原因。最开始，GPU(图形处理单元)作为一种专用计算机处理器，可以满足实施高分辨率3D图形计算密集型任务的需求。到2012年，由于GPU已经发展成为高度并行的多核系统，让它具备了处理

11、大量数据的能力。简而言之，CPU做的专注线性计算，GPU做的是并行计算(数据之间没有直接关系)，而本质的原因是CUDA核的不同，CUDA核越多，计算性能越强，而GPU的CUDA核数是CPU的上百倍，如AMD EPYC 7003系列7763核心数为64个，而英伟达A100 40GB核心数为6912个。CUDA的本质是“软件定义硬件”，实现“软件调用硬件”。CUDA是一种并行计算平台和应用程序编程接口(API)，允许软件使用特定类型的图形处理单元(GPU)进行通用目的的处理，称为通用图形处理单元计算(GPGPU)。CUDA提供了直接访问GPU虚拟指令集和并行计算元素的软件层，用于执行计算内核。CU

12、DA支持的GPU还可以使用编程框架，通过将代码编译为CUDA来使用HIP。CUDA将从前多种不同的代码整合成了一气呵成的代码，这样极大的加快了开发模型的训练速度。可以简单理解，CUDA是英伟达实现软硬件适配的一种“类编译器”，将软件的代码转换成硬件汇编代码，CUDA是英伟达实现软硬件生态的护城河。7资料来源：NVIDIA公司官网，华西证券研究所CUDA处理流程：1.将数据从驻内存复制到GPU内存2.CPU启动GPU计算内核3.GPU的CUDA内核并行执行计算4.将生成的数据从GPU内存输送到内存CUDA处理流程CPU和GPU计算资源差异1.2.2 英伟达三大AI法宝：CUDA架构，助力AI加速

13、计算生态CUDA助力加速计算及深度学习：GPU通过图形应用程序的算法存在算法密集、高度并行、控制简单、分多个阶段执行等特征，英伟达引入的CUDA使GPU超越了图形领域。同时，CUDA的框架和库可以充分发挥GPU的并行计算能力，提供高效的矩阵运算、卷积运算等计算任务的实现，大大简化深度学习的编程工作，提高开发效率和代码质量。在经GPU加速的应用中，工作负载的串行部分在CPU上运行，而应用的计算密集型部分则以并行方式在数千个GPU 核心上运行，能够大幅提升计算效率。目前NVIDIA H100 GPU的CUDA数已达到14592个，远超AMD EPYC Genoa-X CPU的96个核心。CUDA生

14、态合作者规模翻倍增长。根据英伟达2023财年年报，目前有400万名开发者正在与CUDA合作，而且规模还在不断扩大。英伟达通过12年的时间达到200万名开发者，在过去的两年半里该数字翻了一番。目前CUDA的下载量已经超过了4000万次。8资料来源：英伟达2023财年年报，知乎，ai领域，CSDN，华西证券研究所CUDA软件架构英伟达CUDA工具包1.2.3 英伟达三大AI法宝:Nvlink、NVSwitch助力芯片快速互联互通速度更快、可扩展性更强的互连已成为当前的迫切需求:AI和高性能计算领域的计算需求不断增长，对于能够在每个GPU之间实现无缝高速通信的多节点、多GPU系统的需求也在与日俱增。

15、要打造功能强大且能够满足业务速度需求的端到端计算平台，可扩展的快速互连必不可少。简而言之，随着模型复杂程度增加，单张GPU无法完成训练任务，需要联合多张GPU，乃至多台服务器搭建集群协同工作，并需要GPU之间以及服务器之间进行数据传输交互。我们认为数据传输同样也是大模型算力集群能力的重要体现。英伟达推出NVLink技术代替传统的PCIe技术：第四代NVIDIA NVLink 技术可为多GPU系统配置提供高于以往1.5倍的带宽，以及增强的可扩展性。单个 NVIDIA H100 Tensor Core GPU 支持多达18个NVLink 连接，总带宽为900GB/s，是PCIe 5.0带宽的7倍。

16、NVIDIADGX H100等服务器可利用这项技术来提高可扩展性，进而实现超快速的深度学习训练。NVSwitch与Nvlink协同互联，助力英伟达高速通信能力构建:NVSwitch是一种高速交换机技术，可以将多个 GPU 和 CPU 直接连接起来，形成一个高性能计算系统。每个NVSwitch都有 64 个 NVLink 端口，并配有 NVIDIA SHARP 引擎，可用于网络内归约和组播加速。9资料来源：英伟达官网，华西证券研究所NV link 示意图NV link 性能NV link 与NV Switch性能一览NVLingNVLing规格规格第二代第三代第四代Nvlink300GB/s60

17、0GB/s900GB/s每个GPU最大链路数61218NVIDIA架构支持NVIDIA Volta架构NVIDIA Ampere 架构NVIDIA Hopper架构NVSwitchNVSwitch规格规格第一代第二代第三代直连或节点中GPU 数量最多 8 个最多 8 个最多 8 个NVSwitch GPU之间带宽300GB/s600GB/s900GB/s聚合总带宽2.4TB/s4.8TB/s7.2TB/sNVIDIA 架构支持NVIDIA Volta 架构NVIDIA Ampere 架构NVIDIA Hopper 架构1.2.3 英伟达三大AI法宝:InfiniBand配合组网技术实现高效互联

18、互通2023年5月30日COMPUTEX主题演讲，英伟达展示全新的NVIDIA Spectrum-X网络平台：NVIDIA Spectrum-X的核心是 Spectrum-4以太网交换机、BlueField-3 DPU、LinkX高性能线缆/模块和NVIDIA端到端加速软件，与传统以太网相比，实现了1.7倍的整体AI性能和效能提升，可在多租户环境中提供一致、可预测的性能，其中Spectrum-4提高了基于以太网AI云的性能与效率，与现有以太网的堆栈实现互通。单台交换机即可实现突破性的256个200Gb/s端口的连接，以支持AI云的增长和扩展。NVIDIA Spectrum-4:NVIDIA S

19、pectrum SN5000 系列交换机是第五代 Spectrum 以太网交换机，专为加速超大规模生成式 AI 网络而打造。SN5000 交换机的端口速度高达 800Gb/s，可为每个数据中心提供加速以太网，且不会影响性能和功能。NVIDIA BlueField-3 DPU：是一个 400Gb/s 基础设施计算平台，可对软件定义的网络、存储和网络安全进行线速处理。BlueField-3DPU 将强大的计算能力、高速网络和广泛的可编程性相结合，为要求严苛的工作负载提供软件定义的硬件加速解决方案。我们认为Spectrum-X是新时代组网能力的一种体现：用于使用以太网构建多租户、超大规模AI云。助力

20、客户显著提高 AI 云的性能和能效，并获得更高的可预测性和一致性，从而缩短上市时间并提高竞争优势。10资料来源：英伟达官网，GitHub，华西证券研究所NVIDIA Spectrum-X网络平台示意图AI计算集群示意图1.3.1 国产芯片之光：华为海思鲲鹏CPU鲲鹏包括服务器和PC机芯片：芯片端鲲鹏920面向数据中心，主打低功耗强性能。鲲鹏处理器是华为自主研发的基于ARM架构的企业级系列处理器产品，包含“算、存、传、管、智”五个产品系统体系。规格方面，鲲鹏920可以支持64个内核，主频可达2.6GHz，集成8通道DDR4，集成100G RoCE以太网卡。与此同时，鲲鹏920支持PCIe4.0及

21、CCIX接口，可提供640Gbps总带宽。根据华为云官微，华为表示鲲鹏920大部分性能提升来自优化的分支预测算法和增加的OP单元数量，以及改进的内存子系统架构。服务器端打造TaiShan服务器，实现高效能计算。华为还推出基于鲲鹏920的三款ARM TaiShan200 服务器，新服务器专为高性能、高效率场景而设计，主要应用于大数据、分布式存储、ARM原生应用等场景。构建自主生态，打造国产算力。目前，华为正基于“硬件开放、软件开源、使能伙伴、发展人才”的策略推动鲲鹏计算产业的发展。11鲲鹏芯片产品体系演进鲲鹏全栈开放，使能全产业伙伴创新资料来源：鲲鹏计算产业白皮书，鲲鹏官网，慧博，华西证券研究所

22、1.3.2 国产芯片之光：华为海思昇腾AI芯片全栈全场景AI芯片，构建智能计算架构核心昇腾 910 和昇腾 310 两款AI 芯片均使用华为的达芬奇架构，每个 AI 核心可以在 1 个周期内完成 4096 次 MAC 计算，集成了张量、矢量、标量等多种运算单元，支持多种混合精度计算，支持训练及推理两种场景的数据精度运算。基于昇腾系列AI处理器和基础软件构建Atlas人工智能计算解决方案，包括Atlas系列模块、板卡、小站、服务器、集群等丰富的产品形态，打造面向“端、边、云”的全场景AI基础设施方案，覆盖深度学习领域推理和训练全流程，可以满足不同场景的大模型计算需求。华为的全栈全场景AI解决方案

23、日臻完善。主要基于昇腾系列处理器和基础软件构建的全栈AI计算基础设施、行业应用及服务，包括昇腾系列芯片、Atlas系列硬件、芯片使能、CANN（异构计算架构）、AI计算框架、应用使能等。算力是衡量单卡性能的直观指标：参数方面，我们认为昇腾910芯片单卡算力已经可以与英伟达A100相媲美。12昇腾全栈 AI 软硬件平台，构筑智能世界的基石英伟达与华为参数比对架构架构算力算力最大功耗最大功耗昇腾310达芬奇架构3D Cube技术16 TOPSINT88 TOPSFP168W昇腾910达芬奇架构3D Cube技术640 TOPSINT8320 TFLOPSFP16310W英伟达A100NVIDIA

24、安培 GPU 架构624 TOPSINT8312 TFLOPSFP16300W英伟达H100NVIDIA Hoppe GPU 架构3958 TOPSINT81979 TFLOPSFP16700W资料来源：昇腾官网，英伟达官网，英伟达安培架构白皮书，华为云公众号，华西证券研究所1.4 华为昇腾芯片，统一达芬奇架构助力AI计算引擎昇腾AI芯片的计算核心主要由AI Core构成:AI Core采用了达芬奇架构，它包括了三种基础计算资源，矩阵计算单元、向量计算单元和标量计算单元。这三种计算单元分别对应了张量、向量和标量三种常见的计算模式，在实际的计算过程中各司其职，形成了三条独立的执行流水线，在系统软

25、件的统一调度下互相配合达到优化的计算效率,AI Core中的矩阵计算单元目前可以支持INT8、INT4和FP16的计算；向量计算单元目前可以支持FP16和FP32的计算。我们认为本质上讲昇腾芯片属于专为AI而生的特定域架构芯片。存储转换单元(MTE)是达芬奇架构的特色：比如通用GPU要通过矩阵计算来实现卷积，首先要通过Im2Col的方法把输入的网络和特征数据重新以一定的格式排列起来，通用GPU通过软件实现，效率较为低下，达芬奇架构采用了一个专用的存储转换单元来完成此过程，可以在较短的时间之内完成整个转置过程，定制化电路模块的设计可以提升AI Core的执行效率，从而能够实现不间断的卷积计算。1

26、3华为昇腾AI芯片架构图基础计算资源，矩阵计算单元、向量计算单元示意图资料来源：华为云社区，芯语，华西证券研究所1.5 华为HCCS互联技术，实现卡间高速互联HCCS是华为自研的高速互联接口，实现高效卡间连接。HCCS是华为自研的高速互联接口，片内RoCE可用于节点间直接互联。HCCS是HCCL的硬件形态，HCCL提供了深度学习训练场景中服务器间高性能集合通信的功能。每台设备具备两个HCCS环共8颗处理器（A0A7）。每个HCCS存在4颗处理器，同一HCCS内处理器可做数据交换，不同HCCS内处理器不能通信。单个AI处理器提供3条HCCS互连链路，提供最大90GB/s带宽能力。NPU载板由4个

27、AI处理器组成，3条HCCS组成一个4P Full mesh互联，4个AI处理器间互联带宽达到30GB/s，双向60GB/s。我们认为AI大算力集群背景下，单张AI芯片无法完成训练任务，需要联合多张AI芯片，数据传输速率同样重要，华为HCCS互联技术可以实现卡间高速互联，相较于PCIE模式有显著优势，能有效帮助服务器集群协同训练，从而加速AI的训练。14资料来源：昇腾官网，华西证券研究所HCCS互联拓扑图（K0-K3为鲲鹏处理器）昇腾AI集群组网要求1.6.1 华为Atlas 900 SuperCluster亮相，打开国产算力集群想象空间华为发布全新架构AI集群，支持超万亿参数大模型训练：在华

28、为全联接大会2023上，华为推出全新架构的昇腾AI计算集群Atlas 900 SuperCluster。新集群采用了全新的华为星河AI智算交换机CloudEngine XH16800，借助其高密的800GE端口能力，两层交换网络即可实现2250节点（等效于1.8万张卡）超大规模无收敛集群组网。华为Atlas 900 SuperCluster优势显著：新集群同时使用了创新的超节点架构，大大提升了大模型训练能力实现算力的资源统一调度，采用液冷设计。此外，发挥华为在计算、网络等领域的综合优势，从器件级、节点级、集群级和业务级全面提升系统可靠性，将大模型训练稳定性从天级提升到月级。15资料来源：华为官

29、网，搜狐，华西证券研究所华为Atlas 900 SuperCluster示意图华为Atlas 900 SuperCluster大模型连续训练时长1.6.2 华为发布“三力四总线”，打造智能世界数字基础大设施华为全联接大会2023期间，华为董事、ICT产品与解决方案总裁杨超斌发表了“拥抱AI时代，构筑智能世界数字基础大设施”的主题演讲:杨超斌表示:“三力四总线方案为行业智能化升级赋能，AI集群的大算力、大存力、大运力加速AI大模型打造，多场景AI算力和行业智能总线实现智能无处不在。”未来人工智能将向两个方面不断迭代发展：一方面，AI模型的参数变大对于计算、存储、网络资源需求急剧提升，需要构筑具备

30、大算力、大存力、大运力的“AI集群大设施”；另一方面，人工智能面向千行万业走深向实，关键是构建多场景AI算力，和广域、园区、工业和微企四大核心行业场景的智能联接总线。华为发布“大算力，大存力，大运力”解决方案，打造领先的AI大模型训练集群：算力方面，华为通过架构和系统创新，构筑面向多场景的大算力平台，突破AI大模型训练的算力瓶颈。存力方面，华为发布领先的AI知识库存储OceanStor A800,以创新架构构建高性能数据存储。运力方面，华为发布业界首款高运力DCN星河AI智算交换机，和业界容量最大的超宽全光智能DCI方案，以大规模，大容量网络运力释放大算力。16资料来源：华为官网，搜狐，华西证

31、券研究所Ocean Stor Dorado示意图华为CloudEngine 16800系列数据中心交换机示意图1.6.3 华为发布星河AI网络解决方案，打造AI时代最强运力17资料来源：华为官网，星河AI网络白皮书，华西证券研究所华为星河AI网络解决方案示意图华为发布星河AI网络解决方案，以高运力释放AI时代的高算力:2023年9月20日，华为全联接大会期间，华为分享了对以大算力、大存力、大运力加速AI大模型打造的发展愿景。新一代华为星河AI网络解决方案华为数据通信产品线总裁王雷正式发布星河AI网络解决方案，为加速行业智能化转型提供强劲引擎。华为星河AI网络解决方案，打造AI时代最强运力。华为

32、星河AI网络优势显著：其所具备的超高吞吐网络特质，可以面向智算中心的AI集群提供提升网络负载率，强化训练效率的重要价值。具体来说，星河AI网络智算交换机具有业界最高密400GE和800GE端口能力，仅2层交换网络就可以实现1万8000卡的无收敛集群组网，从而支持超万亿参数的大模型训练星河AI网络可以支持网络级负载均衡NSLB，能够将负载率从50%提升到98%，相当于实现AI集群超频运行，继而将训练效率提升20%，达成高效能训练的预期。华为星河AI组网特征基于华为独创的多路径智能调度、流感知均衡调优和自适应抗丢包技术，实现“T级数据小时达”，转发运力提升8倍。弹性高并发弹性高并发超高吞吐超高吞吐

33、长稳可靠长稳可靠基于华为独创的全局负载均衡NSLB算法，实现算网实时协同调度，将网络有效吞吐从业界的50%提升到98%，大模型训练效率提升20%。利用全栈可视运维黑科技，实现大模型训练网络路径、流负载实时可视；结合Packet Event数据面异常感知技术和DPFR故障无感自愈技术，实现亚毫秒级故障快速收敛。华为全联接大会2023期间，华为计算产品线总裁张熙伟发表算力为基，共筑AI新生态主题演讲，他表示：华为将深耕算力底座，聚焦鲲鹏、昇腾基础软硬件创新，携手伙伴与开发者，打造开放、易用平台，使能百模千态，共赢数智未来。全面开放，灵活选择使能大模型创新:昇腾提供丰富的融合算子，如主

34、流的FlashAttention、FFN等，可在昇腾上实现性能倍级提升；其次，昇腾已全面支持PyTorch、飞桨、昇思等业界框架，同时PyTorch社区也在持续增强对昇腾的支持。在加速库与开发套件上，除了兼容业界主流的DeepSpeed、Megatron外，昇腾自主构建了大模型加速库AscendSpeed，提供丰富的大模型训练并行能力。同时，HuggingFace社区最新的Transformers、Accelerate等代码仓也已原生支持昇腾。模型层面上，目前已有50+主流的基础大模型基于昇腾训练迭代。深度开放，使能开发者构筑差异化竞争力：算子和加速库是决定大模型训练与推理性能的关键，为支撑开

35、发者孵化出更高性能的自定义算子、加速库，华为新增开放底层运行时，开发者可直接使用NPU上的核资源、控制流、任务调度等接口，原生构建差异化竞争力，各类接口将于年底前陆续开放。在编程上，今年5月华为发布的Ascend C编程语言，简化开发逻辑，匹配开发习惯。1.7 算力为底，携手基础软硬件创新，开启国产AI生态18资料来源：华为计算公众号，华西证券研究所全面开放，灵活选择使能大模型创新深度开放，使能开发者构筑差异化竞争力ModelZoo 2.0正式发布上线：昇腾社区全新升级了原有的ModelZoo，在已提供数百个预训练模型的基础上，年底前将持续上线40多个昇腾亲和的预训练大模型，目前，ModelZ

36、oo 2.0正式上线昇腾社区。大模型超级流水线，全流程使能大模型创新落地：华为还提供了大模型超级流水线，以友好的大模型开发环境和统一的全流程工具链，加速大模型的开发、迁移与部署。一方面，昇腾CANN的能力可开放给客户自有的推理引擎，帮助客户完成推理部署。另一方面，华为也提供昇腾推理引擎，将模型压缩、推理加速和推理执行等能力，以统一API接口提供出来，方便伙伴开发推理应用。鼓励昇腾原生创新，加速伙伴商业共赢：昇腾围绕科研创新使能计划和大模型促进计划，鼓励开发者基于昇腾原生创新，打造更具竞争力的场景化解决方案。技术创新上，华为将每年投入千万资金扶持科研院所，推出系列大模型课程赋能高校教学，围绕开发

37、者成长路径，激发价值创新。1.7 算力为底，携手基础软硬件创新，开启国产AI生态19资料来源：华为计算公众号，华西证券研究所大模型超级流水线，全流程使能大模型创新落地鼓励昇腾原生创新，加速伙伴商业共赢以AI赋能openEuler更智能，以openEuler使能AI更高效：一方面，大模型让欧拉更智能。面向终端用户，Windows 12结合AI为大家带来了无限期待，面向数字基础设施，欧拉作为首个广泛支持AI的开源操作系统，华为训练出了EulerCopilot，初步实现代码辅助生成、问题智能分析、系统辅助运维等功能。以前需要多领域专家协同解决的问题，未来都可以交给EulerCopilot。另一方面，

38、欧拉使能AI更高效，欧拉通过异构资源统一管理与调度，实现CPU和XPU的深度融合，以更全局、更均衡和更精细化的视角统筹内存和算力，充分挖掘空闲资源，提升有效利用率，进而提升AI训练和推理性能。鲲鹏全栈升级，使能伙伴更卓越，加速千行万业智能化：华为将持续我们持续升级鲲鹏软硬件平台，华为已经发布了天池架构，支持伙伴面向千行万业，快速推出差异化机型。基础软件方面，openEuler全场景协同能力持续增强，进一步提供负载动态感知等关键能力，做到开箱即优。同时，我们还升级了鲲鹏BoostKit和DevKit 2大套件，八大主流场景性能持续提升，通过四大场景化SDK助力鲲鹏高效原生开发。1.7 算力为底，

39、携手基础软硬件创新，开启国产AI生态20资料来源：华为计算公众号，华西证券研究所以AI赋能openEuler更智能，以openEuler使能AI更高效鲲鹏加速千行万业智能化全联接大会期间，华为发布金融大模型解决方案，构建无所不及的金融智能，包括场景层、模型层、底座层三层。场景层：华为首次推出AI for Data、AI for Business、AI for IT三大类10个应用场景，包括智能客服、信贷报告生成、智能数据分析、智能编程助手等。根据华为企业业务公众号消息，目前这十大场景都已经和金融机构合作落地。比如，在网点场景，某大行通过盘古大模型将以前5次操作缩短为1次，单次办结时间缩短5分钟

40、；模型层：盘古大模型具备100多种模型能力；在此之上，通过五类金融数据注入千亿级的金融Tokens；与金融机构和伙伴共创，沉淀了上千个细分场景模板；融合了100多个行业标准、规范等行业知识库；底座层：打造“算网存云”协同的智能底座，从高性能集群训练、高可靠模型保护、高效绿色节能三个方面为大模型提供澎湃算力：通过高速集群互联架构，将token处理时延降低至100ms以内，通过全液冷集群和多租户资源共享，将网络能效比从0.1提升到0.5 PFLOPS/KW。此外，华为发布金融级PaaS以全面升级分布式新核心3.0解决方案。目前已支持150多家金融客户走向应用现代化，从大型银行到城商农信，从国内到海

41、外金融机构，全面助力金融行业智能化升级。1.8 华为鲲鹏、昇腾、AI助力国产千行百业数字化升级21资料来源：华为企业业务公众号，华西证券研究所华为数字金融军团CEO曹冲发表主题演讲华为联合生态伙伴发布金融数据智能解决方案3.0智能制造行业方面：华为全联接大会2023期间，华为制造与大企业全球峰会成功举办，在生产制造场景，华为升级了智慧工厂2.0解决方案，一云一网一平台+N应用的智能工厂解决方案架构围绕智能化新应用，基于华为昇腾、鲲鹏、华为云盘古大模型等全栈AI能力，提升工厂质量检测、生产排程等场景AI算法的训练和部署效果，提升工厂智能化水平。在产业智能化创新场景，华为提出全栈工业AI平台方案，

42、以开放架构将华为的算力、算法和智能化平台能力运用到产品本身，助力汽车、软件、家电等众多行业的智能化产品创新。电力智能化方面：华为全联接大会2023期间，华为电力数字化军团举办了以“跃升数字生产力，加速电力智能化”为主题的全球电力峰会。新型电力系统，配网是主战场，为打通配网“毛细血管”，国网陕西省电力有限公司联合华为及28家伙伴进行了数字配电网建设的探索与实践。国网江苏省电力有限公司则积极布局算力体系，其基于华为算力底座和盘古大模型的电力大模型应用落地，探索出一套电力智能化的开发和应用模式。国网江苏省电力有限公司数字化工作部处长韦磊表示：“未来，我们将继续与华为等伙伴携手，扩大CV大模型工程应用

43、范围，开展NLP和多模态大模型创新试点。”1.8 华为鲲鹏、昇腾、AI助力国产千行百业数字化升级22资料来源：华为企业业务公众号，华西证券研究所华为数字金融军团CEO曹冲发表主题演讲华为全球智慧电力样板点正式发布大会期间，华为公共事业智能化聚焦教育、医疗、应急、财政、科技五大应用场景：华为全联接大会2023期间，华为聚焦公共事业行业场景需求，强调将联接、计算、云、AI、行业应用一体化协同发展，提供强大的算力服务和丰富的数据供给，赋能公共事业政府服务、社会生产与民生福祉的创新与变革，帮助政府实现兴业、降本、惠民、善政。”。教育方面：将AI与“备、教、练、考、评、管”多个场景深度融合，联接汇聚全场

44、景教育资源、支撑全方位开放协同、实现全周期运维运营和持续演进。从而打破教育边界，推动学校教育从三尺讲台到无边界学习的突破。医疗方面：以更逼近真实的方式理解生命机理和疾病机制，从中迭代出以患者为中心，覆盖诊断、治疗、康复和防治全生命周期的智能应用。应急方面：聚焦全方位、立体化的“防-训-救”公共安全防御体系，推动事后应急向事前预防转型，减轻灾害风险，应对综合减灾，降低人民生命财产安全损失。财政方面：使能财政业务系统从可用到好用转变，完善预算管理一体化系统功能，推动数据共享，挖掘数据决策价值，提升财政管理效能，以数字化、智能化新技术驱动财政管理创新和变革，进一步提升财政数据的价值。1.8 华为鲲鹏

45、、昇腾、AI助力国产千行百业数字化升级23资料来源：华为企业业务公众号，华西证券研究所政府与公共事业行业智能化架构白皮书全球发布华为公共事业系统部总裁夏尊发表主题发言02华为领衔演绎国产AI计算生态崛起24资料来源：华西证券研究所我们认为华为AI计算产业的核心在于芯片的自主可控，其中以鲲鹏和昇腾为主导的海思芯片尤为重要，因此国产集成电路产业突围尤为重要。我国集成电路发展迅速，需求量较高，产业重要性不可忽视：根据中国半导体行业协会显示，2017年至2021年，中国集成电路产业销售额呈逐年上升的趋势，2021年首次突破万亿，为10458.3亿元，较上年增长18.20%。产业链上游为集成电路设计环节

46、包括半导体设备、IP以及EDA等，中游包括IC设计、IC制造、IC封测等，下游应用包含消费电子、人工智能、航空航天、新能源、5G等。产业链下游应用领域中涵盖大量新兴产业，以至于发展集成电路产业已上升为国家战略的高度，成为我国技术发展的核心。国外制裁持续封锁我国技术发展，国家技术发展政策落地，国产突围势在必行：2016年至今，美国出台一系列针对中国芯片行业的限制措施，持续加码对中国的技术封锁。包括对华为及其70多家关联企业实施出口管制、限制购买ASML的目前最先进的芯片制造设备EUV等。为推进自主可控，近年我国发布了众多集成电路中央政策。今年9月，四部门发布关于提高集成电路和工业母机企业研发费用

47、加计扣除比例的公告，提高企业研发费用税前扣除比例，增厚企业利润，鼓励集成电路产业发展。2.1.1 集成电路产业突围：外部限制增多，国产突围势在必行25资料来源：中国半导体行业协会、中国新闻网、中央人民政府官网、中商产业研究院、华西证券研究所集成电路产业链2017-2021年，中国集成电路产业销售额近年，部分集成电路产业中央政策5411.36531.47562.3884810458.312006.10%5%10%15%20%25%30%0500010000150002017 2018 2019 2020 2021 2022国内集成电路产业销售额(亿元)同比增速日期日期政策政策内容概览内容概览20

48、22年3月关于做好2022享受税收优惠政策的集成电路企业或项目、软件企业清单指定工作有关要求通知重点集成电路设计领域包括：高性能处理器、智能传感器、汽车芯片、EDA、IP等2023年1月关于推动能源电子产业发展指导意见面向先进宽进宽带半导体材料与先进拓扑结构和封装技术、电子器件管技术等。2023年2月质量强国建设纲要加强包含集成电路图设计等知识产权保护。2023年9月关于提高集成电路和工业母机企业研发费用加计扣除比例的公告在2023年1月1日至2027年12月31日期间，再按照实际发生额的120%在税前扣除等。2.1.2 集成电路产业突围：芯片工艺流程产业链一览26资料来源：价值践行者公众号、

49、半导体材料与工艺设备公众号、华西证券研究所集成电路产业链芯片设计流程芯片工业流程分为芯片设计、芯片制造、芯片封测三个步骤。芯片设计：是芯片工艺流程的第一步，主要由设计公司负责。大致步骤包含规格指定、详细设计、HDL编码、仿真验证、逻辑综合等步骤。设计、检验、综合总是反复进行的。EDAEDA软件在此部分中担任设计方法学的载体。已然应用在了芯片设计的各个步骤中。芯片制造：即晶圆成品加工而制造集成电路的过程，主要由代工工厂负责。可以分为矽晶圆生产和集成电路制造两步骤。矽晶圆生产：选择“矽”作为IC的主要原料。经过纯化、拉晶、接入晶种等过程后，形成半导体导体产业所需的“单晶矽柱”。代工厂的技术水平决定

50、硅片的英寸参数，进而决定芯片的制程参数。集成电路制造：运用光学成像的原理，经过清洗、光刻、PVD/CVD、刻蚀等步骤，形成集成电路。其中光刻制程为技术壁垒较高的部分，光刻机的技术水平决定了生产出芯片的精度和性能。芯片封测：芯片封装目的为保护晶片在工作时不受外界的水气、灰尘、静电等影响。将晶圆厂生产的晶片、塑胶、陶瓷、金属外壳包装起来。芯片测试是指将制作好的晶片进行点收测试，检验晶片是否可以正常工作，以确定每片晶圆的可靠度与良率。通常封装前后都要进行测试。EDA（Electronic Design Automation,电子设计自动化）：被誉为“芯片之母”。是指用于辅助完成大规模集成电路芯片整个

展开阅读全文