收藏 分销(赏)

新一代计算架构超异构计算.pdf

上传人:Stan****Shan 文档编号:1382925 上传时间:2024-04-25 格式:PDF 页数:40 大小:6.49MB
下载 相关 举报
新一代计算架构超异构计算.pdf_第1页
第1页 / 共40页
新一代计算架构超异构计算.pdf_第2页
第2页 / 共40页
新一代计算架构超异构计算.pdf_第3页
第3页 / 共40页
新一代计算架构超异构计算.pdf_第4页
第4页 / 共40页
新一代计算架构超异构计算.pdf_第5页
第5页 / 共40页
点击查看更多>>
资源描述

1、新一代计算架构:超异构计算新一代计算架构:超异构计算黄 朝 波矩 向 科 技目 录目 录1.业务应用和算力基础2.微观性能和宏观算力3.计算架构的发展现状和面临的挑战4.从异构走向超异构及相关案例5.超异构处理器HPU算 力:数 字 经 济 核 心 生 产 力算 力:数 字 经 济 核 心 生 产 力文献1:IDC、浪潮、清华全球产业研究院联合发布的20212022全球计算力指数评估报告。文献2:算力:数字经济的核心生产力,方正梁,人民邮电报。l 算力在数字经济、数字社会和数字政府等领域得到广泛应用,算力赋能千行百业。l 算力已成为继热力、电力之后新的关键生产力。l 计算力指数平均每提高1个百

2、分点,数字经济和GDP将分别增长3.5和1.8。l 算力规模与经济发展水平呈现出显著的正相关关系,算力规模越大,经济发展水平越高。A I 算 力 需 求 指 数 级 增 长A I 算 力 需 求 指 数 级 增 长l OpenAI 2018年报告:自2012 年以来,AI训练的算力呈指数级增长,每 3.4个月翻一倍。七年间,AI算力增长了超过 300,000 倍。l 与2012年的模型相比,2020年提出的模型需要600万倍的计算能力。l 2023-2028年,AI所需算力将超100万倍。l ChatGPT的成功表明:大力真的可以出奇迹!文献1:Mehonic A,Kenyon AJ.Brai

3、n-inspired computing needs a master plan.Nature 2022;604(7905):255260.文献2:S.Zhu,T.Yu,T.Xu,H.Chen,S.Dustdar,S.Gigan,D.Gunduz,E.Hossain,Y.Jin,F.Lin et al.,“Intelligent Computing:The Latest Advances,Challenges and Future”,INTELLIGENT COMPUTING,3 Jan 2023,Vol 2自 动 驾 驶 汽 车,又 一 个 算 力 吞 金 兽自 动 驾 驶 汽 车,又 一

4、个 算 力 吞 金 兽l 大部分观点认为:L5级别自动驾驶算力至少需要4,000 TOPS;也有部分观点认为:需要超过10,000 TOPS。l 传感器数量越来越多,感知精度越来越高,AI模型越来越大,娱乐需求越来越丰富,各种需求促使着算力爆发式增长。l L5阶段,对娱乐的需求会猛增,综合算力需求超过20,000 TOPS。l 永无止境:更多更高的综合性需求,需要汽车平台算力持续快速增长。元 宇 宙,巨 量 算 力 支 撑 虚 实 融 合元 宇 宙,巨 量 算 力 支 撑 虚 实 融 合元宇宙需要源源不断的“算力能源”。要想实现元宇宙级别的体验,需将算力提升至少10,000倍:l 沉浸感所需的

5、16K效果,需要280.7Gbps带宽。目前的算力基础设施,还难以支撑如此高数据量的传输、处理和存储。l AI算力数量级提升:支撑数字人的AI算力需求急速增长;元宇宙快速发展,数字人的数量也会猛增。文献1:https:/ 题 本 质问 题 本 质文献:电影让子弹飞剧照落后的算力基础和先进的业务需求之间的矛盾!目 录目 录1.业务应用和算力基础2.微观性能和宏观算力3.计算架构的发展现状和面临的挑战4.从异构走向超异构及相关案例5.超异构处理器HPU处 理 器 皆 为 类 冯 诺 依 曼 架 构处 理 器 皆 为 类 冯 诺 依 曼 架 构l 一切系统的运行,可以归一到计算:系统由输入、计算、输

6、出三部分组成。l 冯诺依曼架构是计算机系统经典模型,由控制器、运算器、存储器、输入设备和输出设备五部分组成。l 所有各类处理器引擎,都遵循冯诺依曼架构的指导思想。或为冯诺依曼架构的变种,或为冯诺依曼架构的组合。所谓打破冯诺依曼架构,是无的放矢。互联网由终端、云端及边缘端组成。边缘端是代理层,代理云端为终端提供服务。终端是现实世界(包括我们人类)的接入层:终端是互联网大系统的I/O,负责现实世界和虚拟世界的交互。云 边 端 万 物 互 联云 边 端 万 物 互 联计 算 节 点 的 分 类计 算 节 点 的 分 类软 件 和 硬 件软 件 和 硬 件l 指令是软件和硬件的媒介,指令的复杂度(单位

7、计算密度)决定了系统的软硬件解耦程度。l ISA(指令集架构)之下,CPU GPU等各种处理器是硬件;ISA之上,各种程序、数据集、文件等是软件。l 按照指令的复杂度,典型的处理器平台大致分为CPU、协处理器、GPU、FPGA、DSA、ASIC。l 从左往右,单位计算越来越复杂,性能越来越好,而灵活性越来越低。l 任务在CPU运行,则定义为软件运行;任务在协处理器、GPU、FPGA、DSA或ASIC运行,则定义为硬件加速运行。单芯片性能=指令复杂度 x 运行频率 x 并行度实际总算力=单芯片性能 x 芯片数量 x 算力利用率“性能”和“算力”两个概念是一致的,区别在于“性能”是微观的概念,而“

8、算力”是宏观的概念。要想实现算力数量级提升,仅提升单芯片性能是不够的,需要全方位的协同优化创新,需要构建创新的计算技术体系。微 观 性 能 和 宏 观 算 力微 观 性 能 和 宏 观 算 力目 录目 录1.业务应用和算力基础2.微观性能和宏观算力3.计算架构的发展现状和面临的挑战4.从异构走向超异构及相关案例5.超异构处理器HPU计算从串行走向并行,处理器从单核走向多核。文献:https:/hpc.llnl.gov/documentation/tutorials/introduction-parallel-computing-tutorial计 算 从 串 行 走 向 并 行计 算 从 串

9、行 走 向 并 行2015年后,CPU性能翻倍需要20年,基于CPU的摩尔定律失效。层出不穷的新应用,需要不断增强的算力支撑。摩尔定律是KPI:产品性能升级,超过则生,不达则亡。摩尔定律将一直有效,驱赶着行业持续前进!基 于 C P U 的 摩 尔 定 律 失 效基 于 C P U 的 摩 尔 定 律 失 效文献1:https:/en.wikipedia.org/wiki/Transistor_count#/media/File:Moores_Law_Transistor_Count_1970-2020.png文献2:Computer Architecture:A Quantitative A

10、pproach,Sixth Edition,John L.Hennessy,David A.Patterson,Morgan Kaufmann Publishers,2019再 从 同 构 并 行 到 异 构 并 行再 从 同 构 并 行 到 异 构 并 行GPGPU+CUDA,GPU异构加速本质是众多并行的高效能通用处理器,CUDA编程友好性。01 基于GPU的异构并行硬件弹性,加速框架Shell/引擎Kernel,运行时RT,开发Stack等;FaaS、ISV等方式。02 基于FPGA的异构并行DSA是从ASIC回调,相比ASIC具有一定通用性,可以覆盖较多的场景。如谷歌TPU。03 基于

11、DSA的异构并行随着深度学习的流行,异构计算逐渐成为行业的主流。l 优势:GPU 并行计算性能效率比CPU高,并且场景覆盖较多,CUDA生态成熟。l AI的兴起,让GPU成为最佳的平台。也推高NVIDIA股价,成为全球市值最高的IC公司。文献:https:/ 构 并 行 案 例:G P U 服 务 器异 构 并 行 案 例:G P U 服 务 器异 构 计 算 存 在 的 问 题异 构 计 算 存 在 的 问 题l 系统越复杂,越需要灵活的处理器;性能挑战越大,越需要定制的加速处理器。问题本质:单一处理器无法兼顾性能和灵活性。l CPU性能瓶颈,摩尔定律失效。异构计算中的加速处理器,决定了整个

12、系统的性能/灵活性特征:GPU灵活性较好,但性能效率不够极致;并且性能也逐渐接近瓶颈。DSA性能好;但灵活性差,难以适应算法的多变;架构碎片化;落地困难。FPGA功耗和成本高,定制开发,落地案例少,通常用于原型验证。ASIC功能完全固定,无法适应灵活多变的复杂计算场景。l 多异构共存的计算孤岛问题:加速处理器只考虑本领域问题,难以考虑全局协同;各领域加速器之间交互困难;中心单元的性能瓶颈问题;物理空间有限,无法容纳多个物理的加速卡。目 录目 录1.业务应用和算力基础2.微观性能和宏观算力3.计算架构的发展现状和面临的挑战4.从异构走向超异构及相关案例5.超异构处理器HPUl 工艺持续进步、3D

13、堆叠以及Chiplet多Die封装,在芯片上可以容纳更多的晶体管,也意味在单芯片层次,可以构建规模数量级提升的超大系统。l 未来,量子工艺,可以代替现在的CMOS工艺。有了量子门级电路的强力支撑,上层的芯片和软件生态,可以更加蓬勃的发展。文献:https:/ 艺 和 封 装 创 新,支 撑 更 大 规 模 的 计 算工 艺 和 封 装 创 新,支 撑 更 大 规 模 的 计 算业务需求驱动+底层工艺和封装支撑,系统和架构需要创新。扩规模(Scale Out)的方式不本质的解决问题,需要通过提升单芯片性能(Scale Up)的方式。要想算力数量级提升,仅提升单芯片性能是不够的,需要全方位协同优化

14、,需要构建创新的计算技术体系。系 统 和 架 构 创 新系 统 和 架 构 创 新文献:https:/ 处理器“内卷”:每个处理器引擎都突破了通常意义上的各自边界,侵入到其他处理器引擎的领地:CPU集成协处理器。CPU不断扩展硬件加速指令集,形成协处理器集成进CPU。例如Intel Xeon支持AVX和AMX。GPU集成CUDA核,还集成DSA性质的Tensor核。FPGA集成CPU以及ASIC,形成SoC。例如AMD Xilinx Zynq。ASIC不断回调,变成部分可编程的DSA,可以当作是ASIC+DSA。各 类 处 理 器 都 在 拓 展 自 己 的 能 力 边 界各 类 处 理 器

15、都 在 拓 展 自 己 的 能 力 边 界要想高性能,势必降低灵活性,增加系统复杂度,使得系统难以驾驭。但是,我们不得不“迎难而上”。从 单 异 构 走 向 多 异 构 融 合 超 异 构从 单 异 构 走 向 多 异 构 融 合 超 异 构l 同构并行编程很难,异构并行编程是难上加难,超异构并行难上加难再加难。l 如何驾驭超异构?几种可能的方法:复杂大系统分解成简单小系统。依据系统的灵活性特征分层:业务应用层、弹性加速层和基础设施层,采用最合适的处理引擎。架构标准和开放:让处理器架构和生态收敛,防止碎片化。软硬件深度融合,让硬件具有更多软件的能力。这些能力包括功能的扩展性、资源弹性和扩展性、

16、完全的硬件虚拟化、硬件高可用等。如 何 驾 驭 超 异 构如 何 驾 驭 超 异 构超异构计算架构,是综合性的算力解决方案。随着算力需求不断提高,未来:一切皆超异构,兵家必争之地!计 算 架 构 的 发 展 阶 段计 算 架 构 的 发 展 阶 段2019年,Intel提出超异构计算相关概念:XPU是架构组合,包括CPU、GPU、FPGA 和其他加速器;oneAPI是开源的跨平台编程框架,底层是不同的XPU处理器,通过OneAPI提供一致性编程接口,使得应用跨平台复用。I n t e l:超 异 构、X P U 和 o n e A P II n t e l:超 异 构、X P U 和 o n

17、e A P IIntel IPU,集成多个领域DSA的基础设施加速芯片。IPDK是Intel开源的基础设施编程框架,可运行在IPU、DPU等平台。2022年6月,Intel和Linux基金会联合发起OPI项目:为IPU等下一代架构和框架培育社区驱动的基于标准的开放生态系统。I n t e l:I P U、I P D K 和 O P II n t e l:I P U、I P D K 和 O P I编号架构/特征用途分析1CPU应用不可加速部分,以及其他没有实现加速引擎的任务,兜底。CPU是Intel的优势领域,CPU生态最强大。2GPU应用层可加速部分,以及其他相对变化较大任务的加速。Intel

18、 Xe GPU:软件第一、并行第二,适应全新的工作负载。没有历史包袱,OneAPI跨平台优势。3FPGAIntel FPGA是全球第二大FPGA平台,相关生态成熟。4DSA类适合基础设施层任务。Intel IPU(处理器)5ASIC类6超异构CPU、GPU、DPU、AI芯片等,融合+重构到超异构计算架构。待整合,Intel大棋的最终目标。7跨平台任务可运行在云端、边缘甚至终端,运行在不同厂家的硬件平台的不同类型处理引擎。XPU战略和OneAPI框架。8可编程完全通用的计算平台从完全可编程网络,扩展到完全可编程的超异构计算。9开放开放架构,形成行业共识,架构收敛,主导架构生态。OneAPI(框架

19、)、IPDK(框架)+OPI(开源生态联盟)。不谋全局者,不足谋一域;不谋万世者,不足谋一时。I n t e l 超 异 构 分 析I n t e l 超 异 构 分 析NVIDIA自动驾驶Thor芯片,由数据中心架构的CPU+GPU+DPU三部分组成,算力高达2000TFLOPS的超异构计算芯片。Atlan和Thor架构相同,性能上有差异。符合超异构理念的第一款产品!此图为Atlan架构示意图N V I D I A 自 动 驾 驶 T h o rN V I D I A 自 动 驾 驶 T h o rNVIDIA Grace Hopper超级芯片是CPU+GPU,NVIDIA计划从Bluefi

20、eld DPU四代起,把DPU和GPU两者集成成单芯片。Chiplet技术逐渐成熟,未来趋势是CPU+GPU+DPU的超异构芯片。N V I D I A 数 据 中 心 布 局N V I D I A 数 据 中 心 布 局计算和网络不断融合:计算的很多挑战,需要网络的协同;网络设备也是计算机,加入计算集群,成为计算的一部分。数据在网络中流动,计算节点依靠数据流动来驱动计算,所有系统的本质是数据处理,那么所有的设备就都是DPU。以DPU为基础,不断的融合CPU和GPU的功能,DPU会逐渐演化成数据中心统一的超异构处理器。N V I D I A:一 切 处 理 器 都 是 D P UN V I D

21、 I A:一 切 处 理 器 都 是 D P U目 录目 录1.业务应用和算力基础2.微观性能和宏观算力3.计算架构的发展现状和面临的挑战4.从异构走向超异构及相关案例5.超异构处理器HPU图灵奖获得者John H.和David P.2017年提出“计算机体系结构的黄金年代”,给出的解决方案是特定领域架构DSA。DSA架构分离的趋势导致平台和生态碎片化,未来,正确的趋势应该是从分离再回到融合。计 算 机 体 系 结 构 演 进:从 合 到 分,再 从 分 到 合计 算 机 体 系 结 构 演 进:从 合 到 分,再 从 分 到 合SGP-HPU:Extremely Scalable Gener

22、al Purpose Hyper-heterogeneous Processing Unit,极致可扩展的通用超异构处理器。超 异 构 处 理 器 的 典 型 功 能超 异 构 处 理 器 的 典 型 功 能编号对比项SOCHPU1系统单系统。多个分布式集群系统,混合部署在多个HPU;单个HPU运行多个系统。2虚拟化不支持,或部分支持。虚拟化性能损耗超过30%。虚拟化是简单系统和复杂系统的核心区别。原生支持完全硬件虚拟化,虚拟化损耗为0。3异构融合硬件层次异构独立,通过软件实现异构融合。硬件原生的异构融合。4计算模式CPU指令流驱动计算。数据流驱动计算。5扩展性独立系统,几乎没有扩展性。可编程

23、功能扩展,虚拟化弹性扩展,子系统解耦的平行扩展,跨芯片“无限”扩展。6Chiplet互联需要针对性修改架构。原生支持,系统架构和上层软件不需要改动。7设计规模假设SOC可支持的设计规模为1。GP-HPU设计规模可支持10+甚至100+。H P U 与 传 统 S O C 的 区 别H P U 与 传 统 S O C 的 区 别可广泛使用在边缘计算服务器、存储服务器、企业云服务器等轻量级场景,占服务器数量的80%以上。H P U 用 在 边 缘 等 轻 量 服 务 器 场 景H P U 用 在 边 缘 等 轻 量 服 务 器 场 景数据中心技术“下沉”车端:虚拟化、SOA、SDx等。单硬件多系统,系统间应用、数据、性能、故障、安全等隔离。李克强院士提出智能网联汽车中国方案:通过边端深度协同,在单芯片能力较弱情况下,实现系统级能力更优。H P U 用 在 自 动 驾 驶&智 能 网 联 汽 车 场 景H P U 用 在 自 动 驾 驶&智 能 网 联 汽 车 场 景NVIDIA Thor多域融合,2000 TOPS算力云网边端融合,计算架构趋于统一。超异构可广泛的应用在云计算、边缘计算、超级终端,甚至网络计算、智能计算和超算HPC。超 异 构 更 加 广 泛 的 应 用 领 域超 异 构 更 加 广 泛 的 应 用 领 域THANKS!THANKS!

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 研究报告 > 其他

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服