收藏 分销(赏)

2024高通AI白皮书-让AI触手可及.pdf

上传人:宇*** 文档编号:4274270 上传时间:2024-09-02 格式:PDF 页数:78 大小:7.53MB 下载积分:20 金币
下载 相关 举报
2024高通AI白皮书-让AI触手可及.pdf_第1页
第1页 / 共78页
2024高通AI白皮书-让AI触手可及.pdf_第2页
第2页 / 共78页


点击查看更多>>
资源描述
让AI触手可及高通AI白皮书 Qualcomm AI White Paper高通AI 白皮书Qualcomm AI White Paper序 言携手合作 拥抱AI终端创新的黄金时代高通公司中国区董事长 孟樸PREAMBLE一年前,高通公司发布了 混合AI是AI的未来 白皮书,率先向业界分享了对人工智能(AI)技术发展趋势的洞察。那时,ChatGPT 等生成式AI初露锋芒,这一现象级的应用引发了产业界对这场AI技术革命的广泛探讨和巨大期待。人们开始意识到,生成式AI将为各行各业生产力的提升带来质变。从那时起,大模型技术日新月异,商业化应用的步伐不断加快。当每个人都希望无时无刻地拥有“个人大模型”时,生成式AI走向终端,成为了一个不可逆转的趋势。智能终端的新应用、新形态、新场景,正在为AI技术的普及提供广阔的空间,AI终端创新的黄金时代已经到来。当生成式AI展现出强大的能力和前景,我们也认识到,AI技术的真正价值在于其普惠性 要实现 AI人人可享、人人可用,需要让AI技术更加贴近用户,在人们触手可及的终端上运行。由此,AI的计算重心正在从云端向终端迁移。这是由市场需求、技术趋势和用户体验共同驱动的结果。从主机到智能手机、个人电脑(PC)等终端,计算能力的下沉使得这些终端也能够进行AI加速计算。这种分布式计算平台的运行,不仅提高了计算效率,也加速了AI在终端侧的演进。与此同时,AI能够本地运行,并根据用户需求与云端交互,人机交互将变得更自然、更即时、更加个性化,隐私性也更有保障。在这个过程中,5G作为关键的连接“底座”,为AI在云端、边缘云和终端侧协同奠定了坚实的基础。预计到2025年底,全球5G连接规模将达到25亿1。这正是“5G+AI”协同发展所带来的令人兴奋的变革它改变了用户体验的定义,丰富了千行百业的智能连接用例,也推动了新一轮终端创新的浪潮。在高通看来,这也正是生成式AI的革新意义 智能终端让AI成为无处不在的个人助理,推动终端与云端的融合,为智能手机带来新的互动方式,让汽车成为全新的运算空间,为下一代PC带来强大的AI能力,智能终端市场迎来了新的增长动力。从云到端:智能终端迎来新增长周期,让AI真正触手可及 GSMI、GTI、中移智库:5G新技术创造新价值 智能手机、PC、智能网联汽车位于AI终端创新的最前沿。其中,智能手机市场规模庞大,年出货量高达十几亿台。目前,众多手机厂商积极推广生成式AI应用,使得智能手机有望成为生成式AI发展最快的领域之一。据预测2,生成式AI智能手机出货量将在2023到2027年迅速增长,预计2024年出货量占比达到11%,到2027年将达到5.5亿部,占比43%,年均复合增长率为49%。AI应用场景不断拓展,各类算法模型日趋多样化和复杂,对底层算力的需求也与日俱增。如何将“大模型”高效装载到“小设备”,满足多样化的生成式 AI用例?这有赖于终端算力的革新升级。你的智能手机将成为个人AI助理的载体,帮你完成信息查找、场景识别、图像处理等各种任务。然而,这些任务对计算资源和处理能力的要求不尽相同。这就需要从以通用计算为核心的计算架构,向更加高性能的异构AI计算架构升级,让CPU、GPU和NPU等不同的计算单元“各司其职”。只有协同使用这些计算单元,异构计算才能在应用性能、能效和电池续航上实现最优化,让AI助理如虎添翼,赋能增强的生成式AI体验。作为 AI 前沿科技的开拓者和探索者,我们看到,终端侧AI规模化扩展正在点燃产业界的热情和信心,推动智能终端软硬件和生态层面的创新。我们也倍感自豪,高通能够成为推动这一进程的重要力量。今年3月,我们发布了 通过NPU和异构计算开启终端侧生成式AI白皮书,分享了高通在异构计算架构和NPU研究方面的创新成果。事实上,早在2007年,也就是生成式AI进入大众视野的15年前,高通就开始了对NPU的研究。多年来,高通致力于将高性能低功耗的AI计算能力带入终端设备,打造了专为AI定制设计的全新计算架构。通过异构计算AI引擎,我们将性能卓越的CPU、NPU和GPU进行组合,为行业提供了可行的解决方案,支持生态系统在跨多品类终端上开发并实现生成式AI用例、体验和领先产品,让智能计算无处不在。终端侧AI规模化扩展的发展浪潮,为大模型服务商、终端厂商、算力提供商、应用开发者等产业链各方,带来了前所未有的发展机遇。据预测3,对端侧AI能力的需求可能会引发新一轮的换机热潮,并有助于提高设备的平均销售价格(ASP),AI能力将成为手机厂商推进高端化的有效发力点。小米、荣耀、OPPO、三星等品牌均已推出支持丰富生成式AI应用的旗舰机型。在PC领域,预计到2027年4,超过 60%出货的PC将是AI PC。从“百模”到“百端”:让高性能的AI处理成为可能,赋能终端侧AI规模化扩展从共享机遇到共建生态:共创AI终端创新的黄金时代2 Counterpoint:生成式AI智能手机出货量将大涨,2027年占比达43%3 Canalys:洞悉中国手机市场的AI趋势与潜力4 Canalys:Canalys报告摘要:AI PC的现在和未来2024年世界移动通信大会(MWC)期间,高通凭借领先的AI技术创新,荣获全球移动大奖(GLOMO奖)的“最佳人工智能创新奖”5,专为生成式AI而生的移动平台第三代骁龙8荣获“设备创新突破奖”6,赋能智能手机体验的全面突破,让智能计算无处不在。全球移动大奖(GLOMO奖)是全球数字智能领域的最高奖项,表彰推动移动行业进步的巨擘级创新7。面对AI终端产业机遇,我们始终相信,要实现让智能计算无处不在、AI触手可及,需要产业链上下游的通力合作,需要包括中国在内的全球生态系统的创新与协作。这将加速AI技术在各领域的普及与应用,为形成新质生产力蓄势赋能。高通的AI领先优势得益于与业界的深度合作。无论是高通的异构计算能力,还是可扩展的AI软件工具等,都需要与客户的终端深度结合才能实现。我们也很高兴地看到,高通的AI解决方案和骁龙平台正在成为推动终端侧AI体验的关键引擎 手机厂商基于第三代骁龙8移动平台,为消费者打造突破性的AI体验;PC厂商通过骁龙X系列平台产品组合,为企业用户和消费者带来强大生产力、丰富创造力和沉浸式娱乐体验;汽车厂商也基于骁龙数字底盘,将智能网联汽车上的生成式AI应用与云端AI相结合,为用户创造更好的驾乘体验。目前,高通AI引擎赋能的终端产品出货量已经超过了20亿。与此同时,为了与生态伙伴共建开放生态,高通推出了AI Hub,让开发者充分发挥前沿技术的潜力,共同推进终端侧AI的规模化商用进程。我们希望能够打造一个横向生态系统,让所有模型在终端上可以和谐共生,带来跨多个生态系统的全新AI体验。在终端侧AI规模化扩展的机遇面前,我们倍感振奋,将一如既往地通过技术创新与合作共赢,担当推动终端侧AI发展的重要力量。期望各界能够从我们最新结集发布的让AI触手可及 高通AI白皮书 中,更加系统性地了解高通在AI技术演进和应用落地方面的见解和洞察。这不仅是高通在AI领域持续探索、不断突破的有力见证,也凝聚了高通与行业伙伴共同智慧的结晶。让我们携手共同迈向激动人心的AI新时代,一同探索AI终端创新的无限可能,见证AI科技变革千行百业、成就人类美好生活的壮阔进程。2024设备创新突破奖第三代骁龙82024最佳人工智能创新奖高通人工智能引擎高通连续2年入围全球移动大奖6 奖项名称 Breakthrough device innovation,请以英文为准5 奖项名称 Best AI Innovation,请以英文为准7 奖项信息源自官方介绍,https:/ 第三代骁龙8的领先智能手机上AI性能8.2 骁龙 X Elite的领先PC上AI性能1415167.1 高通AI引擎中的处理器7.2 高通AI异构计算的系统级解决方案7.3 案例研究:使用异构计算的虚拟化身AI个人助手通过NPU和异构计算开启终端侧生成式AI第一部分 PART ONETable of contents1.摘要2.生成式AI简介和当前趋势3.混合AI对生成式AI规模化扩展至关重要4.终端侧AI的演进与生成式AI的需求密切相关 5.跨终端品类的生成式AI关键用例6.总结4.1 终端侧处理能够支持多样化的生成式AI模型2726303030303232323333333537424043435043444649终端侧AI和混合AI开启生成式AI的未来3.1 什么是混合AI?3.2 混合AI的优势3.2.1 成本3.2.2 能耗3.2.3 可靠性、性能和时延3.2.4 隐私和安全3.2.5 个性化3.3 AI工作负载的分布式处理机制3.3.1 以终端为中心的混合AI3.3.2 基于终端感知的混合AI3.3.3 终端与云端协同处理的混合AI5.1 智能手机:搜索和数字助手5.2 笔记本电脑和PC:生产力5.3 汽车:数字助手和自动驾驶5.4 XR:3D内容创作和沉浸式体验5.5 物联网:运营效率和客户支持第二部分 PART TWOTable of contents高通在推动混合AI规模化扩展方面独具优势1.摘要3.我们在终端侧生成式AI领域的领导力4.卓越的终端侧AI技术和全栈优化 5.无与伦比的全球边缘侧布局和规模 6.总结2.1 持续创新2.1.1 我们AI技术的发展历程3.1 突破终端侧和混合AI边界3.2 负责任的AI 4.1 算法和模型开发4.2 软件和模型效率4.2.1 量化4.2.2 编译4.3 硬件加速5.1 手机5.2 汽车5.3 PC和平板电脑5.4 物联网5.5 XR5453525455555658575862626367666867676868第三部分 PART THREE2.高通技术公司是终端侧AI的领导者生成式AI时代需要何种算力?Unlocking on-device generative AI with an NPU and heterogeneous computing高通AI白皮书 第一部分通过NPU和异构计算开启终端侧生成式AI 1.摘要生成式AI变革已经到来。随着生成式AI用例需求在有着多样化要求和计算需求的垂直领域不断增加,我们显然需要专为AI定制设计的全新计算架构。这首先需要一个面向生成式AI全新设计的神经网络处理器(NPU),同时要利用异构处理器组合,比如中央处理器(CPU)和图形处理器(GPU)。通过结合NPU使用合适的处理器,异构计算能够实现最佳应用性能、能效和电池续航,赋能全新增强的生成式AI体验。NPU专为实现低功耗加速AI推理而全新打造,并随着新AI用例、模型和需求的发展不断演进。优秀的NPU设计能够提供正确的设计选择,与AI行业方向保持高度一致。高通正在助力让智能计算无处不在。业界领先的高通 Hexagon NPU面向以低功耗实现持续稳定的高性能AI推理而设计。高通NPU的差异化优势在于系统级解决方案、定制设计和快速创新。通过定制设计NPU以及控制指令集架构(ISA),高通能够快速进行设计演进和扩展,以解决瓶颈问题并优化性能。Hexagon NPU是高通业界领先的异构计算架构高通AI引擎中的关键处理器,高通AI引擎还包括高通 Adreno GPU、高通 Kryo或高通 Oryon CPU、高通传感器中枢和内存子系统。这些处理器为实现协同工作而设计,能够在终端侧快速且高效地运行AI应用。我们在AI基准测试和实际生成式AI应用方面的行业领先性能就是例证。我们还专注于在全球搭载高通和骁龙平台的数十亿终端设备上实现便捷开发和部署,赋能开发者。利用高通AI软件栈(Qualcomm AI Stack),开发者可在高通硬件上创建、优化和部署AI应用,一次编写即可实现在不同产品和细分领域采用高通芯片组解决方案进行部署。高通技术公司正在赋能终端侧生成式AI的规模化扩展。第一部分通过NPU和异构计算开启终端侧生成式AIPART ONEUnlocking on-device generative AI with an NPU and heterogeneous computing02 2.处理器集成于SoC中的诸多优势在不断增长的用户需求、全新应用和终端品类以及技术进步的驱动下,计算架构正在不断演进。最初,中央处理器(CPU)就能够完成大部分处理,但随着计算需求增长,对全新处理器和加速器的需求出现。例如,早期智能手机系统由CPU和环绕CPU分布的分立芯片组成,用于2D图形、音频、图像信号处理、蜂窝调制解调器和GPS等处理。随着时间推移,这些芯片的功能已经集成到称为系统级芯片(SoC)的单个芯片体(DIE)中。例如,现代智能手机、PC和汽车SoC已集成多种处理器,如中央处理器(CPU)、图形处理器(GPU)和神经网络处理器(NPU)。芯片设计上的这种集成具有诸多优势,包括改善峰值性能、能效、单位面积性能、芯片尺寸和成本。例如,在智能手机或笔记本电脑内安装分立的GPU或NPU会占用更多电路板空间,需要使用更多能源,从而影响工业设计和电池尺寸。此外,输入/输出引脚间的数据传输也将增多,将导致性能降低、能耗增加,以及采用更大电路板带来的额外成本和更低的共享内存效率。对于智能手机、笔记本电脑和其他需要轻巧工业设计,具有严格功率和散热限制的便携式终端,集成更为必要。图1:现代SoC在单个DIE中集成多个处理器以改善峰值性能、能效、单位面积性能、工业设计和成本。CPUGPUNPUWi-FiISP传感内存蜂窝调制解调器安全03 3.生成式AI需要多样化的处理器谈到AI,集成专用处理器并不新鲜。智能手机SoC自多年前就开始利用NPU改善日常用户体验,赋能出色影像和音频,以及增强的连接和安全。不同之处在于,生成式AI用例需求在有着多样化要求和计算需求的垂直领域不断增加。这些用例可分为三类:1.按需用例由用户触发,需要立即响应,包括照片/视频拍摄、图像生成/编辑、代码生成、录音转录/摘要和文本(电子邮件、文档等)创作/摘要。这包括用户用手机输入文字创作自定义图像、在PC上生成会议摘要,或在开车时用语音查询最近的加油站。2.持续型用例运行时间较长,包括语音识别、游戏和视频的超级分辨率、视频通话的音频/视频处理以及实时翻译。这包括用户在海外出差时使用手机作为实时对话翻译器,以及在PC上玩游戏时逐帧运行超级分辨率。3.泛在用例在后台持续运行,包括始终开启的预测性AI助手、基于情境感知的AI个性化和高级文本自动填充。例如手机可以根据用户的对话内容自动建议与同事的会议、PC端的学习辅导助手则能够根据用户的答题情况实时调整学习资料。这些AI用例面临两大共同的关键挑战。第一,在功耗和散热受限的终端上使用通用CPU和GPU服务平台的不同需求,难以满足这些AI用例严苛且多样化的计算需求。第二,这些AI用例在不断演进,在功能完全固定的硬件上部署这些用例不切实际。因此,支持处理多样性的异构计算架构能够发挥每个处理器的优势,例如以AI为中心定制设计的NPU,以及CPU和GPU。每个处理器擅长不同的任务:CPU擅长顺序控制和即时性,GPU适合并行数据流处理,NPU擅长标量、向量和张量数学运算,可用于核心AI工作负载。CPU和GPU是通用处理器。它们为灵活性而设计,非常易于编程,“本职工作”是负责运行操作系统、游戏和其他应用等。而这些“本职工作”同时也会随时限制他们运行AI工作负载的可用容量。NPU专为AI打造,AI就是它的“本职工作”。NPU降低部分易编程性以实现更高的峰值性能、能效和面积效率,从而运行机器学习所需的大量乘法、加法和其他运算。通过使用合适的处理器,异构计算能够实现最佳应用性能、能效和电池续航,赋能全新增强的生成式AI体验。04Unlocking on-device generative AI with an NPU and heterogeneous computing第一部分通过NPU和异构计算开启终端侧生成式AI 4.NPU入门NPU专为实现以低功耗加速AI推理而全新打造,并随着新AI用例、模型和需求的发展不断演进。对整体SoC系统设计、内存访问模式和其他处理器架构运行AI工作负载时的瓶颈进行的分析会深刻影响NPU设计。这些AI工作负载主要包括由标量、向量和张量数学组成的神经网络层计算,以及随后的非线性激活函数。在2015年,早期的NPU面向音频和语音AI用例而设计,这些用例基于简单卷积神经网络(CNN)并且主要需要标量和向量数学运算。从2016年开始,拍照和视频AI用例大受欢迎,出现了基于Transformer、循环神经网络(RNN)、长短期记忆网络(LSTM)和更高维度的卷积神经网络(CNN)等更复杂的全新模型。这些工作负载需要大量张量数学运算,因此NPU增加了张量加速器和卷积加速,让处理效率大幅提升。有了面向张量乘法的大共享内存配置和专用硬件,不仅能够显著提高性能,而且可以降低内存带宽占用和能耗。例如,一个NxN矩阵和另一个NxN矩阵相乘,需要读取2N2个值并进行2N3次运算(单个乘法和加法)。在张量加速器中,每次内存访问的计算操作比率为N:1,而对于标量和向量加速器,这一比率要小得多。在2023年,大语言模型(LLM)比如Llama 2-7B,和大视觉模型(LVM)比如Stable Diffusion赋能的生成式AI使得典型模型的大小提升超过了一个数量级。除计算需求之外,还需要重点考虑内存和系统设计,通过减少内存数据传输以提高性能和能效。未来预计将会出现对更大规模模型和多模态模型的需求。06Unlocking on-device generative AI with an NPU and heterogeneous computing第一部分通过NPU和异构计算开启终端侧生成式AI随着AI持续快速演进,必须在性能、功耗、效率、可编程性和面积之间进行权衡取舍。一个专用的定制化设计NPU能够做出正确的选择,与AI行业方向保持高度一致。图2:NPU随着不断变化的AI用例和模型持续演进,实现高性能低功耗。20152016-202220232023后用例标量向量标量张量向量标量张量向量模型硬件简单CNN100亿参数LLM/LVM100亿参数以上LLM/LVMTransformer/LSTM/RNN/CNNTransformer支持Transformer支持多模态生成式AI模型Stable Diffusion/ControlNet大语言模型赋能的个人助手音频/语音音频/语音影像视频多模态AI微切片推理07 5.高通NPU:以低功耗实现持久稳定的高性能AI经过多年研发,高通 Hexagon NPU不断演进,能够满足快速变化的AI需求。2007年,首款Hexagon DSP在骁龙平台上正式亮相DSP控制和标量架构是高通未来多代NPU的基础。2015年,骁龙820处理器正式推出,集成首个高通AI引擎,支持成像、音频和传感器运算。2018年,高通在骁龙855中为Hexagon NPU增加了Hexagon张量加速器。2019年,高通在骁龙865上扩展了终端侧AI用例,包括AI成像、AI视频、AI语音和始终在线的感知功能。2020年,高通凭借Hexagon NPU变革性的架构更新,实现了重要里程碑。我们融合标量、向量和张量加速器,带来了更佳性能和能效,同时还为加速器打造了专用大共享内存,让共享和迁移数据更加高效。融合AI加速器架构为高通未来的NPU架构奠定了坚实基础。2022年,第二代骁龙8中的Hexagon NPU引入了众多重要技术提升。专用电源传输轨道能够根据工作负载动态适配电源供应。微切片推理利用Hexagon NPU的标量加速能力,图3:2015年发布的骁龙820首次集成高通AI引擎。08Unlocking on-device generative AI with an NPU and heterogeneous computing第一部分通过NPU和异构计算开启终端侧生成式AI将神经网络分割成多个能够独立执行的微切片,消除了高达10余层的内存占用,能够最大化利用Hexagon NPU中的标量、向量和张量加速器并降低功耗。本地4位整数(INT4)运算支持能够提升能效和内存带宽效率,同时将INT4层和神经网络的张量加速吞吐量提高一倍。Transformer网络加速大幅加快了应用于生成式AI的多头注意力机制的推理速度,在使用MobileBERT模型的特定用例中能带来高达4.35倍的惊人AI性能提升。其他特殊硬件包括改进的分组卷积、激活函数加速和张量加速器性能。第三代骁龙8中的Hexagon NPU是高通面向生成式AI最新、也是目前最好的设计,为持续AI推理带来98%性能提升和40%能效提升1。它包括了跨整个NPU的微架构升级。微切片推理进一步升级,以支持更高效的生成式AI处理,并降低内存带宽占用。此外,Hexagon张量加速器增加了独立的电源传输轨道,让需要不同标量、向量和张量处理规模的AI模型能够实现最高性能和效率。大共享内存的带宽也增加了一倍。基于以上提升和INT4硬件加速,Hexagon NPU成为面向终端侧生成式AI大模型推理的领先处理器。1 与前代平台相比。图4:第三代骁龙8的Hexagon NPU升级以低功耗实现领先的生成式AI性能。升级的微切片推理微架构升级加速器专用电源高通峰值性能内核2倍带宽更高主频更大带宽进入张量加速器Micro TileInferencingHexagonTM NPUHardwareAccelerationLarge Shared MemorySegNetTensorScalarVectorDedicated Power09高通NPU的差异化优势在于系统级解决方案、定制设计和快速创新。高通的系统级解决方案考量每个处理器的架构、SoC系统架构和软件基础设施,以打造最佳AI解决方案。要在增加或修改硬件方面做出恰当的权衡和决策,需要发现当前和潜在的瓶颈。通过跨应用、神经网络模型、算法、软件和硬件的全栈AI研究与优化,高通能够做到这一点。由于能够定制设计NPU并控制指令集架构(ISA),高通架构师能够快速进行设计演进和扩展以解决瓶颈问题。这一迭代改进和反馈循环,使我们能够基于最新神经网络架构持续快速增强高通NPU和高通AI软件栈。基于高通的自主AI研究以及与广大AI社区的合作,我们与AI模型的发展保持同步。高通具有开展基础性AI研究以支持全栈终端侧AI开发的独特能力,可赋能产品快速上市,并围绕终端侧生成式AI等关键应用优化NPU部署。相应地,高通NPU历经多代演进,利用大量技术成果消除瓶颈。例如,第三代骁龙8的诸多NPU架构升级能够帮助加速生成式AI大模型。内存带宽是大语言模型token生成的瓶颈,这意味着其性能表现更受限于内存带宽而非处理能力。因此,我们专注于提高内存带宽效率。第三代骁龙8还支持业界最快的内存配置之一:4.8GHz LPDDR5x,支持77GB/s带宽,能够满足生成式AI用例日益增长的内存需求。从DSP架构入手打造NPU是正确的选择,可以改善可编程性,并能够紧密控制用于AI处理的标量、向量和张量运算。高通优化标量、向量和张量加速的设计方案结合本地共享大内存、专用供电系统和其他硬件加速,让我们的解决方案独树一帜。高通NPU能够模仿最主流模型的神经网络层和运算,比如卷积、全连接层、Transformer以及主流激活函数,以低功耗实现持续稳定的高性能表现。10Unlocking on-device generative AI with an NPU and heterogeneous computing第一部分通过NPU和异构计算开启终端侧生成式AI 6.异构计算:利用全部处理器支持生成式AI适合终端侧执行的生成式AI模型日益复杂,参数规模也在不断提升,从10亿参数到100亿,甚至700亿参数。其多模态趋势日益增强,这意味着模型能够接受多种输入形式比如文本、语音或图像,并生成多种输出结果。此外,许多用例需要同时运行多个模型。例如,个人助手应用采用语音输入输出,这需要运行一个支持语音生成文本的自动语音识别(ASR)模型、一个支持文本生成文本的大语言模型、和一个作为语音输出的文本生成语音(TTS)模型。生成式AI工作负载的复杂性、并发性和多样性需要利用SoC中所有处理器的能力。最佳的解决方案要求:1.跨处理器和处理器内核扩展生成式AI处理2.将生成式AI模型和用例映射至一个或多个处理器及内核选择合适的处理器取决于众多因素,包括用例、终端类型、终端层级、开发时间、关键性能指标(KPI)和开发者的技术专长。制定决策需要在众多因素之间进行权衡,针对不同用例的KPI目标可能是功耗、性能、时延或可获取性。例如,原始设备制造商(OEM)在面向跨品类和层级的多种终端开发应用时,需要根据SoC规格、最终产品功能、开发难易度、成本和应用跨终端层级的适度降级等因素,选择运行AI模型的最佳处理器。正如前述,大多数生成式AI用例可分类为按需型、持续型或泛在型用例。按需型应用的关键性能指标是时延,因为用户不想等待。这些应用使用小模型时,CPU通常是正确的选择。当模型变大(比如数十亿参数)时,GPU和NPU往往更合适。电池续航和能效对于持续和泛在型用例至关重要,因此NPU是最佳选择。另一个关键区别在于AI模型为内存限制型(即性能表现受限于内存带宽),还是计算限制型(即性能表现受限于处理器性能)。当前的大语言模型在生成文本时受内存限制,11因此需要关注CPU、GPU或NPU的内存效率。对于可能受计算或内存限制的大视觉模型,可使用GPU或NPU,但NPU可提供最佳的能效。提供自然语音用户界面(UI)以提高生产力并增强用户体验的个人助手预计将成为一类流行的生成式AI应用。语音识别、大语言模型和语音模型必将以某种并行方式运行,因此理想的情况是在NPU、GPU、CPU和传感处理器之间分布处理模型。对于PC来说,个人助手预计将始终开启且无处不在地运行,考虑到性能和能效,应当尽可能在NPU上运行。图5:正如在工具箱中选择合适的工具一样,选择合适的处理器取决于诸多因素。用例终端类型终端层级开发时间关键性能指标开发者技术专长选择什么处理器取决于:顺序控制低时延、低计算量以低功耗实现持续稳定的高峰值性能面向高精度格式的井行处理时延敏感型小模型持续运行的CNN和Transformer模型图像处理LLMLVM12Unlocking on-device generative AI with an NPU and heterogeneous computing第一部分通过NPU和异构计算开启终端侧生成式AI 7.高通AI引擎:面向生成式AI的业界领先异构计算高通AI引擎包含多个硬件和软件组件,以加速骁龙和高通平台上的终端侧 AI。在集成硬件方面,高通AI引擎具有业界最领先的异构计算架构,包括Hexagon NPU、Adreno GPU、高通 Kryo或高通 Oryon CPU、高通传感器中枢和内存子系统,所有硬件都经过精心设计以实现协同工作,在终端侧快速高效地运行AI应用。图6:高通AI引擎包括Hexagon NPU、Adreno GPU、高通 Kryo或高通Oryon CPU、高通传感器中枢和内存子系统。7.1 高通AI引擎中的处理器高通最新的Hexagon NPU面向生成式AI带来了显著提升,性能提升98%、能效提升40%,包括微架构升级、增强的微切片推理、更低的内存带宽占用,以及专用电源传输轨道,以实现最优性能和能效。这些增强特性结合INT4硬件加速,使Hexagon NPU成为面向终端侧AI推理的领先处理器。高通AI引擎14Unlocking on-device generative AI with an NPU and heterogeneous computing第一部分通过NPU和异构计算开启终端侧生成式AIAdreno GPU 不仅是能够以低功耗进行高性能图形处理、赋能丰富用户体验的强大引擎,还可用于以高精度格式进行AI并行处理,支持32位浮点(FP32)、16位浮点(FP16)和8位整数(INT8)运算。第三代骁龙8中全新升级的 Adreno GPU实现了25%的能效提升,增强了AI、游戏和流媒体能力。基于Adreno GPU,Llama 2-7B每秒可生成超过13个tokens。正如上一章节所述,CPU擅长时延敏感型的低计算量AI工作负载。在骁龙X Elite计算平台中,高通 Oryon CPU作为PC领域的全新CPU领军者,可提供高达竞品两倍的CPU性能,达到竞品峰值性能时功耗仅为竞品的三分之一。始终在线的处理器对于处理面向泛在型生成式AI应用的情境化信息至关重要。高通AI引擎集成的高通传感器中枢是一款极其高效、始终在线的AI处理器,适用于需要全天候运行的小型神经网络和泛在型应用,比如情境感知和传感器处理,所需电流通常不超过1毫安(mA)。第三代骁龙8中全新升级的高通传感器中枢相比前代性能提升3.5倍,内存增加30%,并配备两个下一代微型NPU,能够实现增强的AI性能。高通传感器中枢具备专用电源传输轨道,可在SoC其余部分关闭时运行,从而大幅节省电量。高通AI引擎中的所有处理器相辅相成,能够实现AI处理效率的大幅度提升。7.2 高通AI异构计算的系统级解决方案异构计算涵盖整个SoC,包括多样化处理器、系统架构和软件三个层级,因此在异构计算解决方案中应用系统级方法至关重要。全局视角让高通架构师可以评估每个层级之间的关键约束条件、需求和依赖关系,从而针对SoC和最终产品用途做出恰当的选择,比如如何设计共享内存子系统或决定不同处理器应支持的数据类型。高通定制设计了整个系统,因此我们能够做出恰当的设计权衡,并利用这些洞察打造更具协同性的解决方案。定制设计方法为高通解决方案带来了差异化优势,我们可以为每类处理器插入全新的AI指令或硬件加速器。高通致力于推动面向异构计算特性的架构演进,同时保持处理器多样性这一优势。如果所有处理器都采用相近的架构,那么SoC将变成同构系统。157.3 案例研究:使用异构计算的虚拟化身AI个人助手在2023骁龙峰会上,高通在搭载第三代骁龙8移动平台的智能手机上演示了语音控制的AI个人助手,支持手机屏幕上的虚拟化身实现实时动画效果。该应用需要同时基于不同计算需求,运行众多复杂工作负载。实现优秀用户体验的关键在于充分利用SoC内的处理器多样性,在最匹配的处理器上运行合适的工作负载。高通AI引擎是我们终端侧AI优势的核心,它在骁龙平台和众多高通产品中发挥了重要作用。高通AI引擎作为我们多年全栈AI优化的结晶,能够以极低功耗提供业界领先的终端侧AI性能,支持当前和未来的用例。搭载高通AI引擎的产品出货量已超过20亿,赋能了极为广泛的终端品类,包括智能手机、XR、平板电脑、PC、安防摄像头、机器人和汽车等。2 相比之下,许多芯片组厂商通常选择授权多个第三方处理器,然后拼装在一起。这些处理器不一定能够紧密配合,也不一定是针对相同约束条件或细分市场而设计的。2 https:/ on-device generative AI with an NPU and heterogeneous computing第一部分通过NPU和异构计算开启终端侧生成式AI让我们看看该如何分配这一用例的工作负载:1.当用户与AI助手交谈时,语音通过OpenAI的自动语音识别(ASR)生成式AI模型 Whisper转化为文本。该模型在高通传感器中枢上运行。2.AI助手再使用大语言模型Llama 2-7B生成文本回复。该模型在NPU上运行。3.然后利用在CPU上运行的开源TTS模型将文本转化为语音。4.与此同时,虚拟化身渲染必须与语音输出同步,才能实现足够真实的用户交互界面。借助音频创建融合变形动画(blendshape)能够给嘴形和面部表情带来合适的动画 效果。这一传统AI工作负载在NPU上运行。5.最终的虚拟化身渲染在GPU上进行。以上步骤需要在整个内存子系统中高效传输 数据,尽可能在芯片上保存数据。这一个人助手演示利用了高通AI引擎上的所有多样化处理器,以高效处理生成式和传统AI工作负载。图8:支持虚拟化身的个人助手充分利用高通AI引擎的所有多样化处理器。WhisperLlama 2UE MetaHuamn开源TTS语音生成融合变形动画大语言模型语 音融合变形动画虚拟化身渲染(Blendshape)ASR17图9:第三代骁龙8在AIMark、AITuTu和MLPerf中具有领先的智能手机AI性能。8.骁龙平台领先的AI性能实现领先性能需要卓越的硬件和软件。尽管每秒万亿次运算(TOPS)数值能够反映硬件性能潜力,但决定硬件可访问性和总体利用率的是软件。AI基准测试可以更好的展示性能,但最终的评估方式还是在实际应用中,测试峰值性能、持续稳定性能和能效。由于生成式AI基准测试和应用仍处于起步阶段,以下对当前领先AI指标的分析展示了骁龙平台的领先性能。8.1 第三代骁龙8的领先智能手机上AI性能在MLCommon MLPerf 推理:Mobile V3.1基准测试中,与其他智能手机竞品相比,第三代骁龙8具有领先性能。例如,在生成式AI语言理解模型MobileBERT上,第三代骁龙8的表现比竞品A高17%,比竞品B高321%3。在鲁大师AIMark V4.3基准测试中,第三代骁龙8的总分分别为竞品B的5.7倍和竞品C的7.9倍。在安兔兔AITuTu基准测试中,第三代骁龙8的总分是竞品B的6.3倍。3 高通技术公司在搭载骁龙和竞品B平台的手机上运行和收集数据。竞品A数据为其自身披露。智能手机AI基准测试MLCommon MLPerf 推理:Mobile V3.19 8 7 6 5 4 3 2 1 0鲁大师AIMark V4.3AIMark V4.3 总分AITuTu 总分V2.0 图像分割(MOSAIC)语言理解(MobileBERT)超级分辨率(EDSR)图像分类(MobilenetEdgeTPU)图像分类(MobileneEdgeTPU)物体检测(MobileDETSSD)相关性能安兔兔AITuTu第三代骁龙8竞品 A竞品 B竞品 C18Unlocking on-device generative AI with an NPU and heterogeneous computing第一部分通过NPU和异构计算开启终端侧生成式AI在2023年骁龙峰会上,高通演示过两个生成式AI应用,展示了面向大语言模型和大视觉模型通用架构的真实应用性能。在第三代骁龙8上,个人助手演示能够以高达每秒20个tokens的速度运行Llama 2-7B。在不损失太多精度的情况下,Fast Stable Diffusion能够在0.6秒内生成一张 512x512分辨率的图像4。高通有着智能手机领域领先的Llama和Stable Diffusion模型指标。8.2 骁龙 X Elite的领先PC上AI性能骁龙 X Elite上集成的Hexagon NPU算力达到45 TOPS,大幅领先于友商最新X86架构芯片NPU的算力数值。在面向Windows的UL Procyon AI基准测试中,与其他PC竞品相比,骁龙X Elite具有领先的性能。例如,骁龙X Elite的基准测试总分分别为X86架构竞品A的3.4倍和竞品B的8.6倍。图10:骁龙 X Elite在Procyon基准测试中具有领先的笔记本电脑AI性能。在骁龙X Elite上,Llama 2-7B模型能够在高通Oryon CPU上以高达每秒30个tokens的速度运行。在不损失太多精度的情况下,Fast Stable Diffusion能够在0.9秒内生成一张512x512分辨率的图像。高通有着笔记本电脑领域领先的Llama和Stable Diffusion模型指标。4 基于对比性语言-图像预训练(CLIP)模型分数,用于评估准确性,接近基线模型。面向Windows的UL Procyon AI推理基准测试总分ResNet-50DeeplabV3MobileNetV3InceptionV4YoloV3ESRGAN14.0012.0010.008.006.004.002.000.00相关性能骁龙X EliteX86
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 研究报告 > 其他

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4009-655-100  投诉/维权电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服