1、边缘计算 AI 推理技术场景与挑战 ODCC-2024-04001 1 边缘计边缘计算算 AIAI 推理技推理技术术场场景与挑景与挑战战 2024.09 发布 开放数据中心标准推进委员会 编号 ODCC-2024-04001 边缘计算 AI 推理技术场景与挑战 ODCC-2024-04001 II 编写组编写组 项目经理:项目经理:陈共龙 深圳市腾讯计算机系统有限公司 工作组长:工作组长:陈炜 深圳市腾讯计算机系统有限公司 贡献专家:贡献专家:李秋香 深圳市腾讯计算机系统有限公司 黄伟 北京百度网讯科技有限公司 黎正琛 北京百度网讯科技有限公司 郭利文 深圳富联富桂精密工业有限公司、张楠 富联
2、精密电子(天津)有限公司 张骏 英特尔 陈羿函 英特尔 任彤 中国信息通信研究院 常金凤 中国信息通信研究院 边缘计算 AI 推理技术场景与挑战 ODCC-2024-04001 III 前前 言言 在当今快速演进的技术时代,人工智能(AI)技术已成为推动工业、医疗和金融等领域革命性变革的核心力量。随着数据量的激增、计算需求的日益复杂化以及 AI 技术向大模型、多模态方向的演进,如何有效地部署 AI 模型以优化性能与成本,成为了企业和技术开发者面临的重大挑战。本文从探讨中心云和边缘计算节点在 AI 推理中的应用场景、优势、局限性出发,进一步深入分析 AI 推理在边缘计算节点产品中部署时遇到的挑战
3、以及未来的发展方向。边缘计算 AI 推理技术场景与挑战 ODCC-2024-04001 IV 目目 录录 版权声明.I 编写组.II 前 言.III 目 录.IV 一、AI 推理场景分析.1(一)中心云部署 AI 模型的典型场景分析.1 1.金融风险评估场景.1 2.文生图、文生视频等场景.3 3.中心云部署 AI 模型场景的特点总结.5(二)边缘计算节点部署 AI 模型的典型场景分析.6 1.多模态应用场景.6 2.智能交通与车辆智能.8 3.特点总结.10(三)边缘计算节点与中心云部署 AI 模型场景特点对比.11 1.模型类型.11 2.计算效率.11 3.数据传输.12 4.应用场景.
4、12 5.总结.12 二、边缘 AI 推理的挑战与需求.13(一)算力硬件层面挑战.13 1.有限的算力资源.14 边缘计算 AI 推理技术场景与挑战 ODCC-2024-04001 V 2.算力设备异构.14 3.功耗挑战.14(二)网络架构层面挑战.16 1.突发流量拥塞挑战.16 2.算力弹性组网挑战.17(三)算法层面挑战.19 1.量化的精度损失问题.19 2.模型剪枝的有效性与风险.19 3.微调与在线学习的适应性问题.19 4.跨模态数据处理挑战.20 三、未来技术趋势展望.20(一)可持续算力服务器.21 1.可持续 GenAI 系统架构技术.21 2.典型的可持续算力与液冷服
5、务器.23(二)边缘高性能、低延迟网络技术.25(三)算法层面未来潜在的趋势.27 四、总结.28 五、参考.30 边缘计算 AI 推理技术场景与挑战 ODCC-2024-04001 1 边缘计算边缘计算 AIAI 推理技术场景与挑战推理技术场景与挑战 一、一、AIAI 推理场景分析推理场景分析 (一)(一)中心云部署中心云部署 AIAI 模型的典型场景分析模型的典型场景分析 在当今的数字化时代,人工智能(AI)已经成为推动创新和业务转型的关键动力。将 AI 模型部署在中心云已成为一种成熟的做法,多年来持续发展。以下是一些通过中心云部署 AI 模型的典型场景,这些场景展示了如何利用云计算的优势
6、来推动 AI 技术的进一步发展和应用。1.1.金融风险评估场景金融风险评估场景 金融风险评估场景主要面向多种金融业务,包括银行、互联网金融、保险、证券、基金理财等领域。如,银行领域的贷款审批、信用评估、贷后管理等;互联网在线借贷平台的 P2P 借贷、消费金融等;保险业的保险承保、理赔审核等。腾讯云金融风控解决方案腾讯云金融风控解决方案旨在贴近金融业务场景,抓住典型风险类型,遵从风险管理流程,提供核心风控系统,为金融行业提供一站式的金融风控服务。该方案适用于银行、互联网金融、保险、证券、基金理财等多个金融业务场景,通过大数据和 AI 技术,帮助金融机构提升风险管理能力。边缘计算 AI 推理技术场
7、景与挑战 ODCC-2024-04001 2 图 1 腾讯云知识图谱风控系统 如图 1 所示,以腾讯云知识图谱风控系统为例,它为金融机构提供全量数据治理、知识融合、知识存储、知识计算和知识应用等技术和产品。它的优势包括:数据融合:数据融合:提供面向金融机构内外部数据的结构化和非结构化数据治理工具,高效治理和整合全维度数据,构造知识图谱数据模型。混合存储:混合存储:采用包含图存储、列式存储、索引存储、文件存储等技术的混合型数据存储架构,支持上亿级海量数据的高效存储和访问。智能分析:智能分析:整合自然语言处理、图计算、知识推理、机器边缘计算 AI 推理技术场景与挑战 ODCC-2024-04001
8、 3 学习等领先数据分析技术,对隐性关系、扩展属性、标签及子图进行大规模计算。知识图谱的典型模型包括图嵌入模型、图神经网络或者知识图谱补全模型等,参数量级从数百万到数十亿规模不等,对内存的需求在数 MB 到数 GB 之间。延迟响应方面的需求如下1:实时风险预警:实时风险预警:延迟需求在秒级(通常要求在 1 秒以内),比如,实时评估市场波动,提供风险预警。客户实时信用评估:客户实时信用评估:延迟需求在亚秒级(通常要求在 500毫秒以内),比如,在客户申请贷款或信用卡时,实时评估其信用风险。现有金融风险评估模型主要部署在中心云而不是边缘计算节点,主要原因包括以下几点:数据集中数据集中:金融机构的数
9、据通常集中存储,中心云能够方便地访问和处理海量数据,而边缘计算节点需要解决数据传输和存储的问题。数据处理能力数据处理能力:中心云通常拥有更强大的数据处理能力,这对于复杂的金融风险评估模型来说至关重要。2.2.文生图、文生视频等场景文生图、文生视频等场景 文生图和文生视频这类应用通常指的是能够根据用户输入的文本描述自动生成图片或视频的软件或服务。这些应用使用人工智能技术,特别是深度学习中的生成对抗网络(GANs)或变分自编码器边缘计算 AI 推理技术场景与挑战 ODCC-2024-04001 4 (VAEs)等模型,来理解文本内容并将其转化为视觉内容。这些应用在艺术创作、游戏设计、电影制作等领域
10、有着广泛的应用前景,它们可以帮助用户快速实现创意视觉化,节省传统创作过程中的时间和成本。比如,以百度智能云为例的文生图/视频的架构如下:文本预处理层文本预处理层:首先对输入的文本进行分词、语义解析等处理,确保文本内容能够被 AI 模型准确理解。AI 模型处理层模型处理层:通过训练好的大规模文生图/视频生成模型(如 Transformer 或 GAN 网络)接收预处理后的文本输入,根据文本的语义和风格指令,生成相应的图像或视频。渲染渲染与优化层与优化层:生成的原始图像或视频帧可能会进行进一步的渲染和后期处理,包括颜色调整、分辨率增强、画质优化等,以保证输出结果的视觉效果和逼真度。在百度智能云上部
11、署的主流模型主流模型包括包括:文图生成模型文图生成模型:专门训练于文本到图像的任务,能够从广泛的数据库中提取和合成元素以形成新颖且相关的图像。视频生成视频生成 GAN 模型模型:使用生成对抗网络(GANs)结构,其中一个模型负责生成视频,而另一个则尝试识别假视频与真实视频的差异,通过这种方式不断改进生成的视频质量。考虑到文生图和文生视频任务对模型的复杂度和深度需求极高,部署在百度中心云的模型参数规模通常非常大,可达数十亿乃至数千亿级别。例如,像 ERNIE 3.0 Titan 这样的大规模语言模型,在用于图边缘计算 AI 推理技术场景与挑战 ODCC-2024-04001 5 像和视频生成的扩
12、展时,也会相应增加网络层的深度和广度。同时,GAN 模型也可能包含多个子网络和生成器-判别器对抗机制,导致总参数量进一步上升。文生图、文生视频等场景部署在中心云的理由如下:强大的计算资源强大的计算资源:文生图和文生视频生成过程需要大量并行计算,而中心云能提供强大的计算能力支持,包括 GPU 加速和专用的 AI 算力实例,以满足复杂模型的训练和推理需求。丰富的存储空间丰富的存储空间:生成的海量图像和视频需要充足的存储空间,云对象存储(BOS)等服务能够提供高可用性和高吞吐量的数据存储方案,保障数据安全且访问快速。3.3.中心云部署中心云部署 AIAI 模型场景的特点总结模型场景的特点总结 算力强
13、大:中心云拥有庞大的计算资源,能够处理大规模数据和复杂计算任务。数据管理集中:所有数据都在中心云进行存储和管理,便于统一监控和维护。成本分摊:多个用户共享中心云的资源,降低了单个用户的成本。实时性受限:由于数据传输和处理的延迟,中心云部署的AI 模型在实时性方面可能不如边缘部署。边缘计算 AI 推理技术场景与挑战 ODCC-2024-04001 6 (二二)边缘计算节点边缘计算节点部署部署 AIAI 模型的典型场景分析模型的典型场景分析 在数字化和智能化迅速发展的今天,人工智能(AI)应用已渗透到生活的各个方面。多模态应用场景通过结合图像、视频、音频和文本等多种数据类型,利用 AI 技术进行综
14、合分析和处理,极大地拓展了 AI 的应用范围和深度。这些应用不仅包括 AI 辅助的代码生成、健身与教育,还扩展到智能交通和车辆智能等领域。这些技术的实现往往依赖于高效的数据处理和快速的响应速度,因此,边缘计算节点部署成为了一个理想的选择。边缘计算节点部署 AI 模型能够将数据处理和分析的过程从中心云转移到用户近端的边缘设备上,这样做有多重优势:首先,它可以显著降低延迟,对于需要即时反馈的应用场景尤为关键;其次,它能提高带宽效率,减少中心云的数据传输需求,节约资源;再次,边缘计算的部署增强了系统的可靠性,即使在网络不稳定的情况下也能保持服务的连续性;此外,边缘 AI 支持实时数据处理,加快了决策
15、和响应速度;最后,它还有助于降低整体的运营成本。其中,本文提到的边缘计算节点包括边缘云、现场边缘设备等。在接下来的章节中,我们将深入分析边缘计算节点部署 AI 模型的典型场景,探讨这种技术布局如何有效支持复杂的多模态应用,并在现实世界中发挥其独特的优势。通过具体案例,我们可以更好地理解边缘 AI 如何在不同领域内实现创新和提升效率。1.1.多模态应用场景多模态应用场景 边缘计算 AI 推理技术场景与挑战 ODCC-2024-04001 7 多模态应用场景指的是利用多种类型的数据(如图像、视频、音频、文本等)进行综合分析和处理,以实现更复杂和智能的应用。这些场景通常结合了计算机视觉、自然语言处理
16、和音频处理等多个领域的技术,通过多模态大模型(Multimodal AI Models)来处理和理解不同类型的数据,从而提供更全面和准确的结果。典型的应用场景比如:AI 辅助代码生成场景:辅助代码生成场景:通过手画设计界面、交互逻辑、数据结构等,直接拍照给多模态大模型,即可立即生成所需的代码;AI 辅助健身:辅助健身:用户仅需上传自己训练的视频,或者实时拍摄运动、健身的视频,AI 模型可以立刻对不标准动作纠偏,对正确动作给出激励,令用户快乐运动,寓教于乐;AI 辅助教育:辅助教育:用户仅需拍照习题,AI 模型就会立刻给出解答思路,也可以引导学生逐步解题,并立刻索引到相关大纲知识点,提高学习效率
17、;在上述场景中,将多模态模型部署在边缘计算节点而不是中心云机房有以下必要性:降低延迟:降低延迟:边缘计算可以显著减少数据传输的距离和时间,从而降低响应延迟。这对于实时应用场景,如 AI 辅助健身中的动作纠偏,非常重要。提高带宽效率:提高带宽效率:在边缘处理数据可以减少传输至中心云的数据量,节省带宽,特别是在处理视频和图像等大数据时效果明边缘计算 AI 推理技术场景与挑战 ODCC-2024-04001 8 显。提升可靠性:提升可靠性:边缘计算可以在网络连接不稳定时继续提供服务,因为它减少了对中心云的依赖。实时数据处理:实时数据处理:在边缘设备上处理数据可以实现更快的实时分析和反馈,比如在教育场
18、景中即时解题。降低成本:降低成本:减少长距离数据传输和中心云计算资源的使用,可以降低运营成本。2.2.智能交通与车辆智能智能交通与车辆智能 图2:百度智能云智能驾驶解决方案 边缘 AI 在自动驾驶车辆中的应用可以实现低延迟的环境感知和决策制定。例如,百度智能云的边缘计算节点(BEC)在自动驾驶领域发挥着重要作用,通过提供边缘视频就近接入和处理能力,显著提升了内容上传速度及成功率,同时降低了视频处理及分发的延边缘计算 AI 推理技术场景与挑战 ODCC-2024-04001 9 迟。这种技术的应用,为自动驾驶车辆提供了快速响应的能力,是实现高级别自动驾驶的关键技术之一。BEC 的节点覆盖全国七大
19、区三大运营商,拥有超过 1000+的 CDN 节点,确保了服务的全面性和高效性。选择部署在边缘而不是中心的优势主要体现在以下几个维度:低延迟:低延迟:边缘计算节点将算力下沉到距离客户 10KM 内,提供 20ms 内的超低延迟计算服务,这对于自动驾驶车辆的实时反应至关重要。带宽成本降低带宽成本降低:通过就近收流合流转码等技术,边缘计算节点能够提升链路网络质量,降低核心和骨干网络压力,最高可降低 5 倍带宽成本。全域覆盖全域覆盖:BEC 的节点分布实现了全国七大区三网覆盖,解决了地域分布广泛、网络质量不稳定带来的体验和延时问题。弹性伸缩弹性伸缩:资源可以按需进行弹性伸缩,用户可以根据自己的需求灵
20、活调整资源使用,实现成本效益最大化。此外,边缘计算在自动驾驶领域的应用还包括环境感知的扩展和计算任务的卸载。自动驾驶车辆可以通过边缘节点获得更广阔的环境信息,同时将部分计算任务卸载到边缘节点,以解决车载计算资源不足的问题。这种协同感知和任务卸载技术,是实现高级别自动驾驶的重要途径。边缘计算节点边缘计算节点部署部署 AIAI 模型的场景模型的场景 边缘计算 AI 推理技术场景与挑战 ODCC-2024-04001 10 图 5 中国移动边缘计算全栈平台体系 3.3.特点总结特点总结 实时性和低延迟实时性和低延迟:在诸如自动驾驶、智能监控和 AI 辅助健身等场景中,实时性是至关重要的。边缘计算能够
21、在数据产生的地点近乎实时地处理数据,大幅降低响应时间,满足对低延迟的严格要求。地理分布和近源处理地理分布和近源处理:多模态应用场景常见于分布广泛的设备和传感器中,如智慧城市、智能交通系统等。边缘计算使得数据可以在本地被处理和分析,减少了数据传输至中心云的需要,从而提高了处理速度和效率。带宽和成本效率带宽和成本效率:边缘计算通过在源头处理数据,只将必要的信息发送到云端,可以显著降低带宽需求和相关成本。这对于视频监控和智能制造等数据密集型应用尤为重要。可扩展性和灵活性可扩展性和灵活性:随着需求的变化,边缘计算节点可以灵边缘计算 AI 推理技术场景与挑战 ODCC-2024-04001 11 活部署
22、和调整,使得多模态应用场景能够根据实际需求快速扩展或缩减资源,提供更大的灵活性。自适应和智能优化自适应和智能优化:在交通流量分析、智能医疗设备等应用中,边缘计算可以根据实时数据动态优化和调整策略,提高系统的整体智能性和适应能力。(三)(三)边缘计算节点边缘计算节点与中心云部署与中心云部署 AIAI 模型场景特点对模型场景特点对比比 1.1.模型类型模型类型 中心云凭借其强大的计算能力和存储资源,能够轻松支持数十亿甚至数百亿参数的大型语言模型(LLM)。这些模型在泛场景通用性和复杂推理任务中表现出色,如机器翻译、问答系统、文本生成等。受限于计算资源和存储空间的限制,边缘计算节点更适合部署小参数规
23、模的 AI 模型,特别是经过优化的小参数规模大语言模型。这些模型虽然参数较少,但通过精心设计和训练,仍然能够保持较高的性能和准确性,满足边缘设备的实时性和隐私性要求。2.2.计算效率计算效率 对与中心云而言,集中式的计算和存储资源使得中心云能够高效地进行模型训练和推理。通过分布式计算技术,中心云可以加速模型训练过程,提高计算效率。边缘计算节点的计算效率主要体现在低延时和高实时性上。由边缘计算 AI 推理技术场景与挑战 ODCC-2024-04001 12 于数据在本地或附近进行处理,边缘计算节点能够显著减少数据传输的延迟,提高系统的响应速度。这对于需要即时反馈的应用场景尤为重要。3.3.数据传
24、输数据传输 对于中信云而言,数据需要传输到中心云进行处理,这可能导致传输延迟和带宽消耗。特别是在大规模数据处理和实时性要求较高的应用场景中,数据传输可能成为瓶颈。边缘计算节点通过减少数据传输量来降低传输延迟和带宽消耗。由于数据在本地或附近进行处理,边缘计算节点能够显著降低数据传输的需求,提高系统的整体效率。4.4.应用场景应用场景 中心云能够处理来自多个数据源的海量数据,支持复杂的模型训练和推理过程。它广泛应用于需要高计算能力和大数据处理的场景,如云计算服务、大数据分析、人工智能研发等。边缘计算节点能够快速响应本地请求,减少数据传输延迟和带宽消耗。它广泛应用于需要即时反馈和隐私保护的应用场景,
25、如智能安防、自动驾驶、智能家居等。5.5.总结总结 中心云作为 AI 模型部署的核心平台,提供了强大的计算资源和灵活的服务能力。中心云部署 AI 模型的场景特点在于其强大的计算能力、高效的数据处理能力。这些特点使得中心云成为处理大规边缘计算 AI 推理技术场景与挑战 ODCC-2024-04001 13 模、复杂 AI 任务的理想选择。而边缘计算节点通过将数据处理和分析任务带到数据源的近旁,解决了延迟敏感和带宽限制的挑战。边缘计算节点部署 AI 模型的场景特点在于其低延迟、高可靠性和高带宽成本效率的优势。通过对比两者的特点,我们可以根据不同的需求场景选择更合适的方案:表 1.边缘计算节点与中心
26、云部署 AI 模型场景特点对比 中心云中心云 边缘计算节点边缘计算节点 延迟与响应时间 较高的网络延迟,响应时间相对较长 低延迟,近乎实时的响应 数据处理速度 不需要即时响应的批量处理任务 提供更快的数据处理速度 公网访问依赖性 依赖于公网网络连接 本地私有化部署,支持局域网访问,不依赖公网连接 数据控制 需要数据传输到远程服务器 允许更细粒度的数据控制和隐私保护 资源利用 依赖于大规模的集中式数据中心 利用分散的计算资源 应用场景与需求 适用于需要大规模数据处理、存储和复杂模型训练的场景 适用于对实时性、带宽成本效率有高要求的场景 二、二、边缘边缘 AIAI 推理的挑战与需求推理的挑战与需求
27、 (一一)算力硬件层面挑战算力硬件层面挑战 边缘 AI 推理技术,作为推动智能设备和系统发展的关键力量,正逐渐应用于各个领域。然而,在硬件层面,边缘 AI 面临着有限的算力资源、功耗以及算力设备异构性等挑战。边缘计算 AI 推理技术场景与挑战 ODCC-2024-04001 14 1.1.有限的算力资源有限的算力资源 边缘场景的恶劣环境导致了边缘设备的第一优先级在于如何在恶劣环境下实现算力的有效提升,但边缘设备的物理尺寸和成本限制了它们的计算资源,这对 AI 模型的设计和部署提出了挑战。2.2.算力设备异构算力设备异构 边缘 AI 推理的硬件平台异构性,要求算法和模型能够适应不同的硬件架构。硬
28、件平台多样性:边缘设备可能包括各种类型的处理器,如 Arm、x86、FPGA 或 ASIC 等。每种架构都有其特定的性能特点和编程模型。作为大模型生命周期中不可或缺的两个阶段,训练和推理均需要强大的计算资源支撑。然而,与国际上模型层与芯片层“相对集中”的格局相比,中国的模型层与芯片层更加“百花齐放”。大量的异构芯片形成了“生态竖井”,不同硬件生态系统封闭且互不兼容,给算力的使用方带来一系列技术挑战。软件兼容性:为了实现跨平台的兼容性,需要开发能够适配不同硬件的软件框架和 API。这通常涉及到硬件抽象层的设计,以提供统一的编程接口。异构计算资源管理:在多核或异构处理器系统中,有效的资源管理和任务
29、调度对于性能和功耗的优化至关重要。需要开发智能的调度算法来平衡计算负载和能源消耗。3.3.功耗挑战功耗挑战 边缘计算 AI 推理技术场景与挑战 ODCC-2024-04001 15 边缘 AI 推理的功耗挑战主要源于边缘设备的工作环境和能源供给方式。边缘设备往往部署在环境恶劣、能源供应受限的环境中,如远程监控摄像头、工业传感器等。这些设备可能依赖电池供电或使用现场的可再生能源,因此对功耗有着严格的限制。低功耗设计需求:低功耗设计需求:为了延长设备的使用寿命,降低维护成本,硬件设计必须注重能效比。这要求使用低功耗的处理器、优化电源管理策略,并采用先进的制程技术。能源收集技术:能源收集技术:在某些
30、无法频繁更换电池的场景下,边缘设备可能需要集成能源收集技术,如太阳能板或振动能收集器,以实现自维持运行。智能休眠策略:智能休眠策略:通过智能休眠策略,设备在非工作期间能够进入低能耗状态,进一步降低能耗。GPU 的功耗挑战的功耗挑战:近年来,随着机器学习模型变得日益复杂和功率密集,GPU已成为执行边缘AI推理任务的关键硬件。然而,GPU 不断迭代的高性能也伴随着高功耗,这对于边缘机房供电、边缘服务器散热技术、以及能源受限的边缘设备提出新的挑战。例如,高端的 NVIDIA RTX 3090 的功耗可达 350W,NVIDIA H20 GPU 卡的功耗达到 400W 等。液冷超流技术:随着技术的不断
31、进步和应用的深入,液冷技术有望在边缘计算领域扮演越来越重要的角色。传统的水冷却方法已被改进,通过使用介电液体取代水,不仅提高了系统的安全性,还解决了漏水可能引起的问题。这种改进对于防止 AI 服务器因漏水而边缘计算 AI 推理技术场景与挑战 ODCC-2024-04001 16 损坏至关重要,同时也避免了由此导致的停机处罚。进一步的创新体现在单相浸入式冷却技术上,它突破了传统设计的限制。这种技术能够为超过 1500W 的 CPU 或 GPU 提供高效的冷却,同时降低功率使用效率(PUE)。这意味着在维持高性能计算的同时,也能有效降低能耗,提高能效比。此外,为了满足环境、社会和公司治理(ESG)
32、的要求,合成油被用作冷却剂,取代了可能对环境有害的 PFC(全氟化合物)气体。这种替代不仅减少了对环境的影响,还提升了系统的可持续性。液冷技术的这些创新不仅提升了边缘 AI 推理硬件的性能和可靠性,而且通过提高能效和降低环境影响,为实现绿色计算和可持续发展做出了贡献。(二二)网络架构层面挑战网络架构层面挑战 1.1.突发流量拥塞挑战突发流量拥塞挑战 随着数据量的爆炸性增长和机器学习模型的日益复杂化,单机处理能力已经难以满足高性能计算的需求。因此,多机多卡的分布式计算架构应运而生,它通过多个计算节点(机器)和每个节点上的多个处理单元(如 GPU)协作处理,显著提升了处理能力和计算速度。这种架构尤
33、其在深度学习、大数据分析等领域中表现出极高的效率和必要性。然而,多机多卡的推理和训练过程中,数据必须在不同的计算节点间频繁交换,这就引入了一系列通信挑战:动态变化的网络条件:动态变化的网络条件:云环境中的网络状态可能会因为多租户的活动或网络服务提供商的调整而频繁变化。这种动态性使得一边缘计算 AI 推理技术场景与挑战 ODCC-2024-04001 17 旦确定的通信策略可能很快就不再适用,需要实时调整以适应最新的网络状态。多租户环境下的资源竞争:多租户环境下的资源竞争:在共享的云平台上,不同租户的计算任务可能会争夺有限的网络带宽和其他资源。这种竞争可能导致某些任务的运行效率受到影响,难以保证
34、服务的质量和性能。算法选择和调整的复杂性:算法选择和调整的复杂性:在分布式计算中,如何选择和调整适合当前网络状态的集体通信算法(例如 AllReduce)是一个复杂的问题。正确的选择可以显著提升效率,而错误的选择则可能导致性能瓶颈。资源管理和调度的复杂性:资源管理和调度的复杂性:有效地管理和调度云平台上的资源,如何公平并高效地分配网络带宽和计算资源,是实现高性能多机多卡推理的关键。2.2.算力弹性组网挑战算力弹性组网挑战 图 3 网络拓扑方案对比3 在现代网络拓扑设计领域,研究人员和工程师面临着一系列复杂的问题和挑战。这些挑战主要源于需求的多样性和技术的快速发展,边缘计算 AI 推理技术场景与
35、挑战 ODCC-2024-04001 18 尤其是在设计高效可靠的多机多卡互通网络拓扑时更加明显。以下是几个主要的挑战和问题:扩展性问题:扩展性问题:在大规模集群的部署上,传统的网络拓扑结构,如Fat Tree 和 Clos 结构,虽然在中小规模集群中表现出色,但在超大规模的应用环境中,它们的扩展性遭受严峻考验。随着集群规模的增大,这些网络结构的复杂度和成本也会呈指数级增长,制约了其在大型数据中心的广泛应用。成本和能耗:成本和能耗:构建和维护大型数据中心的过程中,高性能网络设备的高昂成本和运行中的大功耗成为重大的经济负担。特别是像 Fat Tree 这样的拓扑结构,由于其冗余的链接和多级交换构
36、造,不仅增加了硬件的采购成本,还大幅提高了能源消耗,这在经济和环境层面上都是不可持续的。部署和管理的复杂性:部署和管理的复杂性:从部署和管理的角度看,传统的网络拓扑复杂难行。在物理布线和交换机配置方面,诸如 Fat Tree 的网络需要精确的布线和复杂的配置,这不仅增加了初期部署的难度,还在后期的维护和升级中带来了额外的挑战。网络直径的优化:网络直径的优化:网络直径是衡量数据在网络中传输最大跳数的一个关键指标,直接影响到网络的延迟和通信效率。设计一个既具有较小网络直径又能支持大规模部署的网络结构,是一个技术上具有高度挑战性的任务。理想的网络拓扑应能在保持低延迟的同时,支持广泛的扩展。容错性和可
37、扩展性:容错性和可扩展性:高效的网络拓扑设计还必须考虑到容错性,边缘计算 AI 推理技术场景与挑战 ODCC-2024-04001 19 确保在部分网络设备发生故障时,网络仍能保持通信的连续性和性能。此外,随着计算和存储需求的不断增长,网络拓扑结构应具备良好的可扩展性,能够无缝地扩展以适应这些变化。(三三)算法层面挑战算法层面挑战 1.1.量化的精度损失问题量化的精度损失问题 量化是一种减少模型存储占用和计算量的方法,通过将模型参数从浮点数转换为低位数的整数实现。然而,这种转换会引入量化噪声,降低模型的精度和泛化能力。主要挑战包括:精度与存储之间的权衡:确定量化的位数,以在不显著牺牲精度的情况
38、下最大化存储和计算效率。量化噪声对模型性能的影响:量化引入的噪声可能会降低模型在实际应用中的效果,特别是在处理复杂或变化大的数据时。2.2.模型模型剪枝的有效性与风险剪枝的有效性与风险 模型剪枝通过移除神经网络中被认为是不重要的参数或神经元来减少模型的复杂度和大小。这一过程面临的挑战包括:保持性能同时减少复杂性:在显著减少参数的同时,保持或甚至提升模型的预测性能。选择合适的剪枝策略:确定最有效的剪枝方法(权重剪枝或结构化剪枝),以适应不同的应用需求,避免过度剪枝导致的性能下降。3.3.微调与在线学习的适应性问题微调与在线学习的适应性问题 边缘计算 AI 推理技术场景与挑战 ODCC-2024-
39、04001 20 在边缘设备上,模型不仅需要小巧,还需要能够适应动态变化的环境。相关挑战包括:数据可用性与模型适应性:边缘设备上的数据可能有限或不完整,如何保证模型在这些条件下仍能有效学习和适应。在线更新与实时性要求:模型需要在持续接收新数据的同时进行实时更新,挑战在于如何平衡学习的速度和准确性。4.4.跨模态数据处理挑战跨模态数据处理挑战 随着 AI 应用的多样化,处理多种类型数据(如图像、文本、视频)的能力变得尤为重要。面对跨模态数据时的挑战包括:跨模态特征的整合与压缩:如何在保持各模态特征表示的前提下进行有效的压缩。跨模态学习的复杂性:不同数据类型可能需要不同的处理策略,如何设计一个统一
40、的模型框架来有效学习和表示这些不同的数据类型。三、三、未来技术趋势展望未来技术趋势展望 在智算时代,随着科技的迅猛发展和全球数字化转型的深入,人工智能、网络通信以及算法优化等技术的进步日益成为推动社会和经济发展的重要动力。特别是在可持续技术、网络通信优化和算法策略领域,不仅展示了前沿技术的创新,也反映了这些技术在应对全球性挑战如能效、数据处理需求和安全问题上的核心作用。本章节将深入探讨多维度的技术趋势,包括可持续 GenAI 系统架构、高效的多路径边缘计算 AI 推理技术场景与挑战 ODCC-2024-04001 21 网络路由策略及算法与硬件的深度融合,这些技术共同构建了一个更加弹性、高效和
41、智能化的技术生态。通过这些技术的综合运用和创新,我们不仅可以实现资源的最优配置和管理,还能推动智能化和自动化的广泛应用,从而为未来的技术革新和跨领域融合提供坚实基础。(一一)可持续算力服务器可持续算力服务器 1.1.可可持续持续 GenAIGenAI 系统架构技术系统架构技术 Rack Scale 架构技术为生成式人工智能(GenAI)应用提供了强大的基础,通过一系列技术创新来优化数据中心的设计与运营。下面详细介绍这些关键技术点及其在实际应用中的好处。图 4 可持续 GenAI 系统架构技术和参考解决方案 应用定义系统架构:应用定义系统架构:在传统数据中心中,资源配置通常固定且不易适应不断变化
42、的应用需求,导致资源浪费和管理困难。应用定义系统架构通过其模块化和自适应的设计,使得数据中心能够根据不同的GenAI 应用需求动态调整资源配置。这种灵活性不仅提升了资源利用边缘计算 AI 推理技术场景与挑战 ODCC-2024-04001 22 率,还显著降低了运营成本,提高了数据中心的响应速度和灵活性。GenAI Fabric 和光电路开关(和光电路开关(OCS):):传统网络技术在处理高数据流量时往往存在延迟大和效率低的问题。通过整合 GenAI fabric 和光电路开关技术,数据中心的网络布局被优化,实现了更高的数据传输速度和更低的延迟。这一改进为复杂的 AI 运算提供了坚实的支持,确
43、保了数据处理的高效性和及时性。系统系统 RAS 与智能调试:与智能调试:系统故障的迅速识别和修复在传统数据中心中常常是个挑战,这影响了运行效率和可靠性。通过增强系统的可靠性、可用性和可维护性(RAS),并配合智能调试工具的使用,数据中心能够自动监测和诊断潜在问题。这不仅减少了系统的停机时间,还提高了整体的运营稳定性和维护效率。先进液冷技术:先进液冷技术:高功率设备的热管理在传统冷却方法中是一个大问题,尤其是空气冷却在处理这些设备时效率低下。采用单相浸入式冷却技术,特别是使用环保的合成油作为冷却剂,有效地管理了这些设备的热输出,同时降低了能源消耗。这种先进的液冷技术不仅提升了冷却效率,还通过减少
44、环境影响,支持了数据中心的绿色、可持续发展。系统安全增强:系统安全增强:面对日益增长的安全威胁,通过增强的加密措施和多层次安全防护,数据中心的系统安全得到了显著加强。这些安全措施有效地保护了关键数据和运算过程,防止了数据泄露和未授权访问,确保了数据中心运营的安全性。电力与算力资源调度优化:电力与算力资源调度优化:资源分配的静态性和低效率是传统数边缘计算 AI 推理技术场景与挑战 ODCC-2024-04001 23 据中心面临的常见问题。通过智能的电力与算力资源调度系统,资源分配变得更加高效,能够根据实时数据和预测模型动态优化,有效应对高峰需求,同时降低能耗。这些技术的综合应用不仅极大地提升了
45、 GenAI 数据中心的性能和效率,也推动了整个行业向更高效率、更高可靠性和更高可持续性的方向发展。2.2.典型的可持续算力典型的可持续算力与液冷与液冷服务器服务器 典型的可持续算力服务器和可持续算力液冷服务器的设计对于满足日益增长的边缘算力需求至关重要,尤其是在边缘侧 AI 推理场景中。以下是关键技术点和未来方向的总结:图 5 基于 CPU 模块所实现的面向云和边缘的各种可持续算力服务器 边缘计算 AI 推理技术场景与挑战 ODCC-2024-04001 24 典型的可典型的可持续算力服务器:持续算力服务器:在传统边缘服务器中,高温、盐雾和粉尘等恶劣环境条件限制了算力的有效提升,同时高功耗也
46、是一个持续的挑战。为了解决这些问题,可持续算力服务器可持续算力服务器采用了基于深度模块化架构的服务器设计。这种设计方法将单板中的复杂部分与简单部分进行剥离,根据不同功能模块的需求进行专门设计。例如,将 CPU模块单独设计,并根据需求配置 1S 或 2S 平台,从而实现模块的复用和成本效率的最大化。这种平台化和模块化的设计使得服务器可以灵活布局,满足小型化和高密度的应用需求,有效覆盖不同的市场目标,并优化成本控制。可可持续算力液冷服务器:持续算力液冷服务器:对于边缘 AI 液冷服务器系统,关键需解决的问题包括传统散热方式无法满足的边缘算力需求,多样化的边缘应用场景对性能和 IO 接口的高灵活性需
47、求,以及对噪声和粉尘敏感场所的特殊要求。可持续算力液冷服务器可持续算力液冷服务器采用基于单相浸没式液冷散热方案的模块化架构,可以在有限空间内高效集成重要组件,如高性能 CPU 和大量的 PCIe 设备。这种系统能够在 2U 机柜内实现高密度的服务器配置,支持广泛的应用需求,并根据不同的场景需要定制。此外,这种液冷解决方案可以显著降低 PUE 至 1.07 以下,有效推动绿色低碳的算力基础设施目标。未来的技术发展将继续专注于提高服务器的环境适应性和能效,同时进一步推动模块化设计的深度和广度。特别是在液冷技术领域,将探索更为高效和环保的冷却解决方案,以应对更高功率密度的挑战。此外,智能化管理系统的
48、集成将成为提升服务器运维效率和性能的关边缘计算 AI 推理技术场景与挑战 ODCC-2024-04001 25 键,特别是在自动化故障诊断和能源管理方面的应用将显著提高系统的整体可持续性和经济效益。(二二)边缘高性能、低延迟网络技术边缘高性能、低延迟网络技术 针对高性能计算(HPC)网络和 AI 领域的网络需求,未来的关键技术方向将集中于优化多路径路由协议、提升超节点的互联性能,以及发展在网计算技术。以下是这些技术方向的具体展开:高性能多路径路由协议:高性能多路径路由协议:针对 Slim Fly(SF)和 Dragonfly(DF)这类低直径网络拓扑,未来的路由协议设计将重点解决现有单路径限制
49、和路径多样性不足的问题。通过创新的高性能多路径路由协议,如扩展的 FatPaths 框架,可以实现更灵活的路径选择,减少层间路径重叠,从而提高网络的吞吐量和降低拥塞。关键技术点将包括:分层路由设计分层路由设计,每层定义独立的转发树,允许数据通过不同层的多样化路径传输;动态权重更新和路径选择算法动态权重更新和路径选择算法,确保网络流量均衡分布,减少死锁风险。图 6 多路径路由方案 边缘计算 AI 推理技术场景与挑战 ODCC-2024-04001 26 超节点互联技术:超节点互联技术:传统单机 8 卡 Scale-up 网络无法满足大模型推理大 TP 的规模需求,同时自 NVIDIA NVL72
50、 发布以来,其也宣称推理性能提升 30 倍。GPU 超节点的设计需要考虑计算资源池的弹性可扩展以及高速互联,突破传统 8 卡的单机限制,兼顾计算密度、能耗等多种因素。其中,超节点 GPU 卡卡间互联 Scale-up 网络技术是其中非常重要的关键技术,目前存在 NVLink、以太网、UALINK、OISA等多个协议,卡间互联技术的标准化仍需要更加开放和产业生态的支持。此外,Scale-up 技术的发展将侧重于:高效的卡间通信通信技术,支持大规模的并行计算需求;底层通信技术的选择,如铜缆和光纤的优化使用,以适应不同的部署场景;超节点规模的优化设计,找到性能提升与成本效益之间的最佳平衡点。在网计算