收藏 分销(赏)

面向6G物联网的端侧计算白皮书.pdf

上传人:Stan****Shan 文档编号:1219288 上传时间:2024-04-18 格式:PDF 页数:29 大小:1.94MB
下载 相关 举报
面向6G物联网的端侧计算白皮书.pdf_第1页
第1页 / 共29页
面向6G物联网的端侧计算白皮书.pdf_第2页
第2页 / 共29页
面向6G物联网的端侧计算白皮书.pdf_第3页
第3页 / 共29页
面向6G物联网的端侧计算白皮书.pdf_第4页
第4页 / 共29页
面向6G物联网的端侧计算白皮书.pdf_第5页
第5页 / 共29页
点击查看更多>>
资源描述

1、1面向面向 6G6G 物联网的物联网的端侧计算白皮书端侧计算白皮书2023 年 8 月前前言言6G 技术将提供更高的速率、更多的连接,以及更广的网络覆盖,以满足在高度动态环境中的各类应用需求。6G“万物智联,数字孪生”的愿景对终端处理时延、功耗、数据隐私保护等提出更高要求。面向6G 物联网的端侧计算在云、边、端构成的立体计算范式中的作用日益凸显,但端侧计算的概念、技术架构、发展趋势还不明确。中国移动希望联合产业合作伙伴共同推动面向 6G 的端侧计算整体架构和关键技术的成熟,推动面向 6G“万物智联,数字孪生”的立体计算架构的发展和落地应用。本白皮书由中移智库、中国移动研究院、清华大学、北京邮电

2、大学、北京知存科技有限公司联合撰写,版权归中国移动及合作伙伴所有,未经授权,任何单位或个人不得复制或拷贝本建议之部分或全部内容。目录1 概述.11.1 背景与意义.21.2 内容与目的.32 典型应用场景.42.1 大流量场景.52.2 实时计算场景.52.3 隐私保护场景.62.4 离线自治场景.73 关键技术及挑战.83.1 算力受限.93.2 功耗敏感.103.3 信息孤岛.124 新兴技术.134.1 存算一体:打破后摩尔时代的算力危机.144.2 类脑智能:低功耗的下一代人工智能.154.3 端边云协同:泛在算力.184.3.1 纵向端边云协同.184.3.2 横向端端协同.205

3、总结展望.23缩略语列表.25参考文献.2611 概述6G 物联网终端实时数据爆炸式增长,芯片先进工艺的发展带来单位算力成本下降,AI 模型及软硬件协同创新带来算法性能提升,新型人工智能场景对低时延计算需求强劲,端侧实时计算迎来新机遇。21.11.1 背景与意义背景与意义实时数据爆炸式增长。实时数据爆炸式增长。物联网应用实现了更大连接、更广覆盖和更优体验,连接规模已经实现了“物超人”。随着联网设备的进一步增多和高带宽业务的进一步普及,全网数据吞吐量将呈现爆发式增长。据预测,到 2030 年,网络吞吐量将达到 5000EB/月,随着实时数据的井喷,云计算架构面临网络压力大、响应速度慢、数据安全及

4、隐私保护不足等问题。新型场景不断涌现新型场景不断涌现。人工智能技术与智能终端的结合对终端实时计算提出了新的需求,以智能终端 XR 场景为例,包含追踪定位、沉浸声场、手势追踪、眼球追踪、三维重建、机器视觉、肌电传感、语音识别、气味模拟、虚拟移动、触觉反馈、脑机接口等多个环节,需要低时延计算能力提升用户实时体验。IDC 预计,2023 年中国搭载 3D 空间性和运动性传感技术的终端设备将超过 40%。算力成本逐步下降算力成本逐步下降。芯片先进工艺制程逐步提升,据 IDC 预计,2022 年 7nm制程芯片将成为主流,搭载 7nm 芯片的智能终端设备占比将超过 32%。芯片制程的提升将使单位算力的成

5、本逐步下降,如图 1 所示,7nm 制程的芯片单位算力成本仅为 16nm 制程的 19.4%。图 1 每 TOPS 算力成本随着工艺逐步下降(数据来源:IBS)算法性能持续提升算法性能持续提升。人工智能算法性能随着算法创新、软件优化、硬件加速等持续提升。算法方面,深度学习网络模型不断演进,AI 模型轻量化等技术不断发展,模型的尺寸和计算量大幅缩减。据 OpenAI 统计,自 2012 年以来,人工智能模型在 ImageNet 分类中训练神经网络达到相同性能所需的计算量,每 163个月减少了 2 倍。软件方面,面向移动端的 AI 计算框架发展迅猛,对终端兼容性越来越好且对 AI 模型的推理性能持

6、续提升。硬件方面,通过增加深度学习专用硬件电路等方式,可大幅提升 AI 计算性能。综上,随着 6G 物联网实时数据的爆炸式增长、新型场景不断涌现、算力成本的逐步下降、算法性能的持续提升,端侧计算将迎来前所未有的发展新机遇。1.21.2 内容与目的内容与目的端侧计算,指在具备一定的计算能力和存储能力的物联网终端设备中进行计算。端侧计算主要满足低功耗、高隐私保护、低时延的计算需求,应用场景包括大流量智能视频监控、低时延的自动驾驶、高隐私性保护的人脸识别和离线自治的智能家居等。6G 物联网,即 6G 使能的物联网,是以 6G 网络为通信基础设施的物联网。基于 6G 技术的深度赋能,物联网端到端系统将

7、能够实现更强大的智能和自主性,能够实时精准感知环境、做出智能决策并提供个性化的服务。端侧计算在云、边、端构成的立体计算范式中的作用日益凸显。本文希望系统梳理端侧计算的场景需求、关键技术挑战以及新兴端侧计算技术。目前端侧计算技术整体发展仍处于初级阶段,未来还有很多技术和商业层面的挑战,中国移动希望联合产业合作伙伴共同推动端侧计算整体架构和关键技术的成熟,推动面向 6G 物联网的立体计算架构的发展和落地应用。42 典 型 应 用场景52.12.1 大流量场景大流量场景视频物联网近年来呈逐年增长趋势。据IDC GlobalDataSphere,2020 全球视频监控产生的数据约 18.1PB(1PB

8、=1024TB),占同期物联网总数据量 83.1%。智慧城市、智慧交通、智能家居等物联网领域中存在大量的视频终端。使用MPEG-4 压缩,30fps/12801024 分辨率的单一连续视频每天产生约 128G数据;搭配了摄像头和雷达的L2 辅助驾驶系统的车载系统每 30 秒就会生成超过 6GB的数据。此类视频分析场景特别是高清视频分析类场景需要占用大量的带宽资源,并且大流量的视频数据传输易引发网络拥塞、服务质量下降等问题。端侧计算应用于此类大流量场景,可第一时间对收集的视频数据进行处理分析,将处理和分析后的结果再上传至云侧数据中心,大幅减少网络数据传输、降低网络带宽负荷、缓解云数据中心存储与计

9、算的压力,并能够提升系统的实时响应能力。随着端侧AI芯片的性能不断提升,AI安防等视频监控应用向端侧前移趋势愈加明显。AI安防端侧算力需求如表 1 所示。表 1 AI 安防端侧算力支持像素支持像素2M2M4M4M8M8M16M16M算力算力0.5TOPS1TOPS2TOPS4TOPS功耗功耗1w1w2-2.5w3w2.22.2 实时计算场景实时计算场景在自动驾驶、工业控制、虚拟现实等时延敏感类应用场景中,终端采集数据上传到云端,云端计算后再将结果返回终端,将会引入网络和平台处理时延,考虑网络不稳定等因素,时延可能会更大。随着 6G人工智能技术的进一步发展,车联网将在深度学习、多传感器融合等方法

10、的使能下形成车辆、路 侧、云端的全场景一体化感知决策架构,实现协同决策,更好地助力自动驾驶。IDC报告显示,2022 年第一季度L2 级自动驾驶在乘用车市场的新车渗透率达 23.2%,整个市场处于L2 向L3 发展的阶段。辅助驾驶对于端到端时延的要求在 100 毫秒,自6动驾驶对于端到端时延的要求进一步提高到 20100 毫秒。在工业控制中,诊断信息的时延要求为 10 毫秒,运动控制的时延要求提高至 25-100 微秒。虚拟现实的需要保证所有捕捉动作到头显中动作小于 20ms,以避免用户产生眩晕感。端侧计算应用于此类实时计算场景中的全部或者部分计算,可有效降低端到端时延,满足业务低时延实时计算

11、需要。目前芯片厂商纷纷布局端侧大算力,助力自动驾驶等实时计算场景。自动驾驶算力需求如表 2 所示。表 2 自动驾驶算力需求自动驾驶级别自动驾驶级别L2L2L3L3L4L4L5L5算力算力10 TOPS3060 TOPS100 TOPS1000 TOPS功耗功耗5w1530w50w500w2.32.3 隐私保护场景隐私保护场景在人脸验证、可穿戴设备等隐私保护场景下,用户对个人数据的隐私性较为敏感,对于在设备端读取的用户人脸、语音、视频等数据上传云端进行分析,存在数据安全与隐私泄露风险。据中国互联网协会中国网民权益保护调查报告(2021)显示,82.3%的网民亲身感受到了由于个人信息泄露对日常生活

12、造成的影响,49.7%的网民认为个人信息泄露情况严重或非常严重。端侧计算应用于此类隐私保护场景,可在端侧对数据完成预处理,对数据进行去标识化、匿名化处理等,将脱敏数据与平台进行交互,提升用户隐私数据保护能力。端侧人脸识别算力需求如表 3 所示。表 3 端侧人脸识别算力需求场景场景手机人脸验证手机人脸验证闸机闸机视频监控视频监控算力算力1TOPS1TOPS4TOPS功耗功耗1w1w10TOPS功耗功耗1w15w5w83 关键技术及挑战93.13.1 算力受限算力受限为了降低人工智能模型对计算空间及时间的消耗,模型压缩作为以深度学习为代表的人工智能领域研究的一个重要的分支,旨在对原有的人工智能模型

13、进行参数压缩、维度缩减等操作或者重新设计轻量化的网络结构,以提高网络的训练和推理速度。虽然模型压缩在一部分场景下取得了比较好的效果,但在一些场景下压缩后的模型可能引起推理精度的严重下降,另外压缩后的模型存在难以应用于通用计算平台等问题。在对精度要求较高的场景下,依然优先用硬件满足需求。图 2 不同精度计算的消耗能量和硅片面积然而端侧单点算力的提升面临瓶颈。一方面随着工艺的制程升级,摩尔定律已经开始放缓。到了 2018 年,根据摩尔定律得出的预测与当下实际能力差了 15倍。另一方面,登纳德缩放比例定律似乎已经失效。尽管集成电路中的晶体管数量仍在增加,但由此带来的性能改善却更为缓慢。主要原因是在芯

14、片尺寸不变,晶体管数量变多的情况下,电流泄漏会带来更大的挑战,也会导致芯片升温,从而造成热失控的威胁,从而进一步增加能源成本。如图 3 所示(数据来源:JohnL.Hennessy,David A.Patterson.2019)。10(a)摩尔定律在放缓(b)登纳德缩放定律失效图 3 单点算力面临瓶颈当前的端侧计算芯片仍然基于冯诺依曼架构,其数据存储与处理分离,存储器与处理器之间通过数据总线进行数据传输。随着半导体技术的发展,存储单元性能发展远落后于计算单元,如图 4 所示(引用自 JohnL.Hennessy et al.)。在面向大数据处理等应用场景中,这种计算架构带来的存储墙和功耗墙已成

15、为高算力与低功耗设备的主要瓶颈之一。相关研究报告指出,在 22 纳米工艺节点下,一比特浮点运算所需要的数据传输功耗是数据处理功耗的约 200 倍。存储墙与功耗墙问题并称为冯诺依曼架构瓶颈。数据的爆发式增长进一步加剧了冯诺依曼架构瓶颈。图 4 处理器和存储器的性能差3.23.2 功耗敏感功耗敏感一方面根据摩尔定律,集成电路每隔 18-24 个月性能提升一倍,智能手机的AI 计算、设备互联等功能不断增加;另一方面 5G 手机采用 Massive MIMO 的技术以增强手机对信号的接收,耗能显著增加。然而,电池领域却没有摩尔定律,受能量密度和电池尺寸限制,电池容量仅能以较低幅度线性提升,电池性能增速

16、远慢于需求,如图 5 所示。所以,用户时常感觉手机续航的“力不从心”,如何在保证终端性能的同时更好控制功耗成为关键。11图 5 终端电池能力增速远慢于需求异构芯片以追求最高的性能功耗比为目标。对比云数据中心常用的 CPU、GPU、TPU,端侧更多地使用 FPGA 及 ASIC。FPGA 的电路可直接实现算法,没有指令译码和解读的过程,减少反复冗余访问外部存储器的需求,存储器带宽需求及能耗较低,能效比是 CPU 的 10 倍以上、GPU 的 3 倍,处理速度和效率要高于 GPU。此外,ASIC 性能上的优势也非常明显,具有最高的能效比。图 6 比较了不同硬件的速度和能耗(图片来源:Prof.Lu

17、ca Benini.ACM HPC)。图 6 不同硬件的速度和能耗作为对比,如图 7 所示,AlphaGo 作为拥有 176 个 GPU,1202 个 CPU,功耗约为 150,000 瓦,而与之对弈的柯洁,其大脑功耗只有约 20 瓦。再比如蜜蜂的大脑,只有 100 万个神经元,0.1mW 的功耗,相当于一个纽扣电池可以驱动几个月的时间。因而我们需要以生物神经元为目标,寻找更低功耗的类脑算法。12图 7 深度学习模型和生物的功耗对比3.33.3 信息孤岛信息孤岛人工智能算法的设计与提升往往需要大量且多样化的数据以及大算力进行训练。根据机器学习的 VC 维度(VapnikChervonenkis

18、 dimension),用于深度学习训练的数据量应该至少是模型参数量的 10 倍。和云计算相比,端侧计算的优势之一是将数据保存在数据生产者的位置,这样可以最大限度地不暴露用户的隐私。但同时,由于不同终端产生的数据无法汇聚用户训练,因而也导致模型质量无法保障。同时,随着传感器、计算芯片、AI 等技术的发展,诸如 AR、数字人、机器人搜救等更复杂任务被不断提出,完成一项完整的智能任务往往需要经过多个阶段,具有多样化的需求,包括数据采集、预处理、计算、交互、控制和反馈等。而由于终端设备尺寸限制,一般只能具备少数能力,例如只负责完成计算任务,难以满足日渐复杂的智能任务的需求。以 XR 为例,需要实现追

19、踪定位、手势追踪、眼球追踪、语音识别、环境理解、肌电传感、脑机接口等诸多感知技术,在此基础上建立沉浸式声场、气味模拟、三维重建,并通过近眼显示技术进行展示。这需要多个传感器、计算、通信、显示设备的协同工作才能完成。134 新兴技术144.14.1 存算一体存算一体:破解破解后摩尔时代的算力危机后摩尔时代的算力危机当前业界对于存算一体技术的定义和分类尚未完全统一,学术界聚焦利用存储介质直接进行计算,即狭义存算一体;工业界关注商用化进程,提出广义存算一体概念,可分为三种方案。一是近存计算(Processing Near Memory PNM),将存储和计算模块集成到一个部件或一个芯片中,通过增加带

20、宽或减少数据搬移量来对原有架构进行优化,提升数据运算效率。该技术仍基于冯诺依曼架构,主要产品形态包括 SmartSSD、智能网卡等,产业成熟度较高。但该技术并未实现计算与存储的真正融合。二是存内处理(Processing in Memory,PIM),该方案的本质在芯片制造的过程中,将存和算集成在一个晶圆 Die 中,使存具备了算的能力。主要形态是基于 DRAM 的存内处理产品。三是存内计算(Computing in Memory,CIM),可使用存储单元完成计算功能实现存算零距离,真正实现“存算一体化”,也是业内通常意义上的狭义存算一体。图 8 广义存算一体分类狭义的存算一体技术旨在把数据存

21、储与计算融合一体化,以减小数据搬运,克服冯诺依曼架构瓶颈。存算一体技术的基本概念最早可以追溯到上个世纪七十年代,但是受限于当时的芯片设计复杂度与制造成本问题,以及缺少杀手级大数据应用进行驱动,早期的存算一体技术仅仅停留在研究阶段,并未得到实际应用。近年来,随着数据爆发式增大以及内存芯片技术的提高,存算一体技术重新得到人们的关注。存内计算的介质目前来看有两大类,一是由传统硅基材料制成的SRAM 和 Nor Flash 等,其中 SRAM 已广泛应用于 CPU 的缓存,Nor Flash 主要用来存放固件程序,广泛应用于网卡、手机等设备;二是非硅基的新型材料,包括基于金属氧化物的 RRAM/ReR

22、AM(忆阻器)、基于硫系化合物的 PCM/PRAM(相变15存储器)、基于铁磁材料的 MRAM(自旋磁存储器)等。近年来,基于各类存储介质的存算一体芯片研究百花齐放,潜在应用场景也丰富多彩,包括视觉类、听觉类、分析类、人机交互等。但是,上述这些存储介质都存在各自的一些优缺点,如表 5 所示,在大规模量产时需要有针对性地进行优化。表 5 基于不同存储介质的存内计算芯片性能比较标准标准SRAMSRAMFlashFlashDRAMDRAMRRAMRRAMPCMPCMMRAMMRAMFeFETFeFET非易失性非易失性否是否是是是是多比特存储多比特存储能力能力否是否是是否是面积效率面积效率低高高高高高

23、高写入速度写入速度很快较慢快较快较慢快快功耗效率功耗效率低高低高较高高高成本成本高低较低低较低较低较低技术成熟度技术成熟度测试芯片量产产品测试芯片测试芯片测试芯片测试芯片器件此外,存算一体技术存在一些共性的挑战需要行业共同努力。一是大部分新大部分新型型存内计算器件成熟度低存内计算器件成熟度低,加工工艺不够完善,计算精度、耐久性、功耗、性能等还在快速迭代中演进。二是芯片研发周期较长二是芯片研发周期较长,产业化存在不确定性产业化存在不确定性,相关产线在后道工艺如金属与介质填充、刻蚀、清洗等环节可能涉及改造,并且芯片良率和性能依赖长期流片积累经验,走向成熟需要 5 到 10 年。三是缺少成熟的缺少成

24、熟的 EDEDA A辅助设计和仿真验证工具辅助设计和仿真验证工具,使得存内计算的架构设计效率较低,且无可复用的IP 核,设计水平参差不齐。综上分析,存算一体技术需要产业链上下游和科研机构共同努力,推动技术工程化和产业化。4.24.2 类脑智能:低功耗的下一代人工智能类脑智能:低功耗的下一代人工智能相对于目前已被广泛应用和研究的深度人工神经网络,类脑智能更多地借鉴了生物神经网络的功能机制和行为特点,以便能够达到能够媲美人脑的能效表现16和学习能力。类脑智能技术路线总体上可分为三个层次:结构层次模仿脑,器件层次逼近脑,智能层次超越脑。在在结构层次结构层次,人类大脑是一个极度优化的系统,人脑包含大约

25、 1000 亿个神经元,每个神经元都有数千个突触连接。它的工作耗能缺仅为 25 瓦特。尽管单个神经元是神经系统的基本单位,但正是它们的突触连接模式使神经元能够形成神经网络和主导各种脑功能的神经环路,从而使大脑成为强大的计算设备,完成当前更高能耗的计算机无法完成的任务。因此,人们希望能模仿人脑的工作方式来处理信息,构建新的神经网络模型。脑科学是一门实践性很强的交叉学科,包含了神经科学,医学,数学,计算科学等多门学科。脑科学的目的是认识脑,保护脑和模拟脑,其中模拟脑是人工智能的重要灵感来源和终极目标。具体来说,模拟脑需要在神经生物学(Neurobiology)和计算神经学(Computationa

26、lNeuroscience)基础上实现。神经生物学侧重研究神经元和突触等脑组织的生物学机理;计算神经学主要通过生物学机理对神经元以及神经突触等结构进行数学建模,并在模拟环境仿真以求其特征与生物脑相近。在器件层次在器件层次,生物神经网络中的神经元具有复杂且庞大的空间结构,主要分为突触、神经元、树突等几个部分。通过传统的 CMOS(complementary metal oxidesemiconductor)电路可以实现大规模的人工突触及人工神经元。例如,IBM 设计并研制了 TrueNorth 芯片,Intel 设计并研制了 Loihi 芯片,它们模拟了神经元和突触对脉冲的响应,并且具备并行运算

27、的能力,可以降低推理及训练所需的功耗。但是,在这些芯片中,每个神经元或者突触都需要采用数十个 CMOS 器件来实现,因此,人们尝试采用忆阻器来实现神经元和突触的功能。忆阻器与生物神经元在结构、物理行为和功能上有着极高的相似性,可以用于模拟神经单元丰富的行为特征,天然适合构建类脑神经器件。例如非易失忆阻器的电导状态随外加电压产生连续变化,可用于模拟突触单元在脉冲刺激下的权重调制;阈值开关器件两端施加不同的电压可以让器件电导产生突变,可用于模拟神经元的积分-发放行为;动态忆阻器的具有非线性的 I-V,并且其电导随时间指数衰减,可用于实现树突单元的非线性滤波特性。基于此类新型忆阻器构建新型神经元电路

28、结构及适配的网络算法,有望能够实现更高效的神经形态计算硬件系统,模拟生物神经网络强大的学习能力,并为进一步研究生物神经网络的运作机制提供高效17的计算平台。图 9 包含三种神经形态器件(突触、神经元、树突)的网络系统在智能层次在智能层次,脉冲神经网络(spiking neural network,SNN)作为第三代神经网络,与目前流行的神经网络和机器学习方法有着根本上的不同,它使用脉冲信号而非连续信号传递信息,更容易模拟人脑低功耗高性能的处理方式。在该过程中,神经元接收到足够的兴奋信号产生脉冲,通过突触传递给下一个神经元。脉冲神经网络通过 2 个层面提升信号处理的效率,降低功耗:一是在积分-泄

29、露-发放(leaky integrate and fire,LIF)神经元模型中,神经元对输入的脉冲持续进行积分,当积分电位达到脉冲发放阈值后,神经元才发放脉冲传递到下一层网络,该机制可以大幅降低未激活状态下的神经元静态功耗。二是通过引入自适应行为,使得神经元的脉冲发放频率受到其兴奋程度(阈值)的负反馈调节,有助于提高网络稳态,进一步减少网络中神经元的激活次数。此外,由于脉冲序列可以携带时间信息,神经元的 LIF 特性和突触的 STDP、STP 特性使得 SNN 在处理大量时空信息上具有优势,基于脉冲神经元构建多层神经形态网络有望能够提高网络对于时序信息的处理能力。由于 SNN 中涉及复杂的时

30、空动力学和不可微分的尖峰激活函数,开发用于深度 SNN 的高效学习算法是一项持续的研究挑战。此外,SNN 需要输入脉冲数据,当前直接获得脉冲信号的传感器还比较少,研究主要采用将传统数字信号经过一定规则转换为脉冲信号的方式,因而应用场景有限,精度也还不足以与卷积神经网络相匹敌。因而我们相信,未来应该是类脑计算与传统数字计算平台并存,互18为补充。数字计算平台面向云中心、高精度等计算需求。而随着面向类脑计算的传感器不断涌现,类脑计算有望在终端实现感知、存储、处理功能于一体,极大程度底缓解物联网实时数据爆炸的问题,实现更高效更低能耗的端侧推理。4.34.3 端边云协同:端边云协同:面向面向 6G6G

31、 物联网的物联网的泛在算力泛在算力随着物联网的持续快速发展以及百亿连接的移动通信设备下海量数据的产生,物联网场景逐步呈现计算边缘化、联接泛在化、应用碎片化及终端智能化等趋势,云计算、边缘计算等传统计算范式已经无法满足日益增长的场景需求,因此端边云协同计算成为了端侧计算的新兴技术之一。云侧中央服务器聚合了大量的硬件资源,具备强大的计算能力和存储能力,适合模型训练、资源调配;边缘服务器算力有限,可协同减轻云端的计算压力,提升服务的多样性,适合模型更新、异构汇聚;终端设备算力较小、靠近用户侧,可根据本地环境收集不同类型数据,有利于保护行业数据隐私性,适合模型推理、个性化服务。因而 6G 物联网需要根

32、据计算任务的相应需求选择更灵活的计算范式,按需灵活部署,从而制定全局最优的资源分配及任务调度方案,满足中心级、边缘级、现场级的需求。4.3.14.3.1 纵向端边云协同纵向端边云协同端边云协同技术的发展可分为以下三个阶段。图 10 端边云协同的三个层次第一阶段是聚合样本资源的数据协同第一阶段是聚合样本资源的数据协同,在该阶段中,端侧终端设备采集本地数据,传送至云侧进行数据处理分析、特征提取、训练推理等计算工作,最终云侧返回计算结果,其中,端、边、云三方间的协同交互只存在于源数据层面。受19带宽、隐私泄露、数据量等因素的影响,数据协同方式会面临难分析、难处理的困境,因此已逐渐被模型协同、算力协同

33、所替代。第二阶段是部署智能服务的模型协同第二阶段是部署智能服务的模型协同,该阶段将面向用户的人工智能服务部署到端侧、边侧、云侧,为用户提供低时延、高精度、具备安全保障的优质体验,其中端、边、云三方间的协同交互主要面向模型参数层面。在该阶段中,模型如何部署取决于用户需求,如为保障数据隐私安全,可采用联邦学习技术,即端侧上传模型参数或中间结果,边侧或云侧基于多个端侧设备的虚拟数据构建全局模型;为保障实时性需求,可采用模型压缩技术,即将云侧或边侧训练好的大模型通过剪枝等方式获取对应的小模型,并部署在端侧设备上进行推理,缩短推理时间;为保障个性化需求,可采用迁移学习技术,即云侧或边侧训练通用模型,端侧

34、基于本地实际场景的数据进行部分参数固定、部分参数微调,从而适应实际业务需求。由于模型协同具备更强的灵活性及更高的服务质量,因此近年来工业界及学术界不断进行探索,并取得了阶段性的成果,成为了主流的端边云协同方式。第三阶段是优化资源调配的算力协同第三阶段是优化资源调配的算力协同,该阶段利用优化算法实现端侧、边侧、云侧算力资源的分配及任务调度,使得资源高效利用,降低计算成本。随着国家“东数西算”工程及运营商“算力网络”规划建设的提出,打造端边云多层次、立体泛在的分布式算力体系成为新的研究热点,端边云协同也逐步打破常规,向“以算为中心”的方向发展。其中,学术界率先发力,将高性能终端与边缘侧、云端的资源

35、整合,根据实际需求,将部分任务的执行保留在本地或通过直通链路卸载到其他终端,可以实现更灵活、高效的网络部署,同时降低上级网络负荷。目前,算力协同还处于起步阶段,将端边云的算力资源进行连接与协同已经成为 5G/6G 网络发展的业界共识,然而,领域内仍然存在一些共性的挑战需要行业共同努力。一方面,对于终端侧,国内企业将主要关注点投放在智能设备的多种功能模组硬件升级、操作系统和一站式应用平台的搭建等,对端侧算力的调用、端侧协同机制和传输方法鲜有涉及。另一方面,学术界虽然已经有部分工作针对端边云算力协同优化,但是没有对业务场景进行针对性强的全面考虑,缺少端边云三个层级的通信、计算和存储跨域资源联合协同

36、。此外,多级分布式协同需要考虑服务需求差异化、部分信息可观测、接入网环境和资源状态复杂等现实因素对跨域资源协同和网络优化带来的影响。204.3.24.3.2 横向端端协同横向端端协同图 11 端端协同的四个层次端端协同端端协同 1.01.0 是基于是基于 D2DD2D 的数据共享的数据共享。借助近距离直通 D2D 技术,用户可以从邻近的已获得媒体业务的用户终端处获得该媒体内容系统层面可以缓解运营商蜂窝网络的下行传输压力,用户层面有助于降低时延及增强覆盖。对于这种端端协同实现数据共享的服务模式,从具体场景出发包括:(a)通过挖掘用户数据维度的兴趣共性、社交共性,将用户持有内容通过 D2D 链路推

37、送至潜在的共性内容需求用户,完成数据层和通信层融合服务;(b)对于请求同一媒体内容的区域用户群,由 D2D 多跳链路构成无线内容分发网络,完成快速内容共享,释放蜂窝网下行传输压力;(c)同用户多个设备之间通过 D2D 链路实现内容迁移,相较于传统短距离通信方式,提供更稳定优质的用户体验;(d)环境感知场景中(车联网/物联网),多个用户设备可以通过直通链路(V2V/M2M)将个体感知数据进行转发共享,扩大单车/单机视野,进而提升相应场景下(例如智慧交通、智能制造等)服务效率和可靠性。端端协同端端协同 2 2.0.0 是基于无缝连接的是基于无缝连接的任务任务卸载卸载。随着物联网设备数量和种类的迅速

38、发展和提升,智能应用服务通过设备间的发现、连接和任务卸载调度来提升用户服务体验越发的重要。在单用户设备比较少的时候,用户通过手动操作的方式进行设备之间的连接,比如,手机连接蓝牙耳机。随着外围设备越来越多,手动操作的方式不方便,甚至会影响用户的体验。在端端协同 2.0 阶段,通过蓝牙Mesh、分布式总线等方式能够让设备间形成方便、高效的互联,从而可以实现任21务按需在不同设备间进行卸载。从具体场景出发包括:(a)设备之间即连即用,无需繁琐的配置。在智能家居场景中烹饪时,手机可以通过碰一碰与烤箱连接,并将自动按照菜谱设置烹调参数,控制烤箱来制作菜肴。(b)多设备联动,提升用户体验。在多屏联动课堂中

39、老师通过智慧屏授课,与学生开展互动,营造课堂氛围,学生通过平板完成课程学习和随堂问答。统一、全连接的网络确保了传输通道的高带宽、低时延、高可靠。端端协同端端协同 3.03.0 是面向碎片化能力汇聚的超级终端。是面向碎片化能力汇聚的超级终端。随着电子芯片、嵌入式、数字集成技术的发展,智能终端的性能正在经历前所未有的飞跃。智慧屏、智能家电、VR 头显、机器人等终端设备,能够满足生产生活中的用户高级体验;而具有不同功能或不同体量的多个设备组合起来,可以构成一个虚拟的“超级终端”,为用户提供更灵活的媒体业务形式和更高效的资源共享方案。具体来说包括以下几方面。(a)通过蜂窝网络或本地局域网将多个异构设备

40、进行联通,设备具有的不同功能聚合,极大的提升用户体验。例如,智能手机、智慧屏和 6 个音箱构成的 5.1 声道环绕立体声设备群互联,可以为用户在播放手机视频时提供影院级视听体验。(b)通过蜂窝或局域网络将一个用户可支配的多个设备进行联通,实现计算和存储资源共享。例如,智能手机、平板电脑和笔记本电脑互联,用户可以通过笔记本电脑像操作自带硬盘一样,控制手机和平板的存储空间,或通过D2D 建立协同计算任务。(c)不同用户持有的终端设备可借助 D2D 传输进行计算卸载,这种方式充分调用空闲设备的计算能力,将部分任务的执行通过直通链路卸载到其他设备。多用户之间进行资源共享,也可看作是一种“超级终端”形态

41、,实现更灵活、高效的网络部署,同时降低上级蜂窝网络负荷。端端协同端端协同 4.04.0 是群体智能构成的超级大脑是群体智能构成的超级大脑。在工业物联网、车联网和一些应急场景下,往往需要多个无人系统、多个机器人构成工作组,协同完成特定的目标任务,而这种终端设备之间的协同作业,依托于去中心化的自组织智能协作方式,将端端协同技术推进到“超级大脑”层次范畴。例如,在应急通信场景下,多个无人机组成的空中基站群可以为用户提供通信和计算服务,无人机之间通过去中心化的分布式协作机制完成编队、任务分配、任务卸载转移等过程。这种多终端之间的协同机制起源于“群体智能”这一概念,是人们通过生物群体活动的自然现象中所发

42、现,并加以探究的结果。人工智能技术的发展,进一步优化提升22了多智能体协同工作的性能。在上面的例子中,无人机可利用深度强化学习算法,从当前状态下通过神经网络智能学习下一步动作(轨迹、任务分配决策),并不断与环境交互更新模型、优化参数,从而提升协作效率和服务质量。此外,以上谈及的端端协同技术仍然存在一些共性挑战,需要在实际的网络协议和优化配置中解决。一是不同用户终端之间数据和资源共享的激励机制设置:在数据共享和计算卸载过程中,需要内容或资源提供方消耗设备能量、蜂窝数据流量、CPU 资源等,因此设置合理的激励机制是十分必要的。二是 D2D 多跳转发协议设计:在内容分发场景下,核心问题是解决内容的转

43、发路由方案,同时需要联合考虑内容广播、频谱接入、同步等通信协议设计问题。三是协同传输和计算中的数据安全性保障:用户终端之间的协同不可避免的带来隐私数据泄漏的隐患,在物理层、数据层、模型层面上需要设计相应的安全性方案,实现端侧协同对用户隐私数据的保护。四是分布式协作中的信令交互机制设计:多智能体协同依托于去中心化的自组织群体智能,在没有中心控制节点的分布式拓扑中如何进行智能体之间的信令交互,以便能够满足协同工作要求并提升通信效率,是实现端端协同“超级大脑”愿景需要探究的问题。235 总结展望促进存算一体工程化和产业化促进存算一体工程化和产业化推动低功耗类脑智能算法成熟推动低功耗类脑智能算法成熟推

44、动推动面向面向 6G6G 物联网的立体物联网的立体计算计算24我们看到,端侧计算具有低时延、高隐私、个性化等优点,有望在 6G 物联网大流量、实时性、隐私性、自治性等场景有了广泛的应用,并且随着新兴技术的发展,其场景在不断丰富。但端侧计算技术整体还处在初级阶段,面临芯片计算资源受限、技术架构碎片化、兼容性差等问题,带来开发的难度,制约其发展和应用。推动端侧计算的早日成熟,有如下几点建议:一是产学研协同促进存算一体工程化和产业化一是产学研协同促进存算一体工程化和产业化,提升单点算力与能效,提升单点算力与能效。存算一体正处于多技术路线探索阶段,产业链尚处于初级阶段,我国与其他国家“旗鼓相当、齐头并

45、进”,有望实现计算芯片自主可控替代,避免“卡脖子”。但其产业化尚处于起步阶段,部分器件的准确性、计算精度、阵列规模有待提升;不同芯片厂家开发的软件工具链互不兼容,影响存算一体芯片产业生态构建。基于自主芯片的产业生态尚未形成。二是跨学科联动推动面向端侧的低功耗类脑智能算法技术成熟二是跨学科联动推动面向端侧的低功耗类脑智能算法技术成熟。类脑智能算法的目前还处于初步阶段,对大脑运行机制、仿人脑神经元器件、神经形态算法等研究还不够成熟。类脑智能体系涉及要素较多,需要跨学科紧密合作,深化多方协同,加大对人脑运行机制/仿神经元器件/关键算法/软件等加大支撑投入力度,共同推动技术实现体系化的创新。三是三是推

46、动推动面向面向 6G6G 物联网的物联网的端边云协同端边云协同立体计算。立体计算。当前的边云协同的标准不断推进、技术日趋成熟、生态蓬勃发展;但是端侧计算的技术架构还独立在边云协同之外,在立体计算中,端侧还主要承担数据采集的角色,和边、云的协同计算还处在初始阶段。面向 6G 物联网的业务需求,需要不断加强端侧和边云的协同。中国移动希望联合产业合作伙伴共同推动存算一体芯片关键技术研发,共同推动面向异构芯片架构的通用化软件工具链研发、打造标准软件运行环境,加快存算一体芯片产业化进程,研发基于存算一体技术的类脑硬件及类脑智能算法,推动其在人工智能、物联网等领域应用。研投协同加速构建新型计算领域自主可控

47、产业和生态,助力我国在先进计算领域实现弯道超车。同时,面向 6G 物联网,中国移动希望联合合作伙伴聚焦典型计算场景,搭建面向 6G 物联网端边云协同计算标准体系、完善端边云协同计算技术架构、并通过典型案例推动端边云协同计算落地应用。25缩略语列表缩略语列表缩略语全称解释IDCInternational Data Corporation国际数据公司SNNSpike Neural Network脉冲神经网络CMOSComplementary Metal-Oxide-Semiconductor互补金属氧化物半导体SRAMStatic Random-Access Memory静态数据随机存储器存储器D

48、RAMDynamic Random Access Memory动态随机存取存储器ReRAMResistive random-access memory电阻式随机存取存储器MRAMMagnetoresistive Random Access Memory磁阻式随机存取存储器PCMPhase Change Memory相变存储器FeFETFerroelectric gate field-effect transistors铁电栅场效应晶体管D2DDevice-to-Device设备到设备(通信)26参考文献参考文献1 IDC 白皮书:2025 年中国将拥有全球最大的数据圈2 IDC:2022 年中

49、国智能终端市场十大预测3 https:/ IDC:中国视频监控安全市场洞察,20205 IDC:中国自动驾驶汽车市场数据追踪报告6 Vivienne Sze.Efficient Computing for Autonomy and Navigation.http:/sze.mit.edu/slides7 中国互联网协会:中国网民权益保护调查报告(2021)8 IDC:中国智能家居设备市场季度跟踪报告,2021 年第二季度9Quantizing deep convolutional networks for efficient inference:Awhitepaper10 John L.Hen

50、nessy,David A.Patterson.Communications of the ACM,February 201911R.Alshahrani,The Path to Exascale Computing,in ACM/IEEEICPDPTA.,pp.123-126,2015.12 Fred Schlachter.No Moore s Law for batterie.April 2013.Proceedingsof the National Academy of Sciences 110(14):527313 K.Guo,W.Li,K.Zhong,Z.Zhu,S.Zeng,S.H

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 行业资料 > 其他

移动网页_全站_页脚广告1

关于我们      联系我们       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号  |  icp.png浙ICP备2021020529号-1 浙B2-2024(办理中)  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服