1、?序 言AI 终端白皮书AI 与人协作、服务于人序 言AI 终端白皮书AI 与人协作、服务于人序 言AI 终端白皮书AI 与人协作、服务于人序 言AI 终端白皮书AI 与人协作、服务于人序 言AI 终端白皮书AI 与人协作、服务于人序 言AI 终端白皮书AI 与人协作、服务于人序 言AI 终端白皮书AI 与人协作、服务于人序 言AI 终端白皮书AI 与人协作、服务于人前 言AI 终端白皮书AI 与人协作、服务于人?FOREWORD?CONTENTS?-2-产业趋势AI 终端白皮书AI 与人协作、服务于人生成式 AI 对各行各业的产业提升效应是巨大的,行业研究数据表明,随着企业改变经营方式并对产
2、品和服务进行强化,到 2032 年,生成式 AI 有望在硬件、软件、服务、广告、游戏等众多领域创造 1.3 万亿美元收入,占科技领域总支出从目前的不足 1%扩大到 10%-12%,复合年增长率达到约 42%1。而在生成式AI对消费者的影响方面,一项针对全球37个国家和地区的公众调查显示,2023年,认为人工智能将在未来三到五年内极大影响他们生活的人比例从 60%上升到 66%。此外,52%的人表示对人工智能的产品和服务感到紧张,比2022年上升了13%,36%的人认为在未来5年内,AI 将取代自己的工作2。人们对 AI 充满了既爱又怕的矛盾,既认同 AI 能够改变世界,又担心 AI取代人,人类
3、变成了机器的仆人。AI与人协作、服务于人,是华为终端一贯坚持的技术理念。正如计算机帮助人类提升生产效率、手机帮助人类让沟通无处不在一样,AI 可以帮助人类突破自身身体局限,让自己看得更清、听得更清、记得更牢、理解得更透彻。同时,AI 还能帮助人类增强、扩展信息的处理能力,面对海量信息,能够化繁为简,面对碎片信息,能够见微知著,面对无序信息,能够归纳推理。通过无处不在的全场景智能,华为终端致力于让 AI 帮助提升人的工作效率和生活品质,并赋予人们实现梦想和创造未来的能力。当前,生成式 AI 技术与消费终端的融合正在加速,不断推动行业创新和社会变革。华为终端与多家顶尖智库、研究机构及学术高校合作,
4、通过深入调研和分析,总结出了四大终端 AI 产业发展趋势。-3-产业趋势AI 终端白皮书AI 与人协作、服务于人AI 技术在终端产品落地时,一般经历“应用层集成 AI”、“系统层融合 AI”、“以 AI 为中心的全新 OS”三个阶段:?AI 技术在终端产品的融入度逐步深化,推动性能与体验双重升级1.1阶段一,应用层集成 AI:单点特性的智能增强,如在翻译,图片处理,文字识别等领域引入 AI 能力,以增强单点特性的功能体验。阶段二,系统层融合 AI:AI 能力全面下沉 OS,为上层应用和服务提供开箱即用的原子化、控件级 AI 能力。同时,对系统高频应用和服务进行智能化改造,如图片一键消除、图库检
5、索、图片文字提取、日程自动生成等,提升 OS 系统的智能感。阶段三,以 AI 为中心的全新 OS:下一代原生智能 OS 架构,统一的 AI 子系统底座使得 OS 各个组件内部和彼此之间都能够灵活高效地使用 AI 技术;此外,内置于 OS 内的系统级 AI Agent 出现,使得原生智能 OS 不仅仅是一个操作系统,更是能够深度理解用户、自主闭环用户任务的、智慧的、常驻的超级智能体。-4-产业趋势AI 终端白皮书AI 与人协作、服务于人?20162017?201820202021202220232024?一?以华为终端为例,在历经三个阶段的终端 AI 能力进阶后,将实现系统级原生智能,开启全场景
6、智能新时代。实时在线的服务:系统级入口和全局可用的超级智能体,实现智能服务无处不在。更自然的多模态交互:基于 LUI(Language User Interface,自然语言用户接口)与 GUI(Graphical User Interface,图形化用户接口)相结合的交互和反馈,多维度识别用户意图,让用户更便捷地使用智能服务。全场景智能体验:通过端云协同、AI+元服务的全场景智能,在生活、办公、出行、创作等全场景领域为用户提供个性化、超预期的创新服务。全面开放的 AI 生态:从开放 AI SDK/API、到开放高阶 AI 服务、再到开放 Agent开发平台和开放 Agent 应用市场,助力提
7、升每一个终端应用的 AI 浓度。-5-产业趋势AI 终端白皮书AI 与人协作、服务于人模态是指承载信息的模式或方式,不同类别的信息来源或形式都可以称为一种模态。模态基于人的感官可分为听觉、视觉、嗅觉、味觉、触觉,基于信息传递的媒介可分为图像、语音、视频、文本等,除此之外还有传感器的模态数据,如雷达、红外、GPS、加速度计等各种模态数据。人类生活在一个由多种模态信息构成的世界,会同时收到多个互补的、融合的、不同模态的感官输入,多模态更符合人类感知周边、探索世界的方式。生成式 AI 为终端设备带来更自然、更全面、更多维的人机交互方式,打破了传统单一独立 I/O 通道输入方式的限制,极大地丰富了人机
8、交互的维度。多模态理解大模型可以让用户使用文本、图像、声音、视频、传感等多种数据类型与终端进行交流,大大拓展了用户同终端的交互形式。多模态生成大模型能够生成各种跨媒体内容,为用户提供更为直观的信息表达,从而实现更加高效丰富的沟通体验。这也为更多样性的终端硬件形态如穿戴设备、机器人等提供了更有力的支撑。1.2.1 多模态大模型带来更自然、更全面的人机交互体验智能体将引领终端进入全新人机交互及智能协作的时代1.2?-6-产业趋势AI 终端白皮书AI 与人协作、服务于人华为HarmonyOS通过其分布式软总线的通信协同能力,实现了多设备、全场景下的无缝连接,此外,HarmonyOS 充分利用其丰富的
9、硬件传感和软件感知能力,结合 AI 意图框架、语言大模型、多模态大模型,深入理解用户意图和当前所处场景的上下文,为用户提供触摸、手势、语音、眼动、自然语言、图像等更自然、更全面、更贴合使用习惯的交互体验。1.2.2 AI 自主化程度越来越高,“以意图为中心”的 AI 与人协作方式正在建立目前,基于生成式AI的LLM(Large Language Model,大语言模型)在自然语言理解、推理、思维链等能力上取得的突破性进展,受益于此,AI 完成任务的能力越来越强,从简单指令执行,演进到自主拆解目标并自主完成任务的高阶智能体。“Agent”(智能体)这一概念起源于哲学,描述了一种拥有欲望、信念、意
10、图以及采取行动能力的实体。基于 LLM 的 AI Agent 更多是指“一种智能体,可以自主地理解意图、规划决策、执行任务、调用工具,并具有记忆能力。”AI Agent 的出现,意味着 AI 与人的协作方式将发生颠覆性变化,从传统的“以用户指令为中心”,转变到“以用户意图为中心”。“以意图为中心”是一种提升用户体验的设计理念:用户只需要表达出需求或期望,而将实现需求的过程交由系统来完成。以手机为例,当用户希望在飞行途中继续观看视频剧集,早些时候,他只能自己告诉手机上的 AI 智慧助手逐步执行“打开华为视频”、“找到 xx 视频”、“下载第 58 集”等操作。但在以意图为中心的设计理念下,AI
11、智慧助手演进成 AI Agent,用户只需要告诉 AI Agent“我坐飞机时想看我正在追的剧”,AI Agent 就能够自动处理如下任务:?-7-产业趋势AI 终端白皮书AI 与人协作、服务于人1.检索到用户第二天有一班从北京飞深圳的航班,航班飞行时长为 3 小时。2.根据用户日常习惯,发现用户近期正在华为视频上看 xx 视频,看完了第 4 集,每集视频时长约 40 分钟。3.推理出 3 小时飞行时长需要下载 5 集。AI Agent 会主动规划并执行上述步骤,同时确保视频下载时手机处于 Wi-Fi 连接状态。现在大多数应用的设计是以功能为中心的,是复杂专业且具有技术门槛的,比如办公类软件中
12、有 10000 多个细微功能,但前端只有 100 左右按钮位置,大部分好用的功能并没有被普通用户感知到。随着 AI Agent 的出现,在以意图为中心的设计理念下,AI Agent 将成为处理用户需求的第一入口:用户只需要向 AI Agent 说出自己的需求,AI Agent 基于用户的意图直接调用后端对接的应用服务的细粒度功能,或是进行多个功能的组合、编排,以满足用户诉求。AI Agent 的出现,可以让应用“既简单又专业”。近年来,终端操作系统经过持续优化变得更加直观和友好,但从根本上讲,它们仍然是建立在静态规则和预定义逻辑流程上,其设计初衷是满足通用化和普适性需求。然而,面向未来,更智慧
13、的操作系统应该是动态的、自主的和自适应的,它将像一个值得信赖的伙伴,不断适应用户,满足他们的需求,预测他们的诉求,并迎合他们的喜好。在大模型和智能体的技术驱动下,未来真正理解用户、为用户量身定制的原生智能 OS 将进一步拓展传统终端 OS 的内涵和外延:1.2.3 大模型和智能体驱动下一代更智慧的操作系统 1.OS架构AI化:终端OS将不再局限于传统的内核层、硬件抽象层、运行时和核心库层、应用框架层、应用层等功能分层,而是将大模型、Agent 等放置于 OS 的中心位置,实现以 AI 为核心的系统全面重构。-8-产业趋势AI 终端白皮书AI 与人协作、服务于人?2.计算体验定制化:通过对用户习
14、惯的自主学习以优化资源管理决策,如对高频应用进行前台化、重新分配带宽和存储等方式来提升系统性能,为用户提供量身定制的计算体验。3.智慧助手 Agent 化:终端上的智慧助手将演进成 AI Agent,像一位秘书或管家一样,一直关心、实时在线、适时服务,站在距离用户最近的位置,代表用户超前思考,为用户带来智能的服务体验。-9-产业趋势AI 终端白皮书AI 与人协作、服务于人2023 年,全球存量消费终端设备达到 228 亿台,其中智能手机占 29.8%,智能家居设备(不含 TV)占 26.3%,PC 和 PAD 占 17.6%,智能电视占 13.1%,智能耳机占 8.8%。根据预测,到 2030
15、 年,全球消费终端市场规模将进一步提升,达到约 32 万亿人民币,全球消费电子终端预计将达到 325 亿台,人均约 3.8 台。其中,智能物联类生活场景消费设备增长最快,从人均 0.9 台增长到 1.9 台,包括穿戴设备产品、智能家居(不含 TV)产品和智能汽车产品等。3随着我们进入每个人都拥有多个电子设备的时代,消费场景将会潜移默化地发生改变:从单设备拓展到多设备、从有限场景拓展到全场景、全空间。华为一直遵循如下多设备全场景的设计准则:从设备孤岛到全面连接:物联设备接入主设备的比例越来越高,要确保设备之间的高效稳定通信。从有限感知到全面感知:从对单设备上的有限感知,到对多设备、时空信息、用户
16、全空间的动作、手势等全面感知。从单场景应用到多场景多设备服务流转:从面向单个场景的单个设备上应用,到多个设备互联、服务跨端流转、全场景体验一致。?1.3.1 多设备、多场景成为消费者使用终端设备的常态 消费者需要更加智能化、互联化和人性化的全场景智能服务体验1.3-10-产业趋势AI 终端白皮书AI 与人协作、服务于人当用户在不同的场景中使用多个互联设备时,期待服务是自然连续且能够跨端流转的。畅想一下,我们应该如何打造未来多设备多场景下的用户体验?例如,如何让“好音乐与用户一路同行”?用户在户外跑步或是骑行时,可以用连接手机的耳机听音乐,用手表控制播放,在开车时将音乐流转到车机,而回到家里流转
17、到智慧电视大屏上。又如,如何为用户打造“数字运动私教”?用户开始跑步,手表 Sensor 检测到心率变化、手机定位检测到移动速度、麦克风检测到环境声音,操作系统的场景感知模块基于场景定义和策略,判断出用户处于运动场景,并基于用户个人跑步习惯调用各种元服务,如播放音乐、导航跑步路线、检测道路拥堵情况并实时提醒、基于用户心率情况提示用户调整呼吸和速度等等。传统 APP 被限制在为用户提供预定义的功能或工作流的集合上,无法应对未来多设备、多场景下更多样性、更泛化的用户需求。为了支撑服务的全场景跨端流转,一部分传统 APP 将逐渐向更加轻量化、便捷化的原子化服务演进,具备免下载、免安装、即用即走、易于
18、分享、开发成本低的特性。原子化服务将成为未来全场景智能应用生态中的重要组成部分。基于华为 HarmonyOS 构建的元服务,不仅具备上述原子化服务的全部优势特性,还为消费者提供了更多隐私和便利的设计:纯净生态、隐私保护。通过构建合理的生态规则,打造纯净流畅的元服务生态,确保用户数据资产、隐私信息的授权和使用“透明可控可回溯”。安静不过扰,推送恰逢适宜。从 OS 系统层面规范服务状态消息提醒,有效减少对用户的打扰。同时,基于用户意图、状态、场景的识别主动推送或唤起元服务,确保服务连续、不突兀、不跳出。自定义卡片组合、实时便捷。用户可自定义元服务万能卡片组合,在桌面即可一眼获取多项服务信息,做到桌
19、面实时提示,重要信息浅层外显、一步直达。1.3.2 全场景跨设备流转的服务需要更加轻量化和便捷化-11-产业趋势AI 终端白皮书AI 与人协作、服务于人?内置多设备、多模态融合感知能力的华为 HarmonyOS 全面感知用户场景,深度理解用户显性和隐式意图,从后端海量生态服务中匹配合时宜的服务,并对服务进行高效编排、调度推送、跨端自由流转。对消费者的价值:用户可以在不同场景下、不同终端设备上便捷地获取服务,也可以基于服务状态穿插使用不同服务,享受场景化智慧化的“服务合时宜、服务不间断”的新体验。对生态伙伴的价值:生态伙伴的服务发现和服务推送入口获得极大丰富,可直接被系统调用并完成服务闭环,服务
20、的触达路径更短更直接。1.3.3 AI 驱动的服务分发提供服务连续性体验,构建服务分发新范式当用户的终端设备变多、使用场景变多、原子化服务变多,如何实现“服务随人而动,体验无缝衔接”,将对服务的分发机制提出更高的挑战。我们认为,未来服务分发模式会发生变革,从人找服务,到服务找人;从离散性服务,到连续性服务;从被动调用、到主动服务。而 AI+元服务正是支撑这一变革的核心要素。-12-产业趋势AI 终端白皮书AI 与人协作、服务于人尽管生成式 AI 在多种任务中表现出了显著的性能,但由于运行和存储这些大尺寸规格模型需要大量的计算资源和存储空间,这些大规格模型无法直接部署在设备端,通常只能部署在云上
21、(数据中心)。一方面,业界在积极研究模型轻量化、高质量数据工程、低功耗高性能 AI 芯片、高性能系统优化等技术手段和解决方案,使得在 PC、手机上部署的生成式 AI 模型能力不断提升,但端侧模型性能仍然与云侧大模型有较大的差距。另一方面,轻量级终端设备集成生成式 AI 能力的诉求越来越强烈。随着未来集成了高清摄像头、麦克风阵列、以及重量更轻、续航能力更高的可穿戴设备的出现,用户希望这些设备也越来越智能,戴着它就可以实现“听你所听、见你所见、感你所感”。例如,用户在博物馆参观中,可直接同 AI 对话,了解博物馆各个藏品详细的历史故事;或者,用户在上课时,可以随时向 AI 提问,让 AI 帮助记录
22、或是澄清课堂中的疑问,课后进行解答,或是帮助整理课堂笔记、梳理知识要点。因此,可以预见,当未来围绕在用户周边的大大小小的终端设备都集成了生成式 AI 能力时,需要强大的云侧 AI 能力进行统一的、跨端的、全局化协同。1.4.1 轻量级终端设备集成生成式 AI 功能将成为主流更强大、更高效的终端智能需要打破设备和应用边界1.41.4.2 基于用户场景的端云协同 AI 将构筑真正强大的全局化智能端侧部署的模型有着端到端推理速度快、隐私数据不出端、离网可用的好处,能够满足部分高敏感场景的需求。然而,受限于端侧模型的性能和处理能力,这些模型仅能应对一些简单的业务场景,如信息问答、文章摘要、图片文字识别
23、等。更复杂、更高阶的场景则需要交给云侧大模型处理。云侧部署的模型不仅能够提供更高阶的规划和决策能力,解决复杂问题,还能够打破设备和应用边界,应对跨端、跨应用、需要使用长期记忆能力的场景。-13-产业趋势AI 终端白皮书AI 与人协作、服务于人因此,使用端侧 AI 能力还是云侧 AI 能力,需要基于用户不同场景进行最恰当、最合适的选择。在用户的隐私许可和授权下,基于云端一体化的安全可信体系架构,云端模型与端侧模型相互配合,构筑真正强大的全局化智能,为用户提供基于场景的、主动的、连续性的服务和体验,激发出全新的生态价值。?-14-产业趋势AI 终端白皮书AI 与人协作、服务于人-15-未来场景展望
24、AI 终端白皮书AI 与人协作、服务于人目前,AI 在多个基准测试上展现出了惊人的能力,已经超越了人类表现,如图像分类、基础阅读理解、视觉推理和自然语言推理等领域。但仍有一些任务类别 AI 的表现未能超越人类,这些任务往往是更复杂的认知任务,如竞赛级数学等。随着 AI 能力持续发展,相信 AI 将在更多的领域达到高级别人类专家水平4。展望一 工作2.1研究报告显示,56%的中国职场人认为 AI 的普及是不可避免的趋势,并且对此持积极态度,对 AI 的利用能力正在成为职场关键竞争力:78%的职场人认为 AI 提升了日常工作的效率,94%的职场人认为 AI 可以极大地促进学习和成长,有助于掌握新知
25、识和技能5。AI 已经帮助职场人在工作中提升生产力、加速学习并提高工作效率。2023 年的一项针对软件开发人员使用AI工具的调研表明,77%的受访者对集成AI的开发工具表示支持和非常支持,并且,82.6%的人表示经常使用AI来编写代码,48.9%的人用于调试和协助,34.4%的人用于文档编写,23.9%的人使用 AI 进行代码测试6。此外,AI 也帮助职场人在各种大赛中崭露头角。我们已经看到各种 AI 影像、视频作品大赛中,参赛者不仅仅有设计师、产品经理、影视从业者,还包括很多此前毫无 AI 基础的普通人,有的甚至接触 AI 仅有 1 个月,也能创作出超出想象力的作品。2023 年,在华为公司
26、内部举行的一次编程竞赛中,冠亚季军均利用了 AI 大模型的编程辅助功能,而去年的大赛冠亚军未使用 AI,名次排在 TOP10 之外。未来,随着 AI 在感知、认知和自主任务闭环能力的持续增强,基于生成式 AI 的 Agent 几乎能够在各个领域达到或超过人类专家的水平,人和 AI 将协同工作,具有知识和技能的 Agent 将成为一种经济商品,大量面向大众的 Agent 产品将会出现,每个人可以购买或租用他人的 Agent,或订阅Agent云服务,未来将属于能够更好地与Agent协作、在多个领域实现专家级能力的职场人。-16-未来场景展望AI 终端白皮书AI 与人协作、服务于人当 AI 增强了人
27、类不擅长的能力,未来的生活将会有多美好。AI 能够帮助卸载人类的繁琐记忆,我们的大脑每天要接收并处理高达 34GB 的信息,利用 AI 作为“储存和管理信息”的数字外脑,人类大脑可以更多地被释放出来用于“思考”和“创造”7;AI 可以扩展人类的多事务处理能力,我们可以在驾驶的同时让 AI 在网上检索演唱会的售票信息,并在出票时第一时间帮助抢票;AI 还可以增强我们的感官系统,在夜跑视线受限时,AI 可以提醒地上的水渍污迹,注意绕开。展望二 生活2.2当 AI 为人们提供了不同模态、不同表达之间的理解和转译,我们的生活记录将会有多少惊喜。我们用手机拍下所看到的景观,AI 可以直接生成诗歌或者文章
28、,让摄影机去“所见”,让人工智能去“所感”,用技术的手段去实现文学中最难以量化的表达和情绪,为每一张照片、每一段视频记录独特的故事和情感色彩,全方位多维度地捕捉和传递生活中的美好瞬间。当AI围绕着家庭生活的方方面面为我们服务,我们的生活将会有多轻松。具身智能(Embodied intelligence)的 AI 智能体(机器人)不仅能理解图像和视频,还能在真实环境中四处移动,与周围环境交互,执行多个步骤以完成复杂的类人任务,为我们提供既科技又便捷的家庭服务。AI机器人可以自动清洁、整理家居、照顾宠物,并根据家庭成员的日常习惯调整室内环境,如光线、温度和音乐。在 AI 服务下,人们可以拥有更多自
29、由时间,享受更高品质的生活。当 AI 为我们提供创意实现的手段,每个人的创意将会被放大到更远的地方。如今,生成式 AI已经能够生成真假难辨的视频、极具艺术感的图像、人声与乐器相结合的逼真歌曲,AI 作品创作将不再局限于具备专业技术背景的开发者,越来越多的大众人群都能轻松地向 AI 提出自己的创意,与AI协同创作出令人惊叹的画作、绘本、短剧、电影等。传统创作需要大量时间来培养人的专业技能,而 AI 让普通人的天马行空不再眼高手低,它用随处可得、平易近人的工具打破了创作的门槛,催化灵感的多元实现,它公平地欢迎每一个有创意的人。-17-未来场景展望AI 终端白皮书AI 与人协作、服务于人学术研究指出
30、,一对一的定制化辅导是学习最有效的方式之一,但人类家庭导师通常是价格昂贵且不易获得的,AI 有望成为每个人随身携带的 7*24 小时导师8。如今,已经有多个语言类AI 产品为用户提供写作、外语、数学、编程等不同领域的辅导。与人类导师相比,学生们更愿意向 AI 导师寻求帮助,他们认为 AI 导师不那么正式,不容易引起答错问题的恐惧。展望三 学习2.3AI 导师还可以走得更远,它可以帮助我们开展个性化教学。AI 导师根据学生的能力、兴趣、性格特点和学习进展,不断调整和优化教学路径,在补齐学习上的薄弱点和短板的同时,帮助发现和发展学生的技能和潜力。除此之外,AI 导师在对学生的评估和反馈上也具有独特
31、的优势。对学生作业和考试的反馈是帮助学生掌握知识并取得进步的重要手段,AI 导师不仅可以提供即时的反馈并鼓励学生再次尝试,还可以访问学生历年来完整作业和考试记录,跟踪学生的成长情况,更全面地了解他们知道什么、掌握了什么。进一步的,AI 导师还可以洞察就业市场和未来技能需求,为学生提供量身定制的学业途径和职业选择建议,同时,推荐所必需的课程、社交活动或实习机会,以确保学生能够获得理想的大学或职业道路。-18-未来场景展望AI 终端白皮书AI 与人协作、服务于人未来,随着传感器技术、AI、VR/AR 技术的进一步发展,人们不再仅仅在视觉和听觉上体验到数字技术,还可以闻到、尝到和感觉到数字世界里的气
32、味、味道和触感,从而获得身临其境的体验。预计到 2030 年,全球联接总数将达到两千亿级,传感器数量将达到百万亿级,这些传感器持续不断地从物理世界采集数据,如温度、压力、速度、光强、湿度和浓度等,让数字世界也拥有“视觉、触觉、听觉、味觉、嗅觉”的感知能力,甚至超越人类感官的能力。在一项消费者 2030 年 10 大趋势调研9中,感官互联网(IoS,Internet of Senses)的概念被提出,这项技术旨在弥合数字世界和现实世界之间的差距,使我们与数字世界的互动更加逼真,为用户带来超越现实的体验。展望四 娱乐2.4此外,随着各电磁波频段技术的不断发展,无线感知技术日益成熟,已有大量基于 W
33、i-Fi 信号等中长波的姿态感知技术。下一代无线通信即 6G 的规划中,提出了通信感知一体化的概念,6G 通信涉及更高的频段如亚毫米波和太赫兹波,可以提供超宽带宽以实现更高的感知精度和分辨率。太赫兹感知可以进行光谱分析,识别食物、药物、空气污染的组分,进行物体的层析成像和隐藏物体检测等。未来无线感知技术将大幅度拓展 AI 系统的感知能力。当数字世界中融合更多与物理现实密不可分的感官感知和无线感知,用户的数字体验将会发生颠覆性变化。在这样的世界里,日常的娱乐会是什么样子?我们可以在网络购物时,先在屏幕上进行数字触摸,感受家具和服装的质感,然后再决定是否下单。我们可以在看电影时,亲身感受到电影中所
34、有严寒和酷暑,闻到大雨滂沱时卷起的泥土腥气,熏风拂过时栀子花摇曳的馥郁香气。我们可以在网络上游览名胜古迹时,不仅可以品尝到当地的街头小吃,触摸到镌刻着历史印迹的城墙,还可以控制我们听到的声音,过滤掉嘈杂纷乱的背景声音,聆听那熟悉的那一抹乡音。-19-未来场景展望AI 终端白皮书AI 与人协作、服务于人-20-AI 终端智能化分级标准与关键技术特征AI 终端白皮书AI 与人协作、服务于人AI 为未来场景提供了可实现的技术手段,推动着创新快速发展和产品应用落地。近年来,随着生成式 AI 这一技术取得的显著进展,也引发了生成式 AI 同终端产品深度结合的创新浪潮:为了让消费者对 AI 终端的能力有更
35、清晰、更直观的认知,同时也为了让产业界对 AI 终端的能力演进达成统一的共识,协同产业有序发展,参考汽车驾驶自动化分级,以及清华大学PERSONAL LLM AGENTS(个人大语言模型智能体)10中的智能体能力分级,我们提出 AI终端智能化 L1L5 分级标准,并期待产业界同仁一起来完善、优化该分级标准。从应用的角度看,各终端厂家和应用厂家密集推出基于大模型的 AIGC 应用产品,涵盖对话、写作、学习、媒体创作、办公商务等领域。从硬件设备的角度看,各终端厂家的 AI 能力也在不断推陈出新,产业界也纷纷提出AI 终端、AI PC 不同维度的概念定义。?L5?L4L3L2L1?AI 终端智能化分
36、级标准3.1-21-AI 终端智能化分级标准与关键技术特征AI 终端白皮书AI 与人协作、服务于人针对 AI 终端分级标准,进一步高阶抽象出支撑该分级标准的 AI 终端六大关键技术特征。?关键技术特征3.23.2.1 原生智能 OS我们认为,原生智能 OS 需要具备统一的 AI 系统底座、原生智能应用、系统级智能体、开放生态四大核心要素,以能够更好地支撑 L1L5 智能等级的终端 AI 技术演进。如下以华为HarmonyOS 原生智能技术架构为例来展开四大核心要素。?-22-AI 终端智能化分级标准与关键技术特征AI 终端白皮书AI 与人协作、服务于人 统一的 AI 系统底座:全新打造的 AI
37、 系统底座,在 OS 层提供统一的 AI 基础模型、数据接入、模型与算力的调度能力、模型加载与升级的工程化治理框架等,同时为OS 其他子系统(如媒体子系统、文件子系统等)提供协调一致的智能化改造。原生智能应用:对用户日常使用的系统应用(如电话、消息、图库等)和服务(如扫码、图片编辑等)进行智能化升级,提供超越预期的智能化体验。小艺超级智能体:作为系统级智能体,具备高效精准的多设备、场景融合感知和意图理解能力、高阶任务规划和反思能力、广泛的工具调用和操作执行能力,为用户提供体系化、可扩展、全场景智能能力,并与领域 Agent 一起相互协作,共同完成更复杂的任务。生态开放:为三方生态应用提供开放的
38、模型开发和部署能力、高价值 AI 组件能力、领域 Agent 开发平台能力,为生态应用开发和应用部署、应用运行进行全流程价值赋能。感知领域碎片化,每个软件只能感知软件内的行为和数据;感知过程和结果碎片化,软件在有限的感知视野内根据自身需求各自实现和执行感知步骤,得到局限在某特定领域的感知结果,并通常不互相分享感知结果;时间碎片化,系统出于能耗和隐私考虑往往不允许执行长期感知动作。感知是指通过传感器数据获得上下文信息的过程。这里的传感器包括硬件传感器和软件传感器,硬件传感器指具有物理结构的感知单元,如加速度计等。而软件传感器则泛指广泛的软件数据,如聊天记录、日程安排等。现有终端设备、系统和软件中
39、已经有大量的感知过程,比如短视频软件分析行为感知用户喜好、智能手机感知环境光照自动调节亮度、智能手表识别用户心率和IMU数据感知用户动作等等。然而,目前大部分感知都是“碎片化”的,这种碎片化主要体现在几个方面:3.2.2 全场景融合感知-23-AI 终端智能化分级标准与关键技术特征AI 终端白皮书AI 与人协作、服务于人碎片化的感知难以得到更全面的感知结果,进而无法支撑下一代 AI 终端对物理世界全方位的感知需求。在未来全场景智能的愿景下,原生智能的 OS 需要打破碎片化:AI 要超越今天的能力,我们需要的不仅仅是能够看到或对话交流的 AI,我们还需要可以做到的 AI。当 AI 结合了更高维度
40、的感知结果,将触发思考,进而影响自主行为。与人类常见的行为模式一样,看到乌云即可联想到下雨从而带了一把伞出门,AI 将学会感知复杂世界并与之互动,并在此过程中触发智能的、可按需编排调度的主动服务。在不久的将来,更高维度的智能感知、更智慧的基础模型、更高阶的空间智能将为具身智能赋能,开启智能社会的更多可能性。从多终端多源头汇总软件、硬件的感知数据,构建统一协同的感知数据底座;在系统层做最大程度的过程共享、调度优化,降低长时间感知的资源占用和整体功耗,实现系统级全局最优的感知过程。打破多个终端硬件、不同应用之间的隔离,从用户上下文、设备上下文、场景上下文中抽象出更高维度的感知结果。?-24-AI
41、终端智能化分级标准与关键技术特征AI 终端白皮书AI 与人协作、服务于人通用意义的 AI Agent 智能体实现了“以意图为中心”的 AI 与人的协作机制,系统超级智能体则进一步结合 OS 系统的底层能力,为用户提供体系化、可扩展的智能能力。OS 系统资源中的各项能力(感知能力、记忆能力、工具能力等)向系统超级智能体开放并由其进行管理。系统超级智能体主要由以下四个逻辑功能模块组成:?Awareness+Memory?(Plan+Reflect)?(Tools)?(Action)?感知和记忆:感知模块主要用于系统超级智能体获取各种原始的、以及高维度抽象后的感知结果;记忆模块是系统超级智能体中存储
42、并管理的用户信息的记忆体,以优化用户个性化需求下的表现。自主规划:能够基于用户隐式或显式诉求,自主拆解子任务,编排形成闭环目标的子任务链。同时,能够根据子任务执行结果进行迭代反思,自主提升规划和编排能力。工具:可供调用的工具和服务集合,包括 OS 系统工具(如日历、计算器、网页检索等)和三方服务(如元服务、领域 Agent),基于良好的接口定义规范,系统超级智能体能够实现对海量工具和服务高效的检索和分发。行动:按照规划拆解的子任务(包括调用相关工具)进行执行,以闭环任务目标。3.2.3 系统超级智能体-25-AI 终端智能化分级标准与关键技术特征AI 终端白皮书AI 与人协作、服务于人类似于终
43、端操作系统(HarmonyOS、Android、iOS)的系统级 APP 和普通 APP 一样,除了系统超级智能体之外,下一代 AI 终端中还将存在多个领域智能体(领域 Agent)。系统超级智能体和领域 Agent 相互协作,为用户提供全局性与专业性结合的智能服务体验。3.2.4 端云协同端侧侧重感知执行,云侧侧重规划决策,端云协同构筑真正强大的全局化智能,同时,端云协同一体的芯片、算子、模型的设计,还可以释放更强大的硬件资源。以华为端云协同解决方案为例,AI 计算生态同栈,端云模型同源,为业务带来极致性能体验。端侧自定义算子编程:业界首次开放端侧 NPU(Cube)的自定义算子编程,使能更
44、多样的模型能够运行在硬件加速器上,并可根据需要进行专门的定制优化。端云统一的 AI 计算生态:业界首次实现端云统一的 AI 计算生态,端云的算子优化可以互相使能或借鉴,并借助社区力量,推动端云硬件加速的协同发展。端云芯片同源:有利于端云算力动态互助,以端助云降成本,以云助端提升体验,同时便于业务在多设备间流转时,保持能力、体验的一致性。?-26-AI 终端智能化分级标准与关键技术特征AI 终端白皮书AI 与人协作、服务于人 端云模型同源:有利于模型能力、数据分布、词表、端云体验一致性的对齐,助力端云算法协同、数据协同、业务场景协同。智能感知与动态防护的软件安全:1)集成自我学习与适应能力的 A
45、I 安全引擎,实时监控系统行为,识别异常活动,有效抵御病毒、木马和 0 Day 攻击。2)采用微服务架构,实现服务间最小权限原则和隔离,降低单一服务受损对整体系统的影响。3)内置的隐私保护机制,将确保用户数据在处理、存储和传输过程中的加密与匿名化,保护个人隐私。内置安全与可信执行环境的硬件安全:通过集成安全芯片(如 TPM、SE 等)实现硬件级的密钥管理、身份验证和数据加密,为系统提供不可篡改的信任根。此外,基于可信执行环境(Trusted Execution Environments,TEEs)为敏感操作提供独立的执行空间,同时实现基于密码学的机密计算,保证了数据和计算过程的保密性、可靠性、
46、不可篡改性。随着 AI 在未来的智能社会中扮演着越来越重要的角色,AI 系统需要处理更丰富更全面的个人信息,一旦 AI 系统被攻破,大量用户敏感数据可能会被窃取和滥用,此外,AI 大模型本身也可能成为攻击目标,比如攻击者可以通过设计出特殊的提示词进行越权访问,获得其本来无权访问的用户隐私数据,或引导智能体执行一些不该执行的动作。生成式 AI 系统的可信安全体系需要从芯片、硬件、操作系统、大模型、智能体等多个维度全新设计。以华为AI终端为例,通过深度整合软件、硬件、芯片与云端各层防护机制,形成立体、动态、自适应的“软硬芯云一体化安全架构”,确保数据、应用和用户交互的安全无虞。3.2.5 安全可信
47、-27-AI 终端智能化分级标准与关键技术特征AI 终端白皮书AI 与人协作、服务于人定制化安全指令与硬件加速的芯片级安全:在芯片设计阶段融入安全理念,开发定制化的安全指令集,以硬件加速的方式执行加密运算和安全协议,确保从底层硬件到上层应用的全程安全。策略统一和风险共享的端云安全协同:安全云作为软硬芯云架构的中枢,承担着安全策略的集中管理和跨设备协同防御的任务。鸿蒙能够实时接收最新的安全补丁和威胁情报,实现安全策略的统一部署、更新与威胁预警,并协调不同设备间的防御行动,形成强大的协同安全效应。生态在 AI 终端中占据着非常重要的一环,推动了应用和服务的多样化发展。通过建立开放的生态系统,开发者
48、可以轻松接入和利用 AI 能力,从而快速开发出创新的应用和服务,满足用户的多样化需求。总体上,华为 AI 终端基于“分层开放、全流程价值赋能”的原则助力鸿蒙 AI 生态开发。3.2.6 生态开放AI?AI?Core AI API?Core DeepLearning API?-28-AI 终端智能化分级标准与关键技术特征AI 终端白皮书AI 与人协作、服务于人 模型开发部署能力开放:Core Deep Learning API,基于软硬芯云垂直整合,提供硬件加速的端侧模型推理、训练和构图接口,支持三方模型通过 Tools(统一 IR)转换为缺省 MindSpore Lite,实现一次开发即可在多
49、芯片(CPU、GPU、NPU、DSP)运行,确保海量存量 AI 应用极易迁移的同时,在麒麟芯片、HarmonyOS 上更能够发挥出 AI 应用的极致性能体验。高价值 AI 能力开放:为应用提供与 HarmonyOS 深度适配的,极具竞争力的原子化AI 接口(Core AI API),以及高阶 AI 系统能力组件(AI 控件、意图框架),应用可直接集成,实现快速开发与迭代,提升用户体验和应用性能。领域 Agent 开发平台开放:小艺开放平台为领域 Agents 提供一站式、无代码开发集成环境,同时提供移动终端独特的工具/插件,如位置服务插件、事件通知插件等,赋能 CP 高精准、高效率地开发移动终
50、端领域 Agent。应用智能化推荐:基于多设备融合感知、意图框架体系以及系统级多入口,小艺建议帮助应用&服务多维度、多频次、多场景、高效率地触达用户,实现从人找应用,到应用找人。服务智慧化编排:在小艺系统超级智能体的统一协同下,服务可分可合、自动化编排,实现服务按需组合,入口一步直达。应用运行阶段:应用开发和部署阶段:-29-AI 终端智能化分级标准与关键技术特征AI 终端白皮书AI 与人协作、服务于人-30-倡 议AI 终端白皮书AI 与人协作、服务于人2021 年 8 月,我国汽车驾驶自动化分级标准正式发布,推动了智能驾驶产业进程的加速发展,截止 2023 年年底,乘用车 L2 级辅助驾驶