具身智能发展报告（2024年）.pdf

资源描述

1、中国信息通信研究院北京人形机器人创新中心有限公司2024年8月具身智能发展报告具身智能发展报告(2022024 4 年年)No.202405前言前言具身智能是人工智能（AI）与其他学科交叉融合发展的新范式，从字面可理解为“具身+智能”，通过给 AI 赋予“身体”，使其能够与物理世界产生交互，并在交互中主动探索世界、认识世界、改变世界。随着数字世界的 AI 算法开始展现出逼近甚至超越人类的思维能力，具身智能有望打开 AI 从数字世界到物理世界的窗口，在复杂的物理世界中进一步延伸和拓展 AI 边界，实现“知行合一”。具身智能将在技术涌现式创新和突破下，实现“一脑多形”，即让一个智能系统适配各种形态

2、的物理实体，如智能机器人、智能车辆等；实现“一机多用”，即让一个机器设备可以灵活地执行多种任务，适应多样化的场景需求。未来具身智能将从工业协作生产到柔性制造，从家务助手到医疗护理，从灾难救援到太空探索，深入融入人类社会。但当前其仍面临技术能力不足，数据短缺，以及工程实现复杂等一系列挑战。本报告从 AI 视角切入，致力于厘清具身智能的概念内涵、演进历程、技术体系，通过梳理当前具身智能技术发展现状，研判分析具身智能应用潜力与可能影响，提出面临的问题挑战，展望思维智能和行动智能融合的未来发展趋势。由于具身智能发展日新月异，限于编写时间、编写组知识积累水平有限等因素，报告中存在不足之处，敬请大家批评指

3、正。目录目录一、全球具身智能发展态势.1（一）具身智能的概念与内涵.2（二）具身智能发展历程.7（三）全球具身智能提速发展.14二、具身智能技术突破，重塑智能边界.15（一）感知模块赋予机器感官，实现多模态感知泛化.17（二）决策模块提升机器脑力，实现人类思维模拟.19（三）行动模块提升机器自主行动能力，实现精细动作执行.21（四）反馈模块拓展机器交互通道，实现自主学习演进.23（五）支撑要素本体、数据和软硬件底座共同构成具身智能发展基础.25（六）安全与隐私保障确保具身智能执行安全可信.29三、具身智能在各领域的应用前景.29（一）工业制造领域：打破人机协作瓶颈，实现智能化柔性适配.30（二

4、）自动驾驶领域：适应开放交通环境，实现安全可靠智能驾驶.31（三）物流运输领域：优化仓储物流产线，实现高效货物运转.32（四）家庭服务领域：解放人类双手束缚，实现全场景的智能家务服务.34（五）医疗康养领域：应对老龄化问题，实现拟人化交互服务.35（六）其他领域：从赋能到变革，推动各行各业创新与转型.36四、具身智能发展所面临的挑战.38（一）技术挑战.38（二）应用挑战.41（三）标准与合规挑战.44五、迈向未来，具身智能迎来无限可能.45（一）技术创新发展，推动具身智能持续进化.45（二）产业跨界整合，开辟更广阔的市场空间.46（三）体系重构加速，引发更深层次社会思考.47图目录图目

5、录图 1国内外专家有关具身智能的观点.3图 2具身智能的“三要素”概念内涵示意图.6图 3具身智能发展历程.13图 4具身智能技术体系.16图 5具身智能产业链示意图.43具身智能发展报告（2024 年）1一、全球具身智能发展态势1950 年，图灵在其经典论文 Computing Machinery andIntelligence1中探讨“机器是否能思考”这一根本问题，认为人工智能的终极形态是像人一样能与环境交互感知，自主规划、决策、行动和执行的机器人/仿真人（在虚拟环境中）。而有望实现的两条路径，一是聚焦抽象计算（比如下棋）所需的智能，二是为机器配备最好的传感器，使其可以与人

6、类交流，像婴儿一样进行学习。后续，这两条路径逐渐演变成了离身智能（Disembodied ArtificialIntelligence2）和具身智能（Embodied Artificial Intelligence，简称“EAI”）。当前，依靠海量数据，结合算法和计算能力的提升，以 ChatGPT为代表的离身智能实现智能涌现。自其推出之后，数字世界的 AI技术逐步展现出逼近人类甚至超越人类的思维能力。加利福尼亚大学圣迭戈分校的研究团队在交互式双人图灵测试中发现，人们无法区分 GPT-4 与人类3。但在物理世界中，智能机器人仍然仅是智力有限的任务工具。在此背景下，人们的关注点转向如何让 AI 的

7、认知从互联网的数字信息拓展到现实的物理概念，包括感官、空间、行动等信息，并将其更好地应用于物理世界。实际上，大模型对互联网上大量图文信息的处理和学习，本质上是“读万卷书”的过程，这1https:/ 年）2可以增强智能体的感知、知识理解和思维能力，但无法取代“行万里路”所带来的体验。就像人类在真实世界中的亲身体验和劳动，无法仅通过阅读和观看视频来替代。具身智能可以赋予 AI 身体，并具备与物理世界的交互学习能力，这是不能通过看图、看文这些数字信息所能够弥补、习得的。2023 年，Nature 子刊刊登了由 YoshuaBengio、Yann LeCun 等科学家联名发表的文章，提出下一代 AI

8、的终极挑战是通过具身图灵测试，即复现生物体的感觉运动能力，包括与世界互动、灵活的行为、高效的能源利用等4。具身智能被誉为迈向通用人工智能的重要一步，引发了新一轮的技术浪潮。（一）具身智能的概念与内涵（一）具身智能的概念与内涵1.具身智能：依靠物理实体通过与环境交互来实现智能增长的智能系统具身智能从字面可理解为“具身化的人工智能”，“具身”是前提，即具有身体且能通过交互、感知、行动等能力来执行任务，具身本体的形态不必限制在外观上的“人形”，同时身体的形态也不能作为判断是否属于“具身智能”的依据。根据使用用途和场景的不同，具身智能可以有多种形态。例如，通用智能机器人，大型的工业设备加上 AI 系统

9、，自动驾驶等多种具象化形态都属于具身智能。“智能”是核心，GPT-4o、Sora 等 AI 技术的最新进展，实现了对文本、视觉、语音等多模态信息的理解和转换。将这些 AI 技术4https:/ 年）3嵌入到物理实体如机器人上，可显著提升对环境的感知、交互和任务执行能力。先前的智能机器人，更侧重于执行特定的任务。而具身智能更强调在环境中交互能力，智能表现在物理实体能以“第一人称”主动进行感知、理解、推理、规划到移动和操作等任务。来源：公开信息整理图 1 国内外专家有关具身智能的观点具身智能的发展主要来自于两个领域的交叉融合，一方面机器人的通用智能需要借助人工智能，另一方面人工智能走向物理世界需要

10、一个身体，同时涉及到包括机械工程自动化、嵌入系统控制优化、认知科学、神经科学等多个学科的融合。这也导致了当前对具身智能这一概念的界定，不同专家的说法略有差异，一类观点强调具身交互对智能的影响。清华大学教授刘华平等在基于形态的具具身智能发展报告（2024 年）4身智能研究：历史回顾与前沿进展中总结：具身智能在身体与环境相互作用中，通过信息感知与物理操作过程可以连续、动态地产生智能。上海交通大学教授卢策吾曾表示通过智能体与环境的交互能够产生智能行为和适应性5。另一类观点关注具身交互对解决实际问题的作用。斯坦福大学教授李飞飞表示具身的含义在于与环境交互以及在环境中做事的整体需求和功能。中国科学院院士

11、姚期智认为通用人工智能（AGI）的未来发展需要具备具身实体，与真实物理世界交互以完成各种任务。但普遍认可：智能不仅体现在处理信息和解决问题的能力上，还体现在对其周围环境的感知、理解和操作能力上。当前，针对具身智能各家观点百花齐放，但都明确了“智能”的核心地位。因此，本报告从 AI 的角度切入，认为具身智能是指通过机器人等物理实体与环境交互，能进行环境感知、信息认知、自主决策和采取行动，并能够从经验反馈中实现智能增长和行动自适应的智能系统。2.具身智能与人形机器人、智能体等的概念辨析实际上，人工智能领域的快速发展使得大模型、智能体等技术名词不断涌现，也导致关于具身智能的概念有许多容易混淆的表述。

12、首先，具身智能不等于“大模型+机器人”，准确来说是人工智能+机器人等物理实体。大模型具备思维推理、计划决策、语言和视觉5https:/ 年）5理解等能力，这仅能模拟大脑皮层部分功能分区的智力表现。2024年 5 月，斯坦福大学教授李飞飞在时代周刊撰文写道，“大模型不存在主观感觉能力，多少亿参数都不行”。脑、身体和环境的深度耦合是产生高级认知的基础。这需要构建新一代人工智能算法，结合了脑神经、运控控制等复杂理论，推动具身智能实现认知涌现。其次，具身智能不等于人形机器人，从载体看具身智能可以是搭载到任意形态的机器人。人形机器人只是具身智能的一种形态，也被广泛认为是最理想的应用形态。但除此之外，比如

13、能在家庭中行驶并与人简单交互的宠物机器人、比如 L4 自动驾驶，本质上都同时具备具身和智能两种属性。再者，具身智能不等于智能体，两者各有交叉和侧重。智能体（Agent）是指能自主感知环境并在该环境中采取行动以实现特定目标的实体，更强调自主性和目标导向性。智能体既可以是虚拟世界中的计算机程序（软件智能体），如聊天机器人 ChatGPT、虚拟助手苹果 Siri 等；也可以存在于物理世界的智能实体，如智能机器人。具身智能则强调智能体的具体形态和环境之间的交互作用，通过行动的物理交互能够感知和改变环境，通过行动反馈能不断学习和适应环境。具身智能的主要存在形式是物理世界中的各种物理实体。具身智能发展报告

14、（2024 年）6来源：中国信息通信研究院图 2 具身智能的“三要素”概念内涵示意图对具身智能可以用“三个要素”来对其概念内涵进行理解。如图 2 所示，具身智能同时需要具备“本体+环境+智能”三要素，首先强调要有具身本体，通常是机器人等物理实体，可以有多种形态，如人形机器人、四足机器人、无人车、无人机等。本体具备环境感知、运动和操作执行等能力，是连接数字世界和物理世界的载体，同时本体的能力边界会限制智能体的能力发挥。其次强调与环境的交互能力，具身智能不仅能感知环境，还能通过行动来影响环境，并在与环境的交互中不断学习和适应。以“第一人称”视角去自主感知物理世界，用拟人化的思维路径去学习，从而做出

15、人类期待的行为反馈。最后强调一个增量，主要是智能的提升，具身智能利用大模型的知识理解和表达能力，赋能多种形态的物理实体实现智能增长。在数据驱动的算法学习下，不断增强感知、决策以及行动能具身智能发展报告（2024 年）7力，并让感知与行动更紧密地连接在一起。强调不仅通过算法和计算实现智能，还通过本体与物理世界的交互来展现和发展智能。“展现智能”在于依赖具身本体与环境的交互行为来解决实际问题，例如机器人在通用智能的加持下将本体的行动价值最大化。“发展智能”可理解为在具身本体与环境的交互中实现可持续的智能进化。（二）具身智能发展历程（二）具身智能发展历程具身智能与离身智能相互补充、协作发展共同促进了

16、对智能的理解、模拟与扩展，从具身智能与离身智能两类研究范式在历史上多次交锋的角度出发，整体发展历程如图 3 所示。具身智能从字面上可以拆分为“具身”+“智能”，天然具备“机器人”和“人工智能”两种属性，同时链接物理和虚拟两个世界。从人工智能视角看，自 1956 年 AI 概念诞生以来，智能的发展主要由符号主义与连接主义主导，两种范式从不同的侧面模拟人类的大脑，在以互联网信息处理为代表的领域取得了极大的成功。与符号主义强调“表示”和连接主义强调“计算”的离身智能不同，基于行为主义的“具身智能”更侧重关注“交互”，即智能受脑、身体与环境协同影响，并由身体与环境相互作用中，通过信息感知与物理操作过程

17、连续、动态地产生6。从机器人视角看，早期机器人无需与人协同，关注点主要集中在替代人力和工业场景自动化上，以工业机器人的应用为典型代表。当前，机器人与人的交互能力和广泛6http:/ 年）8的通用性成为发力点，探索机器人的自适应性和智能性成为重点，伴随着硬件制造和软件技术等方面的进步，以及产业链各环节的相互促进，具身智能将赋予机器人更多的智慧，不断拓宽机器人的智能边界和自主行动能力，使其更好地理解世界、自然化人机交互和高效执行任务，引领机器人进入通用智能新代际。结合人工智能的演进历程，具身智能的发展大致可以分为三个阶段，即：早期萌芽阶段（1950s-1990s）、技术积累阶段（1990s-202

18、2），以及技术突破阶段（2022 年至今）。早期萌芽阶段（1950s-1990s），在对智能的激烈争论和分立研究中，形成 AI 三大学派，尚未形成成熟的智能理论。1956 年达特茅斯会议之后的一段时期内，符号主义主导了 AI 早期发展，试图用逻辑规则、符号、知识工程来模拟人类思维。这一阶段的研究集中在逻辑抽象、逻辑运算和逻辑表达等方面，如逻辑理论家、通用问题求解器、专家系统等。连接主义则强调通过神经网络模拟人类大脑的学习和计算能力，但早期的连接主义模型是简单的、浅层的网络，如感知机，难以处理复杂任务。直到 1986 年反向传播算法让多层网络的训练成为可能，重新激发了研究者们对神经网络的研究热情

19、。然而以符号主义和连接主义为代表的计算智能的局限性很快显现出来。1988 年“莫拉维克悖论”提出人类认为困难的任务对机器来说很容易，而人类容易做到的事情对机器来说却非常困难。可以通俗地表述为：要让电脑如成人般地下棋是相对容易的，但要让电具身智能发展报告（2024 年）9脑有如一岁小孩般的感知和行动能力却是相当困难甚至是不可能的。1980 年代，罗德尼布鲁克斯（Rodney Brooks）发现传统的逻辑程序在机器人导航方面显得非常缓慢和笨拙，开始直接关注通过感知和动作驱动的环境交互来设计智能机器。自此，行为主义 AI 开始发展，主张通过身体与环境的交互来产生智能。该阶段“具身”机器人进行早期实验

20、性尝试，关注“逻辑规则算法+机器人”实现特定应用功能。1954 年麻省理工学院生产第一台能够预先编程控制的机械臂，具备了机器人的雏形。1960s 机器人学诞生。1960 年首台工业机器人 Unimate 投入使用，在美国通用汽车公司（General Motors）的一条生产线上进行焊接工作。这一时期，开始将以符号主义为基础的逻辑规则算法与控制论结合，实现移动、对话等功能。例如 1968 年，斯坦福研究院（SRI）人工智能中心研制了世界上第一台移动机器人 Shakey。1973 年，日本早稻田大学研发了会对话的人形机器人 WABOT-1。1970s 工业机器人开始在制造业领域广泛应用。1980s

21、计算机硬件和传感器等技术取得突破性进展，服务机器人进入人们的视野，例如 1985 年，日本公司 Epson 推出了第一款家庭机器人“AIBO”。1990 年，麻省理工学院制作一款模仿人头部的机器人 Kismet，具有听觉，视觉和本体感受等能力。技术积累阶段（1990s-2022），随着智能理论的完善、底层数学理论的深耕，AI 三大学派从各自突破，逐步走向取长补短的综合性研究，为具身智能发展奠定理论和算法基础。一方面，行为主义在具身智能发展报告（2024 年）10反思计算智能的局限中获得发展。布鲁克斯在 1980 年代对计算智能的根本性思考，推动了一系列以“底层智能”（即从简单的感知反应机制逐

22、渐累积到复杂行为的生成）为基础的研究，试图参考生物的结构设计和行为方式模仿生物感官和运动能力。1991 年由布鲁克斯发表研究论文没有表征的智能提出智能行为可以直接从自主机器与其环境的简单物理交互中产生，而这种交互不依赖于预先设定的复杂算法。另一方面，底层数学理论的深耕研究让 AI 算法逐渐打破桎梏，三大学派在相互补充中协作发展。深度学习、强化学习、形态计算等理论及算法模型快速突破。与具身智能紧密相关的算法理论突破主要有三方面。一是深度强化学习（强化学习+深度学习），2016 年，基于深度强化学习和蒙特卡罗树搜索的 AlphaGo 击败了人类顶尖职业棋手。二是模仿学习（强化学习+监督学习），19

23、99 年提出模仿学习，聚焦让机器人模仿人类行为的研究，通过让机器人直接模仿专家行为，可以快速、稳定地使其掌握技能，而不依赖于过多探索。三是形态计算，将物理形态的影响引入对智能体感知、学习、控制的作用分析，探索基于形态计算的行为生成。2004 年 C Paul提出形态计算，聚焦双足运动形态和控制研究。该阶段“具身”机器人快速发展，关注“行为主义”架构的仿生机器人研发和“人工智能+机器人”的智能化水平提升。1990 年，麻省理工学院制作一款模仿人头部的机器人 Kismet，具有听觉，视觉和本体感受等能力。1991 年由布鲁克斯基于“感知行动”框架，具身智能发展报告（2024 年）11研发六条腿机器

24、人 Genghis，可以自主行走。1999 年，日本索尼公司推出犬型机器人爱宝（AIBO）。2002 年，丹麦 iRobot 公司推出第一款家用扫地机器人 Roomba，获得当时的市场认可。2010 年代，出现了众多消费级机器人，例如扫地机器人、智能音响等。同期，无人驾驶技术取得了显著进展，特斯拉、谷歌等企业推出了自动驾驶汽车，此外无人机在物流、航拍、监测等领域也得到了广泛应用。在医疗、养老、家政等领域服务机器人逐渐成为标配。此外，在如今机器人行业的发展中，常常能看到生物学的身影，因为仿生能够帮助机器人更好地适应自然。例如 Boston Dynamics 的“大狗”、会飞的蜻蜓机器人、软体章鱼

25、机器人等。技术突破阶段（2022-至今），具身智能时代有望加速来临。2022以来，以 ChatGPT 为代表大模型的通用知识和智能涌现能力为机器人实现智能感知、自主决策乃至拟人化交互方面带来巨大潜力。大模型让具身智能的新进展井喷式涌现，大幅提高机器人的语言交互、环境感知和任务决策等关键能力。例如，2023 年提出的 VoxPoser模型利用 ChatGPT 理解任务语言描述并进行任务步骤分解。PaLM-E具身多模态语言模型，将真实世界的连续传感器模态融入大语言模型（Large Language Models，LLMs）中，构建了文本和其他感知数据之间的语义联系，实现更全面的环境感知。2024

26、年，NaviLLM 为导航任务中语言描述、视觉观察对象以及运动轨迹等不同阶段的任务需求设计了统一的指令输入方案，让 LLMs 能够直接生成运动方具身智能发展报告（2024 年）12向、对象位置等行动信息。探索具备通用智能，能够像人类一样执行任务的具身机器人成为业界共同目标。“2023 半导体大会”上，英伟达创始人黄仁勋表示 EAI 是能理解、推理、并与物理世界互动的智能系统，是人工智能的下一个浪潮。2024 年，人形机器人集中爆发，其他形态的本体如协作机械臂、移动操作机器人、仿生灵巧手、无人驾驶出租车等也显现出智能升级趋势。2024 年 3 月 OpenAI 与人形机器人初创公司 Figure

27、合作推出了 Figure 01 机器人，能听、会说、能与人类对话交流并且可以执行多样化任务。8 月推出的 Figure 02 凭借 GPT-4o的大脑升级和本体的巧妙设计，如配有全方位摄像头、仿生灵巧手等，在感知、移动和操作能力上取得进一步突破。7 月世界人工智能大会（WAIC2024）上，有超过 25 款人形机器人亮相，同时在该大会上，加持了 Noematrix Brain 穷彻具身大脑的双臂协作系统展现了叠衣、削黄瓜皮等能力。百度萝卜快跑无人驾驶出租车进入商业化运营阶段，有数据显示曾单日单车峰值超过 20 单，与出租车司机的平均日单量相当7。7https:/ 年）13来源：中国信息通信研

28、究院图 3 具身智能发展历程具身智能发展报告（2024 年）14（三）全球具身智能提速发展（三）全球具身智能提速发展全球主要经济体均高度重视具身智能发展，不断提升细分领域关注度。美国紧抓人工智能基础研究，保持具身智能领域的前沿领先地位。2024 年 4 月，美国高校联合发布新版“国家机器人路线图”，旨在重振机器人技术领先地位。日本正在将机器人纳入社会并使机器人成为其社会基础的关键部分8。在人口老龄化的背景下持续聚焦机器人应用以升级制造业生产和替代人类服务。2024 年丰田研究所推出软机器人 Punyo 定位于服务人类日常生活，配备内置传感器结合柔软肢体实现全身协同操作。韩国出台多项政策推动以机

29、器人和自动驾驶为核心的具身智能技术创新。2023 年发布机器人产业发展战略，擘画有关行业中长期发展蓝图。在战略中提出到 2030 年在各领域推广使用百万台的目标。我国加快推进新型工业化，具身智能作为新质生产力的典型代表，成为各省布局产业规划的关注重点。2024 中关村论坛年会“未来人工智能先锋论坛”上，北京市海淀区发布了打造全国具身智能创新高地三年行动方案。具身智能有望成为迈向通用人工智能的重要驱动力，巨头纷纷布局，产业融合加速推进。具身智能将可以充分利用大模型的优势，在新任务上实现少样本和零样本学习，有效推动“具身化”机器人向跨任务学习和多任务迁移发展。2023 年 5 月，英伟达发布多模态

30、具身智能系统 VIMA，能在视觉文本提示的指导下，执行复杂任务、获取概念和理解边界。2023年8月谷歌DeepMind推出机器人模型Robotics8东方法学2024 年第 3 期(人形机器人法治专刊)(总第 99 期）具身智能发展报告（2024 年）15Transformer 2（RT-2），是全球第一个控制机器人的视觉-语言-动作大模型（Vision Language Action Models，VLAs），10 月发布 RT-X机器人大模型。2024 年 2 月，英伟达宣布成立通用具身智能体研究实验室 GEAR，标志着英伟达正式入局具身智能领域的研究，加速人工智能具身化进程。2024 年

31、 4 月，优必选人形机器人 Walker S 通过百度智能云千帆 AppBuilder 平台接入百度文心大模型进行任务调度应用开发，共同探索 AI 大模型+人形机器人应用。2024 年 4 月份起，北京具身智能机器人创新中心围绕具身智能基础模型、具身智能仿真应用以及大规模具身智能数据集等，开展具身智能体母平台“开物”的研发。特斯拉宣称将推进 Optimus 人形机器人的进一步应用，预计2025 年 Optimus 正式部署到工厂9。二、具身智能技术突破，重塑智能边界具身智能技术的发展从前期模块化的 AI 算法集成，逐渐转向大模型驱动的统一技术框架，在通用性和泛化性上取得明显突破。早期实现通过集

32、成多个“小模型”结合人工介入方式，根据场景或用途按需调用模型，来完成相应任务，如视觉层面采用目标检测算法用于识别物体、控制层面凭借强化学习、模仿学习和形态计算等传统机器人学习技术，让机器人能够在没有人为干预情况下做出最优行动决策。这一阶段的技术发展主要是为了满足日益增长的机器人应用需求，试图为机器人赋予智能化元素，使其不再局限于固定的自动化机械操作。大模型出现后，具身智能逐渐将不同模块的功能融合到一个统一框架9https:/ 年）16下，利用大模型潜在的知识理解和表达能力，实现了自然的语言交互，无感的多模态信息处理与转换，甚至可以对语言、视觉、触觉、听觉等各种感官信息进行统一处理，并通过融合机

33、器人轨迹数据等运动经验，可以执行具体行动操作。来源：中国信息通信研究院图 4 具身智能技术体系具身智能技术体系如图 4 所示，可分为“感知决策行动反馈”四个模块，四个模块形成一个闭环，在与环境的不断交互中，实现对环境的重构映射、自主决策和自适应行动，并从经验反馈中不断学习进化。具身智能的技术尚处于多条路径探索发展阶段，可以类比于自然语言处理领域的“BERT”发展时期。BERT 和 GPT 的出现让自然语言理解能力有了里程碑式突破，但仍有多条技术路线在并行发展，直到 ChatGPT 的出现。目前具身智能也正在围绕“感知+决策”、“感知+决策+行动”等并行探索多条有潜力的技术路径，探索如何打具身智

34、能发展报告（2024 年）17造具备通用智能的具身智能基础模型。（一）感知模块（一）感知模块赋予机器感官，实现多模态感知泛化赋予机器感官，实现多模态感知泛化感知模块是具身智能的“信息采集和处理器”，建立对外部环境的感知和理解，为可靠的决策和成功完成行动提供支持。感知模块主要任务包括对象识别、位置定位、场景理解、环境重建和状态监测等。感知实时性和精度将直接影响决策的可靠性和行动的准确度。例如在仓储物流场景，对象识别即识别不同的包装箱、货架、托盘和环境中的其他设备，当一批新货物到达仓库时，可快速完成分拣。场景理解即理解仓库内物体布局、货物堆放以及人员活动等情况，用于分析仓库内的货物存储情况、货架占

35、用率等。环境重建即生成仓库的三维模型，用于规划货物导航方案。位置定位即确定自身和货物运输的目标位置。引导机器人从指定位置取货，并准确送到目标位置。状态监测即通过机器人运作中不断接收的传感数据，监测仓库内的温度、湿度、照明、障碍物、设备运行状态等，帮助及时发现并处理故障问题。感知模块的具体实现从集成不同的 AI 算法，逐渐转向使用多模态模型来处理和融合多维传感数据。感知模块需要对来自 RGB 摄像机、激光雷达、深度摄像机、重力传感器等多种外接传感设备的输入数据进行处理，进而从不同模态的数据中获得多维环境信息。由于不同模态的数据存在格式差异性、时间和空间的不一致性以及干扰噪声等问题，多模态数据的融

36、合以及统一的环境概念表达面临挑战。先前，通过组合各个 AI 算法来执行不同的感知任务，实现针对特定场景的环境感知和理解。这一阶段，通常在空间有限、场景结构具身智能发展报告（2024 年）18相对固定、且动态变化相对可控的封闭场景下，预先构建目标检测、姿态估计、3D 重建等 AI 算法模型，组合用于识别环境中的对象，理解场景和环境状态变化。例如移动机器人在导航时至少需要理解有什么物体和目标位置在哪里。常见解决方案是采用计算机视觉技术如YOLO 负责物体的识别和定位，采用 SLAM 技术生成环境的三维地图，帮助规划导航路径。当前，大模型通过对多模态信息的统一处理与灵活转换，实现对环境的多模态感知泛

37、化。视觉基础模型（Vision Foundation Models，VFMs），如 CLIP、MVP、R3M 等，帮助大模型获取预训练好的视觉表达，提供视觉辅助信息。EmbCLIP、CLIPort、RoboFlamingo 等均采用这一方法。视觉语言大模型（Vision Language Models，VLMs）支持处理图像、3D 数据、状态信息等多模态数据，将现实世界数据转化为可被 LLMs 理解的表达，弥合了语言符号指令与视觉感知信息间的差距，例如直接根据语言指令中的“苹果”一词识别环境中苹果区域和位置信息等。动态学习作为 VFMs、VLMs 等的学习策略，可以为模型注入时间维度的动态变化

38、信息，提升模型视觉表达的丰富度。Vi-PRoM10在对比预训练基础上联合动态学习，通过捕捉时间上的视觉变化，来理解视觉的语义信息。大模型结合世界模型能够实现感知预测，模拟环境的动态变化。3D-VLA11在 VLM 之上结合 3D 世界模型的视觉生成能力，能够想象和预演环境动态变化与行动后果间的关联。随着多模态处理能力的演进，具身智能将融合语言与视觉、听觉、10https:/arxiv.org/pdf/2308.03620.pdf11https:/arxiv.org/abs/2403.09631具身智能发展报告（2024 年）19触觉等感官信息，更容易实现可变环境的自适应和未见任务的行动泛化。2

39、024 年 1 月 UCLA 提出多模具身智能大模型 MultiPLY 具备包括视觉、听觉、触觉在内的多模态感知能力，能够与 3D 环境全面交互。（二）决策模块（二）决策模块提升机器脑力，实现人类思维模拟提升机器脑力，实现人类思维模拟决策模块是具身智能的“指挥中心”，接受环境感知信息后，完成高级任务规划和推理分析，并生成逐步决策指令来控制行动。决策模块的主要任务包括任务规划和推理分析等。可靠的决策依赖于感知模块对环境的准确理解。尤其在动态变化的环境中，丰富的感知信息能带来明显增益。北京大学提出的视觉导航技能 PixelNav 利用多模态大模型提取环境中的视觉语义、物体线索等多视角的感知信息，实

40、现了对任意类别物体的导航任务规划和策略推理12。精细决策可以增强行动的精准度和可控性。例如，中国人民大学提出了可泛化铰链物体操纵的具身智能框架，其中的决策模块在基于运动学信息推理操纵步骤后，可进一步生成精确的 3D 操纵关键点，解决了复杂铰链物体的底层操纵难题。决策模块的具体实现从依靠人工知识的编程决策、专用任务的算法设计，转为以大模型为核心的机器智能决策。决策模块负责接收来自感知模块的各种信息，并结合任务目标做进一步处理后，制定具体的行动策略。决策模块的灵活性和适应性直接影响着具身智能系统的智能化水平。一个高度智能化的具身智能系统，能够根据环境和任务需求的变化，实时调整决策；能够不断获取感知

41、信息和行动经验，学习和优化决策；能够有效协调和控制其他各个模块，确保决策效率。先前，人工编程决策和强化学习算法设计在环境状态变化可控的12https:/arxiv.org/abs/2309.10309具身智能发展报告（2024 年）20条件下，能够完成简单任务决策。尤其在一些明确、可定义的任务场景中，人工编程决策可以发挥作用。例如人工编写的 A*算法和Dijkstra 算法，广泛用于完成简单的导航和路径规划任务。通过预编程的任务脚本用于完成工业产线任务的顺序执行决策。但这类完全定制化的算法很难应对动态变化的环境和未知情况。随着强化学习方法发展，基于近端策略优化算法、Q-learning 算法的

42、强化学习方法在具身智能自主导航、避障和多目标收集等任务中13，可以获取运动序列样本进行策略更新，展现更好的决策灵活性。但对复杂环境的适应能力、决策准确度和效率仍然受限。当前，大模型在环境动态变化的条件下，能够模拟人类思维完成复杂任务决策。大模型在大规模的互联网数据上进行预训练后展现出强大的思考和推理能力，能够像人类一样做出更加智能和适应性的决策。一是利用 LLMs 的语言理解能力，弥合了自然语言和机器指令间的语义鸿沟。俄亥俄州立大学推出的 LLM-Planner14提出了高级和低级两层的任务规划策略，其中高级规划器利用 LLM 对用户的任务描述生成自然语言规划，低级规划器将子任务转化为行动指令

43、。LLM+P15利用 GPT-4 能直接将任务规划转化为机器能够理解的规划领域定义语言（PDDL）描述。二是利用 LLMs 的代码生成能力，替代人类的复杂编程环节。Code as Policies16利用 LLMs 生成任务策略代码，调度其他模块或底层 API 函数。三是 LLMs 结合其他辅助信息，更好地适应实际环境的复杂性和动态变化。Inner Monologue17将视觉13http:/ 年）21的检测结果整合到 LLMs 的提示词中进行规划或重新规划。PHYSOBJECTS18利用 LLMs 生成初始规划，并通过查询日常物体的物理概念（如材料、易碎性），在 VLMs 的帮助下进行下一步

44、决策。3D-VLA19整合了 3D 空间信息，能够完成 3D 空间推理和交互决策，如把最远的杯子放在中间的抽屉里。（三）行动模块（三）行动模块提升机器自主行动能力，实现精细动作执行提升机器自主行动能力，实现精细动作执行行动模块是具身智能的“执行单元”，负责接收决策模块指令，并执行具体动作。行动模块的主要任务包括导航、物体操作和物体交互。导航任务即通过四处移动，寻找目标位置，例如把客厅里的椅子放到第二个阳台上20，在物流运输、车间搬运、家庭清洁、家庭伴随等场景中都有涉及。物体操作需要接触物体并通过操作改变物体状态，如简单操作扔、推、滑等，复杂操作炒菜、转笔等。物体交互指通过交互才能完成的操作任务

45、，如拉开抽屉、按按钮、旋转阀门等。物体操作和物体交互常见于家务劳动、工业分拣等场景。行动模块要实现精细的动作控制面临很大挑战，具体实现可分为三条主要技术路线。在真实环境中，机器人行动能力受到复杂环境以及环境动态变化的限制。环境中温度、湿度、摩擦力、障碍物、部件磨损等环境属性和条件的动态变化，均会导致感知观测误差和决策准确性，进而影响任务执行的成功率。当前，仅依赖大模型仍难以很好应对操作对象的变化和复杂的操作要求，需要考虑优化奖励策略，以及整合环境、运动等多样化信息。18https:/arxiv.org/abs/2309.0256119https:/ 年）22一是强化学习与主流 Transfor

46、mer 架构结合，应对泛化性挑战。强化学习范式一直主导了机器人行动学习技术的研究，让机器人在与环境的交互中，不断试错、学习和优化策略，并依据奖励策略不断优化动作执行结果。然而，强化学习方法在面对未知环境时存在泛化差距，难以将学习到的行动经验迁移到新的、以前未见过的环境中21。最近，一些研究工作利用主流 Transformer 对多模态数据的通用表达和转换能力，驱动强化学习方法实现多任务泛化。例如 Q-Transformer采用强化学习方法在大规模多样化的真实世界数据集上训练Transformer 模型，能够自动积累经验，快速适应不同任务。二是大模型作为强化学习的辅助工具，突破强化学习发展瓶颈。

47、一方面，利用 LLMs 设计或塑造深度强化学习的奖励策略，避免了人工费力设计策略函数的过程。EUREKA 利用 GPT-4 自主设计的奖励函数在 83%的任务中优于人类专家设计的奖励。这种奖励能够让具身智能完成很多之前不容易完成的任务，如转笔、打开抽屉和柜子、抛球接球和盘球、操作剪刀等22。另一方面，大模型的先验知识和多模态信息提取能力解决了强化学习方法的低样本效率问题。例如多模态大模型能够处理语言提示、目标图像、轨迹规划策略、3D 热力图等各种类型的数据，并将其转化为监督且能够灵活地将其纳入反馈机制来优化策略。三是视觉语言动作大模型实现了从语言到可执行动作指令的直接转换。VLAs 是对 LL

48、Ms 和 VLMs 的进一步扩展，将互联网知识、物理世界概念与运动信息融合到统一框架中，能够直接依据自然语言描述生成可执行的动作指令。Prompt2Walk23将语言与运动信息结合，21https:/arxiv.org/abs/2010.1081422https:/ 年）23使用 LLMs 通过收集的少量运动数据提示直接输出关节角度。英伟达发布 VIMA24可以通过多模态的输入提示来学习操作动作。RT-225采用模仿学习的范式将 VLMs 融合机器人运动数据，能够直接生成可被机器人识别的操作指令。然而，这类解决方案仍面临较大的成本挑战。谷歌 RT-1 的数据收集使用了 13 个机器人且耗时 1

49、7 个月26。（四）反馈模块（四）反馈模块拓展机器交互通道，实现自主学习演进拓展机器交互通道，实现自主学习演进反馈模块是具身智能的“调节器”，通过多层交互不断接收来自环境的反馈经验并进行调整和优化，以提高对环境的适应性和智能化水平。反馈模块将环境交互的经验用于优化感知、决策和行动模块，实现感知增强，策略优化和行动适应。对感知模块而言，环境交互中能够持续反馈视觉、触觉、听觉等各种感官数据，从而提高对外部环境变化的敏感度，实现更准确且更细致的环境感知。例如配备了摄像头和触觉传感器的机器人，通过不断接收和处理视觉图像和触觉反馈，可以更准确地识别物体的形状、位置和材质。对决策模块而言，环境交互中能够持

50、续反馈行动结果、获取语言指令等，从而快速识别有效和无效策略，做出更智能的决策。例如在家庭服务中，通过持续收集用户的生活习惯和偏好等反馈信息，来优化照明、温控和安防策略，为用户提供更舒适和智能的居住体验。对行动模块而言，接收反馈信息后，会根据决策模块的指令灵活调整动作，确保在不确定和多变环境中也能高效运转。例如调整运动轨迹、改变力量输出或改变动作顺序，以应对实时的环境变化和任务需求。反馈模块主要依赖大模型来加速反馈经验的学习，形成闭环的优24https:/vimalabs.github.io./25https:/deepmind.google/discover/blog/rt-2-new-mod

展开阅读全文