2023中国人工智能系列白皮书-心智计算：构建脑与心智启发的人工智能.pdf

资源描述

中国人工智能系列白皮书中国人工智能系列白皮书心智计算心智计算：构建脑与心智启发的人工智能：构建脑与心智启发的人工智能中国人工智能学会中国人工智能学会二二二二三年年九九月月 2 目录第 1 章引言.4 第 2 章心智计算研究概述.6 2.1 心智计算的发展历程.6 2.2 心智计算的科学问题.7 2.3 心智计算的哲学展望.10 2.4 本章小结.11 第 3 章心智计算的理论模型.12 3.1 图灵机.12 3.2 物理符号系统.13 3.3 ACT-R.14 3.4 SOAR.15 3.5 CAM.17 3.6 BrainCog.19 3.7 本章小结.22 第 4 章心智计算中的心理揣测.23 4.1 心理揣测概述.23 4.2 心理揣测的实验范式.24 4.2.1 以动物为被试的实验范式.25 4.2.2 以人为被试的实验范式.26 4.3 心理揣测的神经基础.28 4.4 心理揣测的计算模型.29 4.4.1 基于贝叶斯的心理揣测模型.29 4.4.2 基于深度学习的心理揣测模型.32 4.4.3 基于脑启发的心理揣测模型.32 4.4.4 基于其他方法的心理揣测模型.34 3 4.5 本章小结.35 第 5 章心智计算中的情感共情.36 5.1 情感共情概述.36 5.2 情感共情的实验范式.37 5.3 情感共情的神经机制.37 5.4 情感共情的计算模型.40 5.5 本章小结.43 第 6 章心智计算中的意识理论.44 6.1 意识理论概述.44 6.2 意识理论的实验范式.45 6.2.1 裂脑人实验.45 6.2.2 遗忘症与情节记忆.45 6.2.3 最小神经关联物.46 6.3 意识理论模型.46 6.3.1 高阶理论.47 6.3.2 全局工作空间理论.47 6.3.3 整合信息理论.48 6.3.4 再入/预测处理理论.50 6.3.5 因果链重构理论.51 6.4 本章小结.52 第 7 章总结与展望.54 第 8 章参考文献.56 4 第 1 章引言心智计算（Mind Computation）以多学科交叉的方式融合来自人工智能、认知科学、脑与神经科学、演化生物学、人类学等学科的研究方法与计算范式，对生物智能与心智活动的计算机制机理进行多视角、多尺度系统性的探索，在研究动物与人类心智计算理论与模型的基础上，发展受脑与心智启发的通用人工智能。重点研究生物与人工心智的计算理论体系、心智建模、学习与记忆机制、常识构建与理解、生物与人工意识、社会认知等的科学原理和计算理论与技术。神经科学、脑科学、认知科学从多视角、多尺度系统地揭示生物脑的结构、功能和机制，理解生物心智活动的自然智能本质；人工智能通过计算建模来模拟、延伸和拓展动物与人类智能的方方面面，达到类生物水平的理解、思考、学习、决策及社会认知能力。尽管人工智能经过近七十年的发展已经在某些领域取得了显著进展，但动物与人类心智涉及到的复杂认知和意识、情感、想象力和创造力等，在当前的人工智能系统中仍难以模拟和重现。为此，心智计算旨在充分实现多学科交叉融合，深度借鉴脑与心智的工作机理，通过计算建模模拟生物心智活动的多尺度结构和功能可塑性，在计算系统中重现动物与人类的心智。动物与人类的心智是思维和认知能力的总体，包括感知、学习、记忆、决策、推理、情感、心理揣测、意识等。当前对于心智的计算建模更多关注感知、学习、记忆、决策等方面，对与自我认知相关的情感、意识、心理揣测的研究相对较少。为此，本白皮书聚焦于心智计算的理论模型、心理揣测、情感共情以及意识理论展开详细的介绍。本白皮书首先回顾心智计算的研究历史与发展历程，汇总主要的科学问题，从哲学视角介绍心智计算的愿景。紧接着，详细介绍六种心智计算的理论模型，心智计算的理论体系模型旨在同时集成感知、记忆、决策、运动，以及意识、共情、心理揣测等社会认知能力到一 5 套通用、系统的框架中。进一步地，本白皮书以心智活动中与自我认知紧密结合的心理揣测、情感共情、意识理论为切入点，深入介绍经典的实验范式、神经机理以及计算理论模型。最后，本白皮书简要的总结与展望心智计算的研究。6 第 2 章心智计算研究概述 2.1 心智计算的发展历程心智计算的发展历程可以追溯到 20 世纪 60 年代，由最初的对心智的具体问题求解，逐渐演变为系统的心智计算理论形态，包括了以表征计算为核心的第一代心智计算理论1，以及以具身性为理论特征的第二代心智计算理论2。20 世纪早期，Warren McCulloch 和 Walter Pitts 最先提出了神经活动具有计算性的观点，并认为认知可以由计算来解释。20 世纪 60年代起，经过 Hilary Putnam、Jerry Fodor、David Marr 等人的发展，心智的计算理论（Computational Theory of Mind，CTM）正式被提出并成为第一代心智计算理论的核心，在人工智能和认知科学领域逐渐占据了主流地位。心智的计算理论认为，心智是一个通过大脑神经活动物理实现的计算系统，认知和意识都是一种计算形式。1975 年，Jerry Fodor 提出思维语言假设后，心智计算理论逐渐演变为包含符号计算和连接计算等不同范式。20 世纪 80 年代之后，在 Hubert Dreyfus 和 John Searle 等人对强人工智能激烈批判刺激下，以具身性（Embodiment）观念为其理论特征的第二代心智理论逐渐登上历史舞台。Shaun Gallagher 曾以包含具身认知（Embodied Cognition）、嵌入认知（Embedded Cognition）、延展认知（Extended Cognition）和生成认知（Enactive Cognition）的“4E认知”概括了具身心智理论的核心理念2。具身心智理论认为身体和心智是相互依存的，动物与人类的智能和认知过程不仅依赖于大脑，也依赖于身体和环境。无论是以表征计算为核心的第一代心智计算理论，还是以具身性为理论特征的第二代心智计算理论，都是过去几十年来人工智能领域围绕“心智是如何进行计算”这一问题的不断思考。随着近年来受生物神经机制启发的、以深度学习为代表的连接主义的重要应用突破 7 和对融合符号主义和连接主义的混合路径的不断探索，传统的心智计算理论有望在这些新突破的基础上焕发新生，为实现结构和机制受脑与心智启发、认知行为达到乃至超越动物与人类水平的智能系统提供更多启示。2.2 心智计算的科学问题心智计算作为发展面向人工通用智能的核心思路之一，其研究范围尤其广泛，从感知、学习、记忆、常识知识构建与理解、因果推理到情感、意识、创造、心理揣测、伦理道德等。尽管当前人工智能在某些领域取得了应用体验方面的显著进展，如图像分析、自然语言处理等，但对于重现动物与人类心智仍面临诸多挑战，特别是在复杂的情感、思维、意识等认知方面仍需要持续的探索和努力。从应用意义而言，心智计算研究中最关键的科学问题是如何集成人脑多方面的智慧到一个通用的架构当中，实现真正意义上的通用人工智能。为达到这一目标，包含但不限于如下几个方面的科学问题：1.多感觉融合多感觉融合当代深度学习仍面临着关键挑战，如复杂场景理解、认知、推理能力不足，深度学习易被欺骗，维数灾难等瓶颈问题。理解动物与人脑学习机理，特别是不同感知系统的编解码机制、多感觉信息融合与处理机制等，并将其转化为计算模型，提高感知认知与理解等能力是心智计算中的一大科学问题。文献3探索了类脑张量分解-高维数据结构挖掘问题，采用类脑结构，可以在数据缺失的情况下训练模型，利用正则部分补全缺失数据。文献4探索了传统信息瓶颈算法在压缩信息的同时会严重影响模型预测能力，提出了基于有监督解耦的信息瓶颈算法，解决了传统信息瓶颈算法中的压缩-预测项权衡问题。2.知识表征与推理知识表征与推理为构建准确、全面的常识知识库，需要大量的来源广泛的常识知 8 识，包括人类社会层、人类个体层、物体层、以及抽象层等多个层次的信息融合，以确保学习到准确的常识知识。通过对文本的分析，挖掘和抽取出常识规则、常识知识，对知识进行有效的表示和推理，以及在复杂的推理问答任务中学习到常识、逻辑、演绎推理能力亦是研究难点。文献5,6等对传统常识知识库的构建方法进行了系统地分析和比较。当前随着大语言模型等新形式的知识推理工具的不断发展，更需要探索如何汲取传统知识表征和推理方法的准确性优势，改进大语言模型自身存在的模型幻觉等问题。3.记忆记忆当前人工智能大模型的训练和推理所需能耗巨大，而人类仅仅需要 20 瓦的能量就可以协同多项认知功能完成复杂的认知任务。工作记忆作为人脑的一项重要认知功能，每时每刻都伴随着人类的学习与决策。而工作记忆仍存在容量限制等问题，即能够同时存储或处理的信息量是有限的。人类可以通过与长期记忆协同等方式来灵活地减轻负荷，高效地调度工作记忆来帮助解决不同任务，类人脑的存算一体机制也是当前人工智能需要向人类学习的。4.创造力创造力人类所具备的创造力仍是现有的人工智能系统所欠缺的，机器大多是基于预先编写好的程序执行指令，尚不能像人类一样进行创造性的思考和行为，不具备创新能力。从本质上理解人类创造性的神经机制，进而让机器自主地探索以习得创造能力仍是一个研究难点。尽管当前生成式人工智能的发展已经让机器展现出前所未有的“创造性”，但这样的创造性仍被认为缺乏人类创造力所源自的对于真实世界的经验、情感和体验，因而尚难于达到人类的创造力水平。5.社会认知社会认知在具备了感知、学习、记忆、决策等认知能力的基础上，社会认知是人类及其他动物在社会交互中表现出来的对自我、对他人的理解 9 和认知能力，在提升社会技能和行为方面起到重要的作用。意识、情感共情、心理揣测等社会认知能力在人工通用智能中也是极其关键的。而在复杂的社会决策环境中探究意识的本质、情感的产生与加工机理、共情及心理揣测的神经基础，赋能人工智能以自我意识等社会认知能力仍是一项亟待攻克的科学问题。目前已有一些工作对社会认知的计算实现进行了初步探索，例如，武汉大学蔡恒进教授提出认知坎陷（意识片段）的“附着”与“隧道”，从新的视角探讨心智的工作模式，探索机器自我意识、情感机制、记忆机制等问题，形成具有“自我”认知的、基于理解的人工智能技术7；中国科学院自动化研究所曾毅团队提出了一系列脑启发的心理揣测和共情模型，从计算角度揭示心理揣测的神经机制8的同时实现智能体帮助他人避免安全风险9、提升与他人的合作性能和效率10、以及实现情感共情和利他救援11等。6.认知功能的自主协同认知功能的自主协同人类心智能够应对复杂场景、复杂任务的核心机制之一是认知功能的自组织协同。在不同尺度可以将人类认知功能划分为数百种，而这些认知功能并不像工作流一样被预先组织在一起按照既定的模式工作，而是通过多感觉的输入刺激，以自组织的方式自主协同并应用于解决复杂问题。不仅能够举一反三，还能够通过自组织的分解与组合解决没有见过的问题。其背后在心智层面的自组织、自主协同机理是心智计算理论的核心。7.软硬软硬件件协同构建脑与心智启发的智件协同构建脑与心智启发的智件受脑与心智启发的人工智能是实现双脑融合的有效途径，是发展人工通用智能的基石。如何利用多学科交叉融合，实现理论、芯片、软件、系统和应用协同发展的脑与心智启发的通用人工智能体系架构，从面向人工智能的硬件、软件的融合发展为智件（AIware），是亟待突破的关键问题。清华大学施路平团队提出了异构融合的类脑计算架构“天机”类脑计算芯片12，能够模拟大脑中神经元之间信号传递 10 的方式，融合人工神经网络及脉冲神经网络两条技术路线，在多学科交叉融合的软硬件协同设计上进行了前沿探索。中科院自动化所曾毅团队研制的软硬件协同类脑脉冲神经网络体系结构智脉萤火(BrainCog FireFly)系列研究融合了类脑认知智能引擎“智脉 BrainCog”的认知体系结构，并以 FPGA 为平台实现软硬件协同创新，打造脑与心智启发的智件体系。然而智件体系不仅是脑与心智启发的软件模型与计算体系结构的协同设计，还包括具身本体与软件及计算体系结构的三元融合，是具身心智理论的体现、实践与发展。2.3 心智计算的哲学展望心智计算的发展需要从哲学视角树立愿景。将心智收敛至 Mind，Shimon Edelman 在Computing the Mind中提出“I am my mind,I live in my brain”，指出了心智与脑及自我之间的关系。而严格意义上讲英文中的 Mind 并不能囊括中文表达的心智，德文中的 Gemt 比Mind 要更达意，如莱布尼茨将 Gemt 解读为“思想的能力、感觉和意志活动的统一”，如 Justus Georg Schottelius 和 August Friedrich Mller 将 Gemt 定义为：“知性和意志的合体”。这似乎与中文的“心灵”又更为接近，而从计算视角而言，“心智”则比“心灵”更为广泛。王阳明心学的讨论可以被认为是心灵与心智的哲学指引。即使以侠义的视角而言，心智计算的目的也应当是为人与动物的心智构建计算理论基础，启发人工心智（Artificial Mind）的研究与应用。心智与心灵的核心从“自我”出发。从演化和计算的视角而言，有了自我感受与体验，能够区分自我和他人，为心理揣测/认知共情提供了基础，在此基础上情感共情和利他才成为可能，才具备了产生道德直觉的前提。人类与人工智能据此拥有道德，合乎伦理。当代人工智能无“我”无“心”，心智计算研究的目的是在揭示人与动物心智的计算本质基础上，为未来人工智能“立心”。目前数据驱动的人工智能，模型算法在数据输入之前可谓“无善无恶”，是 11 本心之体。通过数据编码与训练之后可谓“有善有恶”为意之动。通过与人交互达“知善知恶”。再通过价值观校准实现“为善去恶”。从“无”到“为”是心智形成、升华的过程，是“知行合一”的实践。2.4 本章小结心智是人类思维和认知能力的总体，包括但不限于感知、学习、记忆、决策、推理、思维、情感、心理揣测、意识、伦理道德等，这些能力帮助个体感知外在世界、学习和记忆事物、对环境做出判断来采取不同的行为。心智计算就是希望通过计算建模的方式去理解、模拟、实现人类和动物的心智。本章首先回顾了心智计算的历史和发展历程，紧接着总结了心智计算七个视角的科学问题及哲学视角的愿景。心智计算的学术贡献首先是自然与人工心智的计算理论体系，在此基础上，构建并实现脑与心智启发的通用人工智能，打造从软件、硬件协同创新到智件的跃迁。12 第 3 章心智计算的理论模型心智计算的理论模型能够协调和集成感知、学习、推理、规划、决策、意识等多项类脑认知功能，旨在理解心智的工作机理，并在计算建模中重现心智是怎样工作的13。文献14讨论了心智建模的标准，即灵活的行为、实时性、自适应的行为、大规模的知识库、动态行为、知识集成、自然语言、意识、学习、发育、演化及生物脑认知的神经实现。本章分六节介绍心智计算的理论模型并进行总结。3.1 图灵机艾伦图灵（Alan Turing）于 1936 年提出图灵机的概念15，图灵机是一种无限记忆自动机，如图3-1所示。它由一条无限长的纸带、一个读写头、一个状态寄存器和一套控制规则组成。纸带上的格子可以记录“0”或“1”。在带子上方移动一个读写磁头，它是由有限记忆自动机 L 来控制的。自动机 L 按周期工作，关于符号(0 或 1)的信息，由磁头从带子上读出，而反馈给 L 的输入。磁头根据在每个周期中从自动机 L 得到的指令而工作，它可以停留不动或向左、向右移动一小格。与此同时，磁头从自动机 L 接收指令，执行收到的指令，它就可以更换记录在磁头下面方格中的符号。图图 3 3-1 1 图灵机图灵机图灵机的工作唯一地决定于带子方格的初始存储和控制自动机的变换算子，这个算子可以表示为转移表的形式。我们用(00,11)表示磁头读出的符号；用（0=停止，1=左移，2=右移）表示 13 移动磁头的指令；用（k1，2，.，n）表示控制自动机的状态，则表 3-1 给出了图灵机状态转移表。表表 3 3-1 1 图灵机状态转移表图灵机状态转移表输输入入状状态态 0=0 1=1 1 0,2,1,1,2 1,0,0,2,1 3 1,1,0,2,2 从表 2-1 中看出，自动机 L 的动作依赖于输入 q 和它的状态 S。对于给定值 q 和 S，将有 q，R，S，这三个量的某一组值与之对应。这三个量分别指明，磁头应在磁带上记录什么符号 q，移动磁头的指令 R 是什么，自动机 L 将变到什么新状态 S。在自动机 L 的状态 S 中至少应当有这样一个状态 S*，对于这个状态来说，磁头不改变符号q，指令 R=0（停止），而自动机 L 仍处于停止位置 S*。图灵机看似简单的结构，却可以在理论上模拟数字计算机的一切运算，成为了计算机信息加工的理论基础。1950 年，图灵设计了图灵测验，通过问答来测试计算机是否具有同人类相当的智力。3.2 物理符号系统 20 世纪 70 年代，Allen Newell 和 Herbert A.Simon 提出了物理符号系统假设（physical symbol system hypothesis，PSSH）16，他们认为物理符号系统具有充分且必要的条件进行通用智能行为。由此假设得到了三个推论：人具有智能，因此人脑一定是一个物理符号系统；计算机是一个物理符号系统，它就一定能够表现出智能；既然人脑和计算机都是物理符号系统，那么我们就可以用计算机来模拟人的心智活动16。人脑和计算机一样都是物理符号系统，因此都可以简化为具有 6 种功能：输入符号、输出符号、存储符号、复制符号、建立符号 14 结构以及条件性迁移16。图图 3 3-2 2 物理符号系统物理符号系统 1717 图3-2给出了物理符号系统的一种框架17，它由记忆、一组操作、控制、输入和输出构成。它通过感受器接受输入，输出是特定的行为带来的外部运动。外部行为的输出和执行也会影响后面接受到的感觉输入。物理符号系统中的记忆和控制交互协同，得到不同的内部状态。基于符号结构组成的记忆不断地更新、组合、表达，发挥不同的作用，进而根据输入来产生一系列的活动。3.3 ACT-R John R.Anderson 融合人类联想记忆模型与产生式系统结构，提出思维的自适应控制 ACT（Adaptive Control of Thought）模型18。ACT 的系统结构由工作记忆、产生式记忆和陈述性记忆组成(见图 3-3)19。工作记忆将当前编码的外部世界知识存储至陈述性记忆中，在其中以组块为单元建立起语义网络，并根据需求提取至工作记忆。在与外部世界的交互中，陈述性记忆不断地被提取来解决问题，并试图通过组合弱方法来产生许多子目标及对应的陈述性知识。逐渐地，在应用过程中新的产生式规则就会生成，并转化陈述性知识为程序性的知识，这一过程也叫程序化。产生式规则通过与工作记忆的匹配来执 15 行相为匹配的行动。图图 3 3-3 3 ACTACT 的系统结构的系统结构 1919 在 ACT 基础上发展的 ACT-R19采用产生式规则系统来实现类人的认知功能，并集成有感知、记忆、语言、决策等多个认知模块，突出了对多个脑区功能细节、层次化结构的借鉴，以达到更准确地模拟人类的认知过程。3.4 SOAR 1987 年,Allen Newell 和 John Laird、Paul Rosenbloom 提出了一个通用解题结构 SOAR20：即状态 State，算子 Operator 和结果 Result,表示弱方法的基本原理是不断地将算子作用于状态，以得到新的结果。如图 3-4 所示，产生式记忆器和决策过程形成处理结构。产生式记忆器中存放产生式规则,它进行记忆搜索及控制决策：首先，所有规则被并行地用于工作记忆器,判断优先权,决定哪部分语境进行改变以及如何改变；进一步地，决策阶段决定语境栈中要改变的部分和对象。图图 3 3-4 4 SOARSOAR 的框图的框图2020 SOAR 中的所有成分统称为对象，这些成分包括状态、状态空间、16 算子和目标。在 SOAR 问题求解过程中，大体上是一个分析-决策-行动的三部曲。（1）分析阶段输入：库中的对象；任务：从库中选出对象加入当前环境；增加有关当前环境中对象的信息角色；控制:反复执行，直至完成。（2）决策阶段输入：库中的对象；任务：赞成，或反对，或否决库中的对象。选择一个新的对象，用它取代当前环境中的同类对象。控制：赞成和反对同时进行。（3）执行阶段输入：当前状态和当前算子；任务：把当前算子应用于当前状态。如果因此而产生一个新状态，则把新状态加入库中，并用它取代原来的状态。控制：这是一个基本动作，不可再分。SOAR 系统运行过程中，在分析阶段,任务是尽量扩大有关当前对象的知识，以便在决策阶段使用。决策阶段主要是进行投票，投票由规则来做，它可以看成是同时进行的，各投票者之间不传递信息，不互相影响。在执行阶段，如果当前环境的每个部分都有定义，则用当前算子作用于当前状态。若作用成功，则用新状态代替旧状态，算子部分成为无定义，重新执行分析阶段。每当问题求解器不能顺利求解时，系统就进入劝告问题空间请求专家指导。专家以两种方式给以指导。一种是直接指令方式，这时系统展开所有的算子以及当时的状态。由专家根据情况指定一个算子。17 指定的算子要经过评估，即由系统建立一个子目标，用专家指定的算子求解。如果有解，则评估确认该算子是可行的，系统便接受该指令，并返回去求证用此算子求解的过程为何是正确的。总结求证过程，从而学到使用专家劝告的一般条件，即组块。另一种是间接的简单直观形式，这时系统先把原问题按语法分解成树结构的内部表示,并附上初始状态，然后请求专家劝告。专家通过外部指令给出一个直观的简单问题，它应该与原问题近似，系统建立一个子目标来求解这个简单问题。求解完后就得到算子序列，学习机制通过每个子目标求解过程学到组块。用组块直接求解原问题，不再需要请求指导。SOAR 系统中的组块学习机制是学习的关键。它使用工作记忆单元来收集条件并构造组块。当系统为评估专家的劝告，或为求解简单问题而建立一个子目标时,首先将当时的状态存入工作记忆单元。当子目标得到解以后，系统从工作记忆单元中取出子目标的初始状态，删去与算子或求解简单问题所得出的解算子作为结论动作。由此生成产生式规则，这就是组块。如果子目标与原问题的子目标充分类似,组块就会被直接应用到原问题上,学习策略就把在一个问题上学到的经验用到另一个问题上。3.5 CAM 人的心智中记忆和意识是最为重要的两个部分。其中记忆存储各种重要的信息和知识，意识让人有了自我的概念，能根据自我需求、偏好设定目标，并根据记忆中的信息进行各项认知活动。为此史忠植等人主要基于记忆和意识创建了 CAM（Consciousness And Memory）心智模型21。下面重点介绍 CAM 的系统结构和认知周期。心智模型 CAM 的系统结构如图 3-5 所示，包括 10 个主要功能模块：视觉、听觉、感知缓存、工作记忆、短时记忆、长时记忆、高级认知功能、动作选择及响应输出21。人的感觉器官包括视觉、听觉、18 触觉、嗅觉、味觉。CAM 模型中重点考虑视觉和听觉的感觉输入。感知缓存是最直接、最原始的记忆，只能保存感觉信息在很短的时间，约几十到几百毫秒。工作记忆由中枢执行系统、视觉空间画板、语音回路和情景缓存构成。短时记忆存储信念、目标和意图等内容。长时记忆包括语义记忆、情景记忆、程序性记忆等。在心智模型 CAM 中，意识关注系统的觉知、全局工作空间理论、动机、元认知、注意、内省学习等自动控制问题21。除意识外，CAM 模型还实现脑的学习、记忆、语言、思维、决策、情感等高级认知功能，并针对特定任务做出动作选择及响应输出。图图 3 3-5 5 CAMCAM 的系统结构的系统结构2121 认知周期是认知水平心理活动的基本步骤。人类的认知是由反复出现的脑事件的级联周期。在心智模型 CAM 中，每个认知周期感知当前的境况，通过动机阶段参照需要达到的目标，然后构成内部或外部的动作流，响应到达的目标22。CAM 认知周期分为感知、动机、动作规划三个阶段。感知阶段是通过感觉输入，实现对环境的觉知过程。使用传入的知觉和工作记忆的信息作为线索，本地联想，自动地检索情景记忆和陈述性记忆。动机阶段侧重于学习者的信念、期望、排序和理解的需要。根据动机的影响因素，如激活比例、机会、动作的连续性、持续性、中断和优惠组合，构建动机系统。动作规划将通过动作选择、规划以达到最终目标。19 1.1.感知阶段感知阶段感知阶段认识或理解环境，组织和解释感觉信息的处理。感官接收到的外部或内部的刺激，是感知阶段产生意义的开端。觉知是事件感觉、感知、意识的状态或能力。在生物心理学中，觉知被定义为人类或者动物对外界条件或者事件的感知和认知反应。2.2.动机阶段动机阶段在心智模型 CAM 的动机阶段，根据需要确定显式目标。一个目标列表中包含多个子目标，可以形式地描述为：=1,2,在心智模型 CAM 中，动机系统通过短时记忆系统完成。信念记忆存储智能体当前的信念，包含了动机知识。愿望是目标或者说是期望的最终状态。意图是智能体选择的需要现在执行的目标。目标/意图记忆模块存储当前的目标和意图信息。在 CAM 中，目标是由子目标组成的有向无环图，执行时分步处理。一个个子目标按照有向无环图所表示的路径完成，当所有的子目标都完成之后，总目标完成。3.动作规划阶段动作规划阶段动作规划是由原子操作构建复杂动作以实现特定任务的过程。动作规划可以分为两个步骤：首先是动作选择，即从动作库选择相关的动作；然后使用规划策略使被选的操作组装一起。动作选择是实例化动作流，或可能从以前的动作流中选择一个动作。有很多的选择方法，它们中的大多数基于相似性的标准匹配目标和行为。规划对动作组合提供了一个可扩展的和有效的方法。它允许一个动作组合请求被表示为目标的条件，规定一组约束和偏好。3.6 BrainCog 类脑认知智能引擎(Brain-inspired Cognitive Intelligence Engine，BrainCog)“智脉”23是一个基于全脉冲神经网络（Spiking Neural Network,SNN）的类脑人工智能与脑模拟计算平台，用于在多个尺度 20 上建模、模拟不同物种的认知大脑，并受此启发实现类脑与心智的人工智能。智脉以多尺度神经可塑性为基础，同时支持脑启发的人工智能及脑多尺度的结构功能模拟，为受脑与心智启发的人工智能、计算神经科学等多个学科提出一套通用、完备的、系统的基本组件。图图 3 3-6 6 类脑认知智能引擎“智脉”的基本组件与应用类脑认知智能引擎“智脉”的基本组件与应用2323 如图 3-6 所示，智脉的基础组件包括丰富的生物神经元模型、多种类脑突触可塑性法则、不同脉冲编码方式、脉冲神经网络的连接模式以及多个功能性脑区模型。基于以上基本组件，智脉提供五类认知功能组件：感知与学习、知识表征与推理、决策、运动控制、社会认知。目前发布约 40 个脑启发的人工智能计算模型映射到 28 个关键功能性脑区。智脉还支持软硬件协同设计，以及机器人为载体的类脑认知智能应用。1.1.感知与学习感知与学习智脉支持多种有监督和无监督的脉冲神经网络学习算法，包括短时突触可塑性、脉冲时序依赖突触可塑性，基于代理梯度的反向传播算法，和基于 ANN（Artificial Neural Network）到 SNN 的转换算法，在图像识别、分类、检测任务上得到充分的验证，并展现出小样本学习、抗噪性等能力。智脉还实现了类人概念学习的多感觉融合框架，21 以及量子启发的脉冲神经网络，结合多房室神经元在噪声环境下取得稳健的性能。2.2.决策决策智脉提供了多脑区协同的决策脉冲神经网络以及深度强化学习脉冲神经网络。前者在 Flappy bird 游戏上实现了类人的学习能力，并具备支持无人机在线决策的能力，能够实现类果蝇的线性和非线性决策以及反转学习。后者实现了深度脉冲神经网路和强化学习的结合，在 Atari 游戏上的得分超过传统深度强化学习模型。3.3.运动控制运动控制智脉借鉴人脑运动控制的神经机理，构建了多脑区协同的机器人运动控制脉冲神经网络，实现了人形机器人的钢琴弹奏。4.4.知识表征与推理知识表征与推理智脉集成了符号序列记忆与生成、常识知识表征、因果推理脉冲神经网络，实现了初步的概念知识生成及推理认知。类脑的音乐记忆与乐曲创作脉冲神经网络实现了对音符序列的表征与记忆，并能创作不同风格的乐曲。5.5.社会认知社会认知智脉涵盖的类脑社会认知脉冲神经网络模型赋予智能体以理解自我和他人的能力，实现机器人通过镜像测试、橡皮手错觉、错误信念实验，使得智能体能够帮助他人规避安全风险。人类的心智活动是集成有多项认知功能的复杂的思考和行动过程。为此，智脉还提供了一个多认知功能协同的人形机器人应用，即情感驱动的机器人乐曲创作与演奏。在该任务中，机器人需要调用智脉的感知与学习功能来识别图片中的情感，并调用知识表示与推理功能依据情感生成乐曲，最终由运动控制模块实现机器人的乐曲演奏。在脑模拟方面，智脉支持不同尺度的脑结构与认知功能模拟，其中脑功能模拟实现了前额叶皮层工作记忆及果蝇线性、非线性决策功 22 能的模拟。脑结构模拟实现了对鼠脑、猴脑、人脑的微环路、皮质柱、全脑等多尺度的全脉冲神经网络计算建模。3.7 本章小结本章介绍了六个心智计算的理论模型，包括图灵机，物理符号系统假设，ACT-R，SOAR，CAM 和 BrainCog。这些代表性的心智计算理论体系探讨了感知、记忆、决策、运动等认知功能，以及意识、共情、心理揣测等社会认知相关的能力。对心智计算的体系架构建模旨在受脑与心智的神经机制启发，同时集成人类心智的方方面面到一套通用、系统的框架中，朝向通用人工智能的方向迈进。23 第 4 章心智计算中的心理揣测 4.1 心理揣测概述通过对比人类和其他动物的大脑新皮质的面积可以发现，人类的新皮质最为发达，同时相比于其他动物，人类也形成了最稳定的社会群体。社会脑假说认为人类进化出比其他物种更复杂的大脑功能是为了处理更为复杂的社会关系，做出适应性的社会行为。进化心理学的观点认为基于社会规范、互惠形成的大规模合作可能是人类在自然界中占据主导地位的原因之一。在探索复杂社会关系与社会决策的过程中，心理揣测（Theory of Mind,ToM）这一社会认知功能对人类的社会认知能力的形成有着巨大的作用。心理揣测又被翻译为心理理论，最早由大卫普瑞马克（David Premark）创造。它可以被简单地理解为智能体在观察到他人行为之后，可以揣测他人产生行为的原因（归因）。这些原因代表着他人的心理状态（mental state），心理状态的内容一般涵盖感觉（如“疼痛”）、情绪（如“愤怒”、“难过”）、信念（如“吃冰激凌可以降体温”）、需要/愿望（如“想要冰激凌”）或者目标（如“去超市买冰激凌”）等。与心理状态紧密关联的内容比较多，包括一般性的世界知识、价值取向、优先级策略等。这些内容在对他人进行心理揣测时也起到重要作用。借助这种心理状态，智能体可以区别于自己的内心想法来预测他人的行为。图图 4 4-1 1 心理揣测示意图心理揣测示意图在对他人的心理揣测过程中，模拟者需要把自己的目标、信念以及其他心智内容归因到他人脑中，如图 4-1 中方框内容所示，然后根 24 据该模拟，预测或理解他人的实际行为。如果我们可以预测他人的行为，我们就可以预见并避开麻烦，或者利用所预见的机遇。在预测复杂行为时，与仅仅将某个特定的身体运动与特定结果相关联的方法相比，根据他人的心智状态，例如意图或知觉，解释他们的行为更能增强预测的有效性。其中一个原因是：相同的行为可能有完全不同的意图。例如，竖起大拇指在中国是好的意思，而在泰国是走开的意思。除此之外，心理揣测更吸引人的地方在于，让智能体的交互更加独立且灵活。举个例子来说，两个人一起捡苹果，如果我距离两个苹果一样近，而我的朋友距离其中一个更近，我会推测他想要近一点的苹果，所以我会打算要距离朋友远的苹果；而我的朋友推测我会把距离他近的苹果让给他，因此他会去捡距离他近的苹果。由此，心理揣测会衍生出一些有助于社会决策的行为。而事实上，神经科学的研究也确实表明心理揣测对社会决策有影响，社会决策任务也会激活与心理揣测相关的区域（例如，颞上沟、颞顶交界处和内侧前额叶皮层），这与处理自己和其他玩家的行动和意图一致。因此构建一个类脑的心理揣测模型可以提高对他人行为预测的准确度，同时可以在现有的智能决策方法基础上辅助社会决策。在人工智能领域，目前现有的心理揣测建模工作普遍从概念中抽取关键词用深度学习方法建模；也有从贝叶斯的角度建模简单任务的心理揣测过程。除此之外，随着认知神经科学大量关于心理揣测在婴幼儿及儿童时期的研究文章的涌现，借鉴认知神经科学的研究结果启发构建心理揣测网络也在蓬勃发展。4.2 心理揣测的实验范式心理揣测发展过程中的里程碑之一是获得了错误信念归因的能力，也就是说，认识到其他人可能对世界有不同的信念24。基于此，研究人员设计了很多实验范式来研究动物和人类的心理揣测能力，此处介绍几种比较有代表性的实验范式25。25 4.2.1 以动物为被试以动物为被试的实验范式的实验范式知情者-猜测者实验26：被试动物和两个人在一个房间中。一个人作为“猜测者”，首先离开房间；另一个人作为“知情者”，需要从房间中的四个盒子里选择一个并把食物放到其中。所有盒子被挡板挡住，被试动物能看到哪个人放了食物，但不知道放到哪个盒子里。等“猜测者”返回房间，挡板被移走，两个人指向盒子。“知情者”指向装有食物的盒子，“猜测者”则随机指向另外三个盒子。被试动物需要通过上述线索，选择其中一个盒子进行检查来寻找食物。竞争性喂食实验27：社会层级较低的下级动物和社会层级较高的首领动物在测试场地的两侧，场地中有两块挡板 A 和 B。所有测试中，实验人员进入场地并把食物放到挡板 A 的下级动物侧（即下级动物能看到食物，首领动物看不到），在一些测试中，实验人员几秒后返回场地并把食物移到挡板 B 的下级动物侧。下级动物的笼子在实验人员放食物时开着。控制条件是在放食物过程中，首领动物的笼子是打开的还是关闭的，因此下级动物可以看到或看不到首领动物。放食物结束后，两个动物都被放入测试场地，其中下级动物比首领动物早几秒释放。若下级动物能通过心理揣测测试，则在如下三种条件下下级动物会更倾向于去拿食物。（1）单次放食物时，首领动物的笼子是关闭的；（2）第一次放食物时首领动物的笼子是打开的，但在转移食物时，首领动物的笼子是关闭的；（3）单次放食物且首领动物笼子打开，当下级动物在实验最后阶段认为首领动物没有看到食物，下级动物更可能去拿食物。眼镜实验28：黑猩猩亲身经历戴两种眼镜的经验，一个眼镜是透明的，另一个是不透明的，两个眼镜的颜色和形状不同。测试实验中，黑猩猩向两个人乞讨食物，一个人戴透明的眼镜，一个人戴不透明的眼镜。如果黑猩猩具备心理揣测的能力，它将更频繁的向那个戴透明眼镜的人乞食。26 错误信念实验29：基于意外地点转移任务修改，测试的基础是追踪动物的凝视点。有物体位于位置 A，当第二个人离开时，第一个人把物体藏到位置 B，然后第二个人回来后寻找物体。若动物首先并较长时间注视位置 A，则说明动物认为第二个人仍然认为物体在位置 A。4.2.2 以人为被试的实验范式以人为被试的实验范式 Sally-Anne 测试30：Sally-Anne 测试（如图 4-2 所示）是一个经典的意外地点转移任务，是认知心理学家验证被试是否具备心理揣测能力的经典实验。给被试描述如下场景：Sally和Anne在一个房间中，Sally 有一个篮子，Anne 有一个盒子，Sally 把球藏到篮子里，然后离开房间，Anne 把球藏到盒子里，等 Sally 返回房间后，询问儿童被试“Sally 会去哪里寻找球？”。只有四岁以上的儿童被试能够正确回答“Sally 会去篮子里寻找球”，四岁以下的儿童被试则回答“Sa

展开阅读全文