1、心理科学进展 2024,Vol.32,No.2,398412 2024 中国科学院心理研究所 Advances in Psychological Science https:/doi.org/10.3724/SP.J.1042.2024.00398 398 第三方惩罚行为的认知神经机制*郑 好 陈荣荣 买晓琴(中国人民大学心理学系,北京 100872)摘 要 第三方惩罚(third-party punishment,TPP)指个体作为第三方或者观察者为维护社会规范对违规者所实施的惩罚行为。大量研究为揭示 TPP 行为的神经机制提供了启示,但鲜有研究关注不同功能性脑网络在其中发挥的整体作用。本文
2、综述了近 10 年来 TPP 相关的研究,对相关理论模型和脑网络进行总结,并在此基础上提出 TPP 的认知神经网络模型,系统地对 TPP 行为背后的神经机制进行解释和整合。在该模型中,情绪系统和奖赏系统是 TPP 的动力来源,认知系统主要负责责任评估以及惩罚的选择;奖赏网络、突显网络、默认模式网络和中央执行网络分别参与不同认知加工阶段。该模型建立了 TPP 相关研究在心理层面和认知神经层面上的联系,对 TPP 行为的发生和发展机制进行了更加整体、全面的解释。未来可以引入元分析或基于机器学习的分析方法,在不同的背景信息和更加复杂的社交情境下探讨第三方干预偏好以及背后的认知神经机制。关键词 第三方
3、惩罚,认知神经机制,脑网络,fMRI 分类号 B845;B849:C91 1 前言 社会规范的建立与执行是人类区别于其他动物的显著特征之一(Kster et al.,2022),但日常生活中违规行为仍然普遍存在。增加制度约束可以提高人们遵守规范的可能性(Fehr&Schurtenberger,2018)。社会惩罚是一种常见的道德和制度约束行为(Fehr&Fischbacher,2004b),分为第二方惩罚和第三方惩罚(third-party punishment,TPP)。不同于“以恶制恶、以牙还牙”的第二方惩罚行为,TPP指个体作为第三方或者观察者为维护社会规范对违规者所实施的惩罚行为(Fe
4、hr&Fischbacher,2004a;Kanakogi et al.,2022)。一般而言,这种惩罚不会给个体带来直接利益,且需要付出一定代价,因此常被看作一种利他惩罚(Fehr&Fischbacher,2003)。TPP 约束和规范了人类行为,进一步维系并促进了社会公平和社会合作,因而受到研究者们广泛的关注(Fehr&Gchter,2002;Kim et al.,2021;Martin et al.,2021;Yang et al.,2022)。收稿日期:2023-02-27*国家自然科学基金面上项目(32371102)资助。通信作者:买晓琴,E-mail: 上个世纪以来,人们针对经济决
5、策与分配行为开展了大量研究。行为经济学家最早在最后通牒博弈任务(Ultimatum Game,UG)中发现了利他惩罚(Thaler,1988)。在该任务中存在提议者和响应者两方,他们需要就一定数量的资金如何分配达成一致。首先由提议者提出分配方案,若响应者接受提议者提出的分配方案,则两人按照这一方式进行分配,反之,两人都不能获得任何资金。在这种情况下,拒绝可以看作是响应者对提议者的有代价的第二方惩罚。然而,在现实世界中,第二方往往是被动接受的角色。并且,如果仅存在第二方惩罚,能够维护的社会规范数量有限,因此,引入第三方惩罚能够扩大惩罚违规者的比例,更好地维护社会规范。以 Fehr 为代表的学者在
6、实验室条件下证明了第三方惩罚的存在。Fehr 和Fischbacher(2004a)在独裁者博弈任务(Dictator Game,DG)中引入第三方,DG 与 UG 的区别在于响应者不能拒绝独裁者(提议者)提出的分配方法,只能被动地接受,作为第三方观察者的被试在看到独裁者的分配方案后,可以通过付出一定代价(减少自己的钱数)来惩罚独裁者。随后,该范式成为 TPP 的重要研究方法之一,为在实验室条件下研究社会规范行为提供了一种新的思路。研究者第 2 期 郑 好 等:第三方惩罚行为的认知神经机制 399 在该范式基础上操纵独裁者和响应者的社会地位(Cui et al.,2019;Ouyang et
7、al.,2021)、分配不公平的程度(Sun et al.,2015)、惩罚代价的高低(Cheng et al.,2022)以及第三方个体与任务双方之间的社会距离和群体关系(Bernhard et al.,2006;Liu et al.,2018)等变量来进一步探究 TPP 行为是否受到社交情境或背景信息的影响。除了 DG,常用在 TPP研究中的范式还包括公共物品博弈(Zhou et al.,2017;唐捷 等,2022)、信任博弈(Konishi&Ohtsubo,2015)、囚徒困境(Lergetporer et al.,2014)、正义游戏(Civai et al.,2019)和芝加哥道德
8、敏感任务(Kim et al.,2021;Meidenbauer et al.,2018)等,通常研究者关注第三方是否会对违规行为作出干预以及哪些因素会影响这种干预行为。随着研究的深入,研究者开始从电生理和功能成像层面的证据推测 TPP 行为背后的认知神经机制。但是由于研究方法的局限性,这些证据大多局限于某单一成分或者仅仅关注独立脑区激活的结果。并且,目前尚未形成对 TPP 行为背后认知过程与脑功能网络之间联系的整体认识。因此,本文对近 10 年来与 TPP 相关的研究进行梳理。首先进行文献检索。英文文献检索使用 Web of Science、PubMed、ScienceDirect 数据库,
9、TPP 的关 键 词 为“third-party punishment”或“altruistic punishment”或“social punishment”,认知神经机制的关键词为“cognitive”或“neural bias”或“neural correlates”或“neuroimaging”或“fMRI”。中文文献检索使用知网、万方、维普数据库,TPP 的关键词为“第三方惩罚”或“利他惩罚”或“社会惩罚”,认知神经机制的关键词为“认知”或“神经机制”或“神经基础”或“脑成像”。同时,在阅读文后参考文献时利用滚雪球的方法检索文献进行查漏补缺。截止 2023 年 4 月,共检索到文献
10、1149 篇,文献检索的时间范围为 2013 年 4 月到 2023 年 4 月。经初筛、审查等阶段后,最终纳入文献数量为 60,其中涉及神经机制的文献 39 篇。文献纳入与排除标准及 PRISMA 流程图见网络版附录图 S1。在总结前人研究的基础上,本文首先介绍 TPP 行为相关的理论模型,从理论层面对 TPP 行为进行解读;其次,总结参与 TPP 行为的脑网络相关证据,尤其关注脑区之间的协同作用;最后,基于已有的理论和研究构建 TPP 的认知神经网络模型,为理解 TPP 行为提供一个新的动态视角。2 第三方惩罚相关理论模型 TPP 作为一种复杂的利他行为,揭示背后的认知机制能够更好地理解其
11、发生和发展规律。前人研究发现情绪、认知控制以及情境等因素会对TPP 行为产生影响。然而,目前对 TPP 理论层面的认识仍有不足,大多数研究结果的解释以社会价值决策相关的理论模型为基础。因此,我们首先对能够解释 TPP 行为的理论进行总结,以形成对 TPP 行为理论层面的理解。这些理论模型包括反映个体合作与公平偏好的互惠模型、直觉式加工的情绪模型以及在强化学习视角下,将情绪和认知因素融合起来的双系统模型。2.1 互惠模型“你帮助我,我帮助你”,互惠指以一种类似的方式回报他人的行为,对促进人类合作具有重要意义(Guala,2012)。TPP 行为的产生包含两种互惠原则:弱互惠和强互惠(Fehr&F
12、ischbacher,2003)。在 TPP 中,弱互惠一般指间接互惠,个体将 TPP 这一高成本利他行为作为一个“可信”的信号来向他人暗示自己拥有公平公正的高尚品质,藉此在群体中建立声誉,以便于在今后的人际交往中获得更多的机会和合作,进而实现间接获益(Jordan,Hoffman,et al.,2016;Rai,2022)。与期望获益的弱互惠不同,强互惠认为个体是出于维护公平的动机来惩罚不公平的行为(Ciaramidaro et al.,2018),即使实施惩罚需要付出代价,且这些代价不一定能够得到补偿。强互惠者的存在保证了群体利益,也使得人和人之间的广泛合作成为可能,符合进化原则(Buck
13、holtz&Marois,2012)。互惠模型从宏观的视角解释了 TPP 的发生机制,指出个体是在基于合作与公平的情况下做出的惩罚行为。然而,该模型也有不足之处。首先,间接互惠强调个体第三方惩罚的目的是获取间接利益。在单试次或者匿名情况下,由于个体几乎不存在未来的合作机会,或者无法辨识身份,因此并不存在声誉动机。以往研究揭示即使在这种情况下,个体依旧会执行 TPP,并且发生概率高于 1/2。例如,Piazza 和 Bering(2008)发现在第三方完全匿名的条件下,71.4%的参与者选择牺牲1/3 的资金去惩罚违规者;Feng 等人(2022)也发现在单次匿名实验中个体的平均惩罚率大于 50
14、%。国内研究者杨莎莎和陈思静(2022)同样发现在单400 心 理 科 学 进 展 第 32 卷 次匿名博弈中不惩罚或低惩罚的情况并不常见(3.15%)。此外,最近的研究发现即使是未涉足社会的仅 8 个月大的婴儿就已经能够使用目光来惩罚违规者(Kanakogi et al.,2022)。以上研究发现都无法用间接互惠来解释。其次,强互惠没有考虑到惩罚所带来的报复性行为,这并不利于群体的发展和稳定。最后,强互惠惩罚是一种自愿的惩罚行为,其强度对惩罚成本十分敏感。若惩罚成本过高,第三方作为利益无关者在理性的考虑下对需要自己承担成本来实施惩罚的需求便会降低。可见,仅从公平、合作的互惠角度来理解 TPP
15、行为存在一定的局限性。2.2 情绪模型“情感即信息”模型(affect-as-information)指出,情感是一种简化判断的启发式工具,可以作为决策过程中的信息来源指导决策(Bright&Goodman-Delahunty,2006),进而影响个体的后续决策(Zhao et al.,2022)。负性情绪产生是 TPP 的动机来源之一(Fehr&Fischbacher,2004a;Fehr&Gchter,2002;Xiao&Houser,2005)。个体观察到违规行为发生时会产生一系列的负性情绪,包括对违规者的愤怒(Jordan,McAuliffe,&Rand,2016)以及对自私意图(Mc
16、Auliffe et al.,2015)和不公平(Raihani&McAuliffe,2012;Sun et al.,2015)的厌恶。此时个体的初衷可能是想通过惩罚违规者的方式来缓解自己的负性情绪,而维护社会规范只是一种“额外获益”(de Quervain et al.,2004)。但也有研究学者发现,负性情绪并不一定导致惩罚行为。例如,Qu 等人(2014)采用第三方惩罚的 DG 任务发现,在负性情绪与惩罚成本导致的经济损失冲突之下,个体选择“不惩罚”的情况也会发生。另外,在个体情绪激活相同的情况下,惩罚程度仍然存在差异。研究发现,即使个体对分配不公平程度的感知相同,即不公平厌恶程度相同,
17、最终的惩罚程度还是会因惩罚成本的不同而发生改变(Cheng et al.,2022)。以上研究表明,情绪可能影响了反应判断的某个阶段,最终的惩罚决策是结合各方面因素综合考量的结果,包括情绪、公平和自利的权衡。2.3 强化学习视角下的双系统模型 强化学习(reinforcement learning,RL)指个体通过接收环境的反馈信息进行学习并不断调整行为策略,是一种奖励学习的方法(Kster et al.,2022;Morris et al.,2017)。双系统理论认为,社会决策受到自动加工和控制加工两个系统的影响(Chung et al.,2023)。前者属于自下而上的启发式加工过程,负性情
18、绪的产生促使惩罚成为自动化优势反应(Mussel et al.,2018),对应着 RL 中无模型(model-free,MF)的策略;后者属于自上而下的加工,个体会在理性、经验的引导下选择最优的行为方式(Zhou et al.,2014),对应着 RL 中基于模型(model-based,MB)的策略。以往研究表明,个体的最终决策属于双系统之间的动态平衡(张慧 等,2018)。其中,MF 以直觉冲动的方式(最少成本)进行决策,同时又会受到 MB 的影响和控制,体现了个体在不同系统的互动中探索适应性的行为(Gershman et al.,2014;Lee et al.,2014)。在 TPP
19、中,当违规行为发生时,个体的自动化情感评价激活了惩罚行为,体现了情绪对惩罚的驱动(Qu et al.,2014);当直觉反应和经济利益产生冲突时,MB 对 MF 进行认知控制,最终的惩罚决定是个体“深思熟虑”后的结果(殷西乐 等,2019)。惩罚行为发生后,其带来的满足感和权力的体验感(Delgado et al.,2003;Strobel et al.,2011;Yamagishi et al.,2017)帮助个体建立了较高的自尊水平,并联合负性情绪的消解以及对未来回报的期待共同作为奖励信号进行内部强化,促使个体做出下一次惩罚行为。该模型将传统的双系统理论以强化学习的视角展现出来,从一个全新
20、的角度探讨了 TPP 行为的发生和发展过程。具体来说,该模型不仅将情绪和认知因素结合起来,还指出 TPP 应是一个有反馈和强化参与的动态过程,个体会在每一次的反馈中进行学习,最终形成稳定的行为模式。然而,该模型并未涉及个体对违规行为原因的推测。有研究指出,对非故意违规者的意图评估可能会抑制杏仁核的活动,减少因情绪冲动产生的惩罚(Treadway et al.,2014)。这启示我们未来在利用该模型对 TPP 行为的产生机制进行解释时,还应考虑对违规者心理状态的评估这一重要因素。以上理论模型从不同的角度阐述了 TPP 行为产生的机制。然而,现有理论模型对 TPP 行为的解释存在一定的局限性。越来
21、越多的研究者将 TPP看作一个有反馈参与的动态性过程。所谓动态性,指需要满足多系统性和时间性两个特征(Kozlowski&Ilgen,2006)。TPP 作为一种复杂的社会行为,其第 2 期 郑 好 等:第三方惩罚行为的认知神经机制 401 产生可能是个体情绪、认知和奖赏等多个系统交互作用的结果,符合多系统性;另外,奖赏反馈的存在使得个体可以在每一次强化中对 TPP 行为进行调整,事件相关电位(event-related potential,ERP)研究也发现在不同的阶段会有不同的脑电成分出现,如分别在刺激后 200350 ms 和 300 900 ms 左右达到峰值的内侧额叶负波(media
22、l frontal negativity,MFN)和晚期正成分(late positive component,LPC),其波幅大小与后续的惩罚程度相关(Cui et al.,2019;Qu et al.,2014),符合时间性的特征。早在 2011 年,Strobel 等人就提出了在强互惠行为背后,认知情感动机网络作为利他惩罚驱动力的观点,但由于在实验中缺乏情绪评分,无法直接得出到底是哪种情绪影响了 TPP 行为的结论;随后,Buckholtz 和 Marois(2012)指出 TPP 的成功执行需要责任评估和惩罚选择两个独立认知机制的支撑,一定程度上将认知与行为决策结合起来,但没有纳入情绪
23、因素的影响。目前,许多研究致力于证明情感和认知塑造了人类的亲社会行为,但对决策的具体过程以及情绪和认知相互作用的机制仍不了解(Rahal&Fiedler,2022),且相关研究证据分布零散,缺乏整体认识。借助神经层面上的证据有助于对决策者做出决定时的复杂认知和情感过程进行更细致的理解。因此,我们回顾与 TPP 相关的功能神经成像和电生理相关的证据,尤其关注脑网络内部和脑网络之间的联系,为理解 TPP 行为奠定神经层面的基础。3 参与第三方惩罚的脑网络 以往研究表明 TPP 包含情绪产生、意图和伤害程度评估以及选择惩罚阶段。结合前人研究中相关脑网络的功能与激活模式(Bellucci et al.
24、,2020;Krueger&Hoffman,2016;Lo Gerfo et al.,2019),本文认为 TPP 行为的产生分为“情绪产生”、“责任评估”和“惩罚选择”三个阶段,与之相对应的脑网络为突显网络(salient network)、默认模式网络(default mode network)和中央执行网络(central executive network)。此外,奖赏网络协作 TPP 加工过程,主要起价值表征、预期奖赏的作用。相关脑网络所包含的脑区及其位置见图 1。3.1 突显网络 公平是一种默认的社会规范(Civai,2013),当违规行为发生时,个体会产生愤怒、不公平厌恶等负性情
25、绪,这种愤怒和厌恶属于以他人为中心的道德情绪(Pedersen et al.,2018)。此外,当个体预期自己应当惩罚违规者以维护正义却没有这样做时,会产生以自我为中心的内疚感(Nelissen&Zeelenberg,2009),这种内疚感在一定程度上促进愤怒情绪的产生(Rothschild&Keefer,2018)。因此,突显网络负责检测冲突并产生愤怒、厌恶、内疚等负性情绪(Bellucci et al.,2020;Buckholtz&Marois,2012;Feng et al.,2016;Mclatchie et al.,2016),主要脑区包括背侧前扣带皮层(dorsal anteri
26、or cingulate cortex,dACC)、前脑岛皮层(anterior insula cortex,AIC)和杏仁核。图 1 第三方惩罚相关脑网络及其脑区位置 注:背侧前扣带皮层(dorsal anterior cingulate cortex,dACC),前脑岛皮层(anterior insula cortex,AIC),杏仁核(Amygdala),后扣 带 皮 层(posterior cingulate cortex,PCC),背 内 侧 前 额 叶 皮 层(dorsomedial prefrontal cortex,dmPFC),颞 顶 联 合 区(temporoparieta
27、l junction,TPJ),背外侧前额叶皮层(dorsolateral prefrontal cortex,dlPFC),腹外侧前额叶皮层(ventrolateral prefrontal cortex,vlPFC),后顶叶皮层(posterior parietal cortex,PPC),顶叶内沟(intraparietal sulcus,IPS),腹侧纹状体(ventral striatum,VS),腹内侧前额叶皮层(ventromedial prefrontal cortex,vmPFC),中脑腹侧被盖区(ventral tegmental area,VTA)。402 心 理 科 学
28、 进 展 第 32 卷 前人研究指出,dACC在监测认知冲突中发挥着重要作用(Wang et al.,2017),AIC 与负性情绪表征相关(Shenhav et al.,2016;Singer et al.,2009)。Craig(2009)将这两者整合到脑岛功能模型中,认为它们共同参与情绪加工。当个体观察到不公平行为时,dACC和AIC负责监测违反规范的情况或威胁(Feng et al.,2016),并由AIC标记违规信号和产生不公平厌恶反应(Civai et al.,2012;Hu,Blue et al.,2016)。研究发现 AIC 激活程度与分配不公平程度呈正相关(Zhong et
29、al.,2016)。相关 ERP 研究也发现在该过程中源定位在前扣带皮层(anterior cingulate cortex,ACC)附近的 MFN 波幅增大,该成分对社会期望和社会规范的违反敏感(Mothes et al.,2016;Sun et al.,2015;van der Helden et al.,2010;Wu et al.,2011)。这些研究结果体现了 dACC和 AIC 可能对应结果的早期评价加工过程。另外,杏仁核作为社会与情感的重要脑区之一,在 TPP中负责根据受害者的受伤害程度产生情感唤醒信号(Buckholtz&Marois,2012;Krueger&Hoffman,
30、2016),并参与决定了惩罚的严重程度(Stallen et al.,2018)。简单来说,AIC 和杏仁核体现了对不公平行为反应决策的两个不同方面,前者反映了个体的社会偏好与惩罚意愿;后者反映了个体的情感体验并且影响惩罚程度(Civai et al.,2019)。综上,突显网络在 TPP 中负责对违规行为进行检测,参与情绪加工并指导后续决策,为情绪模型提供了证据支持。然而,有研究者指出,以 AIC 为核心的突显网络启动并调节了大脑其他区域参与的认知情感动机过程(Menon&Uddin,2010)。因此我们推测,突显网络在 TPP 过程中起到重要作用。3.2 默认模式网络 个体在做出惩罚决策之
31、前,需要对违规行为的伤害程度和伤害意图进行评估,并将其整合到责任的评估,从而形成“惩罚信号”。该过程所涉及的网络称为默认模式网络,主要包括内侧前额叶皮层(medial prefrontal cortex,mPFC)和颞顶联合区(temporoparietal junction,TPJ)。其中,腹内侧前额叶皮层(ventromedial prefrontal cortex,vmPFC)负责对受伤害的程度进行评估(Bellucci et al.,2017),与杏仁核的功能连接增强表明这两个区域可能共同负责伤害程度的情感编码(Treadway et al.,2014)。背 内 侧 前 额 叶 皮 层
32、(dorsomedial prefrontal cortex,dmPFC)和 TPJ 与推断他人心理状态有关(Jamali et al.,2021;Morese et al.,2016;Xie et al.,2020;Yang,Shao,et al.,2019)。dmPFC与 TPJ 在 TPP 中负责对伤害者的意图进行评估,并且其激活程度及两者的功能连接强度与惩罚程度呈负相关(Baumgartner et al.,2012,2014;Moll et al.,2018;Zinchenko et al.,2019)。这可能是个体对违规行为进行了合理的推测与解释。当伤害是无意发生时,TPJ-mPF
33、C 环路会抑制杏仁核的活动,使得惩罚程度降低(Treadway et al.,2014)。这体现了对违规者心理状态评估在 TPP 行为实施过程中起到的重要作用。前人研究发现,在与 TPP 相关的大脑区域之间存在一种独特的连接方式,dmPFC 是 TPP 激活模式的中枢(Bellucci et al.,2017;Feng et al.,2016)。中枢(hub)是指在格兰杰因果分析(Granger causality analysis)中与其他节点有最大数量因果联系的大脑区域,是信息交流的中心节点(Yang et al.,2023),在这里体现为 dmPFC 与其他脑区之间有更多数量的功能连接。
34、结合不同脑区的功能,我们对默认模式网络作用方式做出如下推测(图2):颞极(temporal pole,TP)负责理解违规行为,并向 dmPFC 提供伤害信息。dmPFC 在接收到伤害信息之后对伤害意图进行评估,并向其他区域传递信息,包括后扣带皮层(posterior cingulate cortex,PCC)、vmPFC 和 TPJ。其中,PCC 负责整合与违规行为相关的背景信息,vmPFC 负责编码伤害程度,TPJ 负责推断意图,最后由 mPFC 整合伤害与意图两部分信息,形成“惩罚信号”(谢东杰,苏彦捷,2019)。值得注意的是,dmPFC 和 TPJ 都有着推断意图的作用,是认知心智化的
35、关键脑区(Feng et al.,2022)。此外,vmPFC 和杏仁核与情感心智化相关(Anne et al.,2012),有人提出这 4个脑区共同组成心智化网络(mentalizing network)(Feng et al.,2016;Glass et al.,2016)。心智化网络能够推断他人心理状态,减弱对违规行为的监测,降低社会规范的价值计算水平。实际上,Bellucci等人(2017)认为默认模式网络和心智化网络在本质上属于同一网络,而另一些研究者则认为默认模式网络和心智化网络在 TPP 中应各司其职,共同影响 TPP行为(Lo Gerfo et al.,2019)。两者虽在关系
36、上存在不一致的说法,但不可否认的是二者不管是在结构上还是功能上都存在相似性,默认模式网络更 第 2 期 郑 好 等:第三方惩罚行为的认知神经机制 403 图 2 第三方惩罚行为在默认模式网络的作用路径 注:颞极(temporal pole,TP),背内侧前额叶皮层(dorsomedial prefrontal cortex,dmPFC),后扣带皮层(posterior cingulate cortex,PCC),腹内侧前额叶皮层(ventromedial prefrontal cortex,vmPFC),颞顶联合区(temporoparietal junction,TPJ),内侧前额叶皮层(m
37、edial prefrontal cortex,mPFC),箭头代表信息传递方向。加侧重于对违规行为整体的责任评估,而心智化网络强调对他人心理状态的推断。换言之,默认模式网络可能是通过心智化网络起到责任评估的作用,两者间是相辅相成、共同作用的。3.3 中央执行网络 Buckholtz 等人(2015)认为,责任评估和惩罚选择属于两个独立的认知机制,后者所对应的脑网络是中央执行网络。中央执行网络在 TPP 中负责将默认模式网络发出的“惩罚信号”转变为“惩罚行为”(Lo Gerfo et al.,2019;Zinchenko&Klucharev,2017)。相关脑区包括背外侧前额叶皮层(dorso
38、lateral prefrontal cortex,dlPFC)、后顶叶皮层(posterior parietal cortex,PPC)和 顶 叶 内 沟(intraparietal sulcus,IPS)。当中央执行网络接收到默认模式网络传来的“惩罚信号”时,IPS 负责将场景与惩罚行为联系起来,PPC负责构建惩罚类型等级表,最后由dlPFC在等级表中选择特定惩罚,代表最终输出(Buckholtz et al.,2008;Glass et al.,2016;Krueger&Hoffman,2016)。大量研究指出 dlPFC 在认知控制即抑制负性情绪和自利倾向中起着重要作用(Knoch e
39、t al.,2006,2008;Sanfey et al.,2003;罗艺 等,2013),该结论在 TPP 中也得到了验证(Feng et al.,2016;殷西乐 等,2019)。相关 ERP 研究发现,晚期成分LPC 波幅与认知努力程度相关(Cui et al.,2018;Johnson et al.,2008),表明最终的惩罚决策是负性情绪和自利机制权衡的结果。此外,dlPFC 还与目标导向行为的整合与选择相关(罗艺 等,2013),若 利 用 重 复 经 颅 磁 刺 激(repeated transcranial magnetic stimulation,rTMS)抑制 dlPFC
40、活动会干扰最终的惩罚决定(Buckholtz et al.,2015)。由上我们推测,dlPFC 作为中央执行网络的核心脑区,其激活体现了认知控制在反应判断后期所起到的重要作用,也为双系统模型下控制系统的存在提供了神经层面上的证据支持。此外,在中央执行网络中还存在另一个重要脑区腹外侧前额叶皮层(ventrolateral prefrontal cortex,vlPFC)。Glass 等人(2016)指出 vlPFC 虽然对 TPP 的顺利实施很重要,但却与其没有内在联系,然而 Bellucci 等人(2020)的一项元分析发现TPP 会持续激活 vlPFC。令人遗憾的是,目前没有研究直接关注
41、vlPFC 与 TPP 行为的关系。前人研究已证实 vlPFC 是亲社会行为调控中的一个关键脑区(Yang,Zheng,et al.,2019),因此我们推测vlPFC 可能在抑制以伤害为目的的惩罚冲动、促进更加公平的制裁中发挥重要作用。未来的研究需要进一步将 vlPFC 作为目标区域来探究其在TPP 中的功能。3.4 奖赏网络 TPP 行为的产生涉及奖赏加工,特别是内部奖赏。根据 RL 理论,个体对违规者进行惩罚而获得满足感和权力体验感会作为内部奖赏促使个体做出下一次惩罚行为,这也是 TPP 行为得以进化的近端机制(张耀华 等,2013)。Brne 等人(2021)发现亨廷顿病患者能够理解不
42、公平行为本身,却可能因为缺乏奖赏体验能力而导致 TPP 行为减少,404 心 理 科 学 进 展 第 32 卷 体现了奖赏加工在 TPP 中发挥的重要作用。在神经层面上,不少研究发现 TPP 会激活奖赏加工相关的脑区,主要包括腹侧纹状体(ventral striatum,VS)和 vmPFC(Hu et al.,2015),两者与中脑腹侧被盖区(ventral tegmental area,VTA)相连,分别构成中脑边缘通路和中脑皮质通路(Ikemoto,2010)。中脑边缘通路中的 VS 在预期未来奖赏中发挥重要作用(ODoherty et al.,2004),在 TPP 中其激活程度及其与
43、 vmPFC 的功能连接增强(Hu et al.,2015)。中脑皮质通路中的 vmPFC 是情感和认知处理的关键脑区(Naqvi et al.,2006;刘映杰 等,2022)。前文所提到的 vmPFC 对伤害程度的评估体现了其将情绪整合到 TPP 中的功能(Asp et al.,2019)。在认知加工上,vmPFC 负责决策中的主观价值评估(Ruff&Fehr,2014),其激活会正向强化社会奖赏(Zhong et al.,2016)。以上证据说明,奖赏网络在 TPP 中主要负责价值表征、预期奖赏的作用。此外,VTA 富含神经递质多巴胺,其在中脑边缘通路和中脑皮质通路神经传导过程中起到重要
44、作用(Wise&Rompre,1989)。具体来说,多巴胺负责编码奖赏预测偏差(Schultz,2007,2013)。当大脑监测到结果比预期更差时,由 ACC 和多巴胺系统对该信号进行编码,这可能是在脑电研究中发现 MFN 在违反预期条件下出现的原因(Enge et al.,2017;吴燕,罗跃嘉,2011),这可以解释在个体观察到不公平分配后 MFN 波幅增大的现象(Ouyang et al.,2021)。大量研究发现,dlPFC 和dACC 等脑区在 TPP 中的活动会受到来自中脑多巴胺能神经元信号输入的调节(Lockwood et al.,2016)。多巴胺功能分子的遗传变异可用于解释个
45、体间在 TPP 中神经激活的差异。COMT Met 等位基因与体验奖赏的能力有关,该基因携带者在TPP 中 VS 有更强的激活(Strobel et al.,2011)。由此可以说明,多巴胺水平在 TPP 决策中有着重要影响,且该过程与奖赏加工密切相关。4 第三方惩罚的认知神经网络模型 前人在 TPP 相关神经机制上开展了大量研究,但大多仅仅关注了 TPP 行为出现时大脑各部位的独立激活。近年来有学者对 TPP 持续激活的神经网络进行了元分析(Bellucci et al.,2020),但依旧对大脑区域和网络之间的相互作用缺乏理解。此外,奖赏网络作为 TPP 中与动机关系最为密切的一个区域,与
46、其他脑网络之间的关系还不明确。TPP 作为一种复杂的社会决策行为,其激活的脑区广泛而复杂。因此,有必要将心理和神经层面上的证据整合起来,形成更加系统的理解。为了从更全面的视角解释 TPP 行为的发生机制,本文整合了以往研究结果,总结梳理个体在 TPP 中的情绪唤醒、认知过程以及脑区激活模式(文献详细信息见网络版附录表 S1),提出 TPP 的认知神经网络模型(图 3)。在该模型中,情绪系统和奖赏系统共同作为 TPP 的动机系统,负责为 TPP 行为产 图 3 第三方惩罚行为的认知神经网络模型 注:虚线矩形框代表认知加工系统,实线矩形框代表各系统下的子系统,椭圆框代表行为决策。单向实线箭头(1、
47、2、3、4)代表一次完整的惩罚过程,数字越大,阶段越后;箭头 1 代表刺激输入,箭头 2 代表对动机系统信息的整合与传递,箭头 3代表社会认知系统将整合后的“惩罚信号”进一步输送给执行控制系统,箭头 4 代表惩罚决策输出。双向实线箭头(5、6)代表系统或网络之间的相互关系:箭头 5 代表情绪系统和奖赏系统之间的相互关系,箭头 6 代表默认模式网络和中央执行网络之间的“拮抗”和“互补”关系。虚线箭头(7)代表执行惩罚后的反馈过程,参与下一次第三方惩罚行为。第 2 期 郑 好 等:第三方惩罚行为的认知神经机制 405 生动力,对应的脑网络分别为突显网络和奖赏网络。社会认知系统和执行控制系统作为认知
48、系统的两个子系统,参与 TPP“责任评估”和“惩罚选择”两个阶段,对应的脑网络分别为默认模式网络和中央执行网络。模型中各个成分互相配合、相互作用,最终由执行控制系统做出是否惩罚以及惩罚强度的决策,由此产生的反馈信息又进一步作用于内部环路,个体在每一次的反馈中进行学习并形成最优行为决策。对该模型的理解包括以下 4 个方面:(1)动机系统下的情绪系统和奖赏系统;(2)认知系统内部关系及其对第三方惩罚行为的影响;(3)自动加工与控制加工通路;(4)奖赏网络参与的反馈通路。4.1 动机系统下的情绪系统和奖赏系统 情绪模型指出,负性情绪的产生是 TPP 的动力来源之一(Fehr&Gchter,2002;
49、Xiao&Houser,2005),而互惠模型认为对未来回报的期待(如声誉建立)以及惩罚后的权力体验感、满足感可以作为奖赏信号对个体进行内部强化,促使个体做出下一次惩罚行为。因此,情绪和奖赏系统都参与到 TPP 的动机产生过程中,并共同组成 TPP 的动机系统。情绪系统涉及情绪的产生、处理和调节过程(Etkin et al.,2015;Pessoa,2017)。以往研究发现,突显网络在 TPP 中参与情绪加工并指导后续决策(Bellucci et al.,2020;Feng et al.,2016;Mclatchie et al.,2016),奖赏网络的价值表征和预期奖赏的功能使得其与奖赏系统
50、密切相关(Hu et al.,2015)。因此,情绪系统和奖赏系统对应的脑网络分别为突显网络和奖赏网络。值得注意的是,情绪系统和奖赏系统也并非完全独立(箭头 5)。情绪系统将负性情绪的产生等情绪信息传递给奖赏系统,使得个体更倾向于去寻求奖赏性刺激来缓解因负性情绪带来的不适感;同时,奖赏系统将以往的奖赏体验(如权力感和满足感)传递给情绪系统,以此引发积极的情绪体验,这种相互促进的关系为个体做出惩罚决策提供了动力。4.2 认知系统内部关系及其对第三方惩罚行为的影响 认知系统包括社会认知系统和执行控制系统。在 TPP 中,个体需要根据违规行为信息来评估伤害程度以及推断违规者的心理状态(Ginther