收藏 分销(赏)

嗓音模仿认知神经加工的多阶段模型.pdf

上传人:自信****多点 文档编号:2725465 上传时间:2024-06-05 格式:PDF 页数:15 大小:1.31MB
下载 相关 举报
嗓音模仿认知神经加工的多阶段模型.pdf_第1页
第1页 / 共15页
嗓音模仿认知神经加工的多阶段模型.pdf_第2页
第2页 / 共15页
嗓音模仿认知神经加工的多阶段模型.pdf_第3页
第3页 / 共15页
亲,该文档总共15页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、心理科学进展 2024,Vol.32,No.3,499513 2024 中国科学院心理研究所 Advances in Psychological Science https:/doi.org/10.3724/SP.J.1042.2024.00499 499 嗓音模仿认知神经加工的多阶段模型*胡砚冰1 蒋晓鸣1,2(1上海外国语大学语言研究院;2上海外国语大学语言科学与多语智能应用重点实验室,上海 201620)摘 要 嗓音模仿是言语交流中关键的认知过程,即对话一方(说话人)将感知到的另一方(目标说话人)的嗓音信号映射为自己的发声器官运动表征,达到发声器官运动表征复制和目标说话人嗓音再现的目的。

2、成像结果表明,嗓音模仿的认知加工涉及颞上回到左侧额下回,再到发声相关初级运动皮层的神经网络,并且基底神经节在该网络中发挥协调作用。嗓音辨别能力、嗓音信号至发声运动表征的映射能力以及发声器官肌肉的控制能力的个体差异都会影响嗓音模仿的认知加工。未来研究应该考虑将嗓音模仿与发声障碍以及侵入电极技术结合起来,旨在共同揭示脑与行为的因果机制,并进一步应用于言语的终身发展、认知可塑性以及言语预期领域。关键词 嗓音模仿;嗓音再现;发声器官运动复制;模仿神经网络;个体差异 分类号 B842 1 引言 言语交流不仅依赖于遵循特定的音系和句法规则(Chomsky&Lightfoot,2002),还有其深层的社会应

3、用,如促进合作和情感联结。然而,仅凭固定的语言规则是不足以实现这些社会目标的。原因在于每个说话人都有独特的表达方式,这些方式反映了他们的人格特质和文化背景(Kinzler,2021)。有研究指出,在以社会目的为导向的言语交流中,言语感知运动控制1机制(speech sensorimotor control mechanism)起到了关键作用,在这一过程中,嗓音模仿的认知机制尤为重要,尤其是在推 收稿日期:2023-08-04*国家自然科学基金委面上项目(31971037)、上海市教育发展基金会和上海市教育委员会“曙光计划”项目(20SG31)、上海市自然科学基金面上项目(22ZR1460200

4、)支持。通信作者:蒋晓鸣,E-mail: 1 言语感知运动控制可以定义为一个包括听觉感知至发声(言语产出)的综合性认知加工过程(Bono et al.,2022)。这一过程是为了确保个体能准确地接收、理解以及回应言语信息。这一认知过程具体涉及听觉信息首先被感知和解析,然后转化为一个产出运动计划,最终通过运动器官(如声带、舌头、嘴唇等)实现精准的言语产出。与言语感知运动控制不同,嗓音模仿要求说话人需要考虑如何让自己言语产出的信息与其感知到的目标说话人信息是相似的。动对话双方在特定特征(如声学、语义、句法以及发声动作)上达到相似性时(Kinzler,2021)。具体来说,随着对话的深入,双方会逐渐

5、展现出在不同模态层面上的相似性,如声音和口型的同步。在这个模仿的过程中,说话人可能会借鉴他们感知到的目标说话人的多模态信息,并控制自己的发声动作,以产出更接近目标说话人的嗓音,从而更有效地达到社会交流的目的(Bernhold&Giles,2020;Heyes,2021;Pardo et al.,2022;Pickering&Garrod,2013)。嗓音模仿能有效地促进言语交流中的社会目的达成,其中一个关键因素便是其自发性的特点。这种自发性使说话人无需刻意模仿目标说话人的语言特征,而是通过内部机制(如前向和逆向模型)自然地将听觉信息映射为相应的发声指令。言语感知产出整合模型(speech pe

6、rception-production integrational model)认为说话人会模仿目标说话人的言语信息,将目标说话人的感知表征映射为自己的产出指令,并使用这种产出指令来引导其接近目标说话人的言语信息(Gambi et al.,2022;Gandolfi et al.,2022;Pickering&Gambi,2018;Pickering&Garrod,2004,2013)。前向模型(forward model)在这种引导过程中起着核心作用(Pickering&Garrod,2013)。前向模型可以理解为说话人准备说话之前就预期了其嘴唇、舌头和其500 心 理 科 学 进 展 第

7、32 卷 他发声器官应该如何移动,以便产生期望的嗓音效果(蔡笑,张清芳,2020)。言语感知产出整合模型指出,说话人在语义、句法和嗓音这三个层面都会利用目标说话人的言语信息来调整自己的产出系统。具体来说,在语义层面,当说话人预见到将出现一个特定的单词(如帽子:cap),他们会提前调整舌部位置以做好发音准备。如果实际出现的单词(如水龙头:tap)与预期不符,他们需要做出更多的舌部位置调整(Drake&Corley,2015)。在句法层面,说话人会在他们的言语产出系统中预先设置预期的句法信息,比如冠词与名词的配对(Martin et al.,2018)。若这一产出系统受到任何形式的干扰,它将影响说

8、话人对后续句法信息的正确提取和模仿。最后,在嗓音层面,说话人也会借助目标说话人的嗓音特征来调整自己的产出系统,以便更准确地模仿目标说话人的声音(Pardo et al.,2013)。与遵循语言规则的语义和句法不同,嗓音中的音段和超音段声学线索具有高度的灵活性和变异性,这使得个体间存在显著的差异。有研究进一步证实,说话人能够仅凭这些嗓音线索(如基频、共振峰等)轻松地识别不同目标说话人的身份(Perrachione et al.,2011)。模仿认知过程的介入可以有效地减少这些个体间的高度变异性,使得说话人在特定声学特征上更加接近目标说话人。因此,深入了解嗓音模仿的认知加工机制对于揭示言语交流中的

9、社会合作行为具有重要的理论意义。此外,该模型还进一步阐释了在不同物种,不同种族以及不同年龄段中声学特征相似性的出现,如有研究发现亚洲象和海豹都可以模仿人类的嗓音,具体表现这些动物在发声行为中表现出与人类相似的共振峰大小(Stansbury&Janik,2019;Stoeger et al.,2012),有研究发现嗓音模仿可以帮助说话人理解外种族口音(Adank et al.,2010),还有研究发现 5 岁左右的儿童模仿妈妈的声音,可以促进其与妈妈大脑的同步(Lin et al.,2023)。这些证据表明,嗓音模仿在语言发展,特别是二语习得中起着关键作用。然而,为什么嗓音模仿有助于语言的发展和

10、习得,需要当前综述梳理嗓音模仿背后的认知加工机制。更重要的是,在现实生活中,随着人工智能语音技术的发展,人类与机器的语音交互日益成熟。然而,要使机器更好地模仿人类嗓音,并让其听起来与人类的嗓音更为相似,以实现更加人性化的听觉体验,仍然面临着挑战(Cohn et al.,2022;Zellou et al.,2021)。与传统观点中将说话人的感知和产出视为两个独立模块的模块化言语交流理论不同,言语整合产出模型提出,说话人在感知目标说话人时,同时也在调整自己的发声指令。这一模型强调了感 知 和 产 出 实 际 上 是 相 互 依 赖 的 认 知 过 程(Pickering&Garrod,2013)

11、。这为解释说话人和目标说话人在嗓音声学特征上的相似性提供了理论基础。值得注意的是,在日常言语交流中,不仅有听觉信息,还有视觉上的发声线索,如口型。这些视觉线索也能影响模仿的认知过程,意味着嗓音模仿也可以体现在说话人和目标说话人口型的相似性上。关联序列学习模型(associative sequence learning,ASL)认为嗓音模仿是特定效应器官感觉运动联结学习的产物,模仿过程涉及观察和执行相同动作的联结经验。具体来说,在模仿过程中,说话人首先观察目标说话人某一特定效应器官的行为(如嘴唇张开或闭合),然后尝试使用对应的效应器官执行相同的行为,从而实现对行为序列的学习(Heyes,2001

12、,2011;Wu et al.,2019)。与此相关的是逆向模型(inverse model)的参与(Belyk et al.,2016)。逆向模型主要关注如何将感知到的目标说话人的嗓音信号转化为说话人相应的发声运动指令(Chen et al.,2021)。与前向模型(即在说话前预先设定嘴唇、舌头和其他发声器官的运动以产生期望的嗓音效果)不同,逆向模型更注重目标导向的映射过程。具体来说,这意味说话人的发声运动指令是受到目标说话人发声动作的引导,以便与目标说话人在特定特征上(例如,发声器官的运动特点)达到高度匹配。由此可见,从言语感知产出整合模型的视角来看,嗓音模仿被视为说话人对目标说话人声学特

13、性的再现。而从关联序列学习理论的角度看,嗓音模仿则更侧重于说话人对目标说话人发声器官动作的复制。两个模型在解释嗓音模仿方面都有其独特的优点和局限性。ASL 模型主要侧重于解释同一物种内基于发声器官动作的模仿机制,因此在处理跨物种模仿方面缺乏全面性。与之相反,言语感知产出整合模型通过声学相似性来定义嗓音模仿,能够较好地解释跨物种的嗓音模仿现象,从而弥补了 ASL 模型在这方面的不足(Cracco et al.,2018;Mercado et al.,2014)。然而,ASL 模型提供了关于嗓音模仿形成机制的具体假第 3 期 胡砚冰 等:嗓音模仿认知神经加工的多阶段模型 501 设,特别是声学相似

14、性是如何依赖特定发声器官来实现的,这是言语感知产出整合模型尚未深入探讨的。总的来说,两个模型分别从嗓音中的声学信息和效应器官动作来探究说话人嗓音模仿的认知过程。然而,这种独立的观点忽略了一个事实:言语交流是一个涉及多模态信息输入和输出的复杂过程(Belyk et al.,2019;Belyk,Brown,et al.,2021;Brown et al.,2021)。具体来说,嗓音模仿不仅依赖于说话人各种发声效应器官(如喉部、舌部、上颚部、唇部等)的协同作用,还需要通过这些器官产生的声学信号来模仿目标说话人。这表明嗓音模仿的认知过程不仅要求说话人精确地复制发声器官的动作表征,还需要再现与目标说话

15、人近似的声音特征。现有的认知模型在两个方面都存在局限性:一是它们不能全面地解释嗓音模仿在多模态情境中是如何进行认知加工的;二是缺乏对嗓音模仿认知过程背后神经机制的明确解释。明确这些神经机制不仅有助于更深入地理解神经因素与模仿行为之间的因果关系,还可能为治疗发声障碍提供有临床意义的新视角。针对这些不足,需要当前研究梳理和整合以往的实证研究,以构建一个更为全面的嗓音模仿的认知神经加工模型。本文基于说话人角度2,分别从三个部分来解 2“说话人角度”具体是指在嗓音模仿的三个核心认知加工阶段(即嗓音感知、感知到产出的映射以及嗓音产出),都涉及到产出系统的参与。这与传统的“听话人角度”有明显区别。听话人通

16、常更关注于是否成功地解码了接收到的信息,而说话人不仅解码信息,还进一步对这些信息进行深层次的编码(如说话人基于接受的信息,通过改变其发声运动行为,进而产出与接受信息相关的特定语言信息),以实现特定的社会目的。两种主要的模型,即言语感知产出整合模型和关联序列学习(ASL)模型,都强调说话人在感知阶段并不是被动的。相反,内部的产出系统在整个感知过程中起到了主动的作用。这意味着,即使在听或感知别人的言语信息时,说话人也在“内部地说”,尽管可能不会外显地产出。总体来说,从“说话人角度”出发研究嗓音模仿能够更全面地阐释其认知加工机制,特别是能更深入地理解嗓音模仿中的三个核心认知处理阶段。此外,内部产出的

17、机制在解释言语交流中如何实现流畅的话轮转换方面具有重要意义。相关证据进一步显示,话轮转换中的切换时间(大约200 ms,即在目标说话人刚结束发言后说话人开始发言的时间)要远小于一般图片命名任务中的反应时间(大约为350 ms)。这表明内部产出系统在控制言语交流节奏,特别是在话轮转换中,起到了关键作用。决这些问题:第一部分主要基于嗓音模仿的两种模型来梳理与其相关的嗓音模仿认知加工阶段,并阐述嗓音模仿背后认知加工过程的特异性;第二部分通过梳理与嗓音模仿范式密切相关的成像研究来回答嗓音模仿背后涉及的神经网络,解释认知加工特异路径背后涉及的脑机制;第三部分从个体嗓音辨别能力、嗓音感知映射发声器官运动指

18、令的能力以及发声效应器官控制能力的个体差异角度,来探究这些因素如何影响嗓音模仿。2 声学特征再现与发声器官运动复制共同表征嗓音模仿 言语感知产出整合模型和关联序列学习模型分别从嗓音声学特征和发声器官运动表征角度来阐明嗓音模仿的认知过程。前者认为嗓音模仿的认知过程需要说话人再现(reenactment)目标说话人嗓音信息的认知过程参与(Mercado et al.,2014)。后者从发声器官运动表征角度认为嗓音模仿涉及说话人观察目标说话人发声器官的运动表征,然后使用相应的效应器官复制(copy)同样的动作(Cracco et al.,2018)。综合两种解释可以发现,“再现”和“复制”都意味着说

19、话人感知目标说话人的某个特征,其特征可以是嗓音中的声学特征,也可以是发声器官运动的特征。在此基础上,说话人执行了一个“相同”的特征。更重要的是,这两种解释不仅强调了嗓音模仿中的感知和发声过程,而且表征了感知映射发声的认知过程。然而,哪些指标可以测量嗓音模仿的认知过程,需要进一步梳理。基于嗓音再现的解释认为,嗓音模仿具体表现为当被试接触(vs.无接触)目标说话人声音之后所产生的声音与目标说话人声音更具有相似性(Goldinger,1998)。Goldinger(1998)首次采用跟读范式(shadow paradigm)来研究基于此定义下的嗓音模仿认知过程。具体来说,该实验涉及两组被试:说话人组

20、和听话者组。说话人被要求收听目标说话人所产生的声音,声音结束后,说话人被要求重复这些声音。之后,要求听者组进行 AXB任务,在这一任务中会向听者依次呈现三个听觉刺激(A、X、B)。其中,听觉刺激(X)是之前记录目标说话人所产生的声音,而 A 和 B 是由说话人组产生与目标说话人同一言语内容的声音刺激,其中 A 是之前任务中说话人跟读目标说话人所产502 心 理 科 学 进 展 第 32 卷 生的声音刺激(跟读条件),B 是作为基线条件的声音刺激(即没有接触目标说话人之前,说话人录制好的录音)。结果发现,相比于基线条件,听话者组被试认为跟读条件的声音与目标说话人声音更加相似(Goldinger,

21、1998;Pardo et al.,2013;Pardo et al.,2017;Pardo&Remez,2021)。这项研究表明,当任务没有要求被试模仿目标说话人声音时,被试依然会模仿目标说话人的声音。然而,Goldinger(1998)的研究存在这样一个问题,对于跟读范式中被试模仿认知加工的测量依赖听者的主观判断,即让新的一组被试(听话者组)直接对说话组在两个不同条件(跟读条件 vs.基线条件)所发出的声音与目标说话人录音的相似性进行比较。在这些研究中,依然不清楚,说话组被试在跟读范式中模仿了什么?基于这一问题,有研究同样采用跟读范式,但是采用了有关模仿加工的不同测量方法。这些研究的基本逻

22、辑是,测量目标说话人组和跟读条件下的说话人组的声音是否发生声学聚合(acoustic convergence)(Garnier et al.,2013;Pardo et al.,2013;Pardo et al.,2017)。统计思路是,首先测量目标说话人、说话人组在基线条件和跟读条件下所产生声音的声学参数(如基频、元音共振峰等),然后将这些声学参数转换为欧氏距离差分数(differenceindistance scores,DID),用以评估声学聚合(Pardo et al.,2017)。计算出两种类型的 DID。第一种类型 DID 是通过比较基线条件与目标说话人之间的声学欧氏距离的差异(b

23、aseline-model),第二种类型 DID 是通过比较跟读条件与目标说话人之间的声学欧氏距离的差异(shadow-model)。结果发现,第二种类型的 DID显著小于第一种 DID,这表明,说话人组被试在跟读条件的录音与目标说话人的录音发生了声学聚合(Pardo et al.,2017)。然而,这种跟读条件的声学聚合在多大程度上可以解释模仿的认知过程呢?有研究将跟读任务中观察到的声学聚合效应与任务要求被试模仿所产生的声音进行比较,以进一步说明这种声音聚 合 可 以 解 释 为 模 仿 的 认 知 加 工(Dufour&Nguyen,2013)。这项研究选取 22 个以/e/结尾和22 个

24、以/结尾的双音节单词。在目标任务中,双音节单词以听觉形式通过耳机进行呈现,其中要求一组被试自然清晰地跟读目标说话人录音中的这些单词(跟读组),要求另一组被试模仿目标说话人的具体发音(模仿组)。任务前后分别进行了一项测试,把这些双音节单词以小写字母形式视觉呈现在屏幕中央,要求被试大声读出这些单词。为了排除前测带来的练习效应,另外 44 个双音节单词,其中一半以/e/结尾,另一半以/结尾,只在目标任务和后测中使用。并且将在前测中出现的单词设定为基线词(baseline word),将没有在前测出现的单词设定为新词(new word)。结果发现在测试和后测阶段,跟读组和模仿组都出现了相同的结果模式,

25、即新词中的/e/和/的第一共振峰上都出现了显著差异。这项研究结果表明,模仿组和跟读组都发生了声学上的聚合效应3,并说明这种聚合效应可以解释为一种模仿的认知过程。基于言语感知产出整合模型对嗓音模仿的定义,涉及说话人可以再现目标说话人的声学特征。与这一定义密切相关的操纵性定义为声学聚合,即在对话或模仿过程中,一个人的声学特征(比如音高、音量或语速)逐渐变得更像另一个人。进一步来说,声学聚合揭示了说话人在社交互动或模仿活动中如何自然地调整自己的声音以适应或接近目标说话人。声学聚合可能反映出个体在社交互动中的适应性和合作倾向,用以促进社交凝聚或增强信息传递的效率(Pardo et al.,2022)。

26、声学聚合的测量指标是欧氏距离差分数,即通过计算两个声音样本在多维声学空间中的“距离”来量化它们有多相似或不同。这个“距离”越小,说明两个嗓音样本越相似,也就意味着更强的声学聚合。Dufour 和 Nguyen(2013)的研究结果进一步说明了,在被要求模仿目标说话人和在自然跟读的情况下,声学聚合的程度是没有差异的。这可能意味着,不管是任务相关还是任务无关的模仿,说话人都会在一定程度上模仿目标说话人的声音。基于发声运动表征复制的观点认为,说话人与目标说话人发声器官运动表征不一致(vs.一致)时,会诱发其更长的发声时间延迟,即与目标说话人一致的运动表征可以促进说话人发声运动表征复制的表现,与目标说

27、话人不一致的运动表征 3该名目标说话人具有标准的发音,可以从声学特征显著的区分/e/和/,然而招募的被试都含有一定的口音,不能在声学特征层面区分/e/和/,为此跟读组和模仿组被试之所以可以区分/e/和/,是因为与目标说话人声学特征发生了聚合。第 3 期 胡砚冰 等:嗓音模仿认知神经加工的多阶段模型 503 则会干扰说话人发声运动表征复制的表现(Wilt et al.,2023)。有研究采用刺激反应一致性范式(stimulusresponse compatibility paradigm)解释这种定义,该研究通过呈现听觉刺激(/ba/或/da/),并且与被试的发声任务要求形成一致或不一致的发声条

28、件,进而影响了被试的发声延迟。被试的任务是忽略耳机中的听觉刺激,产出视觉提示所呈现的音节(/ba/或/da/),为此就会操纵刺激感知与发声器官产出的一致性条件(如一致条件:/ba/ba/,不一致条件:/ba/da/)。结果发现,不一致 条 件 的 发 声 延 迟 时 间 显 著 长 于 一 致 条 件(Galantucci et al.,2009)。这表明当个体感知到的刺激与实际产出刺激有冲突时,会影响个体相应发声效应器官的动作表征,这种影响表现在发声延迟时间上。然而,这种刺激反应一致性效应是否具有反应效应器官的特异性呢?比如,仅当利用发声相关的效应器官做反应时才会出现一致性效应,利用别的效应

29、器官做反应则不会出现一致性效应。这一问题对应了 ASL 对模仿认知过程的解释,即模仿过程涉及观察和执行相同效应器官的动作。为了解决这个问题,Galantucci 等(2009)进行了第二个实验,即被试除了发声任务,还需要进行一个按键任务,即忽略听觉刺激,根据视觉提示通过肢体运动效应器官(即手指)进行按键。结果发现,只有当被试进行言语产出任务时,才会出现一致性效应。结果表明当说话人感知某一听觉刺激时,会快速通过人声感知运动映射机制形成一种与发声效应器官对应的产出表征,当实际言语产出任务与这种产出表征一致时,则会促进相应的产出行为,当与产出表征不一致时,则会抑制相应的产出行为。基于目前证据表明,这

30、种由刺激反应范式诱发的一致性效应涉及说话人与目标说话人在相同效应器官上感知映射运动表征的过程,如感知手的运动只会影响相应手的运动表征(Heyes,2011),感知嘴部的运动只会影响嘴的运动表征(Virhia et al.,2019)。基于 ASL模型,我们可以对刺激反应一致性效应进行深入解释。ASL 模型特别强调感觉与动作之间的联结,这种联结会因为两者在时间维度上的邻近而得到加强。在这一框架下,如果一个新的感觉事件与已有的联结经验相似,那么它更可能促进相应的动作产生;相反,如果新的感觉事件与联结经验不吻合,那么它可能会妨碍动作的产出。举个实际例子,我们在模仿母语的听觉事件时通常会比模仿一种不熟

31、悉的语言更为得心应手。综上所述,跟读范式中的跟读条件和刺激反应一致性范式的任务都不要求说话人对目标说话人嗓音进行模仿,进而通过行为反应指标来测量模仿的认知加工过程,这表明嗓音模仿可以是自发产生的。在跟读范式的模仿条件下,说话人被要求模仿目标说话人的嗓音,这揭示了嗓音模仿也可以是针对特定目标声音而进行的产生。嗓音模仿所涉及的两种自发性也存在区别:在刺激反应一致性范式中,自发性主要表现为基于感觉动作联结的自动化反应。这意味着模仿行为几乎是一种由刺激触发的自动反应。与之不同,跟读范式中的自发性更侧重于无明确意图下的声学特性再现。也就是说,即使没有明确的模仿意图,说话人仍然能准确地再现目标说话人的声学

32、特性。此外,两者在测量模仿认知加工的指标上也存在差异,跟读范式对于模仿的测量体现在说话人与目标说话人声音特征间存在相似性,或者两者的声学特征发生聚合,这一指标反映了嗓音模仿发声这一阶段;刺激反应一致性范式对于嗓音模仿测量体现在嗓音感知映射发声器官运动表征和实际发声动作之间的一致性,这一指标包含了嗓音模仿感知和感知映射发声器官运动表征这两个加工阶段。这些证据表明嗓音声学特征再现和发声器官复制的测量指标共同表征了嗓音模仿的认知过程。具体来说,在嗓音模仿过程中,前向模型负责预测发声器官(如嘴唇和舌头)应如何运动以生成预期嗓音的声学特性。一旦嗓音生成,基于预期的发声动作及其后果与实际输出会进行比对,使

33、前向模型能实时调整发声器官的动作以更精准地接近目标嗓音。相对于这一过程,逆向模型则用于发声动作的复制。它根据目标说话人的发声动作和声学特征来生成相应的发声器官运动参数,从而使说话人能够执行与目标说话人相似的发声动作。这两个模型共同协作,确保了声学特性的再现和发声动作的精确复制。3 嗓音模仿的特异路径:认知神经多阶段加工模型 嗓音模仿包含感知、感知映射发声运动表征以及发声产出三个加工阶段,这并不意味着嗓音模仿等于三个加工阶段的“和”。相比于独立的三504 心 理 科 学 进 展 第 32 卷 个加工阶段,嗓音模仿认知加工涉及整合和协调感知发声运动认知阶段所涉及的神经网络。当前部分通过梳理与嗓音模

34、仿范式相关的成像研究来澄清其模仿过程背后的特异性神经机制。此外,嗓音模仿除了在行为指标上存在特异性(即说话人对目标说话人相应发声效应器官的复制和再现目标说话人嗓音),嗓音模仿与感知发声运动肯定在神经机制上也存在差异。当前部分将梳理嗓音模仿相关的成像研究,并与经典感知发声运动神经网络进行对比,进而阐明嗓音模仿与感知发声运动加工在神经机制上的联系和区别。一项功能性磁共振成像(functional magnetic resonance imaging,fMRI)研究要求说话人跟读多名或一名目标说话人提前录制好的双音节假词4,使用假词的目的是为了防止说话人对刺激中的语义信息进行加工,实验者使用事件相关

35、的序列采样设计扫描了被试跟读过程中的脑区活动变化,并且记录了被试产出声音中的声学特征(如 F0,时长等)(Peschke et al.,2009)。结果发现,与跟读单一目标说话人相比,当说话人跟读多名目标说话人时,会激活颞上沟(superior temporal sulcus,STS)、颞上回(Superior Temporal Gyrus,STG)和颞中回(middle temporal gyri,MTG)等与嗓音感知相关的脑区(Frhholz&Schweinberger,2021)。此外,还激活了额下回(inferior frontal),初级运动皮层(primary motor cort

36、ex,M1)这些与言语发声计划或运动相关的脑区(Pisanski et al.,2016)。随后Peschke 等(2009)进行了个体差异分析,结果发现更加延迟的言语产生反应5与左侧顶叶盖(left parietal operculum,LPO)区域的激活成正相关。以往研究表明,LPO 同时参与听觉感知与产出运动的认知加工,并且是参与听觉感知映射发声器官 4 假词也被称为伪词或非词,是指那些在语音和形式上看起来像真实的词语,但实际上并没有任何已知的含义或语义的词语。5 为了排除正确率反应时平衡带来的影响,即反应时长可能是因为任务难度所造成的,Peschke 等(2009)进行了额外分析,将正

37、确与错误试次的产出反应时进行对比,结果显示正确试次的产出反应时长于错误试次的产出反应时(t=2.39;df=19;p=0.0276;正确试次的产出反应时=488 ms,错误试次的产出反应时=469 ms)。如果任务困难导致产出反应时的增加,那么这些困难并没有导致错误试次的产出反应时增加,故排除正确率反应时平衡带来的影响。运动过程中的重要脑区之一(Hickok&Poeppel,2000)。为此,Peschke 等(2009)在个体差异上的结果可能说明了,听觉感知至言语产生映射之间认知过程的整体难度与复杂性与 LPO的激活密切相关。然而,这项研究的结果在多大程度上可以解释为模仿的神经机制呢?一项

38、fMRI 研究让被试进行了 5 项任务,其中两项是基线任务:(1)在感知参照任务中,要求被试被动听元音;(2)在产出参照任务中,要求被试产出屏幕上呈现的元音。另外三项为当前研究感兴趣的三项任务:(3)在跟读产出任务中,要求被试产出耳机中呈现的元音(任务无关的模仿认知加工6);(4)在元音模仿任务中,要求被试模仿录音中的声音(任务相关的模仿认知加工7);(5)在抑制产出任务中(抑制模仿的认知过程),提前告知被试声学聚合的现象,然后要求被试忽略录音中的声学线索,用自己的发声方式进行产出,除了扫描这些任务的认知过程外,还扫描了被试的静息态数据。此外,在其中三项感兴趣的任务中,被试需要额外完成 GoN

39、o Go 任务8,即看到绿色的注视点时才能进行相应的产出任务,看到红色的注视点时不能进行相应的产出任务(Garnier et al.,2013)。结果发现,任务无关模仿和任务相关模仿都诱发了相同的嗓音感知发声运动网络,与以往研究发现的嗓音感知发声运动网络相似,这项研究发现的共享感知网络包括双侧 STG的激活,延伸到罗兰氏叶盖(Roland Operculum)和左侧脑岛(insula),同时还有左外侧额下回,特别是布洛卡区的额下回(Inferior Frontal Gyrus,IFG)三角部和前额区 BA8 以及双侧顶下小叶(Inferior Parietal Lobe,IPL)区域,双侧缘上

40、回(bilateral supramarginal gyrus,SMG)与右侧角回(angular gyrus),在边缘系统中还发现了右侧丘脑(thalamus)和左后侧扣带回皮层(cingulate cortex)的共同激活;这项研究发 6 任务无关的模仿认知加工是指在该任务指令中不涉及明确要求被试去复制,再现或者模仿目标声音。7 任务相关的模仿认知加工是指在该任务指令中明确要求被试去复制,再现或者模仿目标声音。8 此任务的优势在于进行感知产出的双任务时,可以探究“主动感知”的认知过程,如元音模仿任务中 No Go 试次的BOLD 信号与其静息态进行对比。也可以仅探究产出的认知过程,如元音模

41、仿任务中Go试次的BOLD信号与元音模仿任务中 No Go 试次进行对比。第 3 期 胡砚冰 等:嗓音模仿认知神经加工的多阶段模型 505 现的共享产出网络包括,M1 和运动感觉皮层的双侧激活,延伸到 IFG 三角部和 SMG,这一产出网络涉及 STG 中的初级听觉皮层,延伸到罗兰氏叶盖 和 脑 岛,在 顶 叶 后 部 区 域,包 括 楔 前 叶(precuneus)和整合皮层(associative cortex)以及边缘系统(前扣带回、丘脑)、小脑、壳核(putamen)、红核(red nucleus)和右侧基底节(right basal ganglia,BG)发现进一步的共同激活(Gar

42、nier et al.,2013)。这项研究提取了感兴趣任务(即任务 3,任务 4 以及任务 5)产出后的声学特征(F0),并用录音中目标说话人的 F0 与感兴趣任务中说话人产出的 F0做相关。结果发现,任务相关模仿的斜率大于任务无关模仿,任务相关和任务无关模仿的斜率都大于抑制模仿。这表明,基于相关性斜率的指标可以表征说话者模仿的程度。研究者进一步将斜率与三种模仿认知加工中,激活的感知网络和产出网络中的脑区激活程度分别做相关,结果仅在与听觉感知网络相关的双侧听觉皮层、双侧 SMG和左侧韦尔尼克区存在显著相关性(Garnier et al.,2013)。这些结果表明,任务无关和任务相关的模仿过程

43、都涉及大脑背侧感觉运动网络的参与,对于听觉表征映射到发音表征的认知过程非常重要(Hickok&Poeppel,2000,2004)。这一认知网络在模仿任务中得到了实证验证,进一步强调了它在嗓音模仿加工方面与单纯嗓音感知和产出的认知过程有明显的区别和特异性。更为详细地说,在模仿加工的关键步骤中,说话人首先需准确地感知目标说话人的声音特性,然后将这些感知到的声学信息转化为自己发声器官的运动指令。通过执行这些运动指令,说话人能够用自己的声音复制目标说话人的声音特性。这一流程揭示了嗓音感知与发声动作在嗓音模仿认知加工中具有至关重要的协同作用。这引出一个问题:与这种协同认知加工紧密相关的神经机制是什么?

44、一项 fMRI 研究要求被试分别进行三项任务9:9 这项研究的目的旨在表明嗓音模仿除了感知和产出两个基本的认知加工阶段,还包括逆向模型的参与。为此,研究者将音高模仿任务(涉及嗓音模仿认知加工)所激活的脑区,分别与非模仿发声任务(涉及嗓音产出认知加工)和音高辨别任务(涉及嗓音感知认知加工)中所激活的脑区进行对比,并进一步将对比的结果进行联合分析,联合分析的结果表明了逆向模型的神经机制。(1)在音高模仿任务中,要求被试模仿刚才耳机呈现的 4 个不同韵律的音符;(2)在非模仿发声任务中,要求被试根据视觉所提示的熟悉旋律名称,发出该韵律中的前 4 个音符;(3)在音高辨别任务中,要求被试通过按键来表明

45、最后一个音符和前3 个音符是否相同。联合分析的结果发现,相对于音高辨别任务和非模仿发声任务,模仿任务中更多的激活了壳核、SMA 和口部感觉运动皮层(Belyk et al.,2016)。壳核作为 BG 中的一部分,具有执行动作选择,习得新运动序列以及执行动作调节方面的功能(Shmuelof&Krakauer,2011)。这可能表明 BG 在嗓音模仿过程中的重要性,原因在于嗓音模仿涉及再现日常中不经常接触的声音,如外种族口音(Adank et al.,2010),异性的声音(Cartei et al.,2020),无语义信息的音节(Pardo et al.,2013)。在此结果基础上,Belyk

46、 等(2016)提出了嗓音模仿认知神经模型(neural model of vocal imitation),这一认知神经模型涉及 STG 的后部,并沿着弓状束(arcuate fasciculus,AF)传送到额叶,再由IFG投射到M1,初级皮层执行运动指令以再现目标声音。重要的是,Belyk 等(2016)研究发现BG 相关的皮质环路参与听觉目标映射运动指令的认知过程。然而,Belyk 等(2016)在模型中对于AF 的假设是基于以往关于言语感知产生的文献,仅凭当前成像结果很难给出相应的证据。一项fMRI 研究采用扩散加权成像(DiffusionWeighted Imaging,DWI)的

47、技术来研究 AF 在无语义(即伪词产出任务)和有语义任务(即真词产出任务)中 AF的子功能结构,结果发现,在无语义任务中,AF在 STG 与 IFG 之间起到桥梁作用,而在有语义任务中,AF 在 MTG 与 IFG 之间起到桥梁作用(Janssen et al.,2023)。这表明,STGAFIFG 起到嗓音感知映射发声动作指令的作用。这与 Belyk 等(2016)在音高模仿任务中提及的模型是一致的。为了进一步验证这一模型,研究者(Belyk,Brown et al.,2021)采用了更高空间分辨率的7T fMRI进行了研究,研究范式采用了 Belyk等(2016)中的音高模仿任务,但是分别

48、要求被试用吹口哨和唱歌的方式进行产出,通过对比嗓音模仿(包含两种产出方式)与静息态的成像数据,结果发现,位于 M1的腹侧和背侧喉部运动皮层(ventral/dorsal larynx motor areas,v/dLMC)这些与产出相关的脑区激活以及 STG,内侧膝状体(geniculate nucleus of the thalamus)这506 心 理 科 学 进 展 第 32 卷 些与听觉感知反馈相关脑区的激活。如前文所述,嗓音模仿具有两个核心特性:自发性和目标性。自发性可以进一步细分为两个层面:一是基于感觉动作联结的自动化反应(通常观察于刺激反应一致性范式中),尽管以往的成像研究并未直

49、接针对使用刺激反应一致性范式来研究嗓音模仿中自动化加工特性的相关神经机制,但手势动作模仿的成像证据仍可提供有用的参考,原因在于这些手势动作模仿的研究与刺激反应一致性范式都是基于 ASL 理论模型的假设(Cracco et al.,2018)。这些研究发现观察和执行动作的过程会激活额下回和初级运动皮层,这些区域都与镜像神经元系统有关(Cracco et al.,2018)。镜像神经元系统,尤其是在猕猴脑中的前运动皮层的 F5 区域,被认为是模仿和语言发展的神经基础(Nguyen&Delvaux,2015)。这一系统通过促进观察到的动作和声音的内部映射,为一般性的模仿行为提供了神经基础。在嗓音模仿

50、中,这些镜像神经元就会启动。它们不仅帮助说话人准确地“听”到目标说话人嗓音的特点,还将这些信息转换为具体的发声指令,好让说话人的喉咙和嘴巴知道要怎么动才能模仿出相同的声音。另一是即便在无明确意图的情况下仍能准确再现声学特性(主要基于跟读范式的研究结果)。在目标性方面,模仿行为不仅是一种无意识的反应,也是一个有目标的过程。在模仿过程中,说话人通过逆向模型生成实现预定目标状态所需的动作指令。根据当前关于嗓音模仿的神经机制研究,我们发现无论是有意图的模仿还是无意图的模仿,这两种不同类型的模仿涉及的脑区都是相关的。这表明有意图模仿和无意图模仿在神经层面上可能共享相似的处理路径或网络。相应的行为证据发现

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服