收藏 分销(赏)

针对情境感知的自然语言的因果去偏推理方法.pdf

上传人:自信****多点 文档编号:788793 上传时间:2024-03-18 格式:PDF 页数:12 大小:2.15MB
下载 相关 举报
针对情境感知的自然语言的因果去偏推理方法.pdf_第1页
第1页 / 共12页
针对情境感知的自然语言的因果去偏推理方法.pdf_第2页
第2页 / 共12页
针对情境感知的自然语言的因果去偏推理方法.pdf_第3页
第3页 / 共12页
亲,该文档总共12页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、针对情境感知的自然语言的因果去偏推理方法张大操1,2张琨1,2吴乐1,2汪萌1,21(合肥工业大学计算机与信息学院合肥230027)2(大数据知识工程重点实验室(合肥工业大学)合肥230027)()Causal-Based Debiased Reasoning Method for Grounded Textual EntailmentZhangDacao1,2,ZhangKun1,2,WuLe1,2,andWangMeng1,21(College of Computer and Information,Hefei University of Technology,Hefei 230027)2

2、(Key Laboratory of Knowledge Engineering with Big Data(Hefei University of Technology),Hefei 230027)AbstractGroundedtextualentailment(GTE)requiresanagenttodistinguishtheinferencerelationsbetweenpremiseandhypothesissentencesbasedongivencontext.Whilesignificantprogresshasbeenmadetoenhancerepresentatio

3、nlearningbyusingcontextualinformation.However,currentmethodsoverlookspuriouscorrelationsbetweencontextandinputsentences,leadingtopoormodelgeneralizationandrobustness.Moreover,existingdebiasingtechniquesfailtofullyconsidertheimpactofcontextualinformationoninferenceprocesses,resultingininaccurateident

4、ificationofspuriouscorrelations.Toaddresstheseissues,weproposeanovelcausal-baseddebiasedreasoningmethod(CBDRM)that integrates causal inference methods while fully considering contextual information.Specifically,we firstconstructacausalgraphthroughstatisticalanalysistoaccuratelydescribetherelationshi

5、pbetweendifferentvariablesamongtheinputdata.Then,wecalculatethetotalcausaleffectofinputdataonthepredictionresultsbyusingabiasedpre-trainingmodel.Additionally,thedirectcausaleffectcausedbyspuriouscorrelationsarecalculatedbyusingcounterfactualmethods.Byremovingthedirectcausaleffectfromthetotalcausalef

6、fect,CBDRMachievesunbiasedinference relation prediction.Furthermore,we take the impact of context into consideration and design a novelcontrastive learning module to improve the unbiased inference performance of CBDRM.Finally,extensiveexperimentsoverpubliclyavailabledatasetsdemonstratethesuperiority

7、andeffectivenessofourproposedCBDRM.Moreover,weconstructandreleaseanunbiasedGTEchallengesettopromotetherelatedresearch.Key words grounded textual entailment;spurious correlations;debiased reasoning;causal effect;contrastivelearning摘要情境感知的自然语言推理任务要求模型能够根据给定情境信息判断前提句子与假设句子之间的语义推理关系.大量的研究工作通过利用情境信息增强对输入

8、句子的语义表征学习,取得了显著的效果.然而,这些方法忽略了情境信息以及输入句子之间存在的虚假关联,导致模型存在泛化性及鲁棒性差的问题.同时,已有的去偏方法未能充分考虑语义推理过程中情境信息的影响,造成情境信息利用不充分、虚假关联识别不准确的问题.针对以上问题,通过融合因果推断方法,提出一种全新的因果去偏推理方法CBDRM(causal-baseddebiasedreasoningmethod),在充分考虑情境信息的条件下,缓解模型在推理过程中收稿日期:2023-03-31;修回日期:2023-06-05基金项目:国家重点研发计划(2021ZD0111802);国家自然科学基金青年科学基金项目(

9、62006066);国家自然科学基金联合基金(U22A2094)ThisworkwassupportedbytheNationalKeyResearchandDevelopmentProgramofChina(2021ZD0111802),theNationalNaturalScienceFoundationofChinaforYoungScientists(62006066),andtheJointFundsoftheNationalNaturalScienceFoundationofChina(U22A2094).通信作者:张琨()计 算 机 研 究 与 发 展DOI:10.7544/is

10、sn1000-1239.202330248JournalofComputerResearchandDevelopment60(8):17681779,2023受到的有偏信息的影响.具体而言,首先通过统计分析为输入数据构建因果图,实现对输入数据中的不同变量之间的关系的准确刻画;在此基础上,利用预训练模型的有偏训练实现输入数据对预测结果的总因果效应的计算.同时,利用因果反事实方法实现计算数据中的虚假关联所导致的直接因果效应.通过从总因果效应中去除虚假关联所带来的直接因果效应,实现了对输入句子的语义推理关系的无偏预测.更进一步,考虑到在语义推理过程中情境信息对语义表达的影响,设计了一个全新的对比学习

11、模块,实现了在考虑情境信息的情况下输入文本的语义表示,进一步提升了模型的无偏推理性能.最后,在公开数据集上进行了大量的实验验证.实验结果充分证明了所提出的方法的有效性.为了对无偏自然语言推理方法进行更好的评估,构建并公开了一个无偏的情境感知的自然语言推理挑战集,用于推动该领域的相关研究.关键词情境感知;虚假关联;去偏推理;因果效应;对比学习中图法分类号TP391自然语言推理(naturallanguageinference,NLI)是自然语言处理研究中的一个基础但重要的研究任务.该任务要求模型能够准确理解并分析前提句子和假设句子之间的语义推理关系,即蕴含(entailment)、矛盾(cont

12、radiction),或者中立(neutral),是文本表示的一个典型应用,对信息检索、问答系统、对话系统等领域的发展有着重要的研究意义和应用价值1-2.伴随着深度学习,特别是预训练语言模型的迅速发展,大量针对自然语言推理的相关工作被提出并取得了突出成绩3-5,甚至在一些数据集上的表现超越了人类6.与此同时,有研究指出现有的语义推理模型在很大程度上利用了数据中的虚假关联,并未真正理解输入句子的语义表示,导致模型在实际应用中存在泛化能力差的问题.如图 1 所示,训练集中存在大量词汇重叠的蕴含样本,但是大量词汇重叠的语言偏见并不能作为判断蕴含关系的特征,如果模型对该语言偏见过度依赖,就会对测试集中

13、存在词汇重叠但关系为矛盾的样本做出错误的判断.文献 78 利用一些启发式的方法生成了一些不包含虚假关联的测试集,验证了现有模型在语义推理时存在对语言偏见高度依赖的问题.文献 910 通过仅使用假设句进行训练和推理,发现预测效果远高于随机猜测,从模型的角度证明了假设句子和标签之间的虚假关联会导致模型的语义表示学习有偏.因此,如何有效缓解数据中的语言偏差对模型语义表示学习及推理的影响成为当前自然语言推理研究的一个热点问题.在去偏自然语言推理研究中,结合因果推断(causalinference)实现无偏学习是一个非常具有潜力的研究方向11.通过识别、区分观测数据中的虚假关联,因果推断方法能够缓解模型

14、对这些虚假关联的依赖,其中反事实推理就是一种代表性的研究手段.例如自然语言推理中针对模型依赖假设句的语言偏见,反事实推理会假设:“如果模型只看到假设句子,模型的预测结果是什么”.通过对比模型在真实世界中观测到完整数据的预测结果以及在反事实世界中观测到假设句子的预测结果,模型对假设句中语言偏见的依赖就能够被有效缓解.在该方向上,研究人员已经进行了初步的尝试.从数据角度,文献 78,1214 通过生成反事实的样本消除数据中存在的语言偏差,保证模型学习的无偏数据基础.从模型角度,文献 15 通过反转假设句反向传播的梯度,阻止编码器学习到假设句所带来的有偏信息;文献 16 通过比较样本与反事实样本之间

15、的差异和它们的预测结果之间的差异让模型学会利用反事实的思维去进行预测;文献 1718 则从传统预测结果的有偏性出发,通过在预测时减去文本所带来的有偏信息,从而实现无偏推理.虽然这些文献工作7-8,12-18已经取得了一定的效果,但仍存在一些不足.具体而言,文本语义表达存在多义、歧义、模糊等问题,引入情境信息是保证文本语义准确表示的一种代表性方法.如图 2 所示,针对相同的前提句和假设句,不同的情境信息能够明确句子的语义表示,从而导致 2 个句子之间的语义推理关系出现不同,体现了情境信息在自然语言推理建模过程中的重要性和必要性.文献 19 也指出训练集中的样本(蕴含):前提:A man wear

16、ing a black shirt and a small boy are working on a door.假设:The man in a black shirt with a small boy is working on something.前提:A lady with glasses holds a baby who is looking up at her.假设:A lady with glasses is holding a baby.前提:A little boy sits on his fathers shoulders with balloons.假设:The boy wa

17、s on his fathers shoulders with his balloons.测试集中的样本(矛盾):前提:A one-armed man in a brown shirt sits in a chair facing the camera.假设:The two-armed man is in the chair facing the camera.Fig.1Examplesoflanguagebiasinthedataset图1数据集中的语言偏见示例张大操等:针对情境感知的自然语言的因果去偏推理方法1769情境信息对文本语义表示与推理的必要性,同时文献 20 提出了一种全新的情境

18、感知的自然语言推理任务,通过为文本句子提供图像情境信息,研究更符合应用场景的自然语言推理.因此,在去偏自然语言推理研究中同样需要充分考虑情境信息.然而,情境信息的引入会为自然语言推理带来更多的挑战.情境信息与文本句子之间是否存在虚假关联,情境信息是否有助于缓解语言偏见对模型的语义表示学习的有偏影响,这些都是情境感知的无偏自然语言推理所必须解决的问题.标签:蕴含标签:矛盾前提:A woman is playing tennis.假设:The woman is wearing a white shirt.Fig.2Different contextual information leads to

19、differentrelationships图2不同情境信息导致关系不同为了解决这些问题,我们通过融合因果推断方法,提出了一种全新的因果去偏推理方法 CBDRM(causal-baseddebiasedreasoningmethod),用于缓解模型在文本语义表示及自然语言推理中语言偏见所带来的有偏影响.具体而言,先使用预训练模型在原始数据集上微调得到一个有偏模型,将这个模型的预测结果视为输入数据对标签的总因果效应;然后通过添加仅将假设句作为输入的额外支路来捕获数据集中的假设句带来的语言偏见,利用因果反事实方法将其建模为语言偏见所导致的直接因果效应;最后通过从总因果效应中减去语言偏见导致的直接因

20、果效应,得到去偏之后的预测结果.此外,为了进一步提高模型对情境信息的理解,本文设计了一个对比学习模块,让模型在推理时充分考虑图片情境信息来缓解语言偏见,提高模型的无偏推理性能.然后在自然语言推理、视觉蕴含(visualentailment,VE)任务和情境感知的自然语言推理(groundedtextentail-ment,GTE)任务上进行了大量充分的实验,用于证明本文所提出方法的有效性.同时,还为情境感知的自然语言推理任务构造了一个无偏的挑战测试集,并将相关测试集数据公开,以促进相关研究的发展.本文的贡献主要包括:1)提出情境信息对无偏自然语言推理有着重要的影响作用,并将因果推断相关技术引入

21、到情境感知的无偏自然语言推理建模中.2)提出一种全新的因果去偏推理方法 CBDRM,用于去除语言偏见,实现更高质量的情境感知的无偏自然语言推理.3)在公开的数据集上进行了大量的实验,充分验证了模型的有效性,同时构造并公开了一个无偏的情境感知的自然语言推理挑战集,以丰富该领域的相关研究.1相关工作本节将介绍与情境感知的无偏自然语言推理相关的研究工作,主要分为因果推断方法、情境感知的自然语言推理、基于对比学习的语义表示方法.1.1因果推断方法近年来在文本去偏方向的研究工作有很多,这些方法主要可以分为 2 类:一类从数据集的角度出发,致力于去除数据集中存在的语言偏见,从根源上解决问题;另一类则从模型

22、的角度出发,通过隐式或显式的方式去除学习到的语言偏见.这 2 类方法各有优缺点.首先,第 1 类方法都是从数据集角度考虑生成一些新的样本来缓解原数据集中的语言偏见.文献78,12 通过统计自然语言推理数据集中假设句的生成方式来推测偏差来源,然后设计了独特的启发式的方式生成新的样本;文献 13 通过人工以最小的扰动修改前提句或假设句,生成与原样本关系不同的反事实样本;文献 14 通过人类与模型对抗的方式让人类合成可以欺骗模型的样本.通过将这些生成的样本与现有数据集里的样本融合,让模型取得更好的效果.但是这些基于数据的方法也有一些不足,例如自动生成的方式并不能涵盖所有类型的偏差,同时人工标注的方式

23、面临成本过高的问题.其次,从模型角度考虑的方法也有很多.文献15 通过增加一个仅使用假设句作为输入的支路来学习假设句所带来的偏差,然后在梯度回传时将梯度反向以抑制模型学习到有偏信息;文献 16 利用向量的正交分解思想,从样本中分解出只和上下文有关的分量,再通过分量合成反事实样本,综合比较样本之间的差异以及预测结果之间的差异实现反事1770计算机研究与发展2023,60(8)实推理;文献21 在视觉问答(visualquestionanswering,VQA)任务上通过增加仅假设支路来缩小容易分类的样本损失,放大需要多模态信息才能分类正确的样本损失来强迫模型学习多模态信息.这些基于模型的方法虽然

24、避免了高成本的标注问题,也取得了一定的效果,但是它们大多依赖于精巧的平衡策略的设计,可解释性也比较差.因此另一些基于结构因果模型(structuralcausalmodel,SCM)的方法也逐渐被提出.文献 17 通过构建 VQA 任务的因果模型,将VQA 任务中的语言偏见视为直接因果效应,通过从总的因果效应中减去文本的直接因果效应,得到去偏之后的间接因果效应,然后进行预测;文献 18 关注文本分类任务中的标签偏差和关键词偏差,把它们视为混杂因素,并将它们从句子中蒸馏出来,通过使用有偏的预测结果减去偏差,得到去偏之后的预测结果.这些基于因果模型的方法有着比较完备的理论基础22,在有效性和可解释

25、性上面都有明显的优势.1.2情境感知的自然语言推理近年来,已经提出了一些任务来结合语言和视觉 2 个模态,包括图像捕获(imagecaptioning,IC)23-24、VQA25-26、视觉推理(visualreasoning)27和视觉对话(visualdialogue)28等.但在情境感知的自然语言推理方面所做的工作很少.为了更好地理解图片和文本之间的关系,也有一些工作提出了视觉蕴涵(visualentailment,VE)任务29-30,即把自然语言推理任务中的前提句用图像替代,推理图像和假设句之间的关系,但是这并不能确定在自然语言推理任务中引入情境信息是否可以提高模型的推理能力.所以

26、最新的一些工作考虑不是替换而是增加图片来提供情境信息,希望模型可以从情境信息中提取出对推理有用的信息,来提高自然语言推理任务的性能.文献 20 在自然语言推理任务中引入情境信息的工作,初步证明了增加视觉信息对推理的有效性;文献 31 则从不同尺度上结合图片特征,更深层次地挖掘图片中的有用信息.1.3基于对比学习的语义表示方法对比学习(contrastivelearning)是一种无监督学习方法,它通过训练模型来学习如何比较 2 个样本之间的相似度或差异性.具体来说,在对比学习中,模型通过优化目标函数,拉近锚点样本和正样本之间的距离,同时拉开锚点样本与负样本之间的距离,以获得更具区分性的特征表示

27、.这种方法在自然语言处理、计算机视觉和其他领域得到广泛应用,因为它不需要人工标注的标签,能够更好地利用大量未标注数据进行训练,提高模型的泛化能力32.在自然语言处理领域,对比学习得到了广泛的应用.文献 33 提出在 BERT 结构上添加一维卷积神经网络(CNN)层,并通过最大化全局句子嵌入与其相应的局部上下文嵌入之间的互信息来训练 CNNs.文献 34 采用了与 MoCo35类似的结构,并使用反向翻译进行数据增强.文献 36 使用 2 个单独的编码器来进行对比学习.文献 37 采用了 SimCLR38的体系结构以对比目标和遮蔽语言模型目标共同训练模型.文献 39 设计了多种文本级别的数据增强方

28、法,极大提高了对比学习的效果.文献 40 提出的 SimCSE模型采用最简单的数据增强方式 dropout 在语义相似度任务上取得了非常好的效果.后来很多基于 SimCSE的模型都不断刷新着模型性能的上限41-42.2因果效应先验知识因果图(causegraph)是一种用于可视化因果关系的图形工具,它可以帮助我们理解和识别变量之间的因果关系,从而提高对系统或现象的理解43.因果图一般使用有向无环图(directedacyclicgraph,DAG)表示,图中的节点表示变量,箭头表示变量之间的因果关系.图 3 展示了一些因果图和反事实符号的例子,其中 X,M,Y 分别表示因果变量、中介变量和结果

29、变量;*表示对变量的干预;实线箭头表示变量间有直接的因果关联,虚线箭头表示变量间的因果关联被切断.如图 3(a)所示,XY 表示变量 X 与变量 Y 有直MXY(a)基本因果示例Yx,MxMxY(b)事实情景下的因果图M*(c)反事实情景下的因果图x*YYx*,Mx*M*(d)进行干预后的因果图x*xYYx,Mx*事实变量反事实变量事实与反事实变量共同得到的有因果关联因果关联被切断Fig.3Examplesofcausalgraphandcounterfactualnotation图3因果图和反事实符号示例张大操等:针对情境感知的自然语言的因果去偏推理方法1771m=Mx=M(X=x)接的因果

30、关联,XMY 表示变量 X 与变量 Y 以 M为中介节点有间接的因果关联.为了简单起见,我们可以用公式简化因果图的表示.如在图 3(b)中,当变量 X 的值为 x 时,变量 M 的值可以表示为,所以变量 Y 可以表示为:Yx,m=Yx,Mx=Y(X=x,M=m)(1)xxxMm=Mx=M(X=x)Yx,m=Y(X=x,M=m)Yx,m=Yx,Mx图 3(b)和图 3(c)分别表示当因果变量 X 取不同的值(或者)时的情况.因为 X 会同时作用于 M 和Y,因此当 X 取值为时,变量的值为,此时变量 Y 的值为.而图 3(d)则展示了经过干预之后的反事实场景.通过干预切段了变量 X 与 M 之间

31、的联系,这样就能够估计出 X 对 Y 的直接影响,在图 3(d)中就是用进行表示.为了评估该影响的具体大小和程度,通常使用因果效应(causeeffect)来计算.因果效应的计算是通过构建反事实世界来实现的,即改变变量 X 的取值,以推断如果 X 发生变化,Y 将有何不同的结果.通过比较真实场景和反事实世界的结果,可以计算出 X 对Y 的因果效应.具体来说,图 3(b)代表真实场景,而图 3(c)则代表反事实世界.可以得到 X 通过直接路径和间接路径对 Y 产生的总因果效应(totaleffect,TE):TE=Yx,MxYx,Mx.(2)X YX 对 Y 的总因果效应可以分解为的直接因果效应

32、和 XMY 的间接因果效应.在图 3(d)中通过干预切断间接因果效应,则 X 对 Y 的直接因果效应(naturaldirecteffect,NDE)可以通过式(3)计算:NDE=Yx,MxYx,Mx.(3)通过从总因果效应中减去直接因果效应就可以得到 X 对 Y 的间接因果效应(totalindirecteffect,TIE):TIE=TENDE=Yx,MxYx,Mx.(4)在实际场景中,由于变量数量很多,直接计算 2个变量之间的间接因果效应是比较难以实现的,直接因果效应则往往较容易计算,因此可以使用这种方式来计算所需要的间接因果效应.3CBDRM 模型本节首先介绍了针对情境感知的自然语言推

33、理任务所构建的因果图,并在此基础上详细介绍了所提出的 CBDRM 方法的技术细节.3.1针对情境感知的自然语言推理的因果图PHMY按照传统的方法,自然语言推理任务通常被形式化为文本分类任务,即通过把前提句和假设句一起输入模型,让模型捕获到 2 个句子之间的推理关系并进行预测.如图 4(a)所示,和分别表示前提句和假设句,变量代表模型学习到的融合了 2 个句子推理关系的中介变量,表示预测结果.VV PM1M2(V,H)M1 Y(P,H)M2 YH Y但是,自然语言推理数据集中假设句与标签之间可能存在着虚假关联,所以图 4(a)并不能准确地建模出自然语言推理任务.认为只有在因果图中准确地描述出这种

34、虚假关联,才可以在后续处理过程中消除它.同时,在给定情境信息的情况下,也需要在因果图中准确描述出情景信息与文本之间的关联,才能更好地捕获情景信息中有助于推理的部分.基于以上观点,我们重新构建了针对情境感知的自然语言推理的因果图,如图 4(b)所示,表示图像情境信息,考虑在数据构建过程中,前提句是根据给定的图像信息标注得到而生成假设句的过程中并没有看到图片信息,所以有这条路径.变量代表融合了前提图像和假设文本之间推理关系的中介变量,变量代表融合了前提文本和假设文本之间推理关系的中介变量.和这2 条路径分别表示前提图像与假设文本对预测结果的影响、前提文本与假设文本对预测结果的影响,这是模型真正需要

35、学习的从输入到输出之间的因果推理关系.路径则表示假设句子与标签之间的虚假关联,是导致模型学习有偏的因素,也是在学习过程中需要被去除的内容.通过构建图 4(b)所示的因果图,数据中不同变量之间的关系就能够被更为准(a)传统自然语言推理因果图PHMY(b)CBDRM训练阶段因果图PVHM1M2Y(c)CBDRM推理阶段因果图pvM1M2Y*p*v*M1*M2*Y事实变量反事实变量事实与反事实变量共同得到的有因果关联因果关联被切断减号Fig.4ComparisonoftraditionalNLIandourproposedCBDRMcausalgraph图4传统自然语言推理和本文提出的 CBDRM

36、因果图比较1772计算机研究与发展2023,60(8)确地描述,为后续计算不同变量之间的因果效应奠定了坚实的基础.3.2CBDRM 模型推理Y基于第 2 节所介绍的因果图的表示,将图 4(b)中变量 表示为:Yv,p,h,M1,M2=Y(V=v,P=p,H=h,M1=m1,M2=m2),(5)m1=M1(V=v,H=h)m2=M2(P=p,H=h)Y其中,.接着计算得到作用于 上的总因果效应:TE=Yv,p,h,M1,M2Yv,p,h,M1,M2=Yv,p,hYv,p,h,(6)v,p,h,M1,M2m1=M1(V=v,H=h)m2=M2(P=p,H=h)M1M2其中均表示经过干预之后的输入,

37、.为 了简化表示,省略了中介变量和.H YH YHY由前文的分析可知,路径描述了假设句子到标签之间的虚假关联,因此将其计入总因果效应中会导致预测偏差,所以应该阻断路径,从总因果效应中去除有偏的因果效应,得到无偏的间接因果效应.由于因果图的复杂性,难以直接计算间接因果效应,但是对的直接因果效应是比较容易得到的,因此可以计算:NDE=Yv,p,h,M1,M2Yv,p,h,M1,M2=Yv,p,hYv,p,h.(7)通过对 NDE 的计算可以估计出假设句所带来的语言偏见.通过用总因果效应减去直接因果效应(如图 4(c)所示),得到:TIE=TENDE=Yv,p,hYv,p,h.(8)这样就可以用 T

38、IE 来表示去偏之后的因果效应.在具体的实现过程中用预训练语言模型(pre-trainedlanguagemodel,PLM)来计算因果效应,如式(6)中的Yv,p,h的计算方式如下:Yv,h=f(v,h),Yp,h=f(p,h),Yh=f(h),Yv,p,h=H(Yv,h,Yp,h,Yh),(9)Yv,h(V,H)M1 YYp,h(P,H)M2 Yf其中表示的因果路径的因果效应,表示因果路径的因果效应,表示编码器,可以是 BERT,RoBERTa等相关的预训练语言模型,H 表示融合函数.我们使用了 2 种融合函数 CON和 SUM,并在后续实验中比较了 2 种融合方式的性能:(CON):H(

39、Yv,h,Yp,h,Yh)=Yv,h:Yp,h:Yh,(SUM):H(Yv,h,Yp,h,Yh)=(Yv,h+Yp,h+Yh).(10)Yv,p,h同样地,对于经过干预之后的反事实世界的有类似的计算方式:Yv,h=f(v,h),Yp,h=f(p,h),Yh=f(h),Yv,p,h=H(Yv,h,Yp,h,Yh).(11)v,p,h反事实世界的值通常需要干预来实现,基于现有的事实,可以假设一个不真实或未发生的事实为反事实.因为模型不能处理空的无效输入,所以在模型中通常通过将变量设置为常数值来实现反事实17-18,44.这里也是同样的做法,为了保持一致性,反事实输入使用了与原来的维度相同的零向量来

40、表示.Y在训练时得到的是作用于 上的总因果效应,如图 5(c)左图所示,使用式(12)的损失函数联合训练:Lcls=Lv,p,h+Lv,h+Lp,h+Lh,(12)Lv,p,hLv,hLp,hLhYv,p,hYv,hYp,hYhLv,p,h=Ci=1p(a|x)logp(a|v,p,h)Cp(a|x)xp(a|v,p,h)=其中,是用来平衡损失函数权重的超参数,分别是,经过分类层之后与真实标签计算得到的交叉熵损失,如.其 中表 示 标 签 的 类 别数,表示样本 的真实标签分布,(a)TE与VE模型结构图编码器Yp(v),PH(v)(b)GTE模型结构图编码器编码器Yv,p,Yv,Yp,HVP

41、(c)CDBRM模型结构图Yp,Yv,p,Yv,编码器编码器itcYYpYvHVP编码器编码器itcYv*,p*,hYv*,h*YhYpYvYp*,h*HVP减号输入事实内容输入对应的反事实内容Fig.5TraditionalmodelsandCBDRMmodel图5传统模型与 CBDRM 模型张大操等:针对情境感知的自然语言的因果去偏推理方法1773softmax(g(Yv,p,h)g()是模型预测的标签概率分布,表示分类层.介绍完 CBDRM 核心的因果去偏模块,接下来将介绍对比学习模块.这个模块对于提升情境信息的理解起到了关键作用.回顾自然语言推理数据的构建过程1-2,前提句是由标注工人

42、基于给定的图片生成的,因此图片与前提句之间有密不可分的联系.然而,如果不进行任何干预,模型可能无法捕捉到图片和前提句之间的关系,也就难以判断图片和假设句之间的关系.对比学习在多模态任务上已经被证明是非常有效的45-46.因此,考虑使用对比学习来对齐图片和前提句之间的特征,使模型能够理解图片和前提句之间的联系,进一步提高文本对情态信息的理解.f(vcls,v1,v2,vN)vclsIPf(wcls,w1,w2,wN)wclsT本文使用预训练模型 CLIP46的视觉部分对图片的特征进行提取,然后将提取的向量特征输入共享编码器,以使其可以进一步在训练中得到学习.图片编码后得到的嵌入序列为.我们取作为

43、图片的表征向量.同样地,我们将前提句 也输入共享编码器 得到嵌入序列,我们取作为前提句的表征向量.然后使用式(13)进行对比学习.Litc=logexp(s(I,Tm)/)Kk=1exp(s(I,Tk)/),(13)TmIs()s(I,T)=vTclswcls;K其中表示与图片 匹配的前提句;表示相似度函数,用于计算图像和文本之间的相似度,;表示温度系数表示一个批量大小.结合因果去偏和对比学习 2 个模块,CBDRM 模型使用式(14)的损失函数来联合优化:L=Lcls+Litc,(14)其中 用来平衡对比学习损失的权重.Y模型训练完成之后,本文的推理框架图如图 5(c)所示.图中减号左边表示

44、作用于上的总因果效应TE,减号右边则表示假设句和标签之间的虚假关联所带来的直接因果效应 NDE,通过从总因果效应中减去直接因果效应来实现无偏推理.我们去偏之后的预测结果为:TIE=TENDE=gH(Yv,h,Yp,h,Yh)gH(Yv,h,Yp,h,Yh).(15)4实验结果与分析本节首先介绍了实验设置,包括实验数据集、参数设置、基线方法等内容;接下来对实验结果和模型技术细节进行了详细的分析.4.1数据集介绍本文使用的数据集是基于斯坦福大学发布的SNLI 数据集1,该数据集只包含文本.通过对 SNLI数据集合成过程分析,发现其前提句来源于 Flick30K数据集中图片的标题45,假设句由标注人

45、员根据给定的前提句和标签信息人工生成,每个前提句分别对应 3 种不同关系的假设句.后来人们根据 SNLI 数据集构造了多模态数据集 SNLI-VE29-30,即把 SNLI数据集中的前提句用图片替代.文献 20 则直接在SNLI 数据集中引入了图片构造成三元组(图片,前提,假设)的形式.但是发现该合成方法存在一定的不足,因为 SNLI 数据集中训练集和测试集中有部分前提句对应的是同一张图片,这不符合数据集构建的一般规范,即不同数据集之间不应该有重叠的样本.SNLI-VE 数据集则考虑到了这个问题,并对于训练集和测试集进行了重新划分,以避免这样的情况.本文以SNLI-VE 数据集为基础,为每对图

46、片-假设句找到在SNLI 数据集中对应的前提句,构建出多模态数据集.p(Lx|x)p(Lx|x)xLx为了更好地验证模型的去偏自然语言推理能力,受 SNLI 挑战集构建方式10的启发,本文在这个多模态数据集上也构建了一个挑战集,具体而言,使用BERT-base-uncased3模型作为编码器,先仅使用假设句作为输入训练一个分类模型,然后在测试集中选择预测置信度较低的样本加入挑战集,即,表示样本 的预测结果为真实标签的概率,表示设置的阈值.在有偏的测试集中,模型严重依赖假设句和标签之间的虚假关联来进行预测,而构建挑战集的方法正是阻止模型利用虚假关联.数据集的具体信息如表 1 所示.Table 1

47、Statistics of Multi-modal Datasets表 1 多模态数据集统计数据集样本总量ENC训练集529527176932176045176550验证集17858595959605939测试集17901597359645964挑战集5788168621361966 4.2参数设置为了获得最好的模型效果,我们在验证集上对所有模型的超参数进行验证,以获取最优的超参数组合用于模型测试.部分通用的超参数设定为:在输入文本编码过程中,我们选择预训练模型1774计算机研究与发展2023,60(8)0.00003 BERT-base-uncased3和RoBERTa-base4作为主干网

48、络,并使用 Adam 优化器来微调整个网络.学习率设置为,批大小设置为 32,训练的 epoch 数设置为 4.损失函数的超参,分别设置为 0.5,0.5,1.0,1.0.对比学习模块的温度超参数 设置为 0.05.4.3基线方法为了更全面地评估 CBDRM 模型的效果,本文选取基线模型:1)H-only.仅使用假设句子作为输入,其结果展示了模型对假设句子和标签之间的虚假关联的依赖.2)BERT-TE,RoBERTa-TE.自然语言推理的预训练基线模型,通过充分建模句子对之间的语义关系实现准确的自然语言推理.对应的模型图如图 5(a)所示.3)BERT-VE,RoBERTa-VE.多模态的自然

49、语言推理的预训练基线模型,将前提句子替换为多模态图像信息,实现从图像语义到文本语义的推理关系判断.4)BERT-GTE,RoBERTa-GTE.情境感知的自然语言推理的预训练基线模型,通过在文本语义推理过程中考虑图像情境信息,实现更全面的语义推理.对应的模型图如图 5(b)所示.5)SimCSE-TE,SimCSE-GTE.经典的对比学习语言模型,具有更强的表征能力.6)CORSAIR.文本分类去偏方法的最先进(state-of-the-art,SOTA)方法.4.4实验结果分析表 2 展示了模型在不同设置下的实验结果.从这些实验结果观察到 3 点实验现象:1)无论是传统的自然语言推理还是情境

50、感知的自然语言推理,模型都会利用数据中的语言偏见进行语义推理关系的预测(H-only 和 GTE 方法在挑战集上的效果均远远低于在测试集上的效果),说明语言偏见会影响模型对文本语义的准确建模,也证明了无偏语义表示与推理的必要性.H-only 模型在测试集和挑战集上的巨大差异也验证了模型无法通过假设句和标签之间的虚假关联来进行预测,进一步证明了本文构造的挑战集的无偏性.2)图像情境信息的加入能够有效缓解文本中的有偏信息对模型的影响.图像情境信息能够为文本语义的准确表示提供更全面的辅助信息,对文本语义表示与自然语言推理具有重要的意义.3)CBDRM 方法在测试集和挑战集中性能都取得了提升(以 BE

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服