论证挖掘研究现状与进展.pdf

资源描述

1、2023 年第 35 卷第 6 期论证挖掘研究现状与进展李娇1,2袁赵瑞雪1,2,4*袁鲜国建1,2,4袁黄永文1,2袁孙坦3,4（1.中国农业科学院农业信息研究所，北京 100081；2.国家新闻出版署农业融合出版知识挖掘与知识服务重点实验室，北京 100081；3.中国农业科学院，北京 100081；4.农业农村部农业大数据重点实验室，北京 100081）摘要院目的/意义论证挖掘是近年来计算语言学领域的热点研究内容，为论证计算模型提供机器可处理的结构化数据，对其研究现状及进展进行总结和分析可为后续的研究及应用深化提供借鉴。方法/过程本研究通过对国内外论证挖掘重要文献进行收集、

2、整理和分析，从相关研究基础、技术体系、应用实践等多个维度进行系统性综述，通过梳理总结论证挖掘发展路径展示该研究领域的发展全貌和特征，并重点描述多模态论证挖掘研究的现状。结果/结论论证挖掘任务与自然语言处理等人工智能技术息息相关，相关研究经历了“机器学习-深度学习”“文本-多模态”的发展变迁，且领域发展与应用水平不一；如何实现多粒度、多模态内容泛化，以及如何促进其应用落地实践将是下一步研究的热点和重点。关键词院论证挖掘；技术体系；发展路径；多模态中图分类号院G254文献标识码院A文章编号院1002-1248渊2023冤06-0016-13引用本文院李娇,赵瑞雪,鲜国建,等.论证挖掘研究现状与

3、进展J.农业图书情报学报,2023,35(6):16-28.收稿日期：2023-05-05基金项目：中国科协青年人才托举工程项目“面向科研论文的科学论证语义识别与解析研究”（2022QNRC001）作者简介：李娇（1989-），女，博士，助理研究员，研究方向为文本挖掘、知识图谱与知识服务研究。鲜国建（1982-），男，博士，研究员，博士生导师，研究方向为关联数据与知识服务。黄永文（1975-），女，博士，副研究馆员，研究方向为科学数据与知识组织。孙坦（1970-），男，博士，研究馆员，博士生导师，研究方向为数字信息描述与组织*通信作者：赵瑞雪（1968-），女，博士，研究员，博士生导师，研究方

4、向为信息与信息系统、知识服务研究。Email：DOI院10.13998/ki.issn1002-1248.23-03471 引言论证挖掘渊Argument Mining袁AM冤袁又称论辩挖掘袁是指自动识别和提取自然语言文本内容中论证结构渊如前提尧结论冤尧推理方案及逻辑关系的技术1袁通过论证理论模型建模和分析文本的知识内容袁实现语用层面上的语篇分析2袁促进论证内容深层次尧全面化挖掘与领域内论证链条揭示遥论证挖掘研究可追溯至2007年的法律文件论证句抽取实验3袁随后研究对象扩展至政府报告尧产品评论尧科技文献尧维基百科尧社交网络等遥人工智能视域下的论证挖掘目标是实现可用

5、资源的发现和重用4袁涉及自然语言处理尧知识表示与推理尧人机交互等多项关键技术1遥目前国际上已有较为系统的研究袁形成较为明确的技术实现路线遥随着资源形态的丰富及深度学习尧大模型渊Large Language Model袁LLM冤等技术的快速发展与迭代袁新的研究成果不断涌现遥本文对论证挖掘研究相关文献进行梳理分析袁从任务框架尧复杂度影响因素尧方法分类等多个方面归纳其技术体系袁介绍面向特约综述162023 年第 35 卷第 6 期不同细分领域的应用实践现状并作对比分析袁总结论证挖掘发展阶段与趋势袁重点追踪新的人工智能技术环境下多媒体论证挖掘进展袁并对论证挖掘技术体系变

6、革尧与领域知识结合尧落地应用等方面的研究内容进行展望袁以期为相关领域研究和实践提供参考与借鉴遥2 论证挖掘研究基础2.1 论证挖掘相关研究论证挖掘的价值在于通过论证链条的语义揭示实现流派尧观点等知识产生过程的发现袁通常以观点挖掘渊Opinion Mining冤尧争议发现渊Controversy Detec-tion冤尧引用挖掘渊Citation Mining冤等多项研究作为技术起点进行延伸和扩展遥渊1冤观点挖掘遥观点挖掘是指通过自动分析用户的评论文本从而提取用户对所评价事物的情感和态度等主观内容5袁主要应用于信息预测尧舆情分析等方面遥通常与观点挖掘可交替使用的还

7、有情感分析渊Sentiment Analysis冤袁它聚焦积极或消极观点两个具体层面或范畴遥论证可以促进观点或情感的表达袁因此论证结构常被应用于观点或情感挖掘袁如经济情感发现模型6遥反之袁观点或感情也可作为论证过程中的指标或组件袁以结论挖掘为例袁与文档整体描述情绪或情感一致的部分相较于不一致的内容更有可能是结论遥渊2冤争议发现遥争议发现本质上是观点挖掘外延的扩展袁其目的是识别有争议的主题和呈现冲突观点的文本袁包括信任模型和在线争议两类技术研究遥争议发现具备发现潜在热点问题的能力袁并可以在冲突出现的早期阶段予以处理袁如RUMSHISKY等7利用基于内容和基于图形的特

8、征来分析社会或政治冲突随时间发展的态势遥论证挖掘和争议发现最直接的联系是袁经过论证句的文本相似性聚类可以识别在线辩论中的突出论点或争议遥渊3冤引用挖掘遥引用挖掘是科技文献领域用于确定引文背后激励因素的技术袁主要是对文献中的引文实例及其在语篇中的修辞作用进行标引袁涉及引文动机及引文功能等维度知识遥作者对引文的观点渊或态度冤通常被分类为积极/消极/客观或赞同/反对8遥论证挖掘任务中可基于论证角色对文本跨度进行标记袁如强调差距或不足的引用大概率表示冲突关系袁表示以当前工作或研究为基础的引用很可能存在支持关系遥2.2 论证语义表示模型论证语义表示模型是指对语篇内容中论证单元和其逻辑

9、关系等结构及过程进行规范化和形式化表达袁是论证挖掘及其应用实现的重要依据遥相关理论包含图尔敏渊Toulmin冤模型尧修辞结构理论尧沃尔顿模型等袁其中图尔敏模型最为典型袁定义了断言尧数据尧保证尧反驳尧支持和修饰语6个论证要素9袁是论证语义建模最常采用的理论模型基础遥在语义出版尧信息科学等技术发展的推动下袁论证语义表示模型的研究经历了从粗粒度尧浅层次到细粒度尧深层次的变化过程袁本体模型是论证内容语义描述的主要形式遥相关研究成果颇丰袁诸多研究者已做系统评述袁本文以科技文献领域为例进行说明袁早期的论证语义表示模型多关注论证过程中的独立知识单元袁如科学论述本体渊S

10、cholarlyInterpretation andDiscourse袁ScholOnto冤10针对主张尧假设尧方法尧软件尧证据等论证过程中的知识单元进行类和属性的定义遥语义出版的发展和相关研究的深入使得论证语义表示模型的设计与研究重点逐渐过渡到逻辑论证过程的描述袁代表性实例有院博洛尼亚大学VITALI等11基于图尔敏模型设计的论证模型本体渊Argument Model Ontology袁AMO冤袁定义了6种相互关联的论证要素要要要主张尧证据尧保证尧支持尧反对和限定词曰哈佛大学CLARK等12提出的微语义出版模型渊Micro Publication冤注重描述科学主张

11、及其论据的关联特征袁通过陈述尧数据尧方法尧材料支撑等内容元素形成论文的科学论证链曰同样源自生物医学领域的SWAN渊SemanticWeb Application in Neuromedicine冤本体描述科研知识生态中的假设尧主张尧对话尧出版物等要素13遥论证语义表示模型是指导论证挖掘的关键袁通用性较低袁不同学科领域论证模式的差异性使得论证语李娇，赵瑞雪，鲜国建，黄永文，孙坦论证挖掘研究现状与进展172023 年第 35 卷第 6 期义表示模型的设计需要考虑处理对象研究范式尧应用场景等多种因素遥实际应用中袁研究者们通常在优先继承复用经典模型的基础上结合领域特征进行改

12、造袁如科技文献领域王晓光等14基于AMO尧微型出版物模型构建通用论证本体SAO渊Scientific Paper ArgumentationOntology冤袁曲佳彬等15借助图尔敏模型构建句子级及实体级的多粒度论证结构本体遥3 论证挖掘技术体系3.1 论证挖掘任务框架论证挖掘是野在语用学层面上分析语料并应用一定的论证理论来建模和自动分析数据的一般任务冶2袁包含了人工智能尧计算机语言学和知识表示的许多不同概念袁这种内在的异质性使得论证挖掘涉及自然语言处理尧信息提取尧特征发现尧话语分析等多方面的技术遥2018年袁CABRIO和VILLATA归纳提炼出论证挖掘的基本流程框架袁涉

13、及两个重要阶段1遥渊1冤论证抽取渊Argument Extraction冤遥识别输入自然语言文本中的论证内容袁包含论证组件检测和论辩成分分类两个主要任务遥具体过程为院将原始文本中具有论证性质的文本片段分割成最小论证分析单元要要要论证文本单元渊Argumentative Discourse Unit袁ADU冤16袁进而对其在论证文本中的功能类型进行分类袁如依据尧前提尧结论等遥渊2冤关系预测渊Relations Prediction冤遥预测论证文本单元间的关系袁包括一般论证关系和复杂论证关系袁是一项涉及高级知识表示和推理的复杂任务袁目前的研究重点集中在一般性论证关系

14、的判断17遥各论证文本单元及单元间关系共同构建论证图渊ArgumentationGraph冤袁论证关系对应于该图中的边遥结构化论证挖掘中袁这一阶段还负责预测各论证文本单元的内部关系袁如前提和主张之间的联系18遥3.2 论证挖掘复杂度影响因素论证挖掘复杂度与论证单元和关系识别的细粒度呈正相关渊图1冤袁经历了野单句是否论证冶野简单的前提/结论关系考虑论证关系冶野考虑一组子句是否形成复杂论证关系冶这样一个由简单到复杂尧由个体到联系的发展路径19遥从任务层面可将论证挖掘框架进一步细分为3类院论证组件识别袁即识别切分文本中论证/非论证分类过程袁这一步骤的执行与文本切分方法紧密相

15、关袁若采用人工分析工具袁该步骤可与文本切分同时执行袁只需避免对文本中与论点无关的部分进行分段曰若采用自动分割或由不同的分析员进行分割袁则该步骤必须独立进行袁这种情况下判断一个特定的片段是否具有论证性可以作为确定结构的初步步骤袁也可以留到分析的最后袁任何与结构的其他部分没有联系的片段都可以直接丢弃尧属性识别和关系属性识别遥任务由浅层向深层逐步深入又互为基础遥属性识别袁即识别论证组件的属性袁包括固有属性渊如证据尧断言冤和语境属性渊如支持尧反对冤遥关系属性识别袁主要是指论证句间关系的属性袁包括一般论证关系渊如支持尧反对尧中立冤和复杂论证关系渊如修辞尧对话

16、冤遥3.3 论证挖掘方法分类上述任务框架阐述了论证挖掘研究的重要目标和阶段袁与之对应的关键支撑技术也成为近年来相关研参数组件识别属性识别关系属性识别切分论证/非论证复杂论证关系例如：X,Y和Z是专家论证的案例吗？固有属性例如：X是证据？X做汇报？语境例如：X是假设？X是结论？一般论证关系例如：X是Y的假设？X和Y相冲突？图1论证挖掘技术的复杂度19Fig.1 Tasks and levels of complexity in argument miningtechniquesDOI院10.13998/ki.issn1002-1248.23-0347特约综述182023 年第 35 卷第 6

17、期究密切关注的热点主题遥本文以时间为主线对相关文献进行整理和分析袁梳理出两类具有代表性的论证挖掘方法并归纳其主要思路袁以期为后续研究和实践提供参考遥3.3.1基于特征工程机器学习的方法早期论证挖掘研究多为基于特征工程机器学习的方法袁其基本思想是院通过对人工标注的浅层特征集渊词汇特征如主题词尧线索袁句法特征如命名实体数量尧动词数量等冤进行训练袁进而使用分类器来实现论证抽取遥一个典型的基于特征工程机器学习的论证挖掘流程20如图2所示袁机器学习算法和技术部分采用系列模型和特征分析技术判定筛选出论证挖掘任务中表现较好的模型和变量子集袁同时基于模型预测向标注平台中的用户提供未

18、标注文本中的潜在论证遥这类方法主要采用有监督算法分类模型袁使用较为广泛的如支持向量机21-23尧逻辑回归24尧朴素贝叶斯25尧决策树和随机森林26等遥朴素贝叶斯模型是最早被应用于论证挖掘的方法袁PALAU等27通过野论证渊Argument冤冶和野论证渊Non-Argument冤冶两类标签对不同类型文本渊如法律判决书尧报纸尧议会记录尧周刊等冤拆分的句子进行特征检测和分类袁经过朴素贝叶斯分类器训练后在实验数据集上达到了73%的准确率遥其中袁句子的论证和非论证分类也是其它机器学习方法中通常会融合考虑采用的特征分类方式遥MOCHALES等28将论证尧非

19、论证特征分类与支持向量机模型组合袁使用独立分类器来识别前提和主张袁并通过定义上下文无关的语法来预测不同论证组件之间的关系遥GOUDAS等29提出一种针对表达不正式尧语法或拼写规范性较差的社交媒体文本的两步论证抽取方法袁采用逻辑回归分类器实现准确率达77%的论证挖掘遥GROZA等30采用本体和自然语言处理技术从生物医学文献中挖掘论证结构及逻辑关系遥WACHSMUTH等31使用PageRank算法来构建论证相关性模型袁结合专家手动标注和递归加权方案进行分析袁得到的结果超过同数据集上的多个Benchmark遥就基于特征工程机器学习的论证挖掘方法准确率而言袁LIPPI等32通过不同的实验效

20、果对比发现袁部分研究者使用相同特征集训练的不同分类器产生了非常相似的性能袁决定挖掘效果的关键是特征的选择与设计遥3.3.2基于深度学习的方法随着深度学习技术的发展袁其强大的编码和表征能力使其在包括自然语言处理的众多领域中广泛应用起来袁基于深度学习的神经网络模型已逐渐发展成论证挖掘任务的基本模型遥相较于基于特征工程机器学习的方法袁这一类模型可自动学习尧提取文本的特征表示袁不再依赖人工标注特征袁在编码过程中可基于更广泛的上下文语境捕获长距离依存关系袁提升论证挖掘的效率和识别效果遥基于深度学习模型的论证挖掘方法通常结合或伴随着其它技术或方法袁如图神经网络尧注意力机制33等遥

21、石岳峰等17结合深度学习任务特征袁归纳出基于深度学习的论证挖掘模型与流程如图3所示袁包含输入尧编码和解码3个重要阶段遥COCARASCU等34提出基于单向和双向两种长短期记忆网络的论证挖掘深度学习架构袁用于预测输入文本对间的攻击和支持关系曰随后结合深度学习和论标注平台数据预处理语料库学习实例特征抽取机器学习算法和技术模型（假设）特征集图2基于特征工程机器学习的论证挖掘一般流程20Fig.2 Workflow process of argument mining based on machinelearning输入阶段论证文本编码阶段图神经网络预训练语言模型序列编码结构上下文知识注意

22、力机制解码阶段关系预测论证扩展任务论证抽取图3基于深度学习的论证挖掘流程17Fig.3 Argument mining process based on deep learning李娇，赵瑞雪，鲜国建，黄永文，孙坦论证挖掘研究现状与进展192023 年第 35 卷第 6 期证推理定义了一种基于关系的论证挖掘方法袁分析新闻标题是否支持推文及判断评论是否具有欺骗性袁与标准监督分类器结合使用时在小数据集上表现出优异性能35遥NICULAE等36针对文档中论证关系不一定能生成树结构的场景袁结合循环神经网络和支持向量机设计了一种可以强制结构约束渊如可传递性冤的因子图模型袁表达相邻关系和主张之

23、间的依赖关系遥GALASSI等37首次将残差网络渊Residual Networks冤38引入到论证挖掘任务袁结合多目标学习渊Multi-Objec-tive Learning冤算法提出一种优于等效深度网络的模型袁在链接关系预测方面成效显著遥随着以BERT渊Bidirectional Encoder Representationfrom Transformers冤39为代表的基于深层Transfomer的大规模预训练语言模型的出现与发展袁预训练-微调的方法逐渐成为论证挖掘任务的研究主流遥ZHANG等40在多个法律BERT变体及其它预训练嵌入模型研究基础上袁采用神经网络针对欧洲人权法

24、院ECHR渊EuropeanCourt of Human Rights冤的实际案例法进行论证挖掘遥SRIVASTAVE等41提出基于BERT和自注意力嵌入的论证挖掘方法袁对网络语篇中典型论点结构的因果层次进行建模袁通过变压器编码器层来预测关系遥HARLY等42采用CNN渊Convolutional Neural Network冤-BERT架构来解决论证挖掘中比较困难的一致性预测任务袁相较于纯粹基于BERT的方法袁可将准确率提升至71.87%遥REIMER43等利用BERT尧词向量生成模型ELMo渊Embeddings from Language Models冤对主题相关的论证进行分

25、类和聚类遥上述研究反映出以BERT模型为基础的论证挖掘实现已成为当前研究者们的主要解决方案袁在各数据集上性能表现优异遥4 论证挖掘应用研究4.1 面向领域的论证挖掘应用实践领域资源的价值很大程度体现在其中蕴含的丰富论证性质信息袁如观点尧依据尧事实尧决策等论证单元袁支持尧反对等关联关系袁通过论证挖掘可以分析和呈现出领域内知识逻辑链条袁为知识发现尧决策分析尧知识推理等提供重要支撑遥实际应用中袁论证挖掘在法律领域尧网络内容尧政治辩论尧科技文献等基础语料资源丰富的领域开展了大量实践且成果颇丰袁社会科学尧数字人文等相关领域近年也开始受到更多关注遥4.1.1法律领域的论

26、证挖掘法律领域的论证挖掘旨在发现法规尧判决等法律文本中的前提尧主张和论证方案袁以辅助简化法官或者法律学者在识别不同判决间异同尧提出论点及案件结果等方面的工作遥早在2007年袁MOENS3就尝试法从律文本中识别抽取粗粒度论证内容遥MOCHALES等27提出一种用于法律文件的论证组件检测和论证关系预测系统袁并基于欧洲人权法院的系列判决文件创建基础语料库遥在此基础上袁TERUEL等44发布一个新的欧洲人员法院判决文集袁标注了前提和主张尧以及论证组件间的支持和攻击关系遥GRABMAIR等45与美国联邦索赔法院的系列案件合作袁通过论证挖掘判断赔偿要求是否符合国家疫苗赔偿计划项目的联邦

27、法规遥他们设计从法律文件中抽取论证相关语义信息渊主要指条款的论证作用冤的UIMA渊Unstructured InformationManagement Architecture冤系统袁支持基于证据的事实发现和中间推理袁以及特定案例的过程或者程序性事实挖掘遥法律领域作为率先开展论证挖掘研究的重点领域之一袁其资源内容及论证成分的复杂性是论证挖掘任务面临的主要挑战袁现有研究主要关注前提和结论之间的支持尧反对两类关系遥该领域较具代表性的论证模型除了图尔敏模型外袁还有威哥摩尔图示模型46尧沃尔顿模型47等袁其中沃尔顿模型的高通用性使其广泛应用于各类场景袁如ECHR判例法遥4.1

28、.2网络内容的论证挖掘多元化网络内容的论证挖掘可针对多来源尧多形态的实时及历史网络资源进行分析进而支持舆情监测尧动态或趋势预测尧主题发现尧智能推荐等场景袁处理对象包括维基百科文章尧网络平台言论尧在线产品评论尧报纸尧社交媒体等遥LIPPI等21设计了用于论证组DOI院10.13998/ki.issn1002-1248.23-0347特约综述202023 年第 35 卷第 6 期件分类和边界检测的网络系统MARGOT渊Mining AR-Guments frOm Text冤袁并在IBM数据集上进行验证遥HABERNAL等2基于图尔敏模型进行改良袁提出通过序列标记识别用户Web话

29、语中论证成分的方法袁应用于教育领域中的争议话题发现遥IBEKE等48使用EICapitan数据集上的统一潜变量模型来解决挖掘对比意见的任务袁其中用户评论被人工标注为主题和情感两类标签袁可进行产品评价方面的论证挖掘与情感分析遥DUSMANU等49收集推特数据集DART进行论证性和非论证性推文的识别区分袁内容可范围覆盖政治话题到商业产品推介发布遥LAI等50研究政治社交媒体文本中的多语种立场检测袁通过文本风格尧结构尧情感和上下文特征分析有效的应用场景遥FABBRI等51设计野问题-观点-断言冶框架驱动的标注协议袁针对新闻评论尧讨论论坛尧社区问答论坛尧电子邮件线程四种在线对话

30、媒介领域众包构建标准化数据集遥论证挖掘在网络内容中的应用方向及场景丰富袁然而面临着数据质量参差不齐尧应用独立缺乏系统性等问题袁需要加强来源真伪辨识尧挖掘内容质量评估等方面的研究遥4.1.3政治辩论领域的论证挖掘政治领域的论证挖掘目标是发现政治辩论渊如政治候选人发言冤中的谬误尧说服力及连贯性等遥LIPPI等52基于2015年英国政治选举辩论的语料库袁通过研究语音中的声音特征解决论点提取问题袁尤其是主张检测遥DUTHIE等25应用论证挖掘方法来检测英国议会论证中道德论点的存在和两极化袁并通过可视化结果促进用户理解遥NADERI等53提出基于嵌入表示的特征可改进辩论性政治演讲中的论

31、证框架发现遥MENINI等54基于语料库实现独白形式政治演讲中的论证关系渊主要指支持和攻击冤预测任务遥由于相关领域资源形式的复杂性和多样性袁部分研究者逐渐开始关注面向跨文件类型渊如报纸尧议会记录等冤的论证挖掘方法泛化55,56遥政治辩论和演讲领域论证结构相对简单袁但涉及较多情感分析袁如观点的极性渊悲观尧乐观冤尧论证的情绪等遥该领域具备丰富的音频资源袁多模态论证挖掘研究也率先在政治辩论领域开展遥4.1.4科技文献领域的论证挖掘科技文献是内涵丰富的有机体袁由描述表达知识的语义元素渊内容组件冤及其逻辑关系组成袁蕴含着研究者从观点提出到产生新知识的复杂论证过程遥面向

32、科技文献领域的论证挖掘也被称为学术论证挖掘渊Scholarly Argument Mining袁SAM冤57袁与语义出版等技术的发展密不可分遥自然语言处理领域知名学者TEUFEL58首次提出从科研论文文本中挖掘不同含义论点的理念袁相继设计基于科研论文的论证分区模型AZ-I59尧AZ-II60袁并引入情感倾向与文本修辞等内容遥GREEN61探讨学术论文科学发现叙述中的论证发生与关联机理袁设计一种基于语义的论证框架用于生物医学领域论文中基因和疾病的关系发现遥LAISCHER等62提出一种科技文献论证分析标注方案并应用于Dr.Inventor语料库63遥WANG等64基于论证理论和科学论文

33、本体构建编码模式袁通过统计分析和序列模式挖掘方法计算出不同论证单元和论据类型的比例遥科技文献领域的学术论证挖掘研究相较于其它领域起步较晚袁面临着语料库规模小尧理论模型系统性缺乏尧应用场景化困难等挑战袁但近年在挖掘深度尧复杂度等方面有所突破袁处理对象由文献摘要逐渐扩展至全文57袁理论模型上部分研究者开始探索文献中图片和表格等数据型元素的论证语义64遥4.2 论证挖掘应用对比分析针对上述论证挖掘研究实践较为丰富的领域进行应用情况调研袁结果如表1所示遥总体来讲袁面向各领域的论证挖掘应用在研究对象形式尧场景实现等方面表现出明显的差异性袁究其原因袁各领域学科特性尧数据集及语料基

34、础尧论证系统必备要素均不同遥法律领域资源的多源异质性等特征使得司法判决尧智能推理等场景对论证挖掘产生大量需求曰网络内容聚焦观点类论证要素的识别尧评估和可视化展示曰政治辩论和演讲领域通常通过基于特定主题生成论证图的方式揭示候选人的观点或立场袁应用场景侧重观点可靠性尧连贯性评估等曰科技文献中论证性内容的严谨性和规李娇，赵瑞雪，鲜国建，黄永文，孙坦论证挖掘研究现状与进展212023 年第 35 卷第 6 期范性强尧论证过程复杂等特点袁给学术场景中基于论证的知识服务落地实践带来极大挑战袁目前相关应用实践正处于模式设计向实例化开发转化的过渡阶段袁相关应用多为面向计算机的信息理解和读

35、取工具/软件袁如论证与修辞分析工具ArguminSci65袁面向科研人员检索与阅读的应用研究处于理论描述和方案设计阶段袁如在数据库层面设计基于论证的语义检索和可视化技术架构21袁采用论证结构的可视化模型改善议论文语境下复杂论证的可解释性66等遥5 论证挖掘发展路径与趋势5.1 论证挖掘发展阶段论证挖掘相关研究成果较为丰富袁其实现与机器学习尧深度学习尧大模型等技术浪潮的发展紧密相关袁处理的资源形式由自然语言文本向图片尧音频等多模态扩展遥如果将论证挖掘的发展划分为3个层次或阶段渊图4冤院关注论证本体建模的初级阶段尧关注论证语义特征标引的发展阶段以及基于论证内容实现服务的应用

36、阶段袁目前袁相关研究实践尚处于侧重技术层面及标引深度的发展阶段袁并逐渐向应用阶段过渡遥事实上袁论证挖掘研究很大程度取决于领域语料基础尧论证模式复杂度等因素袁其发展水平也因领域而异遥5.2 多模态论证挖掘进展信息技术和大数据环境的发展使得数字资源在内容尧呈现形式尧载体等方面都日益丰富遥受限于非文本语料库的稀缺和多模态自然语言处理技术瓶颈袁前期论证挖掘方向主要聚焦于自然语言文本对象遥随着多模态深度学习渊Multimodal Deep Learning袁MMDL冤的发展袁其先进的输入表示和融合解决方案渊基于输入表示的迁移学习端到端架构尧用于有效输入管理的基于注意力的架构冤

37、使得研究者们逐渐开始探讨多模态论证挖掘方法和实践袁尤其是包含大量音频和听力文稿的政治辩论领域袁表2展示了该领域的主要实验标注数据集袁其中使用较为广泛的是UKDebates67和M-Arg68袁前者处理主张检测任务袁后者关注论证关系渊包含支持和攻击两类冤并提供带有音频和时间戳的文本内容遥MANCINI等69以此为基础袁设计了包含论证语句检测尧论证组件分类尧主张检测和论证关系分类4个逻辑层次的多模态论证挖掘架构袁并发布迄今为止最大的多模态论证挖掘数据集MM-USElecDeb60to16遥值得注意的是袁多模态论证挖掘的基本框架和技术路线一定程度上延续了文本论证挖掘袁针对不

38、同模态资源的论证抽取和关系预测任务选用相应的算法模型袁如处理音频的预训练模型AudiBERT袁并行处理识别语义特征袁其关键是将多模态空间映射到共享语义子空间实现多模态特征融合袁弥补不同模态的异质专业领域研究对象形式场景实现法律判决文书、法律条文、案例报告、证词、信件等文本资源自然语言与法律文本的处理、法律案件事实认定、信息检索、案件挖掘、智能推理等网络内容论坛、维基百科、新闻社评、线上商品评论等文本资源争议性观点识别、观点可信度评估、观点影响力评估、观点呈现与检索、产品推荐、交往辩论等政治辩论演讲文稿、语音、视频等多模态资源观点可靠性、连贯性评估科技文献学术论

39、文等自然语言文本暂无面向人类阅读场景的应用，多为数据库层面的查询、可视化表1各领域论证挖掘应用现状Table 1 Applications of argument mining in various fields技术方法（机器学习深度学习）；资源模态（文本文本、图片、音频）初级阶段-论证本体建模，如论证分区、AMO、微语义出版模型等发展阶段-论证语义特征标引，注重论证挖掘技术与处理对象复杂度应用阶段-基于论证的服务，如软件/工具、可视化知识发现平台图4论证挖掘发展阶段Fig.4 Development stages of argument miningDOI院10.13998/ki.iss

40、n1002-1248.23-0347特约综述222023 年第 35 卷第 6 期性差异遥多模态资源特征的挖掘对模型提出了更高要求袁预计在大模型尧多模态深度学习等技术的助推下袁多模态论证挖掘将成为未来研究的热点遥6 总结与展望论证挖掘旨在研究如何借助信息技术从自然语言文本中自动识别论点及论点间关系袁以期满足大数据背景下的信息检索和信息抽取的更高需求遥通过对近年来论证挖掘相关技术及实践的分析研究袁可以得出如下结论院论证语义表示模型作为论证挖掘的基础规范袁经历了野浅层论证结构-深层论证过程冶的发展过程且日趋成熟袁未来相关研究应以实例化应用导向为主遥论证挖掘研究融汇了自然语言处理

41、尧知识推理等多领域多类型关键技术袁与信息技术发展浪潮息息相关袁经历了野特征工程机器学习-基于深度学习的神经网络-大规模预训练模型冶的技术路径演进袁目前基于深度学习框架的预训练-微调方法是主流遥论证挖掘复杂度取决于论证单元和关系识别的细粒度袁可将论证挖掘任务细化为野论证组件识别-属性识别-关系属性识别冶的3层技术框架袁由简单及复杂遥同时袁随着多模态深度学习技术的发展袁论证挖掘研究也正在经历着文本对象向多模态对象的深化遥论证挖掘研究及应用多面向法律尧网络内容尧政治辩论尧科技文献等领域袁其中法律和网络领域的应用更为工程化和成熟化袁原因在于论证挖掘任务的实现离不开高质

42、量语料库及多类型论证模型等基础知识资源的支持袁上述领域正是相关研究的技术和资源高地遥总而言之袁论证挖掘研究进展有赖于信息技术水平袁自然语言处理尧深度学习等人工智能技术的快速发展为相关研究提供了强大的分析处理能力遥可以预见袁除语料库和理论模型的规划化和系统化建设以外袁未来的论证挖掘研究将朝着多粒度尧多模态内容泛化袁聚焦相应的技术体系及应用落地实践袁可能的研究方向包括院技术体系的变革遥如何实现大规模高质量的语料标注和多粒度多模态的论证内容自动抽取等问题仍是未来论证挖掘任务关注的重点技术内容遥目前论证挖掘主要集中在基于深度学习的方法上袁大模型的兴起与发展袁其在自然语言处理尧

43、多模态学习等下游应用中体现出巨大优势袁同时也可为论证内容生成提供一定技术条件袁论证挖掘任务或将向以大模型为技术底座的方法迈进袁部分研究者已开始尝试在尚未开展论证挖掘研究实践的领域渊如具备不可预测性的播客冤袁通过自定义Prompt和Open AI的GPT-470语言模型相结合的方式构建论证图71遥领域知识的融合遥各领域资源内容尧主题及形式丰富袁难以采用统一的模型解决科学论证的领域特定特征表示遥可充分利用词表尧知识库尧知识图谱等领域知识组织体系袁将领域特定论证模式与丰富知识结构结合袁加强语义表示与组织袁提升领域内论证模型研究的系统性及挖掘深度袁丰富论证图维度遥论证内容的

44、应用遥目前基于论证内容的实际应用通常包括网络论点搜索尧会议中的论点分析等场景袁仍需推动论证挖掘在更多领域或跨学科中的应用研究与实践袁同时加强论证信息检索及可视化袁如将信息检索方法与论证挖掘相结合袁构建下一代论证搜索引擎等遥参考文献院1CABRIO E,VILLATA S.Five years of argument mining:A data-driven analysisC/Proceedings of the 27th International Joint Con鄄名称标注类型及数量分布/个应用场景 UKDebate 主张（152）、非主张（234）主张检测 M-Arg

45、攻击（120）、支持（384）、其它（3 600）论证关系分类 M-Arg（0.85）攻击（29）、支持（132）、其它（2 282）论证关系分类 MM-USElecDeb60to16 主张（10 882）、前提（9 683）、非论证（6 226）论证语句检测、论证成分分类表2多模态论证标注数据集Table 2 Datasets of multimodal argument mining李娇，赵瑞雪，鲜国建，黄永文，孙坦论证挖掘研究现状与进展232023 年第 35 卷第 6 期ference on Artificial Intelligence,New York:ACM,2018:5427

46、-5433.2HABERNAL I,GUREVYCH I.Argumentation mining in user-gener鄄ated web discourseJ.Computational linguistics,2017,43(1):125-179.3MOENS M F,BOIY E,PALAU R M,et al.Automatic detection ofarguments in legal textsC/Proceedings of the 11th InternationalConference on Artificial Intelligence and Law,New Yo

47、rk:ACM,2007:225-230.4DOUGLAS W.Argument mining by applying artumentation schemesJ.Studies in logic,2011,4(1):38-64.5LIU B.Sentiment analysis and subjectivity Bing Liu M/Handbook ofnatural language processing.Chapman and Hall/CRC,2010:651-690.6HOGENBOOM A,HOGENBOOM F,KAYMAK U,et al.Mining e鄄conomic s

48、entiment using argumentation structuresC/InternationalConference on Conceptual Modeling,Berlin,Heidelberg:Springer,2010:200-209.7RUMSHISKY A,GRONAS M,POTASH P,et al.Combining net鄄work and language indicators for tracking conflict intensityM/In鄄ternational conference on social informatics.Cham:Spring

49、er,2017:391-404.8ATHAR A.Sentiment analysis of citations using sentence structure-based featuresC/Proceedings of the ACL 2011 Student Session.New York:ACM,2011:81-87.9TOULMIN S E.The uses of argumentM.Updated ed.Cambridge,UK:Cambridge University Press,2003.10 BUCKINGHAM SHUM S,MOTTA E,DOMINGUE J.Sch

50、olOnto:Anontology-based digital library server for research documents and dis鄄courseJ.International journal ondigital libraries,2000,3(3):237-248.11VITALI F,PERONI S.The argument model ontology EB/OL.2023-01-11.https:/sparontologies.github.io/amo/current/amo.html.12CLARK T,CICCARESE P N,GOBLE C A.Mi

展开阅读全文