收藏 分销(赏)

论证挖掘研究现状与进展.pdf

上传人:自信****多点 文档编号:654311 上传时间:2024-01-24 格式:PDF 页数:13 大小:1.65MB
下载 相关 举报
论证挖掘研究现状与进展.pdf_第1页
第1页 / 共13页
论证挖掘研究现状与进展.pdf_第2页
第2页 / 共13页
论证挖掘研究现状与进展.pdf_第3页
第3页 / 共13页
亲,该文档总共13页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、2023 年第 35 卷第 6 期论证挖掘研究现状与进展李娇1,2袁 赵瑞雪1,2,4*袁 鲜国建1,2,4袁 黄永文1,2袁 孙坦3,4(1.中国农业科学院农业信息研究所,北京 100081;2.国家新闻出版署 农业融合出版知识挖掘与知识服务重点实验室,北京 100081;3.中国农业科学院,北京 100081;4.农业农村部 农业大数据重点实验室,北京 100081)摘要院 目的/意义论证挖掘是近年来计算语言学领域的热点研究内容,为论证计算模型提供机器可处理的结构化数据,对其研究现状及进展进行总结和分析可为后续的研究及应用深化提供借鉴。方法/过程本研究通过对国内外论证挖掘重要文献进行收集、

2、整理和分析,从相关研究基础、技术体系、应用实践等多个维度进行系统性综述,通过梳理总结论证挖掘发展路径展示该研究领域的发展全貌和特征,并重点描述多模态论证挖掘研究的现状。结果/结论论证挖掘任务与自然语言处理等人工智能技术息息相关,相关研究经历了“机器学习-深度学习”“文本-多模态”的发展变迁,且领域发展与应用水平不一;如何实现多粒度、多模态内容泛化,以及如何促进其应用落地实践将是下一步研究的热点和重点。关键词院 论证挖掘;技术体系;发展路径;多模态中图分类号院G254文献标识码院A文章编号院1002-1248渊2023冤06-0016-13引用本文院 李娇,赵瑞雪,鲜国建,等.论证挖掘研究现状与

3、进展J.农业图书情报学报,2023,35(6):16-28.收稿日期:2023-05-05基金项目:中国科协青年人才托举工程项目“面向科研论文的科学论证语义识别与解析研究”(2022QNRC001)作者简介:李娇(1989-),女,博士,助理研究员,研究方向为文本挖掘、知识图谱与知识服务研究。鲜国建(1982-),男,博士,研究员,博士生导师,研究方向为关联数据与知识服务。黄永文(1975-),女,博士,副研究馆员,研究方向为科学数据与知识组织。孙坦(1970-),男,博士,研究馆员,博士生导师,研究方向为数字信息描述与组织*通信作者:赵瑞雪(1968-),女,博士,研究员,博士生导师,研究方

4、向为信息与信息系统、知识服务研究。Email:DOI院10.13998/ki.issn1002-1248.23-03471 引言论证挖掘 渊Argument Mining袁AM冤袁 又称论辩挖掘袁 是指自动识别和提取自然语言文本内容中论证结构 渊如前提尧 结论冤尧 推理方案及逻辑关系的技术1袁通过论证理论模型建模和分析文本的知识内容袁 实现语用层面上的语篇分析2袁 促进论证内容深层次尧 全面化挖掘与领域内论证链条揭示遥 论证挖掘研究可追溯至2007年的法律文件论证句抽取实验3袁 随后研究对象扩展至政府报告尧 产品评论尧 科技文献尧 维基百科尧社交网络等遥 人工智能视域下的论证挖掘目标是实现可用

5、资源的发现和重用4袁 涉及自然语言处理尧 知识表示与推理尧 人机交互等多项关键技术1遥目前国际上已有较为系统的研究袁 形成较为明确的技术实现路线遥 随着资源形态的丰富及深度学习尧大模型 渊Large Language Model袁LLM冤 等技术的快速发展与迭代袁 新的研究成果不断涌现遥 本文对论证挖掘研究相关文献进行梳理分析袁 从任务框架尧 复杂度影响因素尧 方法分类等多个方面归纳其技术体系袁 介绍面向特约综述162023 年第 35 卷第 6 期不同细分领域的应用实践现状并作对比分析袁 总结论证挖掘发展阶段与趋势袁 重点追踪新的人工智能技术环境下多媒体论证挖掘进展袁 并对论证挖掘技术体系变

6、革尧 与领域知识结合尧 落地应用等方面的研究内容进行展望袁 以期为相关领域研究和实践提供参考与借鉴遥2 论证挖掘研究基础2.1 论证挖掘相关研究论证挖掘的价值在于通过论证链条的语义揭示实现流派尧 观点等知识产生过程的发现袁 通常以观点挖掘 渊Opinion Mining冤尧 争议发现 渊Controversy Detec-tion冤尧 引用挖掘 渊Citation Mining冤 等多项研究作为技术起点进行延伸和扩展遥渊1冤 观点挖掘遥 观点挖掘是指通过自动分析用户的评论文本从而提取用户对所评价事物的情感和态度等主观内容5袁 主要应用于信息预测尧 舆情分析等方面遥 通常与观点挖掘可交替使用的还

7、有情感分析渊Sentiment Analysis冤袁 它聚焦积极或消极观点两个具体层面或范畴遥 论证可以促进观点或情感的表达袁 因此论证结构常被应用于观点或情感挖掘袁 如经济情感发现模型6遥 反之袁 观点或感情也可作为论证过程中的指标或组件袁 以结论挖掘为例袁 与文档整体描述情绪或情感一致的部分相较于不一致的内容更有可能是结论遥渊2冤 争议发现遥 争议发现本质上是观点挖掘外延的扩展袁 其目的是识别有争议的主题和呈现冲突观点的文本袁 包括信任模型和在线争议两类技术研究遥 争议发现具备发现潜在热点问题的能力袁 并可以在冲突出现的早期阶段予以处理袁 如RUMSHISKY等7利用基于内容和基于图形的特

8、征来分析社会或政治冲突随时间发展的态势遥 论证挖掘和争议发现最直接的联系是袁 经过论证句的文本相似性聚类可以识别在线辩论中的突出论点或争议遥渊3冤 引用挖掘遥 引用挖掘是科技文献领域用于确定引文背后激励因素的技术袁 主要是对文献中的引文实例及其在语篇中的修辞作用进行标引袁 涉及引文动机及引文功能等维度知识遥 作者对引文的观点 渊或态度冤 通常被分类为积极/消极/客观或赞同/反对8遥论证挖掘任务中可基于论证角色对文本跨度进行标记袁如强调差距或不足的引用大概率表示冲突关系袁 表示以当前工作或研究为基础的引用很可能存在支持关系遥2.2 论证语义表示模型论证语义表示模型是指对语篇内容中论证单元和其逻辑

9、关系等结构及过程进行规范化和形式化表达袁是论证挖掘及其应用实现的重要依据遥 相关理论包含图尔敏 渊Toulmin冤 模型尧 修辞结构理论尧 沃尔顿模型等袁 其中图尔敏模型最为典型袁 定义了断言尧 数据尧保证尧 反驳尧 支持和修饰语6个论证要素9袁 是论证语义建模最常采用的理论模型基础遥 在语义出版尧 信息科学等技术发展的推动下袁 论证语义表示模型的研究经历了从粗粒度尧 浅层次到细粒度尧 深层次的变化过程袁 本体模型是论证内容语义描述的主要形式遥相关研究成果颇丰袁 诸多研究者已做系统评述袁本文以科技文献领域为例进行说明袁 早期的论证语义表示模型多关注论证过程中的独立知识单元袁 如科学论述本体渊S

10、cholarlyInterpretation andDiscourse袁ScholOnto冤10针对主张尧 假设尧 方法尧 软件尧 证据等论证过程中的知识单元进行类和属性的定义遥 语义出版的发展和相关研究的深入使得论证语义表示模型的设计与研究重点逐渐过渡到逻辑论证过程的描述袁 代表性实例有院博洛尼亚大学VITALI等11基于图尔敏模型设计的论证模型本体 渊Argument Model Ontology袁AMO冤袁 定义了6种相互关联的论证要素要要要主张尧 证据尧 保证尧 支持尧反对和限定词曰 哈佛大学CLARK等12提出的微语义出版模型 渊Micro Publication冤 注重描述科学主张

11、及其论据的关联特征袁 通过陈述尧 数据尧 方法尧 材料支撑等内容元素形成论文的科学论证链曰 同样源自生物医学领域的SWAN渊SemanticWeb Application in Neuromedicine冤 本体描述科研知识生态中的假设尧 主张尧 对话尧 出版物等要素13遥论证语义表示模型是指导论证挖掘的关键袁 通用性较低袁 不同学科领域论证模式的差异性使得论证语李娇,赵瑞雪,鲜国建,黄永文,孙坦论证挖掘研究现状与进展172023 年第 35 卷第 6 期义表示模型的设计需要考虑处理对象研究范式尧 应用场景等多种因素遥 实际应用中袁 研究者们通常在优先继承复用经典模型的基础上结合领域特征进行改

12、造袁 如科技文献领域王晓光等14基于AMO尧 微型出版物模型构建通用论证本体SAO渊Scientific Paper ArgumentationOntology冤袁 曲佳彬等15借助图尔敏模型构建句子级及实体级的多粒度论证结构本体遥3 论证挖掘技术体系3.1 论证挖掘任务框架论证挖掘是 野在语用学层面上分析语料并应用一定的论证理论来建模和自动分析数据的一般任务冶2袁包含了人工智能尧 计算机语言学和知识表示的许多不同概念袁 这种内在的异质性使得论证挖掘涉及自然语言处理尧 信息提取尧 特征发现尧 话语分析等多方面的技术遥2018年袁CABRIO和VILLATA归纳提炼出论证挖掘的基本流程框架袁 涉

13、及两个重要阶段1遥渊1冤 论证抽取 渊Argument Extraction冤遥 识别输入自然语言文本中的论证内容袁 包含论证组件检测和论辩成分分类两个主要任务遥 具体过程为院 将原始文本中具有论证性质的文本片段分割成最小论证分析单元要要要论证文本单元 渊Argumentative Discourse Unit袁ADU冤16袁 进而对其在论证文本中的功能类型进行分类袁 如依据尧 前提尧 结论等遥渊2冤 关系预测 渊Relations Prediction冤遥 预测论证文本单元间的关系袁 包括一般论证关系和复杂论证关系袁是一项涉及高级知识表示和推理的复杂任务袁 目前的研究重点集中在一般性论证关系

14、的判断17遥 各论证文本单元及单元间关系共同构建论证图 渊ArgumentationGraph冤袁 论证关系对应于该图中的边遥 结构化论证挖掘中袁 这一阶段还负责预测各论证文本单元的内部关系袁 如前提和主张之间的联系18遥3.2 论证挖掘复杂度影响因素论证挖掘复杂度与论证单元和关系识别的细粒度呈正相关 渊图1冤袁 经历了 野单句是否论证冶野简单的前提/结论关系考虑论证关系冶野考虑一组子句是否形成复杂论证关系冶 这样一个由简单到复杂尧 由个体到联系的发展路径19遥从任务层面可将论证挖掘框架进一步细分为3类院论证组件识别袁 即识别切分文本中论证/非论证分类过程袁 这一步骤的执行与文本切分方法紧密相

15、关袁 若采用人工分析工具袁 该步骤可与文本切分同时执行袁只需避免对文本中与论点无关的部分进行分段曰 若采用自动分割或由不同的分析员进行分割袁 则该步骤必须独立进行袁 这种情况下判断一个特定的片段是否具有论证性可以作为确定结构的初步步骤袁 也可以留到分析的最后袁 任何与结构的其他部分没有联系的片段都可以直接丢弃尧 属性识别和关系属性识别遥 任务由浅层向深层逐步深入又互为基础遥属性识别袁 即识别论证组件的属性袁 包括固有属性 渊如证据尧 断言冤和语境属性 渊如支持尧 反对冤遥关系属性识别袁 主要是指论证句间关系的属性袁 包括一般论证关系 渊如支持尧 反对尧 中立冤 和复杂论证关系 渊如修辞尧 对话

16、冤遥3.3 论证挖掘方法分类上述任务框架阐述了论证挖掘研究的重要目标和阶段袁 与之对应的关键支撑技术也成为近年来相关研 参数组件识别属性识别关系属性识别切分论证/非论证复杂论证关系例如:X,Y和Z是专家论证的案例吗?固有属性例如:X是证据?X做汇报?语境例如:X是假设?X是结论?一般论证关系例如:X是Y的假设?X和Y相冲突?图1论证挖掘技术的复杂度19Fig.1 Tasks and levels of complexity in argument miningtechniquesDOI院10.13998/ki.issn1002-1248.23-0347特约综述182023 年第 35 卷第 6

17、 期究密切关注的热点主题遥 本文以时间为主线对相关文献进行整理和分析袁 梳理出两类具有代表性的论证挖掘方法并归纳其主要思路袁 以期为后续研究和实践提供参考遥3.3.1基于特征工程机器学习的方法早期论证挖掘研究多为基于特征工程机器学习的方法袁 其基本思想是院 通过对人工标注的浅层特征集渊词汇特征如主题词尧 线索袁 句法特征如命名实体数量尧 动词数量等冤 进行训练袁 进而使用分类器来实现论证抽取遥 一个典型的基于特征工程机器学习的论证挖掘流程20如图2所示袁 机器学习算法和技术部分采用系列模型和特征分析技术判定筛选出论证挖掘任务中表现较好的模型和变量子集袁 同时基于模型预测向标注平台中的用户提供未

18、标注文本中的潜在论证遥 这类方法主要采用有监督算法分类模型袁 使用较为广泛的如支持向量机21-23尧 逻辑回归24尧 朴素贝叶斯25尧 决策树和随机森林26等遥朴素贝叶斯模型是最早被应用于论证挖掘的方法袁PALAU等27通 过 野 论 证 渊Argument冤 冶 和 野 论 证渊Non-Argument冤冶 两类标签对不同类型文本 渊如法律判决书尧 报纸尧 议会记录尧 周刊等冤 拆分的句子进行特征检测和分类袁 经过朴素贝叶斯分类器训练后在实验数据集上达到了73%的准确率遥 其中袁 句子的论证和非论证分类也是其它机器学习方法中通常会融合考虑采用的特征分类方式遥MOCHALES等28将论证尧 非

19、论证特征分类与支持向量机模型组合袁 使用独立分类器来识别前提和主张袁 并通过定义上下文无关的语法来预测不同论证组件之间的关系遥GOUDAS等29提出一种针对表达不正式尧 语法或拼写规范性较差的社交媒体文本的两步论证抽取方法袁 采用逻辑回归分类器实现准确率达77%的论证挖掘遥GROZA等30采用本体和自然语言处理技术从生物医学文献中挖掘论证结构及逻辑关系遥WACHSMUTH等31使用PageRank算法来构建论证相关性模型袁 结合专家手动标注和递归加权方案进行分析袁 得到的结果超过同数据集上的多个Benchmark遥就基于特征工程机器学习的论证挖掘方法准确率而言袁LIPPI等32通过不同的实验效

20、果对比发现袁 部分研究者使用相同特征集训练的不同分类器产生了非常相似的性能袁 决定挖掘效果的关键是特征的选择与设计遥3.3.2基于深度学习的方法随着深度学习技术的发展袁 其强大的编码和表征能力使其在包括自然语言处理的众多领域中广泛应用起来袁 基于深度学习的神经网络模型已逐渐发展成论证挖掘任务的基本模型遥 相较于基于特征工程机器学习的方法袁 这一类模型可自动学习尧 提取文本的特征表示袁 不再依赖人工标注特征袁 在编码过程中可基于更广泛的上下文语境捕获长距离依存关系袁 提升论证挖掘的效率和识别效果遥 基于深度学习模型的论证挖掘方法通常结合或伴随着其它技术或方法袁 如图神经网络尧 注意力机制33等遥

21、 石岳峰等17结合深度学习任务特征袁 归纳出基于深度学习的论证挖掘模型与流程如图3所示袁 包含输入尧 编码和解码3个重要阶段遥COCARASCU等34提出基于单向和双向两种长短期记忆网络的论证挖掘深度学习架构袁 用于预测输入文本对间的攻击和支持关系曰 随后结合深度学习和论标注平台数据预处理语料库学习实例特征抽取机器学习算法和技术模型(假设)特征集图2基于特征工程机器学习的论证挖掘一般流程20Fig.2 Workflow process of argument mining based on machinelearning输入阶段论证文本编码阶段图神经网络预训练语言模型序列编码结构上下文知识注意

22、力机制解码阶段关系预测论证扩展任务论证抽取图3基于深度学习的论证挖掘流程17Fig.3 Argument mining process based on deep learning李娇,赵瑞雪,鲜国建,黄永文,孙坦论证挖掘研究现状与进展192023 年第 35 卷第 6 期证推理定义了一种基于关系的论证挖掘方法袁 分析新闻标题是否支持推文及判断评论是否具有欺骗性袁 与标准监督分类器结合使用时在小数据集上表现出优异性能35遥NICULAE等36针对文档中论证关系不一定能生成树结构的场景袁 结合循环神经网络和支持向量机设计了一种可以强制结构约束 渊如可传递性冤 的因子图模型袁 表达相邻关系和主张之

23、间的依赖关系遥GALASSI等37首次将残差网络 渊Residual Networks冤38引入到论证挖掘任务袁 结合多目标学习 渊Multi-Objec-tive Learning冤 算法提出一种优于等效深度网络的模型袁在链接关系预测方面成效显著遥随着以BERT渊Bidirectional Encoder Representationfrom Transformers冤39为代表的基于深层Transfomer的大规模预训练语言模型的出现与发展袁 预训练-微调的方法逐渐成为论证挖掘任务的研究主流遥ZHANG等40在多个法律BERT变体及其它预训练嵌入模型研究基础上袁 采用神经网络针对欧洲人权法

24、院ECHR渊EuropeanCourt of Human Rights冤 的实际案例法进行论证挖掘遥SRIVASTAVE等41提出基于BERT和自注意力嵌入的论证挖掘方法袁 对网络语篇中典型论点结构的因果层次进行建模袁 通过变压器编码器层来预测关系遥HARLY等42采用CNN渊Convolutional Neural Network冤-BERT架构来解决论证挖掘中比较困难的一致性预测任务袁相较于纯粹基于BERT的方法袁 可将准确率提升至71.87%遥REIMER43等利用BERT尧 词向量生成模型ELMo渊Embeddings from Language Models冤 对主题相关的论证进行分

25、类和聚类遥 上述研究反映出以BERT模型为基础的论证挖掘实现已成为当前研究者们的主要解决方案袁 在各数据集上性能表现优异遥4 论证挖掘应用研究4.1 面向领域的论证挖掘应用实践领域资源的价值很大程度体现在其中蕴含的丰富论证性质信息袁 如观点尧 依据尧 事实尧 决策等论证单元袁 支持尧 反对等关联关系袁 通过论证挖掘可以分析和呈现出领域内知识逻辑链条袁 为知识发现尧 决策分析尧 知识推理等提供重要支撑遥 实际应用中袁 论证挖掘在法律领域尧 网络内容尧 政治辩论尧 科技文献等基础语料资源丰富的领域开展了大量实践且成果颇丰袁社会科学尧 数字人文等相关领域近年也开始受到更多关注遥4.1.1法律领域的论

26、证挖掘法律领域的论证挖掘旨在发现法规尧 判决等法律文本中的前提尧 主张和论证方案袁 以辅助简化法官或者法律学者在识别不同判决间异同尧 提出论点及案件结果等方面的工作遥 早在2007年袁MOENS3就尝试法从律文本中识别抽取粗粒度论证内容遥MOCHALES等27提出一种用于法律文件的论证组件检测和论证关系预测系统袁 并基于欧洲人权法院的系列判决文件创建基础语料库遥 在此基础上袁TERUEL等44发布一个新的欧洲人员法院判决文集袁 标注了前提和主张尧 以及论证组件间的支持和攻击关系遥GRABMAIR等45与美国联邦索赔法院的系列案件合作袁 通过论证挖掘判断赔偿要求是否符合国家疫苗赔偿计划项目的联邦

27、法规遥 他们设计从法律文件中抽取论证相关语义信息 渊主要指条款的论证作用冤 的UIMA渊Unstructured InformationManagement Architecture冤 系统袁 支持基于证据的事实发现和中间推理袁 以及特定案例的过程或者程序性事实挖掘遥法律领域作为率先开展论证挖掘研究的重点领域之一袁 其资源内容及论证成分的复杂性是论证挖掘任务面临的主要挑战袁 现有研究主要关注前提和结论之间的支持尧 反对两类关系遥 该领域较具代表性的论证模型除了图尔敏模型外袁 还有威哥摩尔图示模型46尧沃尔顿模型47等袁 其中沃尔顿模型的高通用性使其广泛应用于各类场景袁 如ECHR判例法遥4.1

28、.2网络内容的论证挖掘多元化网络内容的论证挖掘可针对多来源尧 多形态的实时及历史网络资源进行分析进而支持舆情监测尧动态或趋势预测尧 主题发现尧 智能推荐等场景袁 处理对象包括维基百科文章尧 网络平台言论尧 在线产品评论尧 报纸尧 社交媒体等遥LIPPI等21设计了用于论证组DOI院10.13998/ki.issn1002-1248.23-0347特约综述202023 年第 35 卷第 6 期件分类和边界检测的网络系统MARGOT渊Mining AR-Guments frOm Text冤袁 并在IBM数据集上进行验证遥HABERNAL等2基于图尔敏模型进行改良袁 提出通过序列标记识别用户Web话

29、语中论证成分的方法袁 应用于教育领域中的争议话题发现遥IBEKE等48使用EICapitan数据集上的统一潜变量模型来解决挖掘对比意见的任务袁 其中用户评论被人工标注为主题和情感两类标签袁 可进行产品评价方面的论证挖掘与情感分析遥DUSMANU等49收集推特数据集DART进行论证性和非论证性推文的识别区分袁 内容可范围覆盖政治话题到商业产品推介发布遥LAI等50研究政治社交媒体文本中的多语种立场检测袁 通过文本风格尧 结构尧 情感和上下文特征分析有效的应用场景遥FABBRI等51设计野问题-观点-断言冶 框架驱动的标注协议袁 针对新闻评论尧 讨论论坛尧 社区问答论坛尧 电子邮件线程四种在线对话

30、媒介领域众包构建标准化数据集遥论证挖掘在网络内容中的应用方向及场景丰富袁然而面临着数据质量参差不齐尧 应用独立缺乏系统性等问题袁 需要加强来源真伪辨识尧 挖掘内容质量评估等方面的研究遥4.1.3政治辩论领域的论证挖掘政治领域的论证挖掘目标是发现政治辩论 渊如政治候选人发言冤 中的谬误尧 说服力及连贯性等遥LIPPI等52基于2015年英国政治选举辩论的语料库袁 通过研究语音中的声音特征解决论点提取问题袁 尤其是主张检测遥DUTHIE等25应用论证挖掘方法来检测英国议会论证中道德论点的存在和两极化袁 并通过可视化结果促进用户理解遥NADERI等53提出基于嵌入表示的特征可改进辩论性政治演讲中的论

31、证框架发现遥MENINI等54基于语料库实现独白形式政治演讲中的论证关系渊主要指支持和攻击冤 预测任务遥 由于相关领域资源形式的复杂性和多样性袁 部分研究者逐渐开始关注面向跨文件类型 渊如报纸尧 议会记录等冤 的论证挖掘方法泛化55,56遥政治辩论和演讲领域论证结构相对简单袁 但涉及较多情感分析袁 如观点的极性 渊悲观尧 乐观冤尧 论证的情绪等遥 该领域具备丰富的音频资源袁 多模态论证挖掘研究也率先在政治辩论领域开展遥4.1.4科技文献领域的论证挖掘科技文献是内涵丰富的有机体袁 由描述表达知识的语义元素 渊内容组件冤 及其逻辑关系组成袁 蕴含着研究者从观点提出到产生新知识的复杂论证过程遥 面向

32、科技文献领域的论证挖掘也被称为学术论证挖掘渊Scholarly Argument Mining袁SAM冤57袁 与语义出版等技术的发展密不可分遥 自然语言处理领域知名学者TEUFEL58首次提出从科研论文文本中挖掘不同含义论点的理念袁 相继设计基于科研论文的论证分区模型AZ-I59尧AZ-II60袁 并引入情感倾向与文本修辞等内容遥GREEN61探讨学术论文科学发现叙述中的论证发生与关联机理袁 设计一种基于语义的论证框架用于生物医学领域论文中基因和疾病的关系发现遥LAISCHER等62提出一种科技文献论证分析标注方案并应用于Dr.Inventor语料库63遥WANG等64基于论证理论和科学论文

33、本体构建编码模式袁 通过统计分析和序列模式挖掘方法计算出不同论证单元和论据类型的比例遥科技文献领域的学术论证挖掘研究相较于其它领域起步较晚袁 面临着语料库规模小尧 理论模型系统性缺乏尧 应用场景化困难等挑战袁 但近年在挖掘深度尧复杂度等方面有所突破袁 处理对象由文献摘要逐渐扩展至全文57袁 理论模型上部分研究者开始探索文献中图片和表格等数据型元素的论证语义64遥4.2 论证挖掘应用对比分析针对上述论证挖掘研究实践较为丰富的领域进行应用情况调研袁 结果如表1所示遥 总体来讲袁 面向各领域的论证挖掘应用在研究对象形式尧 场景实现等方面表现出明显的差异性袁 究其原因袁 各领域学科特性尧数据集及语料基

34、础尧 论证系统必备要素均不同遥 法律领域资源的多源异质性等特征使得司法判决尧 智能推理等场景对论证挖掘产生大量需求曰 网络内容聚焦观点类论证要素的识别尧 评估和可视化展示曰 政治辩论和演讲领域通常通过基于特定主题生成论证图的方式揭示候选人的观点或立场袁 应用场景侧重观点可靠性尧连贯性评估等曰 科技文献中论证性内容的严谨性和规李娇,赵瑞雪,鲜国建,黄永文,孙坦论证挖掘研究现状与进展212023 年第 35 卷第 6 期范性强尧 论证过程复杂等特点袁 给学术场景中基于论证的知识服务落地实践带来极大挑战袁 目前相关应用实践正处于模式设计向实例化开发转化的过渡阶段袁相关应用多为面向计算机的信息理解和读

35、取工具/软件袁 如论证与修辞分析工具ArguminSci65袁 面向科研人员检索与阅读的应用研究处于理论描述和方案设计阶段袁 如在数据库层面设计基于论证的语义检索和可视化技术架构21袁 采用论证结构的可视化模型改善议论文语境下复杂论证的可解释性66等遥5 论证挖掘发展路径与趋势5.1 论证挖掘发展阶段论证挖掘相关研究成果较为丰富袁 其实现与机器学习尧 深度学习尧 大模型等技术浪潮的发展紧密相关袁处理的资源形式由自然语言文本向图片尧 音频等多模态扩展遥 如果将论证挖掘的发展划分为3个层次或阶段 渊图4冤院 关注论证本体建模的初级阶段尧 关注论证语义特征标引的发展阶段以及基于论证内容实现服务的应用

36、阶段袁 目前袁 相关研究实践尚处于侧重技术层面及标引深度的发展阶段袁 并逐渐向应用阶段过渡遥事实上袁 论证挖掘研究很大程度取决于领域语料基础尧论证模式复杂度等因素袁 其发展水平也因领域而异遥5.2 多模态论证挖掘进展信息技术和大数据环境的发展使得数字资源在内容尧 呈现形式尧 载体等方面都日益丰富遥 受限于非文本语料库的稀缺和多模态自然语言处理技术瓶颈袁 前期论证挖掘方向主要聚焦于自然语言文本对象遥 随着多模态深度学习 渊Multimodal Deep Learning袁MMDL冤的发展袁 其先进的输入表示和融合解决方案 渊基于输入表示的迁移学习端到端架构尧 用于有效输入管理的基于注意力的架构冤

37、 使得研究者们逐渐开始探讨多模态论证挖掘方法和实践袁 尤其是包含大量音频和听力文稿的政治辩论领域袁 表2展示了该领域的主要实验标注数据集袁 其中使用较为广泛的是UKDebates67和M-Arg68袁 前者处理主张检测任务袁 后者关注论证关系渊包含支持和攻击两类冤 并提供带有音频和时间戳的文本内容遥MANCINI等69以此为基础袁 设计了包含论证语句检测尧 论证组件分类尧 主张检测和论证关系分类4个逻辑层次的多模态论证挖掘架构袁 并发布迄今为止最大的多模态论证挖掘数据集MM-USElecDeb60to16遥值得注意的是袁 多模态论证挖掘的基本框架和技术路线一定程度上延续了文本论证挖掘袁 针对不

38、同模态资源的论证抽取和关系预测任务选用相应的算法模型袁 如处理音频的预训练模型AudiBERT袁 并行处理识别语义特征袁 其关键是将多模态空间映射到共享语义子空间实现多模态特征融合袁 弥补不同模态的异质专业领域 研究对象形式 场景实现 法律 判决文书、法律条文、案例报告、证词、信件等文本资源 自然语言与法律文本的处理、法律案件事实认定、信息检索、案件挖掘、智能推理等 网络内容 论坛、维基百科、新闻社评、线上商品评论等文本资源 争议性观点识别、观点可信度评估、观点影响力评估、观点呈现与检索、产品推荐、交往辩论等 政治辩论 演讲文稿、语音、视频等多模态资源 观点可靠性、连贯性评估 科技文献 学术论

39、文等自然语言文本 暂无面向人类阅读场景的应用,多为数据库层面的查询、可视化 表1各领域论证挖掘应用现状Table 1 Applications of argument mining in various fields技术方法(机器学习深度学习);资源模态(文本文本、图片、音频)初级阶段-论证本体建模,如论证分区、AMO、微语义出版模型等发展阶段-论证语义特征标引,注重论证挖掘技术与处理对象复杂度应用阶段-基于论证的服务,如软件/工具、可视化知识发现平台图4论证挖掘发展阶段Fig.4 Development stages of argument miningDOI院10.13998/ki.iss

40、n1002-1248.23-0347特约综述222023 年第 35 卷第 6 期性差异遥 多模态资源特征的挖掘对模型提出了更高要求袁 预计在大模型尧 多模态深度学习等技术的助推下袁多模态论证挖掘将成为未来研究的热点遥6 总结与展望论证挖掘旨在研究如何借助信息技术从自然语言文本中自动识别论点及论点间关系袁 以期满足大数据背景下的信息检索和信息抽取的更高需求遥 通过对近年来论证挖掘相关技术及实践的分析研究袁 可以得出如下结论院论证语义表示模型作为论证挖掘的基础规范袁 经历了 野浅层论证结构-深层论证过程冶 的发展过程且日趋成熟袁 未来相关研究应以实例化应用导向为主遥论证挖掘研究融汇了自然语言处理

41、尧 知识推理等多领域多类型关键技术袁 与信息技术发展浪潮息息相关袁 经历了 野特征工程机器学习-基于深度学习的神经网络-大规模预训练模型冶 的技术路径演进袁目前基于深度学习框架的预训练-微调方法是主流遥论证挖掘复杂度取决于论证单元和关系识别的细粒度袁 可将论证挖掘任务细化为 野论证组件识别-属性识别-关系属性识别冶 的3层技术框架袁 由简单及复杂遥 同时袁 随着多模态深度学习技术的发展袁 论证挖掘研究也正在经历着文本对象向多模态对象的深化遥论证挖掘研究及应用多面向法律尧 网络内容尧 政治辩论尧 科技文献等领域袁 其中法律和网络领域的应用更为工程化和成熟化袁 原因在于论证挖掘任务的实现离不开高质

42、量语料库及多类型论证模型等基础知识资源的支持袁 上述领域正是相关研究的技术和资源高地遥总而言之袁 论证挖掘研究进展有赖于信息技术水平袁 自然语言处理尧 深度学习等人工智能技术的快速发展为相关研究提供了强大的分析处理能力遥 可以预见袁 除语料库和理论模型的规划化和系统化建设以外袁未来的论证挖掘研究将朝着多粒度尧 多模态内容泛化袁聚焦相应的技术体系及应用落地实践袁 可能的研究方向包括院技术体系的变革遥 如何实现大规模高质量的语料标注和多粒度多模态的论证内容自动抽取等问题仍是未来论证挖掘任务关注的重点技术内容遥 目前论证挖掘主要集中在基于深度学习的方法上袁 大模型的兴起与发展袁 其在自然语言处理尧

43、多模态学习等下游应用中体现出巨大优势袁 同时也可为论证内容生成提供一定技术条件袁 论证挖掘任务或将向以大模型为技术底座的方法迈进袁 部分研究者已开始尝试在尚未开展论证挖掘研究实践的领域 渊如具备不可预测性的播客冤袁 通过自定义Prompt和Open AI的GPT-470语言模型相结合的方式构建论证图71遥领域知识的融合遥各领域资源内容尧 主题及形式丰富袁 难以采用统一的模型解决科学论证的领域特定特征表示遥 可充分利用词表尧 知识库尧 知识图谱等领域知识组织体系袁 将领域特定论证模式与丰富知识结构结合袁 加强语义表示与组织袁 提升领域内论证模型研究的系统性及挖掘深度袁 丰富论证图维度遥论证内容的

44、应用遥 目前基于论证内容的实际应用通常包括网络论点搜索尧 会议中的论点分析等场景袁 仍需推动论证挖掘在更多领域或跨学科中的应用研究与实践袁 同时加强论证信息检索及可视化袁 如将信息检索方法与论证挖掘相结合袁 构建下一代论证搜索引擎等遥参考文献院1CABRIO E,VILLATA S.Five years of argument mining:A data-driven analysisC/Proceedings of the 27th International Joint Con鄄名称 标注类型及数量分布/个 应用场景 UKDebate 主张(152)、非主张(234)主张检测 M-Arg

45、攻击(120)、支持(384)、其它(3 600)论证关系分类 M-Arg(0.85)攻击(29)、支持(132)、其它(2 282)论证关系分类 MM-USElecDeb60to16 主张(10 882)、前提(9 683)、非论证(6 226)论证语句检测、论证成分分类 表2多模态论证标注数据集Table 2 Datasets of multimodal argument mining李娇,赵瑞雪,鲜国建,黄永文,孙坦论证挖掘研究现状与进展232023 年第 35 卷第 6 期ference on Artificial Intelligence,New York:ACM,2018:5427

46、-5433.2HABERNAL I,GUREVYCH I.Argumentation mining in user-gener鄄ated web discourseJ.Computational linguistics,2017,43(1):125-179.3MOENS M F,BOIY E,PALAU R M,et al.Automatic detection ofarguments in legal textsC/Proceedings of the 11th InternationalConference on Artificial Intelligence and Law,New Yo

47、rk:ACM,2007:225-230.4DOUGLAS W.Argument mining by applying artumentation schemesJ.Studies in logic,2011,4(1):38-64.5LIU B.Sentiment analysis and subjectivity Bing Liu M/Handbook ofnatural language processing.Chapman and Hall/CRC,2010:651-690.6HOGENBOOM A,HOGENBOOM F,KAYMAK U,et al.Mining e鄄conomic s

48、entiment using argumentation structuresC/InternationalConference on Conceptual Modeling,Berlin,Heidelberg:Springer,2010:200-209.7RUMSHISKY A,GRONAS M,POTASH P,et al.Combining net鄄work and language indicators for tracking conflict intensityM/In鄄ternational conference on social informatics.Cham:Spring

49、er,2017:391-404.8ATHAR A.Sentiment analysis of citations using sentence structure-based featuresC/Proceedings of the ACL 2011 Student Session.New York:ACM,2011:81-87.9TOULMIN S E.The uses of argumentM.Updated ed.Cambridge,UK:Cambridge University Press,2003.10 BUCKINGHAM SHUM S,MOTTA E,DOMINGUE J.Sch

50、olOnto:Anontology-based digital library server for research documents and dis鄄courseJ.International journal ondigital libraries,2000,3(3):237-248.11VITALI F,PERONI S.The argument model ontology EB/OL.2023-01-11.https:/sparontologies.github.io/amo/current/amo.html.12CLARK T,CICCARESE P N,GOBLE C A.Mi

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服