收藏 分销(赏)

融合领域要素知识的多粒度法律文本匹配方法.pdf

上传人:自信****多点 文档编号:4078433 上传时间:2024-07-29 格式:PDF 页数:8 大小:1.19MB
下载 相关 举报
融合领域要素知识的多粒度法律文本匹配方法.pdf_第1页
第1页 / 共8页
融合领域要素知识的多粒度法律文本匹配方法.pdf_第2页
第2页 / 共8页
融合领域要素知识的多粒度法律文本匹配方法.pdf_第3页
第3页 / 共8页
亲,该文档总共8页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、融合领域要素知识的多粒度法律文本匹配方法罗森林,董勃,潘丽敏,吴舟婷(北京理工大学 信息与电子学院,北京100081)摘 要:法律文本匹配的目标是快速提炼对比要素信息并发现关联案件,保障法律适用的统一性同案同判.现有方法未能充分利用特定类型案件的先验知识,其核心要素提取准确率低,仅进行词向量的权重计算,忽略字义、句义、句法的向量信息,影响匹配效果.提出一种融合领域要素知识的多粒度法律文本匹配方法,通过建立特定案件类型领域知识库准确提取法律要素,引入字、词、句 3 个粒度的注意力机制计算不同文本向量的权重提升匹配模型效果.实验结果表明,该方法在公开数据集上可达到最好效果.关键词:文本匹配;法律要

2、素;多粒度;领域知识中图分类号:TP391 文献标志码:A 文章编号:1001-0645(2024)03-0298-08DOI:10.15918/j.tbit1001-0645.2022.107Multi-granularity Legal Text Matching Method for IncorporatingDomain Element KnowledgeLUO Senlin,DONG Bo,PAN Limin,WU Zhouting(School of Information and Electronics,Beijing Institute of Technology,Beijin

3、g 100081,China)Abstract:The goal of legal text matching is to quickly extract and compare element information and discover re-lated cases to ensure the uniformity of legal application.The existing methods can not make full use of priorcase knowledge of specific types,extracting a lower accuracy for

4、core elements.Most of the methods canonly perform the weight calculation of word vectors,but ignore the vector information of word meaning,sen-tence meaning and syntax,affecting the matching effect.In this paper,a multi-granularity legal text matchingmethod was proposed to incorporate domain element

5、 knowledge.Firstly,a domain knowledge base was estab-lished to accurately extract legal elements of specific case types.And then,three granularity attention mechan-isms of word,sentence and syntax character were introduced to calculate the weight of different text vectors,soas to improve the effect

6、of matching model.Experimental results show that this method can achieve the best res-ults on public datasets.Key words:text matching;legal elements;multi-granularity;domain knowledge 法律检索是智慧法庭建设的重要环节,其核心任务是法律文本匹配.法律文本匹配的目标是快速提炼对比要素信息并发现关联案件,保障同案同判.法律文本篇幅较长且要素种类众多,其匹配难点为法律要素的充分提取和向量信息的深度匹配.现有方法直接对原始

7、文本序列进行语义嵌入1,无法具象地进行要素式的案件匹配,要素信息不突出且利用不充分.现有方法通过规则匹配出法律文本中的要素信息2,通过设置阈值来判断文本相似性,该类方法所提取出的要素为部分基本法律要素,没有充分利用特定案件类型的独有要素,如民间借贷领域的利率信息、抵押信息等,另外该类方法大多没 收稿日期:2022 05 05基金项目:国家“十三五”重点研发计划(2018YFC2000300)作者简介:罗森林(1968),男,博士,教授,博士生导师,E-mail:;董勃(1996),男,硕士,E-mail:;吴舟婷(1988),女,实验师,E-mail:.通信作者:潘丽敏(1968),女,硕士,

8、高级实验师,E-mail:.第 44 卷第 3 期北 京 理 工 大 学 学 报Vol.44No.32024 年 3 月Transactions of Beijing Institute of TechnologyMar.2024有结合深度学习模型进行深度文本匹配,缺少文本向量信息的利用.存在方法将法律要素提取与深度学习模型相结合3,但面临领域先验知识不全面、忽略特定类型法律要素的问题,且模型层面仅进行词向量的权重计算,忽略字义、句义、句法的向量信息,影响匹配效果.针对当前方法存在的未能充分利用特定案件类型先验知识和仅进行词向量的权重计算,忽略字义、句义、句法向量信息的问题,本文提出一种融合领

9、域要素知识的多粒度法律文本匹配方法,该方法通过建立特定案件类型领域知识库准确提取法律要素,引入字、词、句 3 个粒度的注意力机制计算不同文本向量的权重以提升匹配模型效果.由于领域数据集资源限制,本文仅在民间借贷领域数据集上建立知识库并进行验证实验,方法可推广至其他领域的案件,并可针对每种类型案件的独有要素建立领域适用的知识库并训练对应模型.本文提出了 ETMSI 模型,主要贡献是:(1)本文提出一种融合领域要素知识的多粒度法律文本匹配方法,该方法结合基本法律要素和特定类型法律要素建立特定案件类型领域知识库,充分引入先验知识;利用字、词、句 3 个粒度注意力机制提升模型匹配效果.(2)模型在“中

10、国法研杯”司法人工智能挑战赛相似案例匹配数据集4得到最好效果.1 相关工作深度学习文本匹配包括孪生网络模型5和匹配-聚合网络模型6.孪生网络结构包含对称的两部分,两部分共享相同参数的编码器,模型关键是编码器的选择.HUANG 等7设计经典的文本匹配孪生网络结构,基于全连接神经网络进行句子编码.MUELLER等8提出基于 LSTM 的编码模型,解决语义长距离依赖的问题,但因 LSTM 的时序结构导致训练速度慢.VASWANI 等 9提出基于 Transformer 结构的编码模型,融入注意力机制来关注文本中的重要信息,摆脱时序关系限制,通过并行计算加快模型训练速度.REIMERS 等10使用 B

11、ERT11 12模型将文本映射到语义空间,结合孪生网络的特殊结构减弱 BERT 模型参数量大的局限.传统的孪生网络编码后直接进行语义相似度计算,向量之间不进行交互,导致模型对向量信息的利用能力差.匹配聚合网络添加交互聚合层,CHEN等13结合全局注意力和局部注意力,捕获更充分的交互信息.DUAN 等14引入自注意力机制提高模型匹配效果.ZHANG 等15提出 8 种匹配方式处理两个句子,生成原始句子的多重融合表示.本文将结合孪生网络模型参数量小训练速度快和匹配聚合网络向量信息利用充分的优势.近年来法律领域推出多项任务,如罪名预测16 17、阅读理解、要素识别、相似案例匹配、司法摘要18等.在法

12、律文本匹配领域,BRUNINGHAUS 等19从法律文本中抽取特征,将抽取到的特征替代原文本进行相似度计算.SARAVANAN 等20引入本体模型构建案件本体进行特征建模.RAGHAV 等21结合法律文本的段落相似性和引文信息,在候选集中找到相关匹配信息.PENG 等22提出基于解构和重构的多任务学习框架结合句子表示和显示知识.HONG 等3结合知识补充和深度学习构建模型,匹配效果有提升但要素信息的利用仍不完备.现有方法在领域要素知识引入和向量匹配机制方面有较大的改进空间:(1)现有模型仅提取部分基本法律要素,但每种类型案件都有特有法律要素,如民间借贷领域包含利率信息、抵押信息等,模型领域先验

13、知识引入不足,核心要素提取准确率低;(2)现有模型仅进行词向量的权重计算,忽略字义、句义、句法的向量信息.综上所述,针对现有法律文本匹配模型的问题,本文建立特定案件类型领域知识库,实现对基本法律要素和特定类型法律要素的充分提取,同时引入字、词、句 3 个粒度的注意力机制计算不同文本向量的权重,提升匹配模型效果.2 算法原理 2.1 算法框架a,b,ca,ba,ca,b方法的核心思想为构建领域要素知识库,充分引入法律文本先验知识,引入字、词、句 3 个粒度的注意力机制,提高文本向量信息交互效果.本文将介绍融合领域要素知识的多粒度法律文本匹配方法,模型简称为 ETMSI.模型原理图见图 1,该模型

14、包含领域要素知识库、编码层和匹配聚合层.针对三元组形式输入,使用孪生网络结构,模型对于文本和文本的处理方式一致,在后续章节中将只以文本为例介绍模型方法.领域要素知识库的构建过程为首先将民间借第 3 期罗森林等:融合领域要素知识的多粒度法律文本匹配方法299贷领域文本的要素划分为基本法律要素和特定类型法律要素两大类,其次对于每种法律要素构建领域知识库,构建完成后对于输入法律文本通过规则匹配与模糊匹配结合的方法,得到 46 维法律要素向量.a,b a=a0,a1,a2,anb=b0,b1,b2,bn编码层中包括法律要素和原始文本两部分.法律要素基于构建的领域知识库提取,原始文本则为输入的法律文本序

15、列.其中法律要素通过独热编码进行向量化处理,总维度为 46,原始文本序列经过BERT 编码器进行嵌入,总维度为 768.结合得到的编码输出和.abmamb匹 配 聚 合 层 主 要 进 行 两 篇 文 本 间 的 多 粒 度信息交互,其输入为编码层的输出 和,然后计算字、词、句粒度的注意力向量权重,匹配后得到向量和,使用双向 LSTM 来聚合语义交互信息,通过计算平均池化和最大池化将结果转化为维度固定的向量,最后通过多层感知机得到相似度预测结果.2.2 领域要素知识库基于法律文本要素式匹配原则构建特定类型领域要素知识库,使模型准确提取法律要素.民间借贷领域知识库主要分为基本法律要素和特定类型法

16、律要素,基本法律要素为大多法律文本都包含的信息,不限制案件类型;特定类型法律要素为某一具体类型案件特有的信息.需要说明的是,本文所处理的数据全部为民间借贷领域案件文本,每种类型案件的领域知识库用于训练针对该类型案件的专有模型.法律文本的结构固定且语言风格标准,同时其篇幅较长且信息复杂,基于这些特性,首先融合民间借贷领域专家知识和法律文本词频统计信息构建领域要素知识库,知识库中每种要素设置多个常见词条,详见表 1 和表 2 内容,其次借助正则匹配、模糊匹配等方式从法律文本中提取基本法律要素和特定类型法律要素,对于数字形式的法律要素如利率,包含单位和数值,需要进行计算转换来保证信息一致性,最后可提

17、取分布于法律长文本中的多种要素,并通过 one-hot 方式编码输入模型,其中基本法律要素共有 14 维,特定类型法律要素共有 32 维.表 1 列出了民间借贷领域的基本法律要素及编码维度.表 2 列出了民间借贷领域案件的特定类型法律要素及编码维度.BERT编码层匹配聚合层输出层BERTyPrediction基本法律要素(下划线部分)特定类型法律要素(圈出部分)被告1因生意缺少资金,向原告借款,双方于当日签订了一张借款合同,担保人为被告2,担保方式为连带责任保证,约定借款金额60 000元,约定月利率2%,未约定借款期限。借款后被告1支付利息至2013年4月10日,此后经原告催讨未果,双方于2

18、015年10月28日签订了还款承诺书,被告1结欠原告借款本金60 000元,利息38 400元,利息每月缴纳,原告未依约还款。BiLSTMBiLSTMb0m0bm1bmbn1mnbm0am1amaa1mnab0EbbEbtEabEccEatb1bn1bna0a0a1an1ana1an1anb1bn1bnmbma此处省略与左侧处理方式一致领域要素知识库(部分)多粒度语义交互法律文本b法律文本a法律文本cvabvapooling,vbpooling=vacvapooling,vcpooling=图 1 ETMSI 模型原理图Fig.1 Principle diagram of ETMSI mode

19、l300北 京 理 工 大 学 学 报第 44 卷 表 1 民间借贷基本法律要素及编码维度Tab.1 Basic legal elements and coding dimensionality in pub-lic debit and credit基本法律要素说明维度法定代表人或自然人借贷双方分别标注4涉及人数借贷双方分别标注2省份信息省份编号1借贷规模原始数字信息1借贷日期时间戳1借贷利率原始利率信息1参与庭审是否出席庭审2委托代理人是否委托代理人2总计14 表 2 民间借贷特定类型法律要素及编码维度Tab.2 Legal elements and coding dimensionalit

20、y of specifictypes in public debit and credit特定类型法律要素说明维度连带责任保证或抵押或无担保3个类别3借贷目的:生意需要、生活需要、资金周转和其他4个类别4还款证明:合同、欠条、流水、抵押、聊天记录和其他6种证明形式6利率区间0,12,24,36划分区间4约定年利率是否有约定2高利贷是否为高利贷2贷款法律效力是否具有法律效力2债权转让是否存在2涉及金融机构是否涉及2还款情况:无还款、已还款和其他还款3种情况3讨债情况是否催讨2总计32 2.3 编码层EbaEtaa0a0 a0 a0 ai使用独热编码和 BERT 模型分别对法律要素和原始文本进行编

21、码.首先,对于领域要素知识库提取的法律要素,通过独热编码进行向量化,每个要素的编码向量的维度对应其类别的数量.对于本身为数字形式的要素则保留其原始数值,不做编码处理.基本法律要素合并得到,特定类型法律要素合并得到,两部分合并得到法律要素编码,的维度为 46.通过全连接层转换其维度得到法律要素向量,以保证法律要素编码可以与 BERT 向量编码进行组合.拼接和 BERT 编码输出,编码公式如式(1)所示.a0=W1a0+q1(1)W1 Rhdda0h aiq1式中:;为向量的维度;为向量的维度;为残差.a1,a2,an a1,a2,an使用 BERT 对原始文本序列进行嵌入得到.BERT 模型结合

22、双向 Transfor-mer 编码器、自注意力机制和位置编码,可以有效捕获句子间的长距离依赖.ai=BERT(a,i),i1,2,la(2)aai Rhla式中:为原始文本;为 BERT 输出层的序列隐藏状态向量;为输入文本 的长度.a0 a1,a2,an a法律要素和原始文本编码后,拼接法律要素向量和 BERT 编码向量获得.拼接公式如式(3)所示.a=ai,iin0,1,la(3)2.4 匹配聚合层 a,b a,c abb a ab在匹配聚合层中进行多种粒度的语义交互,从本层开始孪生网络的两部分拥有独立的权重,和之间分别进行交互.多粒度语义匹配分为两个方向,方向和反方向,设计包含字、词、

23、句 3个粒度语义交互方法,其中字向量为子词向量,接下来以方向为例进行方法说明.(1)全匹配 saihbn该匹配策略中字向量与句粒度向量交互,一篇文本的每个嵌入与另一篇文本嵌入的最后一个时间步进行匹配运算.mfulli=fm(sai,hbn;W1)(4)(2)最大池化匹配sai sbjj(1,2,n)该匹配策略中字向量互相交互,一篇文本的每个嵌入与另一篇文本的每个嵌入,进行匹配运算,并仅保留每个维度下的最大值.mmaxi=maxj(1,2,N)fm(sai,sbj;W2)(5)maxj(1,2,N)其中表示对主元素相乘取最大值.(3)细节匹配haihbj该匹配策略中,对两篇文本的每个词嵌入和分别

24、计算余弦相似度.i,j=cos(hai,hbj)j=1,2,N(6)haj i,j的权重为,通过加和所有上下文嵌入的权重,得到文本 b 的注意力向量.hmeani=nj=1 i,jhbjnj=1 i,j(7)第 3 期罗森林等:融合领域要素知识的多粒度法律文本匹配方法301ahai最后,文本 的每个上下文嵌入与对应的注意力向量匹配.matti=fm(hai,hmeani;W3)(8)(4)最大细节匹配该策略与细节匹配策略基本相似.不同点为选择最大余弦相似度的上下文嵌入作为注意力向量来代替所有上下文嵌入的权重加和.ama4 种语义交互策略应用到文本 的每个时间步,拼接生成的 4 个向量得到匹配向

25、量.之后将法律文本匹配信息进行聚合,使用的模型结构为双向LSTM.LSTM 是时序编码器,引入门控机制来控制特征的记忆和遗忘,可以捕获序列间的长距离依赖.双向 LSTM 则包含两个方向的 LSTM,信息获取更全面.vai=BiLSTM(f(ma,i),i0,1,la(9)vbj=BiLSTM(f(mb,j),j0,1,lb(10)mambfReLUvavbvab式中:和为匹配层输出的拼接向量;为全连接层,使用激活函数来避免过拟合并减少模型参数量.计算和的平均池化和最大池化,并组合得到向量减少模型参数规模.平均池化的数学表达式为vaavg=lai=0vaila,vbavg=lbj=0vbjlb(

26、11)最大池化的数学表达式为vamax=max0ilavai,vbmax=max0jlbvbj(12)拼接向量的最终形式为vab=vaavgvamaxvbavgvbmax(13)2.5 输出层Pr(y|vab,vac)输出层中计算概率分布函数,损失函数选择为交叉熵损失.L=1i=0yilogpi+(1yi)log(1 pi)(14)vabvac对孪生网络输出向量和进行结合并输入到多层感知机得到最终结果.Pr(y|vab,vac)=MLP(vabvac)(15)3 实验分析 3.1 实验数据为验证融合领域要素知识的多粒度法律文本匹配方法的有效性,在公开数据集 CAIL2019-SCM4上开展对比

27、实验、模块有效性实验和案例分析实验.CAIL2019-SCM 是司法人工智能挑战赛相似案例匹配任务的公开数据集,该数据集中的案件由中国最高人民法院发布,从裁判文书网获取,属于民间借贷领域,该任务旨在判断包含 3 篇法律文本的三元组对中更为相似的两篇法律文本.数据集详细统计信息见表 3.表 3 CAIL2019-SCM 数据集Tab.3 CAIL2019-SCM datasets类型数量训练集5 102验证集1 500测试集1 536总计8 138 a,b,cabac应用多种数据增强方法扩充训练集,更大的训练集可以降低模型的方差,提高模型的鲁棒性.假设一个三元组样本为,标签 0 表示 和 相似度

28、更高,标签 1 表示 和 相似度更高.表 4 中展示了 3种数据增强方法.表 4 数据增强方法Tab.4 Datum increasing method方法结果标签反对称a,c,b1自反式c,c,a0启发式b,a,c0 3.2 评价方法a,ba,c法律文本匹配结果的评判原则为:若模型输出为 0,则表示案件更相似,反之模型输出为 1,则表示案件更相似.使用评价指标精确率来衡量模型效果,精确率表示被正确预测的三元组数量与测试集三元组总数量的比率,精确率的计算公式如(16)所示.=nTPnTP+nFP(16)nTPnFP式中:表示被模型正确预测的三元组数量;表示被模型错误预测的三元组数量.3.3 对

29、比分析实验 3.3.1 实验目的和过程为验证融合领域要素知识的多粒度法律文本匹配方法的有效性,实验选取 CAIL2019-SCM 比赛前 3名模型和 LFESM 模型3(2020)作为对比模型进行整302北 京 理 工 大 学 学 报第 44 卷体效果的对照.实验模型的重要参数设置为:BERT 嵌入维度初始化为 768;自注意力机制的头数为 12;每批次的样本数量为 12;训练轮次为 3;学习率为 0.000 03;BERT编码器 dropout 率为 0.1;使用 AdamW 优化训练过程的参数;使用混合精度工具 apex 提高训练速度.3.3.2 实验结果表 5 为 4 个对比模型和本文模

30、型结果.CAIL2019-SCM 数据集下的验证集和测试集对应比赛过程中两个独立阶段的测试数据集,因此分别讨论验证集和测试集的结果.需要说明的是 ETMSI 使用表 4 中的3 种数据增强方法,LFESM 使用一种数据增强方法,其余模型的数据增强方法未知.表 5 CAIL2019-SCM 实验结果Tab.5 Experiment results for CAIL2019-SCM模型验证集精确率/%测试集精确率/%CAIL2019-SCM 3rd66.7372.07CAIL2019-SCM 2nd67.7371.81CAIL2019-SCM 1st70.0772.66LFESM3(2020)70

31、.0174.15ETMSI71.4475.48 从表 5 可以看到,ETMSI 在两阶段数据集上的结果都优于其他模型.与 CAIL2019-SCM 第 1 名模型比较,ETMSI 在验证集上精确率提高 1.37%,测试集上精确率提高 2.82%;与 LFESM 模型比较,ETMSI 在验证集上精确率提高 1.43%,测试集上精确率提高1.33%.另一方面,ETMSI 在两阶段数据集上的提升相比 LFESM 更为均衡,分析发现 ETMSI 在以特定类型要素为主导或要素数量较多的法律文本下的表现更好.3.4 模块有效性实验 3.4.1 实验目的和过程为验证融合领域要素知识的多粒度法律文本匹配方法的

32、模块有效性,设计多组消融实验,模型其余参数与对比分析实验保持一致.实验过程包括两部分:第一部分,在完整 ETMSI 模型基础上,分别去除领域要素知识库和多粒度注意力模块,分析各模块对匹配效果的影响;第二部分,对数据增强方法进行组合实验,找出最优组合方式.3.4.2 实验结果消融实验结果见表 6,领域要素知识库和多粒度注意力机制两个模块都提高了模型匹配效果.移除领域要素知识库模块,与 ETMSI 模型相比,验证集和测试集上的结果分别降低 0.55%和 0.73%,表明特定类型要素有效补充领域核心知识.移除该模块后,与 CAIL2019-SCM 第 1 名模型比较,验证集和测试集上的精确率分别提高

33、 0.82%和 2.09%;与 LFESM 模型比较,验证集和测试集上的精确率分别提高 0.88%和 0.60%.表 6 消融实验结果Tab.6 Experiment results of dispelling incorporation模型验证集精确率/%测试集精确率/%CAIL2019-SCM 1st70.0772.66LFESM3(2020)70.0174.15BERT-Siamese67.7371.81移除领域要素知识库70.8974.75移除多粒度注意力71.1175.05ETSMI71.4475.48 移除多粒度注意力模块,要素信息仅进行词粒度交互.验证集和测试集上的结果分别降低

34、0.33%和 0.43%,证明字、词、句 3 个粒度的注意力交互效果更好.移除该模块后,与 CAIL2019-SCM 第 1 名模型比较,验证集和测试集上的精确率分别提高 1.04%和 2.39%;与 LFESM 模型比较,验证集和测试集上的精确率分别提高 1.10%和 0.90%.3.5 案例分析实验 3.5.1 实验目的和过程通过具体案例验证 ETMSI 所提取特定类型法律要素的有效性,实验过程如下:(1)从 CAIL2019-SCM 测试集随机选择三元组对;(2)使用领域要素知识库提取三元组对中的法律要素;(3)分析从法律文本三元组中提取出的特定类型要素对文本相似性判断的影响.3.5.2

35、 实验结果abab表 7 是法律文本三元组,本文所提民间借贷领域要素知识库可以准确提取特定类型案件的核心要素,三元组中基本法律要素(下划线部分)和特定类型法律要素(阴影部分)都已进行标记,可以看到案件 和案件 包含更多相同的特定类型法律要素,如“连带责任保证”和“连带清偿责任”,“催讨未果”和“催讨本息”,“生意”和“生意需要”,而基本法律要素包含的信息量有限,由此判定案件 和 更为相似.借助补充的特定案件类型领域知识,可以准确提取上述特定类型法律要素.第 3 期罗森林等:融合领域要素知识的多粒度法律文本匹配方法303 表 7 法律文本三元组案例分析Tab.7 Case analysis of

36、 legal text based on three-cell groupa法律文本被告1因生意缺少资金,向原告借款,双方于当日签订了一张借款合同,担保人为被告2,担保方式为连带责任保证,约定借款金额60 000元,约定月利率2%,未约定借款期限.借款后被告1支付利息至2013年4月10日,此后经原告催讨未果,双方于2015年10月28日签订了还款承诺书,被告1结欠原告借款本金60 000元,利息38 400元,利息每月缴纳,原告未依约还款.b法律文本被告1以生意需要资金为由,由被告2担保,于2016年10月3日向原告借款11 500元,并于当日签订借条一张,双方约定月利率为2%,被告2自愿对

37、上述债务承担连带清偿责任,借款后被告1未支付任何本息,后经过原告多次向被告1、被告2催讨本息,被告1、被告2拖延至今无果.被告1、被告2辩称,对原告主张的借款本金事实无异议,但利息是否有约定的事实,于庭审后7日内向法庭补充提交证据证实.c法律文本2015年3月1日,被告1在原告处借款80 000元,约定月利率15,被告2为该笔借款提供保证担保.后经原告多次催要未果,诉至法院,要求二被告共同偿还借款本金80 000元,支付利息14 400元,并负担本案诉讼费用.庭审中,原告增加诉讼请求,要求自2016年3月1日起按月利率15计付逾期利息至借款本金清偿时止.原告提供如下证据支持其诉讼主张:借条一份

38、.4 结论面向特定案件类型的法律文本匹配,针对当前模型存在的领域要素知识引入不足,模型匹配效果差的问题,本文提出一种融合领域要素知识的多粒度法律文本匹配方法,该方法建立特定案件类型领域要素知识库,准确提取法律文本的基本要素和特定类型要素;引入字、词、句 3 个粒度的注意力机制计算不同文本向量的权重,提升模型的信息交互效果,实验表明该模型能有效提高匹配精确率.未来研究工作可从 3 方面进行:1)构建更大更专业的案件文本匹配数据集,以训练更有效的深度学习模型;2)引入小样本学习等先进方法,在数据集限制的前提下提高模型匹配效果;3)应用深度学习模型提取案件要素,提高引入外部知识的有效性和完整性.参考

39、文献:罗森林,杨俊楠,潘丽敏,等.面向信息与通信技术供应链网络画像构建的文本语义匹配方法 J.北京理工大学学报,2021,41(8):864 872.LUO Senlin,YANG Junnan,PAN Limin,et al.Text semanticmatching method for information and communication(ICT)supply chain network portrait constructionJ.Transactions ofBeijing Institute of Technology,2021,41(8):864-872.(inChines

40、e)1 刘琼昕,覃明帅.基于知识表示学习的协同矩阵分解方法J.北京理工大学学报,2021,41(7):752 757.LIU Qiongxin,QIN Mingshuai.Collective matrixfactorization based on knowledge representation learningJ.Transactions of Beijing Institute of Technology,2021,41(7):752-757.(in Chinese)2 HONG Z,ZHOU Q,ZHANG R,et al.Legal feature enhancedsemantic

41、 matching network for similar case matchingC/2020 International Joint Conference on Neural Networks.NewJersey:Institute of Electrical and Electronics Engineers,2020:1 8.3 XIAO C,ZHONG H,GUO Z,et al.Cail2019-SCM:A datasetof similar case matching in legal domainEB/OL.(2019-11-20)2022-05-11.https:/arxi

42、v.org/abs/1911.08962.4 RANASINGHE T,ORASAN C,MITKOV R.Semantictextual similarity with siamese neural networksC/Proceedings of the International Conference on RecentAdvances in Natural Language Processing.London:IncomaLtd,2019:1004 1011.5 WANG J,DONG Y.Measurement of text similarity:asurveyJ.Informat

43、ion,2020,11(9):421 437.6 HUANG P S,HE X,GAO J,et al.Learning deep structuredsemantic models for web search using clickthroughdataC/Proceedings of the 22nd ACM InternationalConference on Information&Knowledge Management.NewYork:Association for Computing Machinery,2013:2333 2338.7 MUELLER J,THYAGARAJA

44、N A.Learning sentencesimilarity with siamese recurrent architecturesC/Proceedings of the Thirtieth AAAI Conference on ArtificialIntelligence.Menlo Park,CA:Association for the Advance ofArtificial Intelligence,2016:2786 2792.8 VASWANI A,SHAZEER N,PARMAR N,et al.Attention isall you needC/Proceedings o

45、f the 31st InternationalConference on Neural Information Processing System.NewYork:Curran Associates,2017:6000 6010.9 REIMERS N,GUREVYCH I.Sentence-bert:sentenceembeddings using siamese bert-networksEB/OL.(2019-08-27)2022-05-11.https:/arxiv.org/abs/1908.10084.10 王建中,王洪枫,刘弘扬,等.士兵目标的少样本深度学习检测方法 J.北京理工

46、大学学报,2021,41(6):629 635.WANG Jianzhong,WANG Hongfeng,LIU Hongyang,et al.A deep learning detection method for soldier target based onfew samplesJ.Transactions of Beijing Institute ofTechnology,2021,41(6):629-635.(in Chinese)11 DEVLIN J,CHANG M W,LEE K,et al.Bert:Pre-training ofdeep bidirectional tran

47、sformers for language understandingEB/OL.(2018-10-24)2022-05-11.https:/arxiv.org/abs/1810.04805.12 CHEN Q,ZHU X,LING Z,et al.Enhanced LSTM for natural 13 304北 京 理 工 大 学 学 报第 44 卷language inferenceC/Proceedings of the 55th AnnualMeeting of the Association for Computational Linguistics.Vancouver,Canad

48、a:Association for ComputationalLinguistics,2017:1657 1668.DUAN C,CUI L,CHEN X,et al.Attention-fused deepmatching network for natural language inferenceC/Proceedings of the 27th International Joint Conference onArtificial Intelligence.New York:International JointConferences on Artificial Intelligence

49、,2018:4033 4040.14 ZHANG R,ZHOU Q,WU B,et al.What do questions exactlyask?mfae:Duplicate question identification with multi-fusionasking emphasisC/Proceedings of the 2020 SIAMInternational Conference on Data Mining.Philadelphia:Society for Industrial and Applied Mathematics,2020:226 234.15 LI S,ZHAN

50、G H,YE L,et al.Prison term prediction oncriminal case description with deep learningJ.Computers,Materials&Continua,2020,62(3):1217 1231.16 ZHONG H,GUO Z,TU C,et al.Legal judgment predictionvia topological learningC/Proceedings of the 2018Conference on Empirical Methods in Natural LanguageProcessing.

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服