1、科 技 情 报 研 究SCIENTIFIC INFORMATION RESEARCH第5卷第3期Vol.5No.32023年7月Jul.2023基于预训练模型的法律文本类案匹配研究余传明江一帆中南财经政法大学信息与安全工程学院,武汉 430073摘要:目的/意义 文章旨在解决传统的短文本匹配模型难以适用于法律类案检索等长文匹配的问题。方法/过程 针对法律案例匹配任务,本文提出了一种基于预训练的法律文本类案匹配 LTMR 模型。在编码层通过 RoFormer 和法律特征提取器对法律案例进行编码,在推理层利用交互注意力和自注意力机制来进一步提取长文本的上下文和交互信息。将所提出的模型应用到 CAI
2、L2019-SCM 数据集上,开展实证研究。结果/结论 相对于基线方法,LTMR 模型在 CAIL2019 数据集上均取得了最优结果,研究结果对于促进法律案例匹配的应用具有借鉴意义。关键词:类案匹配;预训练模型;法律文本;文本语义匹配中图分类号:G358文献识别码:A文章编号:2096-7144(2023)03-0013-13DOI:10.19809/ki.kjqbyj.2023.03.002收稿日期:2023-03-31修回日期:2023-05-06基金项目:湖南省科技创新人才计划项目“湖南科技情报服务创新研究群体”(编号:2021RC5029);国家自然科学基金项目“面向跨语言观点摘要的领
3、域知识表示与融合模型研究”(编号:71974202);中南财经政法大学中央高校基本科研业务费专项资金资助项目(编号:2722021AJ011)。作者简介:余传明(ORCID:0000-0001-7099-0853),男,1978 年生,博士,教授,博士生导师,主要研究方向:智能情报服务,E-mail:;江一帆,女,1998 年生,硕士研究生,主要研究方向:信息检索与深度学习,E-mail:。1引言所谓类案,是指与待裁决的案件在法律关系、基本事实、争议焦点、程序处理、法律适用问题等方面具有相似性,且经由人民法院裁判生效的案件1。类案匹配通常是指给定一个查询案例,从候选案例中预测出相关案例2。总体
4、而言,类案匹配有助于实现案件裁决的公平性与效率性,能有效限制个人可能带来的偏见和影响,满足司法公平和审判效率的双重需求,是实现形式正义的最基本要求3。在此背景下,研究者尝试将信息处理技术应用到类案匹配等司法文书处理之中。例如,有学者尝试从语义表示的角度出发展开研究,将 GloVe4、FastText5等自然语言处理方法应用到法律文本的词嵌入中,在一定程度上提升了司法文书处理的效率。陈彦光等6依据刑事案件判决书构建知识图谱,将法律知识图谱用于司法文书知识建模。王君泽等7利用裁判文书的撰写规则,通过对案件详情部分抽取、词项重要性分析和案情相似度计算,来实现裁判文书类案的推送。盛小平等8从法律法规视
5、角出发,对隐私保护相关的条文进行对比,在此基础上提出优化策略。更有学者引入多模态融合的思想,进一步构造类案匹配模型。例如,13科 技 情 报 研 究第5卷第3期原旭等9为解决“类案不同判”等问题,提出了一种基于多模态特征融合的裁判文书推荐方法,主要包括预处理、特征提取、特征融合和文书推荐4个阶段,提高了类案匹配结果的准确率。尽管类案匹配在近年来已取得了较大进展10-12,但由于司法文书的特殊性13,类案匹配仍然面临以下挑战。首先,法律文书中存在“一字万金”的问题,即在法律专业术语中,一字不同会指向不同的罪名和量刑标准,这在较大程度上增加了类案匹配的难度。其次,法律案件中存在案件类型繁多且案情复
6、杂的情况,需要更强的推理能力去捕获案件的深层逻辑语义。此外,由于案件持续的时间以及案件复杂度的影响,法律类案检索所涉及到的文书往往具有较长的篇幅,这使得传统的短文本匹配模型难以适用。针对上述挑战,本文提出了基于 RoFormer 预训练模型的类案匹配模型,在编码层通过 RoFormer 预训练模型和法律特征提取器对法律案例进行编码,在推理层利用交互注意力和自注意力机制来进一步提取长文本的上下文和交互信息,并采取 R-Drop 一致性训练策略进行约束,在上述基础上开展实证研究,以期为相关研究提供借鉴。2相关研究概述从类案匹配所需要完成的目标来看,可将其视为文本匹配的子任务。通过将 2 个包含标题
7、、裁判要点、相关法条、基本案情、裁判结果和裁判理由的裁判文书作为输入,在此基础上预测其关系是否为同类案件。鉴于此,本文从文本匹配模型和类案匹配模型2个维度对相关研究展开系统性回顾。2.1文本匹配模型研究依照文本匹配在方法上的差异性,文本匹配模型可细分为传统的文本匹配模型、基于表示的文本匹配模型、基于交互的文本匹配模型和基于预训练的文本匹配模型。2.1.1传统的文本匹配模型该类方法通常基于特征工程,即先对数据进行特征选择(如TF-IDF算法14和BM25算法15等),再将其表示为计算机可以理解的语言。除此之外,LDA 主题模型16也常被应用到文档表示中。在传统的文本表示中,词汇表中的每个术语都表
8、示向量空间中的一个独立(正交)维度。这种方法简化了文档的表示,但这会生成非常高维的文档向量,从而使得所得到的文本表示矩阵过于稀疏。此外,上述方法没有考虑单词之间的语义关联。例如,两个含义相同而词汇不同的词语(如“buy”和“purchase”)在向量空间具有不同正交维度。此外,这些词语在句子中的词序信息在转化为向量的过程中也会丢失。2.1.2基于表示学习的文本匹配模型该类模型通常利用编码器将文本映射到低维空间,从而获得向量表示,在此基础上根据语义表示计算文档相似度,选择相似度最高的文档作为结果文档。例如,MIKOLOV 等17提出了 Word2Vec 词嵌入模型。相较于传统的特征工程方法,该模
9、型能够从训练数据中自动提取特征,但仍忽略了语序信息的作用。为解决该问题,研究者尝试使用卷积神经网络18来获取局部空间内的语义信息,以生成其语义表示,但仍然缺乏提取词序信息的能力。相较卷积神经网络,循环神经网络19更适用于序列建模任务,能够有效地提取文本上下文信息,但会随着文本长度的增加带来梯度消失和爆炸问题。为解决该类问题,研究者尝试使用 LSTM 或 BiLSTM 作为文本编码器,在一定程度上缓解了循环神经网络面临的远距离依赖和梯度问题20-21。整体而言,基于表示学习的文本匹配模型,其结构相对简单,忽略了文本之间的交互信息22。2.1.3基于交互的文本匹配模型该类模型通常计算交互矩阵或通过
10、注意力机制142023年7月余传明,江一帆:基于预训练模型的法律文本类案匹配研究来获取交互信息。例如,HU等23通过卷积操作获得句子对的交互矩阵,从而提取交互信息。CHEN 等24使用注意力机制来获取句子对之间的交互信息,将对齐后的交互信息与原始语义信息融合后用于模型预测。HUANG等25提出一种交互式知识增强网络,通过自注意力和交互注意力在文本中捕获更全面的文档特征。贾旭东等26通过设计基于多头注意力的胶囊网络模型,编码单词间的依赖关系,进一步提升模型效果。除交互矩阵或通过注意力机制以外,还有学者从多角度表征出发,进一步增强语义表示信息。例如,XU 等27通过构建 3 种基于 CNN 的增强
11、注意机制,捕获多粒度的相似特征;WANG等28采取多视角对齐的方式聚合句子间关系。另有一些研究尝试通过多次循环交互模块充分提取深层语义信息,如 DRCN29和RE230。此类模型相较于表示模型,效果得到了很大提升,但随着文本长度增加,多次交互的模型参数量激增,导致计算成本增高以及训练难度增大等。2.1.4基于预训练的文本匹配模型该类模型31-32通常在大型语料库上预训练语言模型的参数,然后根据下游任务微调模型参数。以BERT313-5为例,它将由SEP标记分隔的 2 个文本输入到模型中,通过利用编码器获得2个文本的交互信息。一方面,预训练模型取得了优异的性能,因为它们可以很好地从大型语料库中捕
12、获语义信息。另一方面,这些模型具有更多的训练参数,需要更多的时间和成本,导致对计算能力的高度依赖。2.2类案匹配模型研究类案匹配是通过计算案例间的相似度,间接匹配到对本案例具有支持关系的案例。相对于通用领域的文本匹配模型而言,由于法律文书通常具有更长的文本内容、专业的法律表达以及更为严谨的逻辑关系,因而面临更大的挑战。值得说明的是,目前在法律文本类案匹配方面尚缺乏系统性的研究。从目前类案匹配所采用的方法来看,多数研究旨在尝试将本文 2.1节所提到的文本匹配模型加以适配,使其能够适用于法律文本领域。例如,ZENG 等33提出了一种知识表示模型用于法律案件检索,将问题分解为若干子问题。一些常见的文
13、本表示方法被应用到这一领域,如考虑词汇特征的 TF-IDF 和 LDA 模型,以及词嵌入模型 Word2Vec 等,将法律案例映射为向量,通过度量向量相似度来判断案例的关系。针对法律案件中存在的复杂语义,研究者尝试利用更深层的网络结构去捕获上述信息。例如,陈志奎等34通过建立多模态特征融合网络获得法律文本的融合多模态特征表示,使用核密度估计方法进行映射后计算相似度。梁鸿翔等35设计投票机制将网络表示学习和文本卷积网络的结果进行融合,从而提高模型准确率。TRAN 等36提出了结合词汇特征和语义向量的方法,将法律案例编码为摘要,以提高模型的整体性能。HONG等37通过提取法律特征的方式增强法律文本
14、的语义信息。与文本匹配模型的研究相对应,也有研究者将文本间的交互信息引入到模型中。例如,SHAO 等38提 出 一 种 法 律 文 本 多 阶 段 匹 配 框 架(BERT-PLI)。其中,第一阶段是在段落蕴含任务上训练 BERT;第二阶段是将文档分为多个段落,使用BERT 预训练模型对查询和候选文档进行段落级交互建模,从而有效解决长文档问题。ALTHAMMER等39在 BERT-PLI 模型基础上展开进一步研究,在法律和专利领域进行了跨领域检索。上述模型主要通过深层的网络结构来获取和融合语义信息,整体取得了一些进展,但在如何有效利用法律文本特征和深层语义信息方面仍然存在较大改进空间。在模型之
15、外,研 究 者 也 尝 试 构 建 多 种 类 案 匹 配 数 据 集,如COLIEE201640、CaseLaw41、LeCaRD42和SCM201943等,为法律案例检索任务提供支持。在上述研究基础上,有研究者进一步尝试将文15科 技 情 报 研 究第5卷第3期本匹配模型应用到法条推荐、罪名预测和刑期预测等任务中。例如,王文广等44提出一种结合层次注意力网络(iHAN)和深度金字塔卷积神经网络混合模型,并将其应用于罪名预测、法条推荐和刑期预测。WANG等45根据法律文书的层次化结构,将分层匹配网络应用于罪名分类,以此提高预测准确率。YE等46使用 Seq2Seq模型生成法庭意见,从自然语言
16、生成的角度处理刑事案件预测任务。另有研究聚焦于通过联合建模多个子任务来学习司法判决中的逻辑关系。例如,ZHONG等47根据多任务学习的思想将司法判决分解为几个子任务,通过对子任务之间的拓扑关系建模,从而模拟法官进行司法判决时的逻辑。刘宗林等48对罪名预测和法条推荐这 2 个子任务进行联合建模,通过融合罪名关键词来解决易混淆罪名的问题。潘瑞东等49提出了基于 BERT 的多任务多标签文本分类模型,并以知识蒸馏策略改善损失。YANG 等50通过多视角法律判决预测框架,联合建模多个子任务来提高预测性能。ZHONG 等51基于大规模法律文本语料训练,提出了一个中文法律预训练语言模型 OpenCLaP。
17、上述模型主要通过联合建模多个子任务的方法来提升模型效果。但在实际应用中,一方面存在案件类型繁多且案情复杂的情况,需要更强的推理能力去捕获案件的深层逻辑语义;另一方面,针对法律长文本的研究相对较少。综上所述,本文提出了一种预训练模型的法律类案匹配模型,在 CAIL2019 数据集上与基线方法相比较,验证本文模型的有效性,并进一步探讨各个子模块及超参数对模型效果的影响。3研究问题与方法3.1任务定义对于类案匹配任务,从形式化定义来看,即给定案例文本 A、B 和 C 作为输入,通过机器学习算法或者深度神经网络结构理解文本文档 A 与文档 B 和文档 C 的关系,得到预测结果 (0,1)。当=0 时,
18、表示文档 A 与文档 B 相似度更高;当=1 时,表示文档A与文档C相似度更高。本文提出一种基于RoFormer预训练模型的法律文本类案匹配模型(Legal TextMatching base on Reformer,LTMR),并在此基础上探究2个问题:一是,相对于传统的类案匹配模型,本文所提出的 LTMR 模型是否具有更好的效果;二是,针对LTMR模型,从结构上看,其影响因素有哪些。3.2模型框架本文提出一种基于预训练模型的法律文本类案匹配模型 LTMR。模型的总体结构,如图 1所示,由编码层、推理层和预测层构成。在编码层,使用正则表达式提取法律文本中的金额和利率特征,将提取的法律文本的特
19、征信息与 RoFormer52预训练模型输出的向量进行拼接,得到法律文本的表示向量;在模型的推理层,使用交互注意力模块提取文本间的交互注意力信息,并融合交互注意力信息,将其送入自注意力模块,同样融合自注意力信息,送入池化层提取关键信息后,送入预测层进行预测任务。为了保证每个案件的预测结果尽可能的相同,在损失函数的计算时采用了 R-Drop 机制,使得同一样本在训练集和测试集的输出数据分布尽可能相同。3.2.1编码层编码层使用 RoFormer 预训练模型来编码文本,即使用旋转位置嵌入(RoPE)方法对位置信息进行编码。选择 RoFormer 的原因在于该模型利用旋转矩阵对绝对位置信息进行编码,
20、能够处理长度大于512的文本,具有扩展到任意长度的灵活性,从而解决了传统的基于 Transformer 结构的预训练模型的编码长度限制。以法律案例文本 A 的编码为例,假定文本A=a1,a2,ai,ala,la表示文本 A 的长度,编码层通过预训练模型 RoFormer 获得法律案例文本 A 的表162023年7月余传明,江一帆:基于预训练模型的法律文本类案匹配研究示矩阵 Ae,如公式(1)所示。Ae=Roformer()A la d,i 1,l(1)在法律特征提取部分,受 HONG 等研究者的启发,本文使用正则方法,针对案例中的案情事实部分提取对应的数字信息(如涉案金额和借款利率等)等特征,
21、构成向量并通过全连接网络映射后得到向量af,在后续计算中与文本的表示矩阵Ae拼接在一起,作为文本的整体语义表示Ae。案例B和案例C的计算同理,获得 3 个文本的表示向量Ae,Be和 Ce后,将其作为推理层的输入。Ae=ConcatAe;af(la+1)d(2)3.2.2推理层推理层旨在利用交互注意力和自注意力机制来进一步提取长文本的上下文和交互信息,由交互注意力模块、融合模块、自注意力模块和池化模块构成。3.2.2.1交互注意力模块在交互注意力模块(以案例 A 和案例 B 的交互为例),模型利用注意力机制来将文本向量进行对齐,从而提取文本对之间的交互信息。首先,将文档表示矩阵Ae与 Be相乘,
22、得到 2 个文本向量的相似矩阵E;然后,归一化计算每个词的权重,根据计算得到的注意力权重,分别计算文本Ae与 Be的对齐向量Ae和Be,如公式(3)(5)所示。E=Ae BeT(la+1)(lb+1)(3)Ae=Softmaxrow(E)Be(la+1)d(4)Be=Softmaxcol(E)TAe(lb+1)d(5)式中,Softmaxrow()、Softmaxcol()分别表示对每一行,每一列进行Softmax操作。3.2.2.2融合模块得到文档的表示向量Ae和交互注意对齐向量Ae后,在融合模块中对表示向量和对齐向量进行对位相减和对位相乘的操作,通过计算二者之间的差异性突出局部匹配信息,并
23、将表示向量和对齐向量与相减和相乘的结果拼接在一起,使用双向的 Bi-LSTM 进一步进行的信息融合。以案例文本 A 的融合为例,其步骤如公式(6)(7)所示。Ac=图1 模型框架17科 技 情 报 研 究第5卷第3期ConcatAe;Ae;(AeAe);(AeAe)(la+1)4d(6)Af=BiLSTM()ReLu(WAc+b)(la+1)d(7)式中,Af,为融合后的文档表示;Ac,为拼接后的文档表示;Concat(),为拼接函数;ReLu(),为激活函数。3.2.2.3自注意力模块为了应对长文本的长期依赖性,本文在交互注意模块后加入了自注意模块,以充分利用每个文本中的局部上下文信息(以案
24、例 A 为例说明)。首先,计算融合后的文档表示Af的自注意力矩阵Es;然后,归一化计算每个词之间注意力的权重,根据得到的权重计算案例 A 的自注意对齐向量As,具体计算如公式(8)和公式(9)所示。Es=AfAfT(la+1)(lb+1)(8)As=Softmax(Es).Af(la+1)d(9)同交互注意力模块类似,得到自注意对齐矩阵As后,使用融合模块将其与交互注意对齐向量Af进行信息融合,具体计算如公式(10)和公式(11)所示。Am=Concat(Af;As;(Af As);(AfAs)(la+1)4d(10)Ag=BiLSTM()Relu(W.Am+b)(la+1)d(11)3.2.
25、2.4池化模块池化模块旨在提取关键信息,对推理层得到的融合表示向量Ag a和Bg分别计算平均池化和最大池化的结果,并将所有的结果向量连接起来,生成包含案例 A 和案例 B 的聚合向量vab,如公式(12)所示。文本 A 和文本 C 的聚合向量按照相同的方法计算,得到向量vac,将聚合向量vab和vac送入预测层。vab=Max()Ag:Mean()Ag:Max()Bg:Mean()Bg1 4d(12)式中,vab,为案例 A 和案例 B 的聚合向量;:,表示按列拼接。3.2.4预测层在预测层通过计算池化操作得到的向量vab和vac之间的差值,然后将其送入分类器(由多层感知机MLP 及 Soft
26、max 函数构成)中进行预测,得到类别概率向量p。具体计算如公式(13)所示。p=Softmax()MLP(vab-vac)(13)本文使用交叉熵函数作为模型基础的损失函数。在模型训练中常采用 Dropout 方法规避过拟合问题,由于 Dropout 方法的给网络带来随机性,可能导致模型出现训练和推理不一致的情况。考虑到法律案件同案同判的原则,为提高模型的鲁棒性,本文引入了R-Drop53一致性训练策略。具体做法是在训练过程中将输入数据xi送入网络中训练 2次,根据 2次预测结果得到交叉熵损失之和LiCE,如公式(14)所示。LiCE=logP1()yi|xi logP2()yi|xi(14)
27、式中,LiCE,交叉熵损失之和;P1()yi|xi、P2()yi|xi,分别为第一次和第二次的预测结果概率分布。在公式(14)的基础上,计算2次预测分布之间的KL 散度。通过最小化同一样本的 2 个输出分布之间的 KL散度来正则化模型预测,KL散度损失函数如公式(15)所示。LiKL=12DKL(P1(yi|xi)|P2(yi|xi)+DKL()P2(yi|xi)|P1(yi|xi)(15)式中,LiKL,为双向 KL 散度损失函数的均值;DKL,为 KL 散度函数;P1()yi|xi、P2()yi|xi,分别为第一次和第二次的预测结果概率分布。在公式(14)和公式(15)的基础上得到最终损失
28、Li,如公式(16)所示。Li=LiCE+LiKL(16)182023年7月余传明,江一帆:基于预训练模型的法律文本类案匹配研究式中,为控制KL散度的超参数。在扩展实验部分将进一步探究其不同取值的影响效果。4实验结果与分析4.1数据集与实验设置本文实验所用数据集是 CAIL2019-SCM。该数据集包含 8 138个三元组形式的法律文件,数据格式为。其中,A,B和C都是来自中国审判网的民间借贷案件,每个案件的平均长度为 675;Label的取值为 B或 C,若取值为 B表示文档 A 与文档 B之间相似性更高;Label 的取值为 C 表示文档 A 与文档C 之间相似性更高。数据集的训练集、测试
29、集和验证集的案例三元组数量分别为5 102、1 536和1 500。在参数设置上,本文尽可能保证参数在各种模型中的一致性;在不能保证一致性的情况下,尽量保证和原始文献相同。具体而言,针对本文提出的模型及预训练模型,隐藏层使用的维度设置为 768,其余模型均使用 GloVe-300d 词向量。在模型中均使用Dropout方法(统一设为 0.4)减少过拟合问题,训练时使用学习率为0.00001的Adam优化器,训练的Epoch设置为 8。在评价指标上,采用准确度(Acc)来衡量正确预测的样本在总样本中所占的比例。4.2模型与基线的效果对比为了检验模型的有效性,我们在 CAIL2019-SCM数据集
30、上对比 LTMR 模型与 8 种基线模型的效果差异。具体而言,包括传统的文本匹配算法 TF-IDF、基于表示的文本匹配模型 TextCNN、LSTM 和 DPCNN、基于交互的模型 ESIM 和 DRCN、以及预训练模型BERT和RoFormer。由 表 1 可 以 看 出,在 基 于 表 示 的 模 型 中,TextCNN 在验证集上的 Acc 指标值为 62.27%,优于LSTM 和 DPCNN 取得的结果;在基于交互的模型中,ESIM 在验证集上的指标值为 66.93%,优于 DRCN 所取得的结果;在预训练模型中,RoFormer 在验证集上的指标值为 66.07%,优于 BERT 取
31、得的结果。对比 8个基线方法,本文提出的模型分别在验证集和测试集上均取得了最优效果,其 Acc 值分别为 69.53%和74.02%,相 比 于 基 线 方 法 中 表 现 较 好 的 模 型RoFormer,分别提升了3.46和4.23个百分点。表1 基础实验结果模型方法TF-IDF54TextCNNLSTMDPCNNESIMRCNNBERTRoFormer验证集Acc值(%)52.9062.2762.2064.2066.9363.6764.1366.07测试集Acc值(%)53.3069.5368.1068.1667.2564.3267.7769.794.3不同模块对模型的效果影响为了进一
32、步探究模型各部分对预测结果的影响作用,本文设计了消融实验,包括去掉RoFormer模块(即使用 GloVe-300d 词向量作为语义向量送入后续推理层,用“本模型 w/o RoFormer”表示)、去掉法律特征提取模块(仅以BERT的CLS向量作为语义表示向量送入后续推理层,用“本模型 w/o LF”表示)以及去掉 R-Drop 机制(即以交叉熵作为整体损失,用“本模型w/o R-drop”表示)。由表 2可以看出,相较于使用 GloVe进行词嵌入的实验结果,本文方法在验证集和测试集上分别提升了 4.81 和 5.94 个百分点,表明使用预训练模型生成的向量表示对模型效果的提升效果。相较于去除
33、模型中法律特征的实验结果,本文方法在验证集和测试集上分别提升了 0.51 和 2.68 个百分点,证实了法律特征增强语义表示信息的有效性。相较于去除了 R-Drop 机制的实验结果,本文方法在验证集和测试集上分别提升了 0.21 和 1.75 个百分点,表明通过19科 技 情 报 研 究第5卷第3期约束同一样本的2个输出分布之间的KL散度对提升模型预测效果具有显著效果,能够提升预测精度。表2 消融实验模型方法本模型 w/o RoFormer本模型w/o LF本模型 w/o R-Drop本模型验证集Acc值(%)64.7269.0269.3269.53测试集Acc值(%)68.0871.3472
34、.2774.024.4超参数对模型的效果影响本文采用 R-Drop 来避免传统 Dropout 机制的随机性引起的偏差。为探究超参数 的最佳取值,参考LIANG 等研究者在自然语言理解中应用 R-Drop 的做法。本文将 设置为 1,3,5和 10分别进行实验,实验结果,见表 3。从表 3 可以看出,当 取值为 5 和 10时,模型效果相对较好,在验证集和测试集上分别取得了最优效果(即 70.40%和 74.02%),表明超参数对模型效果具有一定影响。表3 R-Drop参数设置对模型的效果影响参数设置不加入R-Drop13510验证集Acc值(%)68.6769.8069.6070.4069.
35、53测试集Acc值(%)71.6773.3772.6173.6374.024.5讨论针对法律长文本的类案匹配任务,本文提出了一个基于 RoFormer 的法律文本匹配模型 LTMR。面向匹配模型在法律领域文本上的应用,提出2个研究问题并展开讨论。针对研究问题 1(相对于传统的类案匹配模型,本文所提出的LTMR模型是否具有更好的效果),本文模型在训练集和验证集上的指标均显著优于传统的文本匹配算法 TF-IDF、基于表示的文本匹配模型 TextCNN、LSTM 和 DPCNN、基于交互的模 型 ESIM 和 DRCN、以 及 预 训 练 模 型 BERT 和RoFormer。实验结果表明,相对于传
36、统的类案匹配模型,本文所提出的 LTMR 模型是否具有更好的效果。针对研究问题 2(对于 LTMR 模型,从结构上看其影响因素有哪些),本文设计了消融实验,包括去掉RoFormer 模块、去掉法律特征提取模块以及去掉 R-Drop 机制。实验结果表明,3 个子模块对 LTMR 模型的效果存在显著影响,验证了本文所提出的各个模块在法律文本类案匹配上的有效性。此外,通过将超参数 设置为 1,3,5 和 10 分别进行实验,表明超参数对模型效果具有一定影响。本文的研究具有以下借鉴意义。首先,从模型原理上来看,本文提出一种基于预训练的法律文本类案匹配,研究对于提升长文本匹配模型效果具有促进作用,理论上
37、可以扩展到更多领域。例如,除民事案件外,本研究可推广至刑事案件或行政案件。针对这2种不同类型的案件,可考虑根据案件特质修改法律特征提取器的侧重点(如民事案件关注于涉案金额的提取,刑事案件关注于罪名的提取,行政案件关注于涉案权力与义务等实体的提取等),当研究对象为科技文献时,模型可用于科技论文和专利等长文本匹配场景,用于寻找与特定文献相关的最相似文献。在后续研究中,我们将进一步探究模型在不同应用场景中的可扩展性。其次,从纵向上来看,长文本匹配在很大程度上决定了其下游任务(如智能问答、阅读理解和智能检索等)的效果。本文的核心思想是在编码层通过RoFormer 和法律特征提取器对法律案例进行编码,在
38、推理层利用交互注意力和自注意力机制来进一步提取长文本的上下文和交互信息,这为提升下游任务的效果打下了较好的基础。例如,本文提升了法律案例匹配的效果,在此基础上,有望为法条推荐、法律问答系统和自动判决系统等下游任务提供基础支撑。在后续研究中,我们将进一步将本文模型应用到智能问答等下游任务中,进一步检验模型对其效果的提升作用。202023年7月余传明,江一帆:基于预训练模型的法律文本类案匹配研究5结语针对法律案例匹配任务,本文提出了一种基于RoFormer 预训练模型的法律文本类案匹配模型LTMR。在编码层通过RoFormer预训练模型和法律特征提取器对法律案例进行编码;在推理层利用交互注意力和自
39、注意力机制来进一步提取长文本的上下文和交互信息,并采取 R-Drop 一致性训练策略进行约束。相对于基线方法,LTMR模型在 CAIL2019数据集上均取得了最优结果。研究结果对于促进法律案例匹配的应用具有借鉴意义。受篇幅限制,本文未能对以法律文本类案匹配为基础的下游任务和更多的应用场景展开研究。在后续研究中,我们将进一步从横向和纵向2个维度探究模型在下游任务及不同应用场景中的可扩展性,并尝试以实体信息融合的方式增强法律文本的语义表示,以期达到更好的预测效果。参考文献:1 北京市三中院课题组,齐晓丹,史智军,等.类案检索报告制作和运用机制研究J.法律适用,2020(12):3-14.2 HU
40、WEIFENG,ZHAO SIWEN,ZHAO QIANG,et al.BERT_LF:A Similar Case Retrieval Method Basedon Legal FactsJ.Wireless Communications and Mobile Computing,2022.3 高尚.司法类案的判断标准及其运用J.法律科学(西北政法大学学报),2020,38(01):24-35.4 PENNINGTON J,SOCHER R,MANNING C.GloVe:global vectors for word representationC/Proceedingsof the 20
41、14 Conference on Empirical Methods in Natural Language Processing.Stroudsburg:Associationfor Computational Linguistics,2014:1532-1543.5 JOULIN A,GRAVE E,BOJANOWSKI P,et al.FastText.zip:Compressing text classification modelsJ.(2016-12-12)2022-06-24.https:/arxiv.org/pdf/1612.03651.pdf.6 陈彦光,刘海顺,李春楠,等.
42、基于刑事案例的知识图谱构建技术J.郑州大学学报(理学版),2019,51(03):85-90.7 王君泽,马洪晶,张毅,等.裁判文书类案推送中的案情相似度计算模型研究J.计算机工程与科学,2019,41(12):2193-2201.8 盛小平,唐筠杰.国内法律法规视角下的个人隐私保护研究J.科技情报研究,2022,4(04):54-62.9 原旭,韩雪姣,陈志奎,等.多模态特征融合的裁判文书推荐方法J.微电子学与计算机,2020,37(12):42-47.10 梁柱,沈思,叶文豪,等.基于结构内容特征的裁判文书自动推荐研究J.情报学报,2022,41(02):167-175.11 VU TRA
43、N,MINH LE NGUYEN,SATOSHI TOJO,et al.Encoded summarization:summarizing documentsinto continuous vector space for legal case retrievalJ.Artificial Intelligence and Law,2020(28):441-467.12 陈润好.公共文化机构参与非遗保护的职责、范畴和对象:基于法规条文的解析J.图书情报知识,2019(06):59-67.21科 技 情 报 研 究第5卷第3期13 曹磊,刘晓燕.类案检索应用的困境与破解:以助力法官裁决及文书撰写为
44、视角J.中国应用法学,2021(05):162-172.14 黄承慧,印鉴,侯昉.一种结合词项语义信息和TF-IDF方法的文本相似度量方法J.计算机学报,2011,34(05):856-864.15HEB,OUNISI.TermFrequencyNormalisationTuningforBM25andDFRModelsJ.EuropeanConference on Information Retrieval,2005(3408):200-214.16 GRIFFITHS T L,STEYVERS M.Finding scientific topicsJ.Proceedings of the
45、National Academy ofSciences of the United States of America,2004,101(suppl1):5228-5235.17 MIKOLOV T,CHEN K,CORRADO G,et al.Efficient estimation of word representations in vector spaceJ/OL.(2013-09-07)2022-06-24.https:/arxiv.org/pdf/1301.3781.pdf.18 Y.KIM.Convolutional Neural Networks for Sentence Cl
46、assificationC/(2014-09-03)2022-06-24.https:/arxiv.org/pdf/1408.5882v2.pdf.19 TAN M,DOS SANTOS C,XIANG B,et al.Improved Representation Learning for Question AnswerMatchingC/Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics.Stroudsburg:Association for Computationa
47、l Linguistics,2016:464-473.20 LU W P,ZHANG X,LU H M,et al.Deep hierarchical encoding model for sentence semantic matchingJ.Journal of Visual Communication and Image Representation,2020(71):102794.21 PETERS M E,NEUMANN M,IYYER M,et al.Deep contextualized word representationsC/Proceedingsof the 2018 C
48、onference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies.Stroudsburg:Association for Computational Linguistics,2018:2227-2237.22 RADFORD A,NARASIMHAN K,SALIMANS T,et al.Improving language understanding by generativepre-trainingJ/OL.(2020-06
49、-24)2022-06-24.https:/www.cs.ubc.ca/amuham01/LING530/papers/radford2018 improving.pdf.23 HU B T,LU Z D,LI H,et al.Convolutional neural network architectures for matching natural languagesentencesC/Proceedings of the Advances in Neural Information Processing Systems.Cambridge:MITPress,2014:2042-2050.
50、24 CHEN Q,ZHU X D,LING Z H,et al.Enhanced LSTM for natural language inferenceC/Proceedings ofthe 55th Annual Meeting of the Association for Computational Linguistics.Stroudsburg:Association forComputational Linguistics,2017:1657-1668.25 HUANG W Y,QU Q,YANG M.Interactive knowledge-enhanced attention