融入法因层次结构的法因预测IHLCP模型.pdf

资源描述

1、第3 8卷第1期2 0 2 4年1月中文信息学报J OUR NA LO FCH I N E S EI N F O RMAT I ONP R O C E S S I NGV o l.3 8,N o.1J a n.,2 0 2 4文章编号:1 0 0 3-0 0 7 7(2 0 2 4)0 1-0 1 4 6-1 0融入法因层次结构的法因预测I H L C P模型黄思嘉1,2,彭艳兵2(1.武汉邮电科学研究院,湖北武汉4 3 0 0 7 4;2.南京烽火天地通信科技有限公司,江苏南京2 1 0 0 1 9)摘要:该文针对当前法律智能体系可解释性差、低频易混淆法因预测效果不佳、民事纠纷研究过

2、少的问题,设计了一种可解释性层次法因预测I HL C P模型,并将法因之间的层次依赖关系作为模型可解释性的来源进行了研究。模型首先基于案件的语义差异性对事实描述进行编码,然后通过改进的s e q 2 s e q-a t t e n t i o n模块来预测法因路径,并利用法因内部的文本信息过滤事实描述中的噪声信息,以获得可靠的预测效果。该文设计的I HL C P模型在C I V I L、F S C和C A I L这三个大规模公开数据集上分别达到了当前最好的效果(C I V I L数据集:A C C-9 1.0%,P R E-6 7.5%,R E C A L L-5 7.9%,F1-6 2.3%

3、。F S C数据集:A C C-9 4.9%,P R E-7 8.8%,R E C A L L-7 5.9%,F1-7 7.3%。C A I L数据集:A C C-9 2.3%,P R E-9 0.9%,R E C A L L-8 9.7%,F1-9 0.3%),其中A C C和F1值分别最高提升了6.6%和1 3.4%。实验结果表明,该设计能够帮助系统理解法因,弥补了当前法律智能体系在低频、易混淆法因预测上的不足,同时提升了模型的可解释性。关键词:层次法因预测;可解释性;语义差异性;数据不平衡;低频类别预测中图分类号:T P 3 9 1 文献标识码:AA nI n t e r p r e t

4、 a b l eH i e r a r c h i c a lL e g a lC a u s eP r e d i c t i o nM o d e lW i t hL e g a lC a u s eH i e r a r c h yHUAN GS i j i a1,2,P E N GY a n b i n g2(1.W u h a nR e s e a r c hI n s t i t u t eo fP o s t sa n dT e l e c o mm u n i c a t i o n s,Wu h a n,H u b e i 4 3 0 0 7 4,C h i n a;(2.N

5、 a n j i n gF i b e r h o m eW o r l dC o mm u n i c a t i o nT e c h n o l o g yC o.L t d.,N a n j i n g,J i a n g s u2 1 0 0 1 9,C h i n a)A b s t r a c t:T oa d d r e s ss u c hi s s u e sa s t h ep o o r i n t e r p r e t a b i l i t yo f c u r r e n t l e g a l i n t e l l i g e n c es y s t e

6、m,t h eu n s a t i s f a c t o r yp r e d i c t i o no f l e s s-f r e q u e n t a n dc o n f u s i n g l e g a l c a u s e sa n dt h e i n s u f f i c i e n t r e s e a r c ho nc i v i l d i s p u t e s,a n i n t e r p r e t a b l eh i e r a r c h i c a l l e g a l c a u s e sp r e d i c t i o nm o

7、 d e l(I HL C P)i sp r o p o s e d,t a k i n gt h eh i e r a r c h i c a ld e p e n d e n c eb e t w e e nl e g a lc a u s e sa s t h es o u r c eo f i n t e r p r e t a b i l i t y.I nI HL C P,t h e f a c td e s c r i p t i o n i se n c o d e db yc a p t u r i n gt h es e m a n t i cd i f f e r-e n

8、 c e so f c a s e s,a n da n i m p r o v e da t t e n t i o n-b a s e ds e q 2 s e qm o d e l i su s e dt op r e d i c t t h ec a u s ep a t h.F u r t h e r,t h e i n n e rt e x t i n f o r m a t i o no f t h e c a u s e i su s e d t o f i l t e r o u t t h en o i s e i n f o r m a t i o n i n t h e

9、 f a c t d e s c r i p t i o n.E x p e r i m e n t s s h o wt h a tt h e I HL C Pm o d e ld e s i g n e di nt h i sp a p e rh a sa c h i e v e dt h es t a t e-o f-a r tp e r f o r m a n c eo nt h r e el a r g e-s c a l ed a t as e t s:C I V I L(A C C-9 1.0%,P r e-6 7.5%,R e c a l l-5 7.9%,F1-6 2.3%)

10、,F S C(A C C-9 4.9%,P R E-7 8.8%,R E C A L L-7 5.9%,F1-7 7.3%)a n dC A I L(A C C-9 2.3%,P r e-9 0.9%,R e c a l l-8 9.7%,F1-9 0.3%),b o o s t i n gt h eA C Ca n dF1b y6.6%a n d1 3.4%,r e s p e c t i v e l y.T h ee x p e r i m e n t a l r e s u c e s s h o wt h a t t h i sm o d e l c a nh e l pt h es

11、y s t e mt ou n d e r s t a n dt h e l a wc a u s e s,m a k eu pf o r t h es t a r t c o m i n g so f c u r r e n t l e g a l i n t e l l i g e n c es y s t e mi nf e w-s h o ta n dc o n f u s i n gC a u s e so f l a wp r e d i c t i o n,m a k eu pf o r t h ed e f i c i e n c yo f l o wf r e q u e n

12、 c yc o n f u s i n gc a u s ep r e d i c t i o na n d i m p r o v e t h e i n t e rp r e t a b i l i t yo f t h em o d e l.K e y w o r d s:h i e r a r c h i c a l l e g a l c a u s ep r e d i c t i o n;i n t e r p r e t a b i l i t y;s e m a n t i cd i f f e r e n c e s;d a t a i m b a l a n c e;f

13、e w-s h o tp r e d i c t i o n收稿日期:2 0 2 1-0 7-2 1 定稿日期:2 0 2 1-1 0-1 10 引言法律领域是一个由大量数据积累的领域,非常适合运用由数据驱动的各项人工智能技术。与金融、医疗等其他垂直领域相比,法律文书拥有高质量的文本信息,不仅表述严谨规范,且具有丰富的数据支撑。按照诉讼性质的不同,法律文书可以分为两类:刑事案件文书和民事案件文书。基于这些法律文书,本文将法官判决结果作为标准答案,将案情事1期黄思嘉等:融入法因层次结构的法因预测I HL C P模型实描述作为训练样例,期望以数据驱动的方法学习法律体系的相关信息,以形成一套较为有效

14、的自动判决预测系统。智能法因预测的目的是根据案情事实描述预测刑事案件的罪名或民事案件的纠纷类型。其作为法律自动判决体系的一项代表性工作,有望推动诸如自动量刑、智能法官助理、案情关系网络构建等一系列现实应用。但目前这一工作并不乐观,表现如下:(1)基于民事案件的研究较少。由于民事案情较刑事案件更为复杂多样,判决结果无法简单地用分类或回归建模,因此现有的工作主要集中在对刑事案件的研究上,基于民事案件的研究相对较少。(2)一些低频、易混淆法因难以预测。本文针对中国裁判文书网中的刑事和民事数据集的分布情况进行了统计分析,分析结果如图1所示。可以看出,该分布是典型的长尾分布,极少数法因标签具有较高的数据

15、量,而大部分法因标签数据量较少。这种极不平衡的分布现象使得预测低频类别变得十分困难。图1 刑事、民事数据分布统计图现有的预测系统针对高频类别能够充分发挥作用,但对于低频类别的处理效果并不理想,而且案件事实描述部分存在着许多极为相似的易混淆原因对。例如,在我国刑事案件语境中,采用模型区分“强迫他人吸毒罪”和“容留他人吸毒罪”的关键,是能否从事实描述中确定被告在他人吸食、注射毒品时是否存在暴力胁迫行为,而该工作需要基于文本的语义差异性进行建模。(3)案情事实描述存在数罪并罚问题。由于犯罪嫌疑人在一条案例中可能存在多种指控,因此法因预测并非简单的单标签分类任务,案情事实描述中也存在着部分数罪并罚问题

16、,需要作多标签分类处理。B o u t e l等人1指出目前主流的多标签文本分类方法,主要包括:标签p o w e r s e t、分类器链和二元关联策略。其中,标签p o w e r s e t是通过额外添加预测类别的方式将每一组共现的标签组合归一为一种新类别。分类器链方法则适用于标签之间存在特定关联的场景(总分、承接关系等),这种作法是将上层分类器的预测结果链入后层分类器以实现关联性的多标签分类方法。二元关联策略则是将多标签中的每一个标签拆分为一个单独类别,并对每个类别进行二元分类。基于这些多标签的学习算法,我们可以将数罪并罚问题进行转化。(4)现有模型可解释性差。现有的法律文书自动研判模

17、型已经具有良好的性能,但模型的判断过程难以解释,结果并不可靠。这种不可解释性使得法律自动判研系统难以为法律专业人士提供良好的技术支撑,从而影响系统的实际应用。图2为部分法因层次结构示意图。从图2可知,无论是刑事罪名还是民事纠纷类型,都存在着显著的层次依赖关系。这种层次结构能够为各种法因提供有效的信息,特别是对于那些低频、易混淆类别而言,每个叶子节点(法因),都有唯一一条路径将其与根节点(案情描述)连接起来。因此本文借鉴多标签分类问题的分类器链思想来进行法因预测,并将法因的外部层次依赖关系作为模型可解释性的来源,在预测法因路径的过程中通过父法因来区分低频、易混淆法因。此外,法律领域的法因通常十分

18、明确,它们的每一个名称可以被视为对某类案例准确和精炼的描述。而这种关键的文本信息可以被用来过滤掉事实描述中的噪声信息,仅保留影响判决结果的关键部分,为准确预测提供可能。然而,现有的分类模型只是将每个法因视为一个分类标签,而忽略了其名称中隐含的内部信息,具有不可靠性。需要说明的是,数罪并罚任务属于多标签分类问题,会增加模型预测的难度,故本文将该任务作为后续工作的研究方向,在本文中不做深入讨论。总之,本文针对法律智能体系的现状提出了I HL C P模型,该模型融入了法因的外部层次依赖关系,在提升模型可解释性的同时,基于内部文本信息对法因进行预测,期望打破自动判决预测系统在低频易混淆法因预测上的瓶颈

19、。具体来说,本文将法741h t t p s:/w e n s h u.c o u r t.g o v.c n/中文信息学报2 0 2 4年因路径作为模型可解释性的来源,将每个法因转换为从根节点到叶子节点的路径,提出了一个基于内部文本注意的S e q 2 S e q模型,并通过事实描述的语义差异性来预测法因路径。图2 部分法因层次结构示意图1 相关工作1.1 少样本学习目前主流的传统深度学习模型需要大量的数据进行支撑,而少样本学习的提出则是为了解决缺少足够多训练数据的特定场景问题。少样本学习主要有两种方法,一种是构建网络结构或图结构。借鉴人眼可以自动提取物体特征并进行比较学习的思想

20、,S u n g等人2提出了一种关系网络来将嵌入单元和关系单元进行联合比较,并根据比较的结果判断测试数据所属的类别。另一种是增加额外的附加信息,如H u等人3通过引入一些罪名的区分属性(盈利、买卖行为、死亡情节、暴力行为等)作为事实描述到罪名之间的内部映射来捕捉与特定属性相关的关键事实信息,进行低频罪名预测任务。近年来,诸如B E R T4、X L N e t5等各种预训练语言模型的出现,使得我们可以凭借大规模的外部知识或数据在无标注数据上进行学习。1.2 罪名预测任务深度学习技术的快速发展,使得各种神经网络模型在N L P任务中表现出了良好的性能。L u o等人6将罪名预测任务和相关法条提取

21、任务用一个统一的框架进行建模。该模型采用一个两阶段式的注意力机制从案件事实描述预测相关法律条款,并进一步预测罪名,通过使用一系列注意力组件来建模单词和句子之间的相关性,从而捕捉整个案件的重要细节。H u等人3引入了一些罪名的区分属性作为事实描述到罪名的内部映射,并将这些属性感知表示与无属性表示相结合,以预测最终罪名。受这些工作的启发,本文在模型中引入了刑法和民法体系中所有法因的依赖结构,这种直接的层次依赖关系能够缓解刑法和民法数据分布不平衡的现象,并有助于区分不同父节点下的易混淆法因。同时由于S e q 2 S e q模型在层次化依赖建模方面的优势,本文利用法因的名称作为注意的Q u e r

22、y值,达到逐级过滤实际描述中噪声信息的效果。1.3 模型可解释性可解释性是指模型解释其预测的能力,目前已经引起了越来越多的关注。H e n d r i c k s等人7将解释的概念分为自省解释和正当解释。所谓自省解释,即解释模型如何确定其最终输出。考虑到罪名和法条之间的高度相关性,L u o等人6将该次预测相关的法条视为对罪名预测的一种解释性,采用事实和法条之间的注意力机制进行罪名预测。另外一种内省解释为定罪要素,通过标注事实描述中的定罪要素作为判决的中间结果,也能够起到解释最终判决结果的作用。Z h o n g等人8基于无罪推论和要素审判原则,对定罪要素进行预测,并直接基于要素预测结果进行罪

23、名预测,使整个系统更具透明性和可解释性。所谓正当解释,则是通过生成一些句子,作为支撑系统预测结果的相关依据。Y e等人9将庭审意见作为罪名预测的解释性来源,使用S e q 2 S e q模型,根据案件的事实描述和给定的罪名标签来生成庭审意见。本文将罪名之间的层次依赖关系作为模型可解释性的来源,通过预测法因路径来提升模型的可解释性。2 I H L C P法因预测系统本节首先给出法因预测的任务定义,再详细介8411期黄思嘉等:融入法因层次结构的法因预测I HL C P模型绍本文提出的I HL C P模型。2.1 任务定义本文维护了刑事和民事法律文书的词表V,及层次结构中所有法因的集合Y。定义输入的

24、案情事实描述序列X=x1,xm,xM,其中xmV。如图2所示,将待预测法因沿外部层次结构,转化为从根节点到叶子节点的路径,即法因序列y=y1,yi,yI,其中,yiY。定义每个法因yi的简短描述为nyi=x1,xl,xLy,用于过滤事实描述中的噪声信息。综上所述,模型定义法因序列y的预测概率如式(1)所示。p(y|X)=Ii=1p(yi|y1:i-1,X)(1)如图3所示,I H L C P模型由事实编码器和法因预测器两部分组成。事实编码器负责将案情事实描述X进行编码,法因预测器则按照法因的层次结构解码出法因序列y,本文将在接下来的部分进行详细介绍。图3 I HL C P模型流程示意图2.2

25、事实编码器由于案情事实描述文档包含较长的文本,且文本上下文之间关联性较强,本文在事实编码器部分采用改进的X L N e t-D P C NN模型,将事实描述的词序列进行编码,作为法因预测器的输入。其中,X L N e t5模型采用了T r a n s f o r m e r-X L1 0进行编码。相较于T r a n s f o r m e r1 1模型,T r a n s f o r m e r-X L的段循环机制1 0和相对位置编码1 0策略使得模型更具上下文语义相关性,且具有更低的评估代价。X L N e t模型使用了双流自注意力机制5和段缓存机制5来建模,以应

26、对更长的距离依赖,打破了B E R T模型无法有效处理超长文本的弊端。D P C NN1 2模型则通过不断交替卷积层和下采样层来使模型在加深网络层次的过程中捕获更多全局信息。D P C N N模型采用了R e g i o nE m b e d d i n g1 2的词嵌入方法,该方法类似于T e x t-C NN1 3,是对一个文本区域段进行多尺度卷积的结果。但R e g i o nEm b e d d i n g无法充分理解语义,当把词压缩到低维稠密的语义空间之后,相似意义的词会出现共线问题,即拥有相同的词向量。因此本设计采用X L N e t模型生成词向量来替代D P C N

27、N模型中原有的R e g i o nEm b e d d i n g词向量。网络层次的不断加深,会使模型的整体分布逐渐向激活函数不敏感的区域靠近。而把每一层神经元的激活值作批标准化B N1 4处理,能够使模型保留更多的信息,有效避免梯度消失现象,加快模型训练速度。因此本文在D P C NN模型的每一个B l o c k中引入一层B N1 4来加速模型的收敛过程,使模型训练更加稳定。D P C NN原模型中采用了R e L U1 5激活函数,与s i g m o i d等激活函数相比,R e L U1 5收敛更快,能够在一定程度上能够缓解梯度消失和过拟合现象,如式(2)所示。fR e

28、L U(x)=m a x(0,x)(2)由式(2)可以看出,R e L U的输出均为非负值,当参数初始化不当时,可能会导致训练过程中某些神经元无法被激活,相应参数无法被更新的结果。为了解决R e L U激活函数的弊端,本文在D P C NN模型中采用M i s h激活函数1 6,如式(3)所示。fM i s h(x)=xt h a n h(l n(1+ex)(3)与R e L U激活函数相比,M i s h激活函数理论上对负值有轻微允许,这种相对平滑的激活函数允许更好的信息进入神经网络,从而提升模型的准确性和泛化能力。随着网络层数的加深,R e L U的精度会迅速下降,而M

29、 i s h激活函数仍然能够保持良好性能1 6。事实编码器的模型架构如图4所示,首先使用X L N e t将输入的案情事实描述X=x1,xm,xM 中的每个单词xm进行编码,得到k维嵌入的词向量Xm,然后将各词向量进行拼接得到向量矩阵X,如式(4)所示。X=X1,Xm,XM(4)941中文信息学报2 0 2 4年图4 事实编码器模型架构图然后采用等长卷积1 2生成特征,设卷积核WRkf(wk),偏置bRkf,其中kf为滤波器大小,w为滤波器宽度,fM i s h代表使用M i s h激活函数进行非线性激活,则词向量Xi:i+w-1产生的特征vi如式(5)所示。vi=fM i s h

30、(WXi:i+w-1+b)(5)经过卷积步骤,得到隐藏的状态序列v=v1,vm,vM,作为法因预测器部分法因注意的v a l u e s。将v最大池化的结果h0,j作为法因预测器的i n i t i a l-s t a t e,如式(6)所示。h0,j=m a x(v1,j,vM,j),j1,kf(6)将v平均池化的结果hf,j作为法因预测器的f i n a l-s t a t e,如式(7)所示。hf,j=m e a n(v1,j,vM,j),j1,kf(7)2.3 法因预测器本模块基于s e q 2 s e q1 7模型的解码器进行法因预测,并在其中加入注意力机制,模型结构如图5所示。图

31、5 法因预测器模型架构图时间步i中L S TM单元的输入由两部分组成:法因表示yi和法因感知事实表示ci。其中,法因表示yi是法因名称nyi的表示,由上一时间步预测得到的法因编码得到,如式(8)所示。yi=v e c(nyi)(8)为了去除事实描述中的无用信息,在每个时间步i,本模块利用上一时间步得到的法因表示yi-1从事实编码向量中选择最相关的信息v。具体来说,本模块采用以下法因注意机制得到法因感知事实表示ci。首先用B a h d a n a uA t t e n t i o n1 8机制计算隐态v的权重i如式(9)、式(1 0)所示。e(yi-1,vj)=U t a n h(W0yi-

32、1+W1vj+b)(9)i,j=e x p(e(yi-1,vj)t1,Me x p(e(yi-1,vj)(1 0)其中,U、W0、W1和b均为训练参数,则法因感知事实表示ci如式(1 1)所示。ci=Mj=1i,jvj(1 1)同时为了保证预测的法因序列与法因的层次结构一致,本文借鉴T e a c h e rF o r c i n g1 9的思想,采用m a s k分类来限制模型的预测范围。对于每一时间步中解码器单元的输出hi,本文使用一个权重共享0511期黄思嘉等:融入法因层次结构的法因预测I HL C P模型全连接层将其映射到法因空间。对于法因yi,若其不是yi-1的子节点,将被m a s

33、 k到负无穷。因此,在S o f t m a x操作后,这些不符合法因层次依赖关系的法因的概率将为0。这意味着当前预测范围中的法因必须是之前预测法因的子节点。该操作可以形式化为式(1 2)、式(1 3)所示。p(yi|y1:i-1,x)=S o f t m a x(M a s k(Wphi+bp,yi-1)(1 2)M a s k(xj,y)=xj(y)=yi-1-(y)yi-1(1 3)其中,Wp和bp为全连接层参数,(y)代表y的父法因。综上,本模块在法因预测器部分采用法因类型作为注意的Q u e r y值来过滤事实描述中的噪声信息,并引入了法因之间的层次依赖关系,来有效解决由于标签数据长

34、尾分布导致的数据不平衡问题,同时来区分那些事实描述部分极为相似却位于不同父节点下的易混淆法因。2.4 模型训练由于刑法和民法体系数据分布极不平衡,本文在S e q u e n c eL o s s1 7中结合了焦点损失2 0的思想,训练目标是最小化待预测的法因序列与真实值之间的损失,损失函数如式(1 4)所示。L o s s=-1LLi=1(1-yiyi)l o g(p(yi|y1:i-1,x)(1 4)其中,L为待预测法因序列的长度,yi为法因的真实值,yi为法因的预测值。3 实验与分析为了证明本文提出的I HL C P模型的有效性,本文在几个刑事和民事数据集上进行了实验。3.1 数据集构建

35、针对我国公开发布的刑事法律文书和民事法律文书搜集整理了3个大规模数据集:C A I L2 1、F S C3和C I V I L。其中,C A I L2 1是我国第一个用于判决预测的大规模法律竞赛数据集。F S C3是H u等人构建的侧重于对我国刑法数据集中的低频易混淆罪名学习的数据集。C I V I L数据集是从中国裁判文书网上收集的民法数据集。基于中国裁判文书网中公布的刑事罪名和民事纠纷的层次结构,本文维护了刑事案件和民事案件的法因序列分布。三种数据集的具体细节见表1。表1 刑事/民事数据集细节统计表C A I LF S CC I V I L数据量19 1 03 7 9

36、3 8 36 9 75 9 94 0 0叶子节点数1 8 71 4 93 2 8父节点数2 62 39 5 其中父节点为叶子节点的概括性法因。由于本设计不对数罪并罚问题作深入研究,本文在所有数据集中过滤掉这些案件,以便专注探索法因之间的层次关系对于模型性能的影响。3.2 基线模型为了验证模型的有效性,本文设计了三种类型的基线:经典文本分类模型:T e x t-C NN1 3、L S TM-a t-t e n t i o n、D P C NN1 2、HAN2 2、F a s t T e x t2 3;经典序列生成模型:s e q 2 s e q1 7;L J P任务的前期工作:F a

37、 c t-L a w A t t e n t i o n(F A C T)6、A t t r i b u t ec h a r g e(AT CH)3。3.3 实验设置对于I HL C P模型,本文在三个数据集中统一使用X L N e t模型的S e n t e n c e P i e c e2 4方法进行切词。由于F S C3数据集中包含了词嵌入文档,本文在该数据集的基线模型中严格按照该模型上的实验设置进行实验,以得到和该模型相似的效果。对于其他数据集的其他基线模型,我们统一使用T HU L A C分词器进行分词。我们将所有L S TM单元的隐藏大小设置为2 5 6,对于I H L C P模

38、型,设置D P C N N单元卷积核大小为3,步长为2,集束宽度为5,焦点损失函数的值为2。在训练阶段,我们统一使用A d a m作为优化器,文档的最大长度设置为5 0 0字,初始学习率设置为0.0 0 1。批大小设置为2 5 6,d r o po u t r a t e设置为0.5,最大迭代次数设置为1 0 0,并使用早停策略以防止模型过拟合。同时本文通过复制部分低频法因样本并向其中加入随机噪声的形式对数据进行过采样,并采用加权随机采样算法对数据进行重采样来缓解数据分布的不平衡现象。151h t t p:/t h u l a c.t h u n l p.o r g/中文信息学报2

39、0 2 4年本文使用准确率(A C C)、宏观精度(MP)、宏观召回率(MR)和宏观F1值(F1)作为评价指标。3.4 结果分析通过跟踪法因层次结构,我们可以将所有模型的输出转换为法因序列。因此,我们能够在不同层次上比较HL C P模型和基线模型的性能。如表2所示,本文比较了I HL C P模型和基线模型在验证集上的性能(“*”代表模型不适用该数据集,“-”代表模型在最大迭代次数内无法收敛),我们发现:I H L C P模型在所有数据集上的性能均显著优于基线模型,证明了该模型的鲁棒性和实用性。表2 模型效果对比表(单位:%)数据集C A I LC I V I LF S C评估指标/%A C C

40、MPMRF1A C CMPMRF1A C CMPMRF1T e x t C NN7 8.76 2.15 5.55 6.38 5.46 7.84 6.15 2.39 4.56 6.85 8.76 0.7L S TM-a t t e n t i o n8 2.57 9.27 3.37 3.58 6.36 2.64 9.45 2.99 5.06 8.06 6.76 5.5D P C NN8 5.78 1.27 1.97 6.68 7.56 5.95 7.05 9.29 3.97 1.26 9.97 0.5HAN8 4.17 5.67 2.77 2.68 7.26 1.15 9.75 8.19 4.8

41、7 0.67 0.46 9.3F a s t T e x t7 1.16 3.75 0.95 6.68 4.65 9.14 4.75 0.99 4.76 6.76 2.16 4.3S e q 2 s e q8 4.37 7.17 6.77 6.98 5.75 9.24 8.15 0.89 4.37 2.86 8.36 8.9F A C T7 5.96 3.86 1.96 0.49 5.77 3.36 7.16 8.6A T CH*9 5.87 5.87 3.77 3.1I HL C P9 2.39 0.98 9.79 0.39 1.06 7.55 7.96 2.39 4.97 8.87 5.9

42、7 7.3 其中,模型在包含最多父因的C I V I L数据集中的A C C和F1值分别提升了6.6%和1 2.3%,在数据分布极不平衡的C A I L数据集中,A C C和F1值分别提升了3.5%和1 3.4%。同时我们可以看出,模型在F S C数据集上相较于需要人为设计罪名属性的AT CH模型的F1值提高4.2%,证明了该模型在利用法因之间的层次依赖关系和内部的文本信息来应对数据分布不平衡导致的低频、易混淆法因难以预测的问题上具有一定效果。为了更为直观地说明I H L C P模型对于低频法因的预测性能,本文根据法因类别的样本数据量将C A I L数据集中的刑事罪名和C I V I L数据集

43、中的民事纠纷类型分别划分为低频、中频和高频三个等级,在验证集中测试模型的M P值和F1值。实验结果如表3所示。表3 不同类别的模型效果对比表(单位:%)数据集C A I LC I V I L低频中频高频低频中频高频类别数5 31 1 51 92 3 68 84单类别数据量/条01 0 01 0 01 00 0 01 00 0 001 0 01 0 01 00 0 01 00 0 0评估指标MPF1MPF1MPF1MPF1MPF1MPF1T e x t C NN5 2.15 6.77 5.46 5.47 0.17 3.34 3.75 9.16 7.75 1.36 7.16 0.5L S TM-a

44、 t t e n t i o n6 2.26 3.57 7.47 5.48 7.78 4.05 0.95 6.96 2.95 2.96 9.96 7.1D P C NN5 7.25 1.67 8.77 8.98 5.58 1.14 9.95 4.76 4.86 0.66 7.76 5.6HAN5 9.76 2.67 4.36 8.97 9.17 8.74 7.75 7.16 4.15 8.16 6.76 5.7F a s t T e x t5 3.95 7.66 0.86 2.76 6.76 2.84 5.76 0.16 0.15 4.96 7.26 0.1S e q 2 s e q-a t

45、t e n t i o n6 3.45 9.98 0.77 6.28 9.58 2.74 9.75 7.66 4.55 8.86 5.55 9.6F A C T5 7.86 1.46 9.86 0.16 8.16 5.5I HL C P6 8.16 5.58 2.87 6.78 9.39 1.25 9.96 3.16 6.56 3.26 8.76 9.12511期黄思嘉等:融入法因层次结构的法因预测I HL C P模型由表3可以看出,刑事和民事样本数据分布不均衡,会导致低频法因类别特征难以学习,检测性能较低。I HL C P模型相较于其他基线模型,在高频和中频法因预测上的效果提升不太明显,但

46、在低频法因预测上得到了显著提升,由此可以看出I HL C P模型能够有效应对数据分布不平衡导致的低频法因难以预测的问题。同时,为了验证I HL C P模型引入的法因层次结构的合理性,本文对于待预测法因序列的后4层法因预测的性能进行了实验,其中第4层法因即为子法因(叶子节点),13层法因是子法因的父法因(父节点),实验结果见表4。表4 I H L C P模型法因序列预测性能评估表(单位:%)法因层次1234评估指标A C CMPMRF1A C CMPMRF1A C CMPMRF1A C CMPMRF1C A I L9 6.19 5.49 8.39 6.89 5.89 1.49 2.19 1.89

47、 3.69 1.79 0.19 0.99 2.39 0.98 9.79 0.3C I V I L9 6.88 8.88 1.98 5.29 5.78 2.57 4.27 8.19 2.88 2.77 4.67 8.49 1.06 7.55 7.96 2.3F S C9 7.28 5.68 8.28 6.99 6.78 0.29 1.78 5.69 5.17 5.18 2.67 8.79 4.97 8.87 5.97 7.3 由表4可以看出,I H L C P模型在集束搜索的过程中,根据法因的层次依赖关系,采用S o f t m a x分类的方式使模型在每个时间步都能便捷地找到条件概率分布最大的

48、候选路径。同时,法因的层次依赖结构作为模型的正当解释,使得预测结果更具说服力。3.5 个案研究为了直观地说明I HL C P模型的层次结构在易混淆法因预测上的巧妙性,本文从我国刑事和民事数据集中选取了6对位于不同父法因节点下的易混淆法因进行测试,这6对易混淆法因在事实描述中极为相似,难以区分,其对应的父法因如表5所示。本文分别在D P C NN、F A C T及I HL C P模型中对于选取的易混淆法因的预测效果进行了对比实验,其中模型对于6个易混淆法因预测的准确率如图6所示。表5 易混淆法因-父法因关系映射表民事刑事子法因父法因子法因父法因寻恤滋事罪扰乱公共秩序罪转继承纠纷法定继承纠纷扰乱法

49、庭秩序罪妨害司法罪遗赠纠纷继承纠纷行贿罪贪污贿赂罪宅基地使用权纠纷用益物权纠纷对单位行贿罪渎职罪相邻土地、建筑物利用关系纠纷相邻关系纠纷组织卖淫罪组织、强迫、引诱、介绍卖淫罪姓名权纠纷人格权纠纷组织淫秽表演罪制作、贩卖、传播淫秽物品罪擅自使用他人企业名称、姓名纠纷仿冒纠纷图6 易混淆法因预测准确率将6个法因预测成其对应的易混淆法因的误判率如图7所示。从图6和图7能够看出,I HL C P模型相较于其他基线模型,对于易混淆法因的识别能够达到较高的准确性和较低的误判率。这说明法因的层次结构及其名称所含的内部信息能够有效应对易混淆法因难以预测的问题。通过层次预测,我们可以直接在其父法因上加以选择,

50、并不需要花费太大的代价就可以对易混淆法因进行有效区分。同时我们引入的层次结构可以缓解数据不平衡现象,通过将法因划分为更小的组,使每个法因在更351中文信息学报2 0 2 4年图7 易混淆法因误判率小的区域内竞争,进而提升模型预测性能。此外,本文还通过刑事、民事的具体案例来验证法因的层次结构,展现该模型的良好性能,具体细节如图8所示。图8 个案分析效果示意图对于输入的案例,模型可以预测对应的法因链路,该链路可以作为模型的正当解释,支撑模型预测结果。4 总结与展望本文针对当前法律智能体系可解释性差、低频易混淆法因预测效果不佳、民事纠纷研究过少的问题提出了I HL C P模型。该模型对于刑

展开阅读全文