融合关系标签和位置信息的中文医疗文本因果关系抽取方法研究.pdf

资源描述

1、医学信息研究融合关系标签和位置信息的中文医疗文本因果关系抽取方法研究张维宁申喜凤李美婷高东平（中国医学科学院北京协和医学院医学信息研究所图书馆北京首都医科大学附属北京潞河医院北京黑龙江省高级人民法院哈尔滨）摘要目的意义利用因果关系词相对位置辅助深度学习模型，提高因果关系预测能力，挖掘医疗文本增益信息。方法过程将医疗文本因果关系词相对位置信息表示为关系特征层嵌入预训练语言模型，融合基线模型进行实体识别及关系抽取。结果结论嵌入关系特征层的模型值较基线模型和分别提升个百分点和个百分点，因果关系预测能力较好。关键词自然语言处理；因果关系

2、抽取；预训练模型；医疗文本中图分类号文献标识码，；，；，；修回日期作者简介张维宁，硕士研究生，发表论文篇；通信作者：高东平，研究员，硕士生导师。基金项目科技创新 “新一代人工智能”重大项目（项目编号：）。引言因果关系是指一个事件（即“原因”）和另一事件（即“结果”）之间的作用关系，表示客观事件之间的一种普遍联系。随着线上问诊等医疗信息化产业的发展，越来越丰富的医疗问答信息和知识医学信息学杂志年第卷第期，类文本可以直接通过互联网获取，其中存在大量因果关系解释，对患者缓解病症有帮助，应用于医疗搜索和诊断业务具有巨大的潜力和价值，从中可以挖掘抽取医疗文本之间存在的因果逻辑关系，构建

3、关系解释网络及医疗知识图谱，提升对医疗结果的逻辑性和可解释性的判断能力。因果关系可分为显式因果关系和隐式因果关系，其主要区别在于是否有关系特征词对关系进行提示。因果关系特征词用于提示句子成分之间存在的显式因果关系，可分为显性关系特征词与模糊关系特征词。显性关系特征词在大多数语境下均具有明显的关系含义。模糊关系特征词只有在特定语境，结合上下文及领域专业性进行推断，才可以成为关系特征词。隐式因果关系的关系成分之间不通过关系特征词进行链接，要结合上下文进行理解和推断。现有研究常采用深度学习方法进行因果关系抽取，语义规则也逐渐被引入关系抽取模型，用以提高关系抽取的准确率及效率。目前，已有学者基于长

4、短期记忆网络（，）模型实现因果关系抽取；也有研究基于多任务思想提出二元关系抽取和一元功能识别共同决策的联合学习模式，用于挖掘生物医学实体间的因果关系；此外，多特征融合方式也被证明可以提升实体关系抽取效果。在医疗文本领域，有研究从语义谓词优化的角度对疾病因果关系抽取方法进行改进，实现了从大规模生物医学文献中抽取疾病因果关系；也有研究应用中文医疗因果关系模型从压力性损伤、心血管疾病、宫颈癌个健康领域进行因果关系图构建。借鉴以上思路，本研究通过构建医疗文本因果关系特征词库，定位因果关系特征词，将相对关系特征词位置信息引入预训练语言模型双向编码器表征（，），结合双向长短期记忆模型（，）和条件

5、随机场（，），同时实现对显隐式因果关系的识别，为互联网医疗文本挖掘提供新的思路和方向。概念限定医学概念片段概念限定本研究针对互联网医疗文本中的医学概念片段进行实体识别及因果关系抽取。其中，医学概念片段是指以医学实体、临床发现和疾病症状为中心的作为独立语义单元的连续字符片段，可以是单个词语、短语，也可以是能够独立成句、结构完整的一段文字。互联网医疗文本非官方书面信息，具有口语化、实体长度较长且变化范围大、边界模糊、分词困难、难以清晰识别等特点，这为医疗文本的实体识别和因果关系判断带来一定挑战。因果关系概念限定本研究将医疗文本因果关系限定为某种原因直接导致某种结果，包括疾病和临床症状之间的关系，

6、同样可分为以显性和模糊因果关系特征词充当关系提示词的显式因果关系和需要通过理解推断得到的隐式因果关系两类。例如，在中文医疗文本“钙元素缺乏会导致神经的兴奋性增高”中，“导致”可作为“钙元素缺乏”与“神经的兴奋性增高”之间的显性因果关系特征词，提示二者之间存在的显式因果关系；又如，在“慢性胰腺炎的主要症状是腹痛”中，“症状”作为“慢性胰腺炎”与“腹痛”之间的模糊因果关系特征词出现，提示二者之间存在的特定关系及关系类型，可理解为“慢性胰腺炎”会导致“腹痛”。利用这两类因果关系特征词构建因果关系特征词库，有助于定位显式因果关系位置，辅助因果关系识别。而在中文医疗文本“经腹腔镜的宫颈肌瘤手术，术中出血

7、会比较多”中，通过语义理解可发现，其中存在隐式因果关系，即“经腹腔镜的宫颈肌瘤手术”会导致“术中出血”。此处的因果关系没有因果关系特征词作为提示，是通过语义推理得到的。此类隐式因果关系在中文医疗文本语料中较少，且深度学习技术强大的表征学习能力使其能够有效捕捉文本中的隐式因果关系，因此，本研究拟采用深度学习模型对隐式因果关系进行识别判断。医学信息学杂志年第卷第期，医疗文本因果关系特征词库构建针对医学概念片段的复杂性及显式因果关系以因果关系特征词作为指示特征的特点，利用互联网中文医疗文本语料，对其中存在的因果关系进行分析，结合医疗文本的领域特性及专业性，对其中用以提示显式因果关系的显性和模

8、糊因果关系特征词进行分析归纳，构建医疗文本因果关系特征词库，定位因果关系特征词位置，以相对因果关系特征词的距离信息辅助医学概念片段分割，进而实现利用深度学习模型对显隐式因果关系的共同识别。本词库包含汉语中可普遍提示因果关系的特征词汇，以及适用于临床发现、疾病症状关系的医疗文本因果关系特征词，充分体现医疗文本特点，用以提高识别准确度，见表。表因果关系特征词（部分）关系类别关系特征词例句显式因果关系显性因果特征词引起“长期抽搐发作”时容易引起“脑部缺血、缺氧性改变”导致“钙元素缺乏”会导致“神经的兴奋性增高”，尤其是晚上症状明显由于“浆细胞恶变”是由于“长期慢性的炎症刺激”模糊因果特征词症状“

9、慢性胰腺炎”的主要症状是“腹痛”特征“皮肤黏蛋白沉积症”是一组以“皮肤内黏蛋白弥漫性或局限性沉积”为特征的疾病融合关系标签和位置信息的中文医疗文本因果关系抽取方法预训练语言模型基于变换器的模型由多层编码模块堆叠而成，通过获取输入文本的动态词向量捕获文本的深层次语义信息及更加丰富的语义表达，得到的向量矩阵由字符表征（）、句子表征（）和位置表征（）构成。将长度为的文本序列表示为（，），在文本序列首尾分别添加“”和“”标志，分别对应输入文本中第一个字符和最后一个字符的字符向量，则输出的文本序列向量可以表示为：（，）（，）（）其中，表示输入序列的第个文字，为输入序列的向量化表示。利

10、用医学概念片段边界与因果关系特征词位置的相关性，抽取得到一个相对关系特征词位置的向量，用于表示每一个字符（）与最近一个关系特征词的相对距离，并将此向量定义为关系表征，与模型中已有的类表征信息进行拼接，得到每个的最终向量，见图。图本研究中预训练模型的嵌入表示医学信息学杂志年第卷第期，模型是对传统循环神经网络（，）的改进，可获得长跨度单词的特征。选择模型获取上下文中文本的特征，输出的特征向量由从前向后的和从后向前的输出拼接而成，包括前向和后向的文本特征。对于从输出的序列向量，使用单元进行处理，计算过程如下：（，）（）（，）（）其中，输入向量为，前向的隐藏状态为

11、，后向的隐藏状态为，将二者拼接得到输出的表示为，。层是在给定一组随机输入变量的条件下，输出一组随机变量的条件概率分布模型。模型将每个字所对应全部标签的发射概率矩阵和初始化的转移矩阵作为原始模型的训练参数，采用最大似然函数进行训练，通过学习特征到标注结果的映射，得到特征到任意标签的条件概率（），其中，为输出变量，为输入变量。例如输入计算得到条件概率最大的输出序列，确定标签序列，获得最终关系预测结果。模型本研究提出的模型应用于医疗概念片段的实体识别及因果关系抽取，模型结构主要由部分组成，分别为嵌入关系特征层的预训练层、神经网络层及分类层，见图。首先，使用预训练语言模型对语料数据

12、进行上下文信息编码嵌入，获得包含字符向量、句子向量、位置向量及相对关系词位置向量的最终向量，提升向量表示能力；其次，使用模型结构获取结合上下文信息的长期依赖特征；最后，利用层完成因果关系抽取，输出最终关系分类结果。图模型结构实验设计数据准备本实验数据集来源于阿里云天池平台，由阿里巴巴夸克医疗事业部和阿里云天池联合提供，包括段标注语料作为训练数据，段标注语料作为测试数据，见表。表数据集描述数据集最大字符长度平均字符长度最小字符长度因果关系数训练集测试集医学信息学杂志年第卷第期，实验环境及参数设置具体实验环境配置，见表。采用层模型，隐藏层维度设置为，最大

13、序列长度设置为，学习速率为，批大小为，训练次数为。表实验环境配置实验环境配置操作系统专业版（）（）内存编程语言开发环境评价指标以因果关系三元组的准确率、召回率及作为评估指标：（）（）（）（）（）（）（）其中，（）表示模型正确识别的因果关系个数；（）表示模型识别的所有因果关系个数；（）表示数据集中真实的因果关系个数。实验结果分析对比模型为验证本研究中嵌入关系特征层的模型抽取因果关系的性能，进行对比实验，其中包括个基线模型。一是，对输入字符序列的上下文语义进行学习，通过层输出全局最优的标记序列，表现较好。二是，结合预训练语言模型学习字符序列的状态特征，并将得

14、到的序列状态分数输入层，由其对序列状态转移做出约束优化。三是，利用预训练语言模型进行字符向量训练工作，后接层和层，导入输出的文本字符嵌入向量。还包括个主流三元组抽取模型，基于参数共享的联合实体关系抽取方法，将该模型中的预训练模型进行嵌入关系特征层替换，对模型结果进行对比分析。实验结果本研究提出的嵌入关系特征层的模型在中文医疗因果关系抽取数据集上有较好的识别能力，准确率达，召回率达，值达，较未嵌入关系特征层的模型有一定提升（值提高个百分点），且实验结果均优于其他对比模型。将嵌入关系特征层的预训练模型移植到关系三元组抽取模型上同样表现出较好

15、识别能力，值较基准模型提升个百分点。本研究方法的指标值较其他方法更高主要与以下原因有关：一是更适用于因果关系抽取任务；二是引入的预训练语言模型具有更强大的文本表示能力；三是嵌入相对关系特征词位置信息层，突出因果关系的语义特征及关系边界特征，对实体边界具有更清晰的识别能力，见表。表本研究模型与其他模型性能对比情况模型准确率召回率（）（）（）结语本研究设计了一种融合关系标签和位置信息的关系抽取方法，通过字符嵌入融合相对关系词位置信息的方法融入了更多语义信息，有助于减少分词医学信息学杂志年第卷第期，错误造成的误差，提高中文医疗因果关系抽取精度。本研究提出的方法能够较好地解决医学概念

16、片段在实体识别及关系抽取中存在的复杂性问题，相比于其他基线模型在性能上有一定程度提升。对于部分因果关系存在的缺少句子固定组成成分等问题，有待通过实体补齐等方式进行进一步研究及深入探索。利益声明：所有作者均声明不存在利益冲突。参考文献李子昊，陈漠沙，马镇新，等中文医疗因果关系抽取数据集医学信息学杂志，（）：，：，刘苏文，邵一帆，钱龙华基于联合学习的生物医学因果关系抽取中文信息学报，（）：景慎旗，赵又霖基于医学领域知识和远程监督的医学实体关系抽取研究数据分析与知识发现，（）：董鹏，李晓瑛，李军莲，等基于语义谓词优化的疾病因果关系发现数字图书馆论坛，（）：郭思伊面向健康领域的因果关系图构建方法研究合肥：合肥工业大学，：，郑巧夺，吴贞东，邹俊颖基于双层的事件因果关系抽取计算机工程，（）：，：，（）：，（）：，：郑余祥，左祥麟，左万利，等基于时间关系的因果关系抽取吉林大学学报（理学版），（）：姜博，左万利，王英基于的因果关系抽取吉林大学学报（理学版），（）：阿里云天池中文医疗信息处理评测基准：（），何涛，陈剑，闻英友基于模型的电子病历实体识别研究计算机与数字工程，（）：，：（），：，欢迎订阅欢迎赐稿医学信息学杂志年第卷第期，

展开阅读全文