收藏 分销(赏)

融合关系标签和位置信息的中文医疗文本因果关系抽取方法研究.pdf

上传人:自信****多点 文档编号:3021562 上传时间:2024-06-13 格式:PDF 页数:6 大小:1.99MB
下载 相关 举报
融合关系标签和位置信息的中文医疗文本因果关系抽取方法研究.pdf_第1页
第1页 / 共6页
融合关系标签和位置信息的中文医疗文本因果关系抽取方法研究.pdf_第2页
第2页 / 共6页
融合关系标签和位置信息的中文医疗文本因果关系抽取方法研究.pdf_第3页
第3页 / 共6页
亲,该文档总共6页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、医学信息研究融 合 关 系 标 签 和 位 置 信 息 的 中 文 医 疗 文 本因果关系抽取方法研究张维宁申喜凤李美婷高东平(中国医学科学院 北京协和医学院医学信息研究所 图书馆北京 首都医科大学附属北京潞河医院北京 黑龙江省高级人民法院哈尔滨 )摘要目的 意义 利用因果关系词相对位置辅助深度学习模型,提高因果关系预测能力,挖掘医疗文本增益信息。方法 过程 将医疗文本因果关系词相对位置信息表示为关系特征层嵌入预训练语言模型,融合基线模型进行实体识别及关系抽取。结果 结论 嵌入关系特征层的模型 值较基线模型 和 分别提升 个百分点和 个百分点,因果关系预测能力较好。关键词自然语言处理;因果关系

2、抽取;预训练模型;医疗文本 中图分类号 文献标识码 ,;,;,;修回日期 作者简介张维宁,硕士研究生,发表论文 篇;通信作者:高东平,研究员,硕士生导师。基金项目科技创新 “新一代人工智能”重大项目(项目编号:)。引言因果关系是指一个事件(即“原因”)和另一事件(即“结果”)之间的作用关系,表示客观事件之间的一种普遍联系。随着线上问诊等医疗信息化产业的发展,越来越丰富的医疗问答信息和知识医学信息学杂志 年第 卷第 期 ,类文本可以直接通过互联网获取,其中存在大量因果关系解释,对患者缓解病症有帮助,应用于医疗搜索和诊断业务具有巨大的潜力和价值,从中可以挖掘抽取医疗文本之间存在的因果逻辑关系,构建

3、关系解释网络及医疗知识图谱,提升对医疗结果的逻辑性和可解释性的判断能力 。因果关系可分为显式因果关系和隐式因果关系,其主要区别在于是否有关系特征词对关系进行提示。因果关系特征词用于提示句子成分之间存在的显式因果关系,可分为显性关系特征词与模糊关系特征词。显性关系特征词在大多数语境下均具有明显的关系含义。模糊关系特征词只有在特定语境,结合上下文及领域专业性进行推断,才可以成为关系特征词。隐式因果关系的关系成分之间不通过关系特征词进行链接,要结合上下文进行理解和推断。现有研究常采用深度学习方法进行因果关系抽取,语义规则也逐渐被引入关系抽取模型,用以提高关系抽取的准确率及效率。目前,已有学者 基于长

4、短期记忆网络(,)模型实现因果关系抽取;也有研究 基于多任务思想提出二元关系抽取和一元功能识别共同决策的联合学习模式,用于挖掘生物医学实体间的因果关系;此外,多特征融合方式也被证明可以提升实体关系抽取效果 。在医疗文本领域,有研究 从语义谓词优化的角度对疾病因果关系抽取方法进行改进,实现了从大规模生物医学文献中抽取疾病因果关系;也有研究 应用中文医疗因果关系模型从压力性损伤、心血管疾病、宫颈癌 个健康领域进行因果关系图构建。借鉴以上思路,本研究通过构建医疗文本因果关系特征词库,定位因果关系特征词,将相对关系特征词位置信息引入预训练语言模型双向编码器表征(,),结合双向长短期记忆模型(,)和条件

5、随机场(,),同时实现对显隐式因果关系的识别,为互联网医疗文本挖掘提供新的思路和方向。概念限定 医学概念片段概念限定本研究针对互联网医疗文本中的医学概念片段进行实体识别及因果关系抽取。其中,医学概念片段是指以医学实体、临床发现和疾病症状为中心的作为独立语义单元的连续字符片段,可以是单个词语、短语,也可以是能够独立成句、结构完整的一段文字。互联网医疗文本非官方书面信息,具有口语化、实体长度较长且变化范围大、边界模糊、分词困难、难以清晰识别等特点,这为医疗文本的实体识别和因果关系判断带来一定挑战。因果关系概念限定本研究将医疗文本因果关系限定为某种原因直接导致某种结果,包括疾病和临床症状之间的关系,

6、同样可分为以显性和模糊因果关系特征词充当关系提示词的显式因果关系和需要通过理解推断得到的隐式因果关系两类。例如,在中文医疗文本“钙元素缺乏会导致神经的兴奋性增高”中,“导致”可作为“钙元素缺乏”与“神经的兴奋性增高”之间的显性因果关系特征词,提示二者之间存在的显式因果关系;又如,在“慢性胰腺炎的主要症状是腹痛”中,“症状”作为“慢性胰腺炎”与“腹痛”之间的模糊因果关系特征词出现,提示二者之间存在的特定关系及关系类型,可理解为“慢性胰腺炎”会导致“腹痛”。利用这两类因果关系特征词构建因果关系特征词库,有助于定位显式因果关系位置,辅助因果关系识别。而在中文医疗文本“经腹腔镜的宫颈肌瘤手术,术中出血

7、会比较多”中,通过语义理解可发现,其中存在隐式因果关系,即“经腹腔镜的宫颈肌瘤手术”会导致“术中出血”。此处的因果关系没有因果关系特征词作为提示,是通过语义推理得到的。此类隐式因果关系在中文医疗文本语料中较少,且深度学习技术强大的表征学习能力使其能够有效捕捉文本中的隐式因果关系,因此,本研究拟采用深度学习模型对隐式因果关系进行识别判断。医学信息学杂志 年第 卷第 期 ,医疗文本因果关系特征词库构建针对医学概念片段的复杂性及显式因果关系以因果关系特征词作为指示特征的特点,利用互联网中文医疗文本语料,对其中存在的因果关系进行分析,结合医疗文本的领域特性及专业性,对其中用以提示显式因果关系的显性和模

8、糊因果关系特征词进行分析归纳,构建医疗文本因果关系特征词库,定位因果关系特征词位置,以相对因果关系特征词的距离信息辅助医学概念片段分割,进而实现利用深度学习模型对显隐式因果关系的共同识别。本词库包含汉语中可普遍提示因果关系的特征词汇,以及适用于临床发现、疾病症状关系的医疗文本因果关系特征词,充分体现医疗文本特点,用以提高识别准确度,见表 。表 因果关系特征词(部分)关系类别关系特征词例句显式因果关系显性因果特征词引起“长期抽搐发作”时容易引起“脑部缺血、缺氧性改变”导致“钙元素缺乏”会导致“神经的兴奋性增高”,尤其是晚上症状明显由于“浆细胞恶变”是由于“长期慢性的炎症刺激”模糊因果特征词症状“

9、慢性胰腺炎”的主要症状是“腹痛”特征“皮肤黏蛋白沉积症”是一组以“皮肤内黏蛋白弥漫性或局限性沉积”为特征的疾病 融合关系标签和位置信息的中文医疗文本因果关系抽取方法 预训练语言模型基于变换器的 模型 由多层 编码模块堆叠而成,通过获取输入文本的动态词向量捕获文本的深层次语义信息及更加丰富的语义表达,得到的向量矩阵由字符表征()、句子表征()和位置表征()构成 。将长度为 的文本序列表示为(,),在文本序列首尾分别添加“”和“”标志,分别对应输入文本中第一个字符和最后一个字符的字符向量,则 输出的文本序列向量可以表示为:(,)(,)()其中,表示输入序列的第 个文字,为输入序列 的向量化表示。利

10、用医学概念片段边界与因果关系特征词位置的相关性,抽取得到一个相对关系特征词位置的向量,用于表示每一个字符()与最近一个关系特征词的相对距离,并将此向量定义为关系表征,与 模型中已有的 类表征信息进行拼接,得到每个 的最终向量,见图 。图 本研究中 预训练模型的嵌入表示医学信息学杂志 年第 卷第 期 ,模型 是对传统循环神经网络(,)的改进,可获得长跨度单词的特征。选择 模型 获取上下文中文本的特征,输出的特征向量由从前向后的 和从后向前的 输出拼接而成,包括前向和后向的文本特征 。对于从 输出的序列向量,使用 单元进行处理,计算过程如下:(,)()(,)()其中,输入向量为,前向 的隐藏状态为

11、,后向 的隐藏状态为,将二者拼接得到 输出的表示为 ,。层 是在给定一组随机输入变量的条件下,输出一组随机变量的条件概率分布模型 。模型将每个字所对应全部标签的发射概率矩阵和初始化的转移矩阵作为原始模型的训练参数,采用最大似然函数进行训练,通过学习特征到标注结果的映射,得到特征到任意标签的条件概率(),其中,为输出变量,为输入变量。例如输入 计算得到条件概率最大的输出序列 ,确定标签序列,获得最终关系预测结果。模型本研究提出的模型应用于医疗概念片段的实体识别及因果关系抽取,模型结构主要由 部分组成,分别为嵌入关系特征层的预训练层、神经网络层及 分类层,见图 。首先,使用预训练语言模型对语料数据

12、进行上下文信息编码嵌入,获得包含字符向量、句子向量、位置向量及相对关系词位置向量的最终向量,提升向量表示能力;其次,使用 模型结构获取结合上下文信息的长期依赖特征;最后,利用 层完成因果关系抽取,输出最终关系分类结果。图 模型结构 实验设计 数据准备本实验数据集 来源于阿里云天池平台,由阿里巴巴夸克医疗事业部和阿里云天池联合提供,包括 段标注语料作为训练数据,段标注语料作为测试数据,见表 。表 数据集描述数据集 最大字符长度 平均字符长度 最小字符长度因果关系数训练集 测试集 医学信息学杂志 年第 卷第 期 ,实验环境及参数设置具体实验环境配置,见表 。采用 层 模型,隐藏层维度设置为 ,最大

13、序列长度设置为 ,学习速率为 ,批大小为 ,训练次数为 。表 实验环境配置实验环境配置操作系统 专业版 ()()内存 编程语言 开发环境 评价指标以因果关系三元组的准确率 、召回率 及 作为评估指标:()()()()()()()其中,()表示模型正确识别的因果关系个数;()表示模型识别的所有因果关系个数;()表示数据集中真实的因果关系个数。实验结果分析 对比模型为验证本研究中嵌入关系特征层的 模型抽取因果关系的性能,进行对比实验,其中包括 个基线模型。一是 ,对输入字符序列的上下文语义进行学习,通过 层输出全局最优的标记序列,表现较好。二是 ,结合 预训练语言模型学习字符序列的状态特征,并将得

14、到的序列状态分数输入 层,由其对序列状态转移做出约束优化 。三是 ,利用 预训练语言模型进行字符向量训练工作,后接 层和 层,导入输出的文本字符嵌入向量。还包括 个主流三元组抽取模型 ,基于参数共享的联合实体关系抽取方法,将该模型中的 预训练模型进行嵌入关系特征层替换,对模型结果进行对比分析。实验结果本研究提出的嵌入关系特征层的 模型在中文医疗因果关系抽取数据集 上 有 较 好 的 识 别 能 力,准 确 率 达 ,召回率达 ,值达 ,较未嵌入关系特征层的 模型有一定提升(值提高 个百分点),且实验结果均优于其他对比模型。将嵌入关系特征层的 预训练模型移植到关系三元组抽取模型 上同样表现出较好

15、识别能力,值较基准模型提升 个百分点。本研究方法的指标值较其他方法更高主要与以下原因有关:一是 更适用于因果关系抽取任务;二是引入的 预训练语言模型具有更强大的文本表示能力;三是嵌入相对关系特征词位置信息层,突出因果关系的语义特征及关系边界特征,对实体边界具有更清晰的识别能力,见表 。表 本研究模型与其他模型性能对比情况模型准确率召回率()()()结语本研究设计了一种融合关系标签和位置信息的关系抽取方法,通过字符嵌入融合相对关系词位置信息的方法融入了更多语义信息,有助于减少分词医学信息学杂志 年第 卷第 期 ,错误造成的误差,提高中文医疗因果关系抽取精度。本研究提出的方法能够较好地解决医学概念

16、片段在实体识别及关系抽取中存在的复杂性问题,相比于其他基线模型在性能上有一定程度提升。对于部分因果关系存在的缺少句子固定组成成分等问题,有待通过实体补齐等方式进行进一步研究及深入探索。利益声明:所有作者均声明不存在利益冲突。参考文献 李子昊,陈漠沙,马镇新,等 中文医疗因果关系抽取数据集 医学信息学杂志,():,:,刘苏文,邵一帆,钱龙华 基于联合学习的生物医学因果关系抽取 中文信息学报,():景慎旗,赵又霖 基于医学领域知识和远程监督的医学实体关系抽取研究 数据分析与知识发现,():董鹏,李晓瑛,李军莲,等 基于语义谓词优化的疾病因果关系发现 数字图书馆论坛,():郭思伊 面向健康领域的因果关系图构建方法研究 合肥:合肥工业大学,:,郑巧夺,吴贞东,邹俊颖 基于双层 的事件因果关系抽取 计算机工程,():,:,():,():,:郑余祥,左祥麟,左万利,等 基于时间关系的 因果关系抽取 吉林大学学报(理学版),():姜博,左万利,王英 基于 的因果关系抽取 吉林大学学报(理学版),():阿里云天池中文医疗信息处理评测基准 :(),何涛,陈剑,闻英友 基于 模型的电子病历实体识别研究 计算机与数字工程,():,:(),:,欢迎订阅欢迎赐稿医学信息学杂志 年第 卷第 期 ,

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服