收藏 分销(赏)

基于预训练模型的药物不良事件抽取方法研究.pdf

上传人:自信****多点 文档编号:3005598 上传时间:2024-06-12 格式:PDF 页数:6 大小:2.58MB
下载 相关 举报
基于预训练模型的药物不良事件抽取方法研究.pdf_第1页
第1页 / 共6页
基于预训练模型的药物不良事件抽取方法研究.pdf_第2页
第2页 / 共6页
基于预训练模型的药物不良事件抽取方法研究.pdf_第3页
第3页 / 共6页
亲,该文档总共6页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、基 于 预 训 练 模 型 的 药 物 不 良 事 件 抽 取 方 法研究袁驰李计巧王正瑶王怀玉(河海大学计算机与软件学院南京 北京中医药大学国家中医体质与治未病研究院北京 )摘要目的 意义 研究医学文本药物不良事件数据抽取方法,为临床用药风险管理和科学决策提供支持。方法 过程 基于预训练模型,结合实体识别和关系抽取两个子任务的关联性,设计面向药物不良事件监测的实体关系联合抽取方法。结果 结论 在公开药物不良事件抽取数据集上的实验表明,该方法优于已有方法,能够有效地从医学文本中提取药物不良事件信息及其关系,为药物不良事件的发现与监测提供有力手段。关键词药物不良事件;实体关系抽取;预训练模型;自

2、然语言处理;医学 中图分类号 文献标识码 ,;,(),;修回日期 作者简介袁驰,博士,讲师,发表论文 余篇。基金项目国家 自 然 科 学 基 金 项 目(项 目 编 号:);中央高校基本科研业务费(项目编号:,)。引言药物不良事件(,)是指患者在应用药物时出现的不良临床事件,可能会导致住院、残疾甚至死亡 。尽管在临床试验阶段,药物研发者试图发现和减少药物使用过程中可能出现的各类不良反应,但在药物上市后仍难免有新的不良反应医学信息学杂志 年第 卷第 期 ,事件发生 。统计数据显示,每年导致超过 万次内科就诊以及 万次急诊就诊 。抽取作为医学信息抽取的重要任务,一直以来受到广泛关注。从最早的 数据

3、集 到 年 的 评测任务 ,丰富的 数据集为抽取方法的研究提供了有效支撑。在众多数据集上,不少研究者积极探索各类方法 。如 等 提出一种基于卷积神经网络的联合抽取模型,在 数据集上实验表明其优于流水线方法。实体关系联合抽取在于充分利用两个子任务的特性联合训练,避免了流水线方法中的错误累积,受到不少研究者的关注 。近年来预训练模型的引入为此研究提供了新的解决思路 。等 基于预训练模型和联合抽取模型在多个公开数据集上取得了不错的效果。研究方法 总体框架本文设计一种基于预训练模型的实体关系联合抽取方法,见图 。第 步:输入序列首先经过预训练语言模型,得到最终隐藏层的向量表示。第 步:经过命名实体识别

4、任务模块对每个词()分类,输出对应的 实体标签,完成实体识别任务。第 步:根据实体识别结果确定句子中实体的边界位置,通过预训练语言模型获得对应 的向量表示,经过关系抽取任务模块,获取实体间的关系类别。图 基于预训练模型的实体关系联合抽取框架 实体识别模块针对每个句子的输入序列 ,假设其由多个 组成,先将输入的单词序列转换为其对应的词级别的上下文嵌入表示。实体识别模块,见图 。在基于预训练语言模型的编码器中,先通过基于 字典的方法将原始的单词输入序列切分化,并且在序列的首端和尾端连接 和 标 志,生 成 ,槇,槇,槇,槇,输入基于 的模块进行编码,计算方式如下:(槇)()图 实体识别模块实体识别

5、模块本质上是对输入序列 的每个 分类,从而得到待识别实体和非实体之间的边界。为了充分利用实体间的上下文关系,通过将编码后 的上下文表示 输入一个前馈神经网络,经过一个归一化操作 层,得到每个 的所属标签,计算方式如下:()()本文采用预训练 模型,在编码过程中使用了基于 字典的切分化方法,可能出现输入序列中的单个单词被切分成多个 的情况。针对该问题,取首个 的实体标签代指整个单词的标签,避免出现同一个单词中部分属于某一实体,而剩余部分属于另一个实体的情况。在实体识别模块的训练中,采用基于交叉熵的损失函数,计算方式如下:()()()医学信息学杂志 年第 卷第 期 ,关系抽取模块 实体关系的编码在

6、关系抽取模块中,受 方法的启发,以原数据句子序列作为输入的同时,将命名实体识别结果同时传入,作为判定实体边界的依据,见图 。对每个输入的句子 ,为了提取其中每个实体的表示,在实体识别结果中,选取实体 和实体 中的末尾 作为对应实体的向量表示,再通过激活函数激活,得到实体 和实体 的编码结果,计算方式如下:()()()()为了获得输入序列的整体表示,与 预训练模型相对应,获取每个句子序列中的首个 ,即 在最后一个隐藏层的结果,作为整个序列特征的表示,即图 中的,经过公式()中的激活函数激活后得到 ,用作后续处理中代表整个序列的特征表示。本文采用的序列表示方法,不依赖人工设置特征表示,既不需要通过

7、句法分析或者词法分析的结果设计特征或者核函数,也不需要设计具体复杂的深度神经网络,而 、则要通过深度学习方法进行特征表示。()()图 关系抽取模块关系抽取可以转换为机器学习方法中的分类任务。在获得成对实体的表示、序列的表示后,通过对 个向量集联操作,获得最终用于关系分类的特征表示,计算方式如下:(,)()实体间关系的分类在获得关系的上下文表示 后,通过一个多层感知机分类模型和 输出层得到关系的分类概率,计算方式如下:()()采用基于交叉熵的损失函数作为关系抽取模块的损失函数,计算方式如下:()()()医学信息学杂志 年第 卷第 期 ,联合学习方法联合学习过程中,实体识别模块和关系抽取模块共享参

8、数,能够充分利用两个子任务的关联性对预训练模型 进行调优。整个联合抽取模型的损失函数 由两个子任务的损失函数(公式()和()共同决定,最终联合学习的损失函数定义如下,其中 为一个用于平衡实体识别模块损失和关系分类模块的超参数。()()实验与结果分析 数据集和评价指标实验部分主要采用 公开数据集 ,达到与此前研究可对比的效果。该数据集主要由 位独立的领域专家通过共同讨论制定标注指南文件,再由 位专家实际进行数据标注得到,具体统计信息,见表 。评价指标主要由实体识别的评价指标、关系抽取的评价指标和实体关系联合抽取评价指标部分组成。采用机器学习领域常用的精准率、召回率和 指数。为了便于与此前研究方法

9、进行性能对比,通过与此前方法类似的 折交叉验证来验证模型效果。表 训练集数据统计信息数据类型类别数量(个)实体药物副作用 关系药物 副作用关系 实验参数设置为了比较不同预训练模型在本文设计提出的实体 关 系 联 合 抽 取 框 架 中 的 实 际 效 果,测 试 、和 共 种预训练模型的表现。实验中联合抽取模型使用的具体参数,见表 。表 本文实验中的参数设置参数数值最大序列长度 训练批次大小 初始化学习率 训练时期数丢弃率 正则化系数 实验结果 预训练模型对比实验结果,见表、表 。基于生物医学文献训练得到的 模型在面向生物医学文献中的 实体和关系抽取时 表现(,)明显优于基于书籍语料和维基百科

10、语料训练得到的 ,以及基于临床文本训练得到的 。但是在端到端任务的验证结果方面,本文方法结合 种不同模型时 表现则较为接近,见表 。表 本文方法结合不同预训练模型在实体抽取任务中的实验结果预训练模型精准率召回率 表 本文方法结合不同预训练模型在关系抽取任务中的实验结果预训练模型精准率召回率 表 本文方法结合不同预训练模型在端到端抽取任务中的实验结果预训练模型精准率召回率 医学信息学杂志 年第 卷第 期 ,与现有方法对比本文所设计的基于预训练模型的实体关系联合抽取方法在 数据集上的实体抽取表现和关系抽取表现(,)均优于此前的研究 ,见表 、表 。实验数据均来自原作者发表论文。同是基于预训练模型的

11、方法,本文方法在实体识别和关系抽取上的表现均优于 等 提出的方法。端到端任务实验结果,见表 ,本文方法()与 等 的方法()表现接近,优于其他现有方法。表 本文方法和现有方法在实体识别任务中的实验结果方法精准率召回率 等 等 等 等 等 本文方法 表 本文方法和现有方法在关系抽取任务中的实验结果方法精准率召回率 等 等 等 等 等 本文方法 表 本文方法和现有方法的端到端实验结果方法精准率召回率 等 等 等 等 本文方法 讨论通过实验分析发现,本文提出的基于预训练模型的实体关系联合抽取方法仍存在一定的改进空间,其中包括实体和关系抽取模块的优化设计、联合学习的方法等。模块设计本文在实体识别模块中

12、采用一种基于预训练模型和前向神经网络的结构,虽然也取得不错的效果,但是对预训练模型的利用仍存在改进空间。后期可以采用已经在某些数据集上验证的更优化的神经网络结构,如 等 使用 的方法进行改进。随着研究者对预训练模型研究的深入,将提出更多的实体抽取或关系抽取方法,本文提出的联合抽取框架具有一定的扩展性,即实体抽取和关系抽取模块能够被更优化的基于预训练模型的方法替换。预训练方式对于预训练模型本身,本文方法并没有处理其预训练过程,而是采用通用方法得到预训练模型。对于预训练过程,可以考虑融合多种新的任务或者方法扩展原有基于掩码的语言模型(,)和基于下一句预测(,)的方法,使训练得到的预训练模型在端到端

13、实体关系任务上获得更优表现。现有的预训练模型对于序列分类任务和序列标注任务都设计了有针对性的训练方法,从而得到在多项测试集上的优异结果,但尚无针对关系抽取的特定优化或针对端到端方法对预训练模型本身进行的优化,导致在部分实例上效果不佳。联合学习方法除了利用联合抽取框架平衡两个模块的方法外,等 于 年提出标注方法解决实体关系联合抽取问题,即将实体关系联合抽取转换为与实体识别类似的序列标注任务,以“”的形式,将实体信息和关系信息都包含在每个 标签中。上述方法虽然存在无法处理实体重叠的问题,但是仍然为研究者打开了一种新的研究思路,多重标注或者多次识别可能弥补上述短板从而衍生出新的实体关系抽取方法。等

14、也在 数据集上验证了其方法的有效性。医学信息学杂志 年第 卷第 期 ,结语本文结合医学自然语言处理领域的最新发展趋势,面向 抽取任务提出了一种基于预训练模型的实体关系联合抽取方法。充分利用预训练模型在特征表示上的优势,无须人工加入对于实体或者序列的表示特征。实验结果表明,该方法优于已有联合抽取方法,能够应用于 的抽取中。利益声明:所有作者均声明不存在利益冲突。参考文献 ,:,():吉向敏基于数据挖掘与网络模型的药物不良事件预测及监测研究 哈尔滨:哈尔滨工程大学,:,():,():,():,:,():,:,:,:,:(),:,:,:,黄敏婷,赵静,于涛 基于医学大数据的预训练语言模型及其医学文本分类研究 中华医学图书情报杂志,():,:,:,:,():,:,医学信息学杂志 年第 卷第 期 ,

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服