ImageVerifierCode 换一换
格式:PDF , 页数:6 ,大小:2.58MB ,
资源ID:3005598      下载积分:10 金币
验证码下载
登录下载
邮箱/手机:
验证码: 获取验证码
温馨提示:
支付成功后,系统会自动生成账号(用户名为邮箱或者手机号,密码是验证码),方便下次登录下载和查询订单;
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/3005598.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  
声明  |  会员权益     获赠5币     写作写作

1、填表:    下载求助     留言反馈    退款申请
2、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
3、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
4、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
5、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
6、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
7、本文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。

注意事项

本文(基于预训练模型的药物不良事件抽取方法研究.pdf)为本站上传会员【自信****多点】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4008-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

基于预训练模型的药物不良事件抽取方法研究.pdf

1、基 于 预 训 练 模 型 的 药 物 不 良 事 件 抽 取 方 法研究袁驰李计巧王正瑶王怀玉(河海大学计算机与软件学院南京 北京中医药大学国家中医体质与治未病研究院北京 )摘要目的 意义 研究医学文本药物不良事件数据抽取方法,为临床用药风险管理和科学决策提供支持。方法 过程 基于预训练模型,结合实体识别和关系抽取两个子任务的关联性,设计面向药物不良事件监测的实体关系联合抽取方法。结果 结论 在公开药物不良事件抽取数据集上的实验表明,该方法优于已有方法,能够有效地从医学文本中提取药物不良事件信息及其关系,为药物不良事件的发现与监测提供有力手段。关键词药物不良事件;实体关系抽取;预训练模型;自

2、然语言处理;医学 中图分类号 文献标识码 ,;,(),;修回日期 作者简介袁驰,博士,讲师,发表论文 余篇。基金项目国家 自 然 科 学 基 金 项 目(项 目 编 号:);中央高校基本科研业务费(项目编号:,)。引言药物不良事件(,)是指患者在应用药物时出现的不良临床事件,可能会导致住院、残疾甚至死亡 。尽管在临床试验阶段,药物研发者试图发现和减少药物使用过程中可能出现的各类不良反应,但在药物上市后仍难免有新的不良反应医学信息学杂志 年第 卷第 期 ,事件发生 。统计数据显示,每年导致超过 万次内科就诊以及 万次急诊就诊 。抽取作为医学信息抽取的重要任务,一直以来受到广泛关注。从最早的 数据

3、集 到 年 的 评测任务 ,丰富的 数据集为抽取方法的研究提供了有效支撑。在众多数据集上,不少研究者积极探索各类方法 。如 等 提出一种基于卷积神经网络的联合抽取模型,在 数据集上实验表明其优于流水线方法。实体关系联合抽取在于充分利用两个子任务的特性联合训练,避免了流水线方法中的错误累积,受到不少研究者的关注 。近年来预训练模型的引入为此研究提供了新的解决思路 。等 基于预训练模型和联合抽取模型在多个公开数据集上取得了不错的效果。研究方法 总体框架本文设计一种基于预训练模型的实体关系联合抽取方法,见图 。第 步:输入序列首先经过预训练语言模型,得到最终隐藏层的向量表示。第 步:经过命名实体识别

4、任务模块对每个词()分类,输出对应的 实体标签,完成实体识别任务。第 步:根据实体识别结果确定句子中实体的边界位置,通过预训练语言模型获得对应 的向量表示,经过关系抽取任务模块,获取实体间的关系类别。图 基于预训练模型的实体关系联合抽取框架 实体识别模块针对每个句子的输入序列 ,假设其由多个 组成,先将输入的单词序列转换为其对应的词级别的上下文嵌入表示。实体识别模块,见图 。在基于预训练语言模型的编码器中,先通过基于 字典的方法将原始的单词输入序列切分化,并且在序列的首端和尾端连接 和 标 志,生 成 ,槇,槇,槇,槇,输入基于 的模块进行编码,计算方式如下:(槇)()图 实体识别模块实体识别

5、模块本质上是对输入序列 的每个 分类,从而得到待识别实体和非实体之间的边界。为了充分利用实体间的上下文关系,通过将编码后 的上下文表示 输入一个前馈神经网络,经过一个归一化操作 层,得到每个 的所属标签,计算方式如下:()()本文采用预训练 模型,在编码过程中使用了基于 字典的切分化方法,可能出现输入序列中的单个单词被切分成多个 的情况。针对该问题,取首个 的实体标签代指整个单词的标签,避免出现同一个单词中部分属于某一实体,而剩余部分属于另一个实体的情况。在实体识别模块的训练中,采用基于交叉熵的损失函数,计算方式如下:()()()医学信息学杂志 年第 卷第 期 ,关系抽取模块 实体关系的编码在

6、关系抽取模块中,受 方法的启发,以原数据句子序列作为输入的同时,将命名实体识别结果同时传入,作为判定实体边界的依据,见图 。对每个输入的句子 ,为了提取其中每个实体的表示,在实体识别结果中,选取实体 和实体 中的末尾 作为对应实体的向量表示,再通过激活函数激活,得到实体 和实体 的编码结果,计算方式如下:()()()()为了获得输入序列的整体表示,与 预训练模型相对应,获取每个句子序列中的首个 ,即 在最后一个隐藏层的结果,作为整个序列特征的表示,即图 中的,经过公式()中的激活函数激活后得到 ,用作后续处理中代表整个序列的特征表示。本文采用的序列表示方法,不依赖人工设置特征表示,既不需要通过

7、句法分析或者词法分析的结果设计特征或者核函数,也不需要设计具体复杂的深度神经网络,而 、则要通过深度学习方法进行特征表示。()()图 关系抽取模块关系抽取可以转换为机器学习方法中的分类任务。在获得成对实体的表示、序列的表示后,通过对 个向量集联操作,获得最终用于关系分类的特征表示,计算方式如下:(,)()实体间关系的分类在获得关系的上下文表示 后,通过一个多层感知机分类模型和 输出层得到关系的分类概率,计算方式如下:()()采用基于交叉熵的损失函数作为关系抽取模块的损失函数,计算方式如下:()()()医学信息学杂志 年第 卷第 期 ,联合学习方法联合学习过程中,实体识别模块和关系抽取模块共享参

8、数,能够充分利用两个子任务的关联性对预训练模型 进行调优。整个联合抽取模型的损失函数 由两个子任务的损失函数(公式()和()共同决定,最终联合学习的损失函数定义如下,其中 为一个用于平衡实体识别模块损失和关系分类模块的超参数。()()实验与结果分析 数据集和评价指标实验部分主要采用 公开数据集 ,达到与此前研究可对比的效果。该数据集主要由 位独立的领域专家通过共同讨论制定标注指南文件,再由 位专家实际进行数据标注得到,具体统计信息,见表 。评价指标主要由实体识别的评价指标、关系抽取的评价指标和实体关系联合抽取评价指标部分组成。采用机器学习领域常用的精准率、召回率和 指数。为了便于与此前研究方法

9、进行性能对比,通过与此前方法类似的 折交叉验证来验证模型效果。表 训练集数据统计信息数据类型类别数量(个)实体药物副作用 关系药物 副作用关系 实验参数设置为了比较不同预训练模型在本文设计提出的实体 关 系 联 合 抽 取 框 架 中 的 实 际 效 果,测 试 、和 共 种预训练模型的表现。实验中联合抽取模型使用的具体参数,见表 。表 本文实验中的参数设置参数数值最大序列长度 训练批次大小 初始化学习率 训练时期数丢弃率 正则化系数 实验结果 预训练模型对比实验结果,见表、表 。基于生物医学文献训练得到的 模型在面向生物医学文献中的 实体和关系抽取时 表现(,)明显优于基于书籍语料和维基百科

10、语料训练得到的 ,以及基于临床文本训练得到的 。但是在端到端任务的验证结果方面,本文方法结合 种不同模型时 表现则较为接近,见表 。表 本文方法结合不同预训练模型在实体抽取任务中的实验结果预训练模型精准率召回率 表 本文方法结合不同预训练模型在关系抽取任务中的实验结果预训练模型精准率召回率 表 本文方法结合不同预训练模型在端到端抽取任务中的实验结果预训练模型精准率召回率 医学信息学杂志 年第 卷第 期 ,与现有方法对比本文所设计的基于预训练模型的实体关系联合抽取方法在 数据集上的实体抽取表现和关系抽取表现(,)均优于此前的研究 ,见表 、表 。实验数据均来自原作者发表论文。同是基于预训练模型的

11、方法,本文方法在实体识别和关系抽取上的表现均优于 等 提出的方法。端到端任务实验结果,见表 ,本文方法()与 等 的方法()表现接近,优于其他现有方法。表 本文方法和现有方法在实体识别任务中的实验结果方法精准率召回率 等 等 等 等 等 本文方法 表 本文方法和现有方法在关系抽取任务中的实验结果方法精准率召回率 等 等 等 等 等 本文方法 表 本文方法和现有方法的端到端实验结果方法精准率召回率 等 等 等 等 本文方法 讨论通过实验分析发现,本文提出的基于预训练模型的实体关系联合抽取方法仍存在一定的改进空间,其中包括实体和关系抽取模块的优化设计、联合学习的方法等。模块设计本文在实体识别模块中

12、采用一种基于预训练模型和前向神经网络的结构,虽然也取得不错的效果,但是对预训练模型的利用仍存在改进空间。后期可以采用已经在某些数据集上验证的更优化的神经网络结构,如 等 使用 的方法进行改进。随着研究者对预训练模型研究的深入,将提出更多的实体抽取或关系抽取方法,本文提出的联合抽取框架具有一定的扩展性,即实体抽取和关系抽取模块能够被更优化的基于预训练模型的方法替换。预训练方式对于预训练模型本身,本文方法并没有处理其预训练过程,而是采用通用方法得到预训练模型。对于预训练过程,可以考虑融合多种新的任务或者方法扩展原有基于掩码的语言模型(,)和基于下一句预测(,)的方法,使训练得到的预训练模型在端到端

13、实体关系任务上获得更优表现。现有的预训练模型对于序列分类任务和序列标注任务都设计了有针对性的训练方法,从而得到在多项测试集上的优异结果,但尚无针对关系抽取的特定优化或针对端到端方法对预训练模型本身进行的优化,导致在部分实例上效果不佳。联合学习方法除了利用联合抽取框架平衡两个模块的方法外,等 于 年提出标注方法解决实体关系联合抽取问题,即将实体关系联合抽取转换为与实体识别类似的序列标注任务,以“”的形式,将实体信息和关系信息都包含在每个 标签中。上述方法虽然存在无法处理实体重叠的问题,但是仍然为研究者打开了一种新的研究思路,多重标注或者多次识别可能弥补上述短板从而衍生出新的实体关系抽取方法。等

14、也在 数据集上验证了其方法的有效性。医学信息学杂志 年第 卷第 期 ,结语本文结合医学自然语言处理领域的最新发展趋势,面向 抽取任务提出了一种基于预训练模型的实体关系联合抽取方法。充分利用预训练模型在特征表示上的优势,无须人工加入对于实体或者序列的表示特征。实验结果表明,该方法优于已有联合抽取方法,能够应用于 的抽取中。利益声明:所有作者均声明不存在利益冲突。参考文献 ,:,():吉向敏基于数据挖掘与网络模型的药物不良事件预测及监测研究 哈尔滨:哈尔滨工程大学,:,():,():,():,:,():,:,:,:,:(),:,:,:,黄敏婷,赵静,于涛 基于医学大数据的预训练语言模型及其医学文本分类研究 中华医学图书情报杂志,():,:,:,:,():,:,医学信息学杂志 年第 卷第 期 ,

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服