收藏 分销(赏)

医学影像与自然语言处理多模态探索研究.pdf

上传人:自信****多点 文档编号:3057328 上传时间:2024-06-14 格式:PDF 页数:6 大小:2.32MB
下载 相关 举报
医学影像与自然语言处理多模态探索研究.pdf_第1页
第1页 / 共6页
医学影像与自然语言处理多模态探索研究.pdf_第2页
第2页 / 共6页
医学影像与自然语言处理多模态探索研究.pdf_第3页
第3页 / 共6页
亲,该文档总共6页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、医学影像与自然语言处理多模态探索研究龚宇新向菲应葵(华中科技大学同济医学院医药卫生管理学院武汉 清华大学工程物理系北京 )摘要目的 意义 实现医学影像报告的自动生成对减轻放射科医生工作负担、促进临床工作流程标准化具有重要意义。方法 过程 重点查找近几年公开源代码的胸部报告生成模型,开发一种基于 模型的医学影像报告自动生成方法。结果 结论 大参数量的语言模型在报告生成方面的优势仍有待挖掘,对模型的解码器输入进行修改后生成报告的质量不高。未来研究可采用大型数据集并结合更多临床信息来提高模型性能。关键词胸片;多模态;报告自动生成;注意力机制;自然语言处理 中图分类号 文献标识码 ,;,;修回日期 作

2、者简介龚宇新,硕士研究生;通信作者:应葵,博士,副教授。引言医学影像是疾病诊断的重要依据,对医学影像的解释主要由放射科医生完成。但日益增长的阅片需求给放射科医生造成较重的工作负荷。近年来,随着人工智能的快速发展,基于图像与文字的多模态研究受到关注。目前,以自然语言处理技术为主的报告生成是医学影像报告生成的主流方法,这种方法基于编码器 解码器框架 ,解码器最初主要采用循环神经网络(,)和长 短 期 记 忆 网 络(,)。年 模型被提出且在诸多自然语言处理任务中表现优越,许多以其为基础的预训练语言模型被相继提出,因此 模型及其变体逐渐替代 、。目前医学影像报告医学信息学杂志 年第 卷第 期 ,生成

3、模型的解码器主要基于单个预训练语言模型,本文拟通过在统一编码器条件下,针对胸片检查需求量大以及相应数据集较丰富的现状,对比不同预训练语言模型在胸片报告生成方面的性能。相关工作早期胸部影像报告的自动生成模型普遍采用自然图像描述领域的卷积神经网络 循环神经网络(,)架构,但是生成报告较短。之后对 解码器部分进行改进,如 等 使用包含两个 (一个句子级,一个单词级)的多级 ,在生成段落方面效果有所提升,不足之处是会导致句子重复。为了提高生成报告的准确度,注意力机制也被应用于胸部报告自动生成任务中。等 提出一个文本图像嵌入网络(),将多层注意力模型融入端到端的 框架中来抽取并强化重要的报告文本表示和胸

4、部影像图像表示,用于分类和报告生成。等 提出一种同时关注视觉特征和语义特征的联合注意力机制,其中语义特征基于胸部影像的疾病标签得到,不仅可以定位疾病在影像中的位置,而且使解码器在解码过程中更多地关注有意义的信息。在 模型被提出后,及其变体也被广泛应用于报告生成任务中。如 等 通过在 的解码器中引入关系记忆模块,使模型在建模全局信息的同时更好地刻画影像报告中的局部结构,提升生成胸部影像报告的质量。等 提出基于对比学习的多模态递归模型,通过融合视觉特征和语义特征生成胸部报告的“印象”和“发现”。有多种方法可实现报告自动生成,如基于报告生成模型采用强化学习 、知识图谱 或基于模板 等方法。方法 胸部

5、报告自动生成模型 公开源代码的相关模型以近 年和使用 或其变体作为语言模型为筛选条件,共找到 个公开源代码的报告生成模型,见表 。表 公开源代码的胸部报告生成模型模型名称时间(年)视觉模型语言模型模型框架数据集 基础上引入关系记忆机制 的解码器部分 的解码器部分 研究模型选择上述 个模型均可成功搭建运行,经过分析各模型的模块,最后选择 模型进行研究,主要原因有以下两点。一是图像的处理及训练对计算机的算力要求较高,受制于设备资源及性能,选择相对较小的数据集 (张胸部影像)而非 数据集(张胸部影像)进行训练及测试,同时也便于结果对比分析。二是 模型的解码器部分采用语言模型 ,其封装性好、代码结构分

6、明,后期在统一视觉模型的条件下,便于替换其他预训练语言模型如(),以对比不同语言模型在报告生成方面的性能。实验环境配置与模型参数设置本文所涉及实验的相关配置情况,见表;模型参数,见表。表 实验环境配置设备资源名称配置情况硬件 (核)软件深度学习框架 集成开发环境()编程语言 医学信息学杂志 年第 卷第 期 ,表 模型参数设置参数名称参数设置 模型 模型结构 模型结构包括 部分:视觉特征、语义特征和解码器,见图 。图 模型视觉特征部分,输入一张胸部影像通过视觉模型得到相应的视觉特征和 个标签预测分数。视觉模型以吴恩达团队 提出的 模型为基础。模型对 种常见的肺部疾病进行检测及定位,但这 种标签不

7、足以提供丰富多样的语义特征,因此对其进行微调。通过删除最后一层网络然后添加一层新的包含 个节点的网络,使其能够输出 数据集中常见的 种手工标注标签的预测分数,每个标签的独立置信度分数在到 之间。()()()()式中标签的预测被视为二元交叉熵损失函数的多标签分类问题。其中,代表真实标签,代表网络的输出值,()代表第 个批次()的损失值,代表标签的数量,代表批次的大小()。语义特征部分,标签嵌入来源于一个预训练 ,该预训练在大量生物医学文本中训练得到。当标签中的词多于一个时,则该标签的词嵌入()就等于各词对应的词嵌入相加后除以词的个数,即取平均值。将 个标签的预测分数与标签嵌入作哈达玛积,得到加权

8、标签嵌入一个大小为 的矩阵。解码器部分,解码器以 模型为基础,在模型的输入及自注意力机制中进行了一些改动。首先是输入的改变,一般语言模型仅将词嵌入 作为输入,但在 模型的解码器中,增加了两个额外的输入,分别为语义特征 和视觉特征 。其次是自注意力机制的计算方式发生了改变,由于解码器输入的增加,受限的自注意力机制(,)计算方式如下。查询向量 未发生变化,但键向量 和值向量 均加上了语义特征和视觉特征的信息。,()()()式中,、分别代表词嵌入 的查询向量、键向量和值向量的权重。同理,、分别代表语义特征 的键向量和值向量的权重,、分别代表视觉特征 的键向量和值向量的权重,为激活函数。医学信息学杂志

9、 年第 卷第 期 ,替换语言模型 模型是 模型的压缩版本,同时也是 模型最小的版本,二者对比,见表 。比 小 ,训练速度快两倍,但 模型在一些质量基准上的得分要低一些。因此在成功搭建 模型的基础上,希望进一步对比 和 在报告生成方面的效果及训练速度。表 与 对比模型名称层数隐层维度参数量(亿)修改解码器输入在 模型中,语义特征 和视觉特征 是在进入自注意力层后进行拼接处理的,但是这样不易替换其他类型的语言模型。一种简单易行的思路是在进入自注意力层之前将语义特征 和视觉特征 拼接在词嵌入 中,这样就不必关注其他语言模型复杂的内部结构。这里将改动后的模型称为 。模型的具体实现细节如下,保留视觉特征

10、和语义特征的处理不变,改动解码器的输入,即在进入自注意力层前对 、与 的最后一维进行统一,然后对三者进行拼接,得到 。此时连接的自注意力(,)的计算方式如下:()()()()()()其中,、分别代表 的查询向量、键向量和值向量的权重。实验结果与分析 数据集与评价指标本文选用 数据集对模型进行训练及测试。数据集是一个公开的胸部影像数据集,包含 张正面和侧面胸部影像,以及对应的 份报告。在具体实验中,随机挑选 张胸部影像作为测试集,余下的全部作为训练集。在对生成文本的评价中,常用的自然语言评价指标主要有 种,分别为 、,见表。这些指标常用于衡量生成文本与参考文本之间的相关性,一定程度上可以反映生成

11、文本的可读性和流畅度。其数值均为越大越好。表 自然语言评价指标总结指标名称 针对任务特点 机器翻译关注准确率 文本摘要关注召回率 机器翻译综合考虑准确率和召回率,考虑同义词 图像描述对不同 元组赋予不同权重,关注重点信息 各模型结果分析 表示使用 作为语言模型,()表示使用 作为语言模型,是在 基础上对解码器的输入进行了修改。评价指标分析()与 ()评价指标分析。()的分数均低于 ,其中 系列指标分数的差距较为明显,这说明在 的重合度方面 ()模型的效果不及 。在 指标中,二者也存在一定差距,这意味着 生成的报告在疾病关键信息方面的提取效果更佳,见表 。综合各评价指标可知,的效果优于 ()。但

12、是考虑到在模型训练中使用的 数据集(张胸片)相对较小,可能使 这种轻量级语言模型占优势。而 的参数比 多将近两倍,网络层数及隐层维度也更多,这意味着需要更多的数据来训练,如使用 数据集(张胸片),才有可能体现出 模型的优势。()与 评价指标分析。模型的各指标分数均低于 模型且差距较大,尤其 指标的差距最大。这说明在进入自注意力层前将语义特征、视觉特征与词嵌入进行拼接的思路不可行,见表。通过对自注意力层计算方式的对比医学信息学杂志 年第 卷第 期 ,及分析,模型效果较差有以下两种原因。一是查询向量 发生了改变。在 模型中,查询向量 由输入的词嵌入 与相应的矩阵相乘得到。但在 中,在词嵌入中拼接加

13、入了语义特征 和视觉特征 得到 ,意味着之后的查询向量也发生了改变。二是模型参数量发生了改变。在 模型中,语义特征、视觉特征 和词嵌入 均有各自的键向量及值向量,之后进行拼接得到最后的 和 。但在 模型中,键向量 和值向量 的计算简化,使模型的参数量变少,从而可能对模型的效果产生影响。表 各模型评价指标分数对比模型 ()生成报告分析目前,对胸部报告生成的评价没有精确标准,自然语言评价指标只能在一定程度上反映生成报告的质量。因此对各模型所生成的报告进行定性分析,相关胸部影像的真实报告和预测报告,见图 ,其中带下划线的文本表示模型可以检测到的异常并且与真实报告具有相似的描述,蓝色文本表示只在预测报

14、告中出现而未在真实报告中出现的异常信息。真实报告中描述左肺有 毫米的钙化性肉芽肿,生成的报告准确地检测到了该病变并且与真实报告的描述很接近。而 ()生成的报告中虽然有提及肉芽肿病变,但是缺少位置信息,而且还出现右侧基底结节钙化和组织胞浆菌病的描述,但是真实报告中并没有这些异常信息。模型 生成的报告不断重复“肺部清晰、心脏大小正常”的语句,同时缺失对病变关键信息的描述,与 指标的低分数相对应,并且出现假阳性。图 各模型预测报告对比 结语针对胸部报告的自动生成,调研相关工作进展及公开源代码的模型,在对多个生成模型进行成功搭建运行后选择 模型进行研究,使用 数据集的 张胸部影像对模型进行训练及测试。

15、受限于数据集大小和计算资源,这种大参数量(亿)的模型在报告生成方面的优势还有待挖掘。另外,模型解码器的输入以及模型参数量的改变对模型有很大的影响。未来研究可进一步扩大数据集规模,结合更多临床信息,如将影像数据与电子病历数据相结合来提升模型性能。利益声明:所有作者均声明不存在利益冲突。参考文献 梅周俊森,孙水发,李小龙 基于深度学习的医学影像报告自动生成研究综述 长江信息通信,():医学信息学杂志 年第 卷第 期 ,:,:,:,:,():,():,:,:,():,:,():,:,:,:,:,:,:,:,(上接第 页)郑承宇,王新,王婷,等 基于 模型的多标签医疗文本分类方法 山东大学学报(理学版),():,:罗玮 患者投诉中安全事件的自动识别研究 武汉:华中科技大学,唐仕肖,李秀云,李文娟 与德尔菲法应用于医院护理不良事件管理系统的分析与研究 智慧健康,():朱未,胡少科基于 模型的医疗器械不良事件的影响因素研究 生物骨科材料与临床研究,():医学信息学杂志 年第 卷第 期 ,

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服