医学影像与自然语言处理多模态探索研究.pdf

资源描述

1、医学影像与自然语言处理多模态探索研究龚宇新向菲应葵（华中科技大学同济医学院医药卫生管理学院武汉清华大学工程物理系北京）摘要目的意义实现医学影像报告的自动生成对减轻放射科医生工作负担、促进临床工作流程标准化具有重要意义。方法过程重点查找近几年公开源代码的胸部报告生成模型，开发一种基于模型的医学影像报告自动生成方法。结果结论大参数量的语言模型在报告生成方面的优势仍有待挖掘，对模型的解码器输入进行修改后生成报告的质量不高。未来研究可采用大型数据集并结合更多临床信息来提高模型性能。关键词胸片；多模态；报告自动生成；注意力机制；自然语言处理中图分类号文献标识码，；，；修回日期作

2、者简介龚宇新，硕士研究生；通信作者：应葵，博士，副教授。引言医学影像是疾病诊断的重要依据，对医学影像的解释主要由放射科医生完成。但日益增长的阅片需求给放射科医生造成较重的工作负荷。近年来，随着人工智能的快速发展，基于图像与文字的多模态研究受到关注。目前，以自然语言处理技术为主的报告生成是医学影像报告生成的主流方法，这种方法基于编码器解码器框架，解码器最初主要采用循环神经网络（，）和长短期记忆网络（，）。年模型被提出且在诸多自然语言处理任务中表现优越，许多以其为基础的预训练语言模型被相继提出，因此模型及其变体逐渐替代、。目前医学影像报告医学信息学杂志年第卷第期，生成

3、模型的解码器主要基于单个预训练语言模型，本文拟通过在统一编码器条件下，针对胸片检查需求量大以及相应数据集较丰富的现状，对比不同预训练语言模型在胸片报告生成方面的性能。相关工作早期胸部影像报告的自动生成模型普遍采用自然图像描述领域的卷积神经网络循环神经网络（，）架构，但是生成报告较短。之后对解码器部分进行改进，如等使用包含两个（一个句子级，一个单词级）的多级，在生成段落方面效果有所提升，不足之处是会导致句子重复。为了提高生成报告的准确度，注意力机制也被应用于胸部报告自动生成任务中。等提出一个文本图像嵌入网络（），将多层注意力模型融入端到端的框架中来抽取并强化重要的报告文本表示和胸

4、部影像图像表示，用于分类和报告生成。等提出一种同时关注视觉特征和语义特征的联合注意力机制，其中语义特征基于胸部影像的疾病标签得到，不仅可以定位疾病在影像中的位置，而且使解码器在解码过程中更多地关注有意义的信息。在模型被提出后，及其变体也被广泛应用于报告生成任务中。如等通过在的解码器中引入关系记忆模块，使模型在建模全局信息的同时更好地刻画影像报告中的局部结构，提升生成胸部影像报告的质量。等提出基于对比学习的多模态递归模型，通过融合视觉特征和语义特征生成胸部报告的“印象”和“发现”。有多种方法可实现报告自动生成，如基于报告生成模型采用强化学习、知识图谱或基于模板等方法。方法胸部

5、报告自动生成模型公开源代码的相关模型以近年和使用或其变体作为语言模型为筛选条件，共找到个公开源代码的报告生成模型，见表。表公开源代码的胸部报告生成模型模型名称时间（年）视觉模型语言模型模型框架数据集基础上引入关系记忆机制的解码器部分的解码器部分研究模型选择上述个模型均可成功搭建运行，经过分析各模型的模块，最后选择模型进行研究，主要原因有以下两点。一是图像的处理及训练对计算机的算力要求较高，受制于设备资源及性能，选择相对较小的数据集（张胸部影像）而非数据集（张胸部影像）进行训练及测试，同时也便于结果对比分析。二是模型的解码器部分采用语言模型，其封装性好、代码结构分

6、明，后期在统一视觉模型的条件下，便于替换其他预训练语言模型如（），以对比不同语言模型在报告生成方面的性能。实验环境配置与模型参数设置本文所涉及实验的相关配置情况，见表；模型参数，见表。表实验环境配置设备资源名称配置情况硬件（核）软件深度学习框架集成开发环境（）编程语言医学信息学杂志年第卷第期，表模型参数设置参数名称参数设置模型模型结构模型结构包括部分：视觉特征、语义特征和解码器，见图。图模型视觉特征部分，输入一张胸部影像通过视觉模型得到相应的视觉特征和个标签预测分数。视觉模型以吴恩达团队提出的模型为基础。模型对种常见的肺部疾病进行检测及定位，但这种标签不

7、足以提供丰富多样的语义特征，因此对其进行微调。通过删除最后一层网络然后添加一层新的包含个节点的网络，使其能够输出数据集中常见的种手工标注标签的预测分数，每个标签的独立置信度分数在到之间。()（）（）（）式中标签的预测被视为二元交叉熵损失函数的多标签分类问题。其中，代表真实标签，代表网络的输出值，（）代表第个批次（）的损失值，代表标签的数量，代表批次的大小（）。语义特征部分，标签嵌入来源于一个预训练，该预训练在大量生物医学文本中训练得到。当标签中的词多于一个时，则该标签的词嵌入（）就等于各词对应的词嵌入相加后除以词的个数，即取平均值。将个标签的预测分数与标签嵌入作哈达玛积，得到加权

8、标签嵌入一个大小为的矩阵。解码器部分，解码器以模型为基础，在模型的输入及自注意力机制中进行了一些改动。首先是输入的改变，一般语言模型仅将词嵌入作为输入，但在模型的解码器中，增加了两个额外的输入，分别为语义特征和视觉特征。其次是自注意力机制的计算方式发生了改变，由于解码器输入的增加，受限的自注意力机制（，）计算方式如下。查询向量未发生变化，但键向量和值向量均加上了语义特征和视觉特征的信息。，()()（）式中，、分别代表词嵌入的查询向量、键向量和值向量的权重。同理，、分别代表语义特征的键向量和值向量的权重，、分别代表视觉特征的键向量和值向量的权重，为激活函数。医学信息学杂志

9、年第卷第期，替换语言模型模型是模型的压缩版本，同时也是模型最小的版本，二者对比，见表。比小，训练速度快两倍，但模型在一些质量基准上的得分要低一些。因此在成功搭建模型的基础上，希望进一步对比和在报告生成方面的效果及训练速度。表与对比模型名称层数隐层维度参数量（亿）修改解码器输入在模型中，语义特征和视觉特征是在进入自注意力层后进行拼接处理的，但是这样不易替换其他类型的语言模型。一种简单易行的思路是在进入自注意力层之前将语义特征和视觉特征拼接在词嵌入中，这样就不必关注其他语言模型复杂的内部结构。这里将改动后的模型称为。模型的具体实现细节如下，保留视觉特征

10、和语义特征的处理不变，改动解码器的输入，即在进入自注意力层前对、与的最后一维进行统一，然后对三者进行拼接，得到。此时连接的自注意力（，）的计算方式如下：（）()()()()（）其中，、分别代表的查询向量、键向量和值向量的权重。实验结果与分析数据集与评价指标本文选用数据集对模型进行训练及测试。数据集是一个公开的胸部影像数据集，包含张正面和侧面胸部影像，以及对应的份报告。在具体实验中，随机挑选张胸部影像作为测试集，余下的全部作为训练集。在对生成文本的评价中，常用的自然语言评价指标主要有种，分别为、，见表。这些指标常用于衡量生成文本与参考文本之间的相关性，一定程度上可以反映生成

11、文本的可读性和流畅度。其数值均为越大越好。表自然语言评价指标总结指标名称针对任务特点机器翻译关注准确率文本摘要关注召回率机器翻译综合考虑准确率和召回率，考虑同义词图像描述对不同元组赋予不同权重，关注重点信息各模型结果分析表示使用作为语言模型，（）表示使用作为语言模型，是在基础上对解码器的输入进行了修改。评价指标分析（）与（）评价指标分析。（）的分数均低于，其中系列指标分数的差距较为明显，这说明在的重合度方面（）模型的效果不及。在指标中，二者也存在一定差距，这意味着生成的报告在疾病关键信息方面的提取效果更佳，见表。综合各评价指标可知，的效果优于（）。但

12、是考虑到在模型训练中使用的数据集（张胸片）相对较小，可能使这种轻量级语言模型占优势。而的参数比多将近两倍，网络层数及隐层维度也更多，这意味着需要更多的数据来训练，如使用数据集（张胸片），才有可能体现出模型的优势。（）与评价指标分析。模型的各指标分数均低于模型且差距较大，尤其指标的差距最大。这说明在进入自注意力层前将语义特征、视觉特征与词嵌入进行拼接的思路不可行，见表。通过对自注意力层计算方式的对比医学信息学杂志年第卷第期，及分析，模型效果较差有以下两种原因。一是查询向量发生了改变。在模型中，查询向量由输入的词嵌入与相应的矩阵相乘得到。但在中，在词嵌入中拼接加

13、入了语义特征和视觉特征得到，意味着之后的查询向量也发生了改变。二是模型参数量发生了改变。在模型中，语义特征、视觉特征和词嵌入均有各自的键向量及值向量，之后进行拼接得到最后的和。但在模型中，键向量和值向量的计算简化，使模型的参数量变少，从而可能对模型的效果产生影响。表各模型评价指标分数对比模型（）生成报告分析目前，对胸部报告生成的评价没有精确标准，自然语言评价指标只能在一定程度上反映生成报告的质量。因此对各模型所生成的报告进行定性分析，相关胸部影像的真实报告和预测报告，见图，其中带下划线的文本表示模型可以检测到的异常并且与真实报告具有相似的描述，蓝色文本表示只在预测报

14、告中出现而未在真实报告中出现的异常信息。真实报告中描述左肺有毫米的钙化性肉芽肿，生成的报告准确地检测到了该病变并且与真实报告的描述很接近。而（）生成的报告中虽然有提及肉芽肿病变，但是缺少位置信息，而且还出现右侧基底结节钙化和组织胞浆菌病的描述，但是真实报告中并没有这些异常信息。模型生成的报告不断重复“肺部清晰、心脏大小正常”的语句，同时缺失对病变关键信息的描述，与指标的低分数相对应，并且出现假阳性。图各模型预测报告对比结语针对胸部报告的自动生成，调研相关工作进展及公开源代码的模型，在对多个生成模型进行成功搭建运行后选择模型进行研究，使用数据集的张胸部影像对模型进行训练及测试。

15、受限于数据集大小和计算资源，这种大参数量（亿）的模型在报告生成方面的优势还有待挖掘。另外，模型解码器的输入以及模型参数量的改变对模型有很大的影响。未来研究可进一步扩大数据集规模，结合更多临床信息，如将影像数据与电子病历数据相结合来提升模型性能。利益声明：所有作者均声明不存在利益冲突。参考文献梅周俊森，孙水发，李小龙基于深度学习的医学影像报告自动生成研究综述长江信息通信，（）：医学信息学杂志年第卷第期，：，：，：，：，（）：，（）：，：，：，（）：，：，（）：，：，：，：，：，：，：，：，（上接第页）郑承宇，王新，王婷，等基于模型的多标签医疗文本分类方法山东大学学报（理学版），（）：，：罗玮患者投诉中安全事件的自动识别研究武汉：华中科技大学，唐仕肖，李秀云，李文娟与德尔菲法应用于医院护理不良事件管理系统的分析与研究智慧健康，（）：朱未，胡少科基于模型的医疗器械不良事件的影响因素研究生物骨科材料与临床研究，（）：医学信息学杂志年第卷第期，

展开阅读全文