基于深度学习的医学影像报告自动生成研究综述.pdf

资源描述

1、，信息通信基于深度学习的医学影像报告自动生成研究综述梅周俊森，孙水发，李小龙（三峡大学计算机与信息学院，湖北宜昌4430 0 2）摘要：当今医学领域面临着大量的图像数据，自动生成医学影像报告成为了一个备受关注的研究领域。自动生成医学影像报告可以为医生提供快速准确的诊断信息，提高医疗服务的效率和质量。现有的研究主要采用深度学习和自然语言处理技术来生成医学影像报告。文章从影像报告的结构、数据集、现有模型、评估指标介绍该领域目前的现状。最后总结了目前该领域存在的问题与未来研究方向。关键词：深度学习，自然语言处理；文本生成；医学图像处理中图分类号：TP393Methods for automatic

2、generation of medical imaging reports:a survey(College of Computer and Information,Three Gorges University,Yichang 443002,China)Abstract:With the enormous amount of medical imaging data available today,automatic generation of medical image reportshas become a highly researched field.Automatic report

3、 generation can provide doctors with rapid and accurate diagnostic infor-mation,improving the efficiency and quality of medical services.Existing research primarily employs deep learning and naturallanguage processing techniques for report generation.This article introduces the current status of the

4、 field of automatic gener-ation of medical image reports,including the structure of image reports,available datasets,existing models,and evaluation met-rics.Finally,it summarizes the current problems and future research directions in this field.Key words:deep learning;natural language processing;tex

5、t generation;medical image processing1 引言医学影像报告是通过使用影像技术（例如X射线、CT扫描、核磁共振或超声波)对患者进行诊断和监测的结果的文件。报告中包含了医生对影像结果的解释和诊断，并可以为临床医生提供有关患者健康状况的重要信息。医学影像报告自动生成任务旨在通过给定的医学影像，生成清晰（clear)、正确(correct）、简洁（concise）、完整（complete）、一致（consistent）、连贯（coherent)即6 C特点的报告内容。这通常需要撰写的医生对相关专业及影像学诊断方面的知识有扎实的了解。自动收稿日期：2 0 2 3-0

6、2-16作者简介：梅周俊森（19 9 4-），男，湖北宜昌人，研究生，硕士，主要研究方向：医学图像处理，自然语言处理。ii2023年第0 5期(总第2 45期)文献标识码：A文章编号：2 0 9 6-9 7 59(2 0 2 3)0 5-0 0 2 1-0 4MEI Zhoujunsen,SUN Shuifa,LI Xiaolong生成高质量的医学影像报告可以大大加快工作流程的自动化，减轻医生工作负担，降低错误报告的出现概率，提高医疗报告的质量和标准化，因此它已经成为人工智能与智慧医疗领域中热门研究对象。目前，自动生成医学影像报告领域的研究正在迅速发展，已经有许多相关的研究成果。这些研究结果表

7、明，使用深度学习技术的自动生成医学影像报告系统可以生成较为简洁、一致的报告，为医生提供有价值的信息。但也存在一些挑战和问题需要解决，如数据集标准化、生成的报告准确性和可靠+3结语针对计算机视觉在大型建筑结构表面位移监测精准度和靶点定位得难度性这一问题，本文基于计算机视觉光流技术，结合Python-opencv的相关算法，提出一种具有无需安装人工靶点、远距离、鲁棒性高等特点的位移监测算法。(1)借助Python-opencv所编写的光流算法程序相较于传统的特征模板匹配算法在运算速度上有了较大的提升，而且通过二维Gabor滤波器对图像的像素进行增强处理，从而提高了光流匹配过程中的精确性。(2)将本

8、文所提出得算法应用到模拟位移试验和开源DIC算法进行对比，结果表明。本文方法与开源DIC算法的的误差小于0.1%，且计算速度也提高了40%。证实了该方法具有运算速度的优势和鲁棒性。参考文献：1晏班夫,李得睿,徐观亚,等.基于快速DIC与正则化平滑技术的结构形变测试 J.中国公路学报,2 0 2 0,33(0 9):19 3-2 0 5.212叶肖伟,张小明，倪一清,等.基于机器视觉技术的桥梁挠度测试方法 J.浙江大学学报(工学版),2 0 14,48(0 5):8 13-8 19.3 Ye XW,Dong CZ,Liu T.Environmental effect on visionbased

9、 structural dynamic displacement monitoring.Proceedingsof the Second International Conference on Performance-basedand Life-cycle Structural Engineering.Brisbane:Universityof Queensland,2015.261-265.4】韩建平,张一恒,张鸿宇.基于计算机视觉的振动台试验结构模型位移测量 .地震工程与工程振动,2 0 19,39(4):2 2-2 9.5周颖,张立迅，刘彤,等.基于计算机视觉的结构系统识别.土木工程学报

10、,2 0 18,51(11):17-2 3.6 DAUGMAN J G.Uncertainty relation for resolution in spa-ce,spatial frequency,and orientation optimized by two-di-mensional visual cortical filters J.Journal of the OpticalSociety of America A Optics&Image Science,1985,2(7):1160-9.7苏勇，高越，泽仁,等.光绘：自由开源的数字散斑图像生成和评价软件 J.实验力学,2 0 2

11、1,36(1):17-2 8.Changjiang Information&Communications性、解释性等。因此，在未来的研究中，还需要加强对数据预处理、模型训练和评估等方面的研究，以提高自动生成的医学影像报告的准确性和可靠性，使其在实际应用中得到更广泛的应用。2报告结构及相关数据集2.1医学影响报告的结构性与非结构化的医学影像报告相比，结构化的医学影像报告具有以下优点：包含关键信息，并以标准格式呈现，因此更为可靠；信息按照标准模板组织，不会因为表达方式不同而导致理解困难；信息以标准格式呈现，方便对数据进行分类、归档、检索等操作；相比于非结构化的报告，生成一份结构化的报告更为容易。一

12、些著名的放射影像医学协会也强调了结构化报告的必要性，以准确描述放射学结果。对于一份结构化的医学影像报告，它通常包含以下几个方面：（1)患者信息：包括患者的姓名、年龄、性别和其他相关信息；（2）检查信息：包括影像检查的类型、日期、时间和相关技术参数；（3)检查结果：影像结果的描述，包括对正常和异常结构的说明；（4）诊断结果：医生对检查结果的诊断，包括是否存在疾病或潜在问题的说明；（5）建议：医生对接下来的诊疗计划的建议。对于自动生成医学影像报告任务，重点是生成检查结果与诊断结果这两个部分的内容。2.2数据集同时包含医学影像和影像报告的公开数据集比较少，其中又以胸部x光的医学影像报告（CXR)为主

13、。相关研究人员也更倾向与使用较大且先前研究人员使用过的数据集，这样训练出来的模型鲁棒性较好，方便对比不同模型间的性能。目前较为主流的医学影像报告公开数据集如下：IU X-RAYl(The Indiana University Chest X-Ray Collec-tion)：由印第安纳大学收集，广泛用于评估医疗报告生成模型的性能。数据集包含7 47 0 对图像和39 55份英文放射报告，每个报告由以下部分组成：impression、f i n d i n g s、t a g s、c o mp a r i-sons 和 indication。ChestX-Rayl2：由美国国立卫生研究院（NIH

14、)临床中心收集，包含32，7 17 名独特患者的1，0 8，9 48 幅正面CXR图像，包含带有手工标记的boundingbox，为评估疾病定位性能提供了标准。MIMIC-CXR3:MIMIC-CXR是最近发布的迄今为止最大的数据集，包括37 7 110 张胸部X射线图像和2 2 7 8 35份来自Beth Israel DeaconessMedical Center的6 458 8 名患者的英文放射学报告。Padchestl4：数据集包含6 7,0 0 0 名患者的16 0 0 0 0 多张六视图的CXR图像，分为6 8，8 55和37,8 7 1异常和正常病例。这些报告按照 Unifed

15、Medical Language System(UMLS)标准共有17 4种放射学结果、19 种诊断。3报告生成模型及评估指标医学影像报告自动生成任务属于图像描述任务（ImageCaption)中的子类任务，因此有相当一部分针对医学影像报告生成模型源于图像描述模型，或者对其做出一定的优化。这些模型可以大致分为3类：（1)基于编码-解码结构；(2)基于图结构；（3)基于强化学习。3.1编码-解码模型编码-解码的模型起源于机器翻译领域，其中的编码器使梅周俊森等：基于深度学习的医学影像报告自动生成研究综述用卷积神经网络（CNN）提取图像特征，解码器使用递归神经网络(RNN)生成报告。编码-解码模型的

16、原理是将高维的输入数据映射到一个低维的表征空间中，解码器再将特征向量重构成为输出数据的一个高维近似，如图1所示。具体到医学影像报告自动生成中，编码器从影像中提取图像特征，解码器通过读取大量影像报告训练语言模型，图像特征作为输入初始文本输入编码器中，语言模型根据输入的初始文本预测下一个词语，再将预测的词语添加到初始文本中，并作为新的输入再次预测下一个词语，重复上述步骤直到生成的文本满足预期长度或文本生成结束。编码器图1编码-解码结构模型目前主流的编码-解码模型使用VGG或Resnet等卷积神经网络作为编码器。CNN在提取图像的局部特征方面具有很大的优势，但是由于卷积运算的局限性，它不能很好地处理

17、远距离关系。将卷积神经网络与自注意力的形式结合起来的Vi-sionTransformer(ViT)用于图像的分类或者通过使用自注意力来进一步处理CNN的输出，取得了较好的效果，尤其是在一些大规模数据集上。Dai等人5将ViT中的HybridArchitecture用在医学图像分类上，提出了TransMed模型，其结合了CNN和Transformer的优点，可以有效地提取图像的低级特征并建立模态之间的长期依赖关系。Krause等人 6 发现RNN,尤其是长短期记忆网络(LSTM)，在单句生成方法中表现良好，但在段落生成中的表现并不理想，因为LSTM无法解决网络中长时间的信息保留问题。使用包含两个

18、LSTM的分层RNN（H R NN）。其中一个LSTM生成主题，另外一个LSTM为每个主题生成一个句子。HRNN在生成CXR描述方面表现良好，但有时会导致生成重复的句子。Harzig等人 7 将单个字LSTM替换成两个字LSTM：异常词LSTM和正常词LSTM。两个网络分别生成正常与异常描述，最后合并成一份报告。Chen等人8 提出基于Transformer的解码器结构，并加入内存驱动模块，以更好地获取与保存上下文信息。Wang等人9 在2 0 16 年提出一种新的编码-解码结构，在模型中加入一个额外的网络用于对输入的图像进行多标签分类，再将分类结果作为嵌入与图像特征一起输入解码器中，能够提升

19、生成文本质量。Jing等人10 使用一种同时关注图像特征与标签信息的共同注意机制（Co-Attention），通过计算两者的软注意力机制向量，将图像特征与标签信息通过软注意力机制计算的特征向量拼接起来输入文本生成模型，形成完整的医学影像报告。Huang等人使用了一种包含通道注意力和空间注意力的多注意力机制，通道注意力关注特征内容，空间注意力关注特征位置。将通道和空间注意力结合起来，能在生成段落时加强句子主题与图像特征表示的映射。Wang等人(12)将上述结构进行简化，把多标签分类任务融入编码器中，使得编码器能够同时输出标签信息与图像信息。总的来说，在CNN-RNN的基础上，更换性能更好的编码

20、器网络或者解码器网络、训练额外的分类器来预测疾病标签22特解码器量影像报告Changjiang Information&Communications或医疗标签，能进一步提高报告质量。3.2图模型图模型将从影像中提取的特征与其他模态的信息（如病人信息和医学知识）一起输入到图模型中进行处理和编码。图模型的优点在于可以有效地处理多模态数据，并能够更好地捕捉数据之间的依赖关系。因此，用于生成复杂的医学影像报告时，其中包含了多种信息来源的数据。特征提取异常特征生成器文本特征图网络图2 图模型Li等人(3)根据医生阅读医学影像的方式，开发了一个由知识驱动的包含编码、检索和转译功能的模块。该模块将医学图像的

21、视觉特征转换为异常图，其中每个节点表示根据医学知识设计的临床异常，从而在图像特征中提取异常信息。异常节点的相关性被进一步编码为异常图的边权重，在做出临床诊断决策时可以考虑不同异常之间的关系。检索模块从模板中匹配检测到的异常信息，选择最适合的句子模板，进一步扩展并释义为报告。对于一些模板中没有的特殊病例，检索模块会改写匹配的句子模板，生成最终的报告。Zhang等人4利用胸部X光的先验知识构建了一个图卷积神经网络模型（GCN)，引入知识图后可以对疾病特征与图像特征的关系进行建模并学习。网络中的每个节点代表不同的疾病发现，提取的相关图像特征通过图模型来传播与聚合，每个节点会学习所代表的疾病发现的特征

22、，这些特会用于后续的分类与报告生成。3.3强化学习强化学习是一种从环境中通过试错来学习的方法，目标是通过最大化累计奖励来实现特定的任务。在强化学习中，智能体（agent)通过与环境进行交互来学习，并且根据环境的反馈调整其行为策略，以获得更好的奖励。应用于医学影像报告自动生成任务时，强化学习通过模拟医生的决策过程，学习如何选择最佳的诊断结果或建议。agent可以根据医学影像数据、病历记录、患者病史等信息来进行决策，并将其转化为生成的报告。通过不断地与医生专家进行交互，并根据其反馈不断调整自己的行为策略，agent可以逐步提高自己的性能，并生成更加准确和完整的医学影像报告。特征提取图3强化学习模型

23、Liu等人i5考虑到医学文本生成与一般的文本生成的差别，尤其是报告中临床关键准确度的重要性，提出一种基于强化学习的领域感知报告生成系统。该系统避免了编码-解码结构种使用的交叉熵损失函数不能直接优化评价指标，通过自然语言评估指标与临床疾病标签来保证生成报告与GroundTruth23梅周俊森等：基于深度学习的医学影像报告自动生成研究综述之间的一致性。Jing等人i)提出了一种由规划器(PL)、异常写入器（AW)和正常写入器（NW）三种agent组成的合作多智能体系统（C M A S）。规划器检查输入图像是否包含异常区域，异常写入器或正常写入器将根据规划器给出异常区域的顺序为每一个区域生成一个描述

24、性句子，同时使用增强算法来优化评估指标，使得该系统能有效地缓解异常与正常关键词之间的分布不平衡问题。3.4评估指标影像报告评估医学影像报告的评估指标可大致分为两种，一种是自然语言处理领域中常用的评估指标，另一种是针对医学领域专门设计的临床评估指标。3.4.1自然语言评估指标当使用机器翻译模型或文本生成模型时，需要一种方法来量化模型的性能和生成结果的质量。其中,BLEU(BilingualEvaluationUnderstudy)分数是一种常用的机器翻译评估指标。BLEU指标主要基于n-gram匹配度量翻译结果的相似性。对于每个参考答案和每个生成结果,BLEU会计算它们之间的n-gram重叠数量

25、，以此作为相似度的度量。n-gram是将生成结果或参考答案中的连续n个单词或符号作为一个单位，然后计算它们之间的重叠度量。BLEU指标的取值范围通常为0 到1之间，值越高表示生成结果与参考答案之间的相似度越高。BLEU分数的计算过程相对简单，而且具有直观的解释性，因此它在机器翻译和文本生成等任务中广泛应用。但是，BLEU指标也有一些局限性，比如它无法考虑语义的一致性和生成结果的流畅度等因素，因此需要结合其他指标来评估模型的性能。模型生成医学影像报告时使用的是训练好的语言模型，用来评估语言模型质量的指标困惑度(perplexity)也可以用于评估医学影像报告。对于一个给定的测试集，perplex

26、ity可以被计算为这个测试集中所有句子的平均困惑度。困惑度实际上是一个概率值，表示对一个随机变量的预测不确定性的度量。对于一个语言模型来说，它所预测的每个词的概率可以被看作是一个随机变量，因此可以使用困惑度来度量模型预测下一个词时的不确定性。数学上，perplexity可以用如下公式计算：Perplexity(W)=P(wi,.W2,3.wn)-其中W=Wi,W2,W3，,w,是一个由n个词组成的句子，P(wi,W2,Ws，,w n)是模型在给定这个句子的情况下计算得到的概率。Perplexity的值越低，代表模型的性能越好。3.4.2临床评估指标自然语言评估指标并不是专门为评估医学文本而设计

27、的。生检索模块成器(1)奖励模块因此，它们中的大多数仅仅关注于流畅的可读性，而忽略了具体的医学关键词的重要性。对于医疗报告的生成，临床一致性比自然语言的可读性更重要。Zhang等人4提出了MIRQI评估指标，在该指标中，从Ground Truth与生成的报告中提取疾病、否定、不确定关系和关系图中的从属关系等关键词其召回率计算公式为：MIRQI-T=Wpos*TP+FN其中真阴性(TN)、假阳性(FP)和假阴性(FN)的计算方法是节点在关系图中的从属关系。真阳性（TP）的计算公式为：TP+Wneg*TN+FPTN(2)Changjiang Information&CommunicationsTP

28、=(1-Wattr)*TPreywords+Wattr*TPttributes,其中,Wpos和a是正面提及和属性的权重，Wpos+Wmeg=1。精确度的计算方法是：MIRQI-p=Wpos*F1分数计算方法为：MIRQI-F1=4存在的问题与未来研究方向自动生成医学影像报告是一个新兴的研究领域，该领域虽然在一定程度上发展迅猛，取得了较好成果，但还存在一些挑战和需要解决的问题。医学影像数据量大，但是由于医学数据的敏感性，很难获得足够数量和质量的标注数据。因此，研究人员需要开发新的方法来处理这个问题，例如使用半监督或无监督学习方法；由于人体的复杂性，同一张影像可能会有多种不同的疾病诊断结果，多张

29、影像可能对应同一种疾病诊断结果,因此生成的报告应该能够反映这种输入输出数据的多样性，研究人员需要根据不同疾病的特征设计更加灵活的模型架构，并采用一些先进的生成模型在报告中体现不同的诊断结果；医学影像报告是非常重要的医学信息载体，因此其质量对疾病诊断和治疗非常关键，为了提高报告的质量，研究人员需要开发更加精准的模型，并采用更加准确的评估指标。为解决上述存在的问题，自动生成医学影像报告在未来的研究方向可能包括：基于多模态数据的报告生成，将医学影像数据与其他类型的医疗数据（如电子病历数据）相结合，以提高报告的质量和多样性；针对生成的报告中存在的错误或不准确的部分，自动进行矫正或补充；面向实际应用的研

30、究：将自动生成医学影像报告应用到临床实践中，并评估其对医疗决策和诊断准确性的影响。5结语本文从生成模型、数据集、评估指标等方面介绍了医学影像报告生成领域。目前主流的模型可以分为编码-解码、图、强化学习三种方式，但这些模型都还存在一些尚未解决的问题，例如生成报告的可读性与临床一致性不高，没有适用于医学影像报告的全面评估指标，缺少大型且高质量的数据集等等。未来，可以针对上述问题进一步研究，例如采用预训练好的大型语言模型可能会让模型生成的报告在准确度和灵活度上都有较大提升。此外，将知识图谱引入现有框架之中，以提高从影像中提取的特征的质量，对于生成一份高质量医疗报告十分有帮助。生成高质量的影像报告对于

31、促进未来智慧医疗领域的发展有很大的意义和价值。参考文献：1 Demner-Fushman D,Kohli M D,Rosenman M B,et al.Pre-paring a collection of radiology examinations for distribu-tion and retrievalJ.Journal of the American Medical In-formatics Association,2016,23(2):304-310.2 Wang X,Peng Y,Lu L,et al.Hospital-scale chest x-ray database an

32、d benchmarks on weakly-supervised classification andlocalization of common thorax diseasesC/IEEE CVPR.sn,2017,7:46.梅周俊森等：基于深度学习的医学影像报告自动生成研究综述3 Johnson A E W,Pollard T J,Berkowitz S J,et al.MIMIC-CXR,a de-identified publicly available database of chestradiographs with free-text reportsJ.Scientific d

33、ata,2019,6(1):1-8.TP+Wneg*TN+FNTNTP+FPMIRQI-r*MIRQI-PMIRQI-r+MIRQI-p(3)(4)4 Bustos A,Pertusa A,Salinas J M,et al.Padchest:A largechest x-ray image dataset with multi-label annotated reports.Medical image analysis,2020,66:101797.5 Dai Y,Gao Y,Liu F.Transmed:Transformers advance multi-modal medical im

34、age classificationJ.Diagnostics,2021,11(8):1384-1392.6 Krause J,Johnson J,Krishna R,et al.A hierarchical ap-proach for generating descriptive image paragraphsC/Pro-ceedings of the IEEE conference on computer vision andpattern recognition.2017:317-325.7 Harzig P,Chen Y Y,Chen F,et al.Addressing data

35、biasproblems for chest x-ray image report generationJ.arXivpreprint arXiv:1908.02123,2019.8 Chen Z,Song Y,Chang T H,et al.Generating RadiologyReports via Memory-driven Transformer C/Proceedingsof the 2020 Conference on Empirical Methods in NaturalLanguage Processing(EMNLP).United States:Associationf

36、or Computational Linguistics,2020:1439-1449.9Wang X,Peng Y,Lu L,et al.Tienet:Text-image embeddingnetwork for common thorax disease classification and re-porting in chest x-raysCJ/Proceedings of the IEEE Confer-ence on Computer Vision and Pattern Recognition(CVPR).10 IEEE,2018:9049-9058.Jing B,Xie P,

37、Xing E.On the Auto-matic Generation of Medical Imaging ReportsC/Proceed-ings of the 56th Annual Meeting of the Association for Com-putational Linguistics(Volume 1:Long Papers).Melbourne,11 Huang X,Yan F,Xu W,et al.Multi-attention and incorporat-ing background information model for chest x-ray image

38、re-port generationJ.IEEE Access,2019,7:154808-154817.12 Wang Z,Han H,Wang L,et al.Automated Radiographic Re-port Generation Purely On Transformer:A Multi-criteriaSupervised ApproachJ.IEEE Transactions on Medical Im-aging,2022:1-1213 Li C Y,Liang X,Hu Z,et al.Knowledge-driven encode,re-trieve,paraphr

39、ase for medical image report generationC/Proceedings of the AAAI Conference on Artificial Intelli-gence.Menlo Park:AAAI,2019,33(01):6666-6673.14 Zhang Y,Wang X,Xu Z,et al.When radiology report generation meets knowledge graphC/Proceedings of the AAAIConference on Artificial Intelligence.Menlo Park:A

40、AAI,2020,34(07):12910-12917.15 Liu G,Hsu T M H,McDermott M,et al.Clinically accuratechest x-ray report generationC/Machine Learning forHealthcare Conference.PMLR,2019:249-269.16 Jing B,Wang Z,Xing E.Show,Describe and Conclude:OnExploiting the Structure Information of Chest X-ray ReportsC/Proceedings of the 57th Annual Meeting of the Associ-ation for Computational Linguistics.2019:6570-6580.24

展开阅读全文