1、 2023 年第 10 期63计算机应用信息技术与信息化基于深度学习的胶囊内窥镜视频摘要提取邱 威1QIU Wei 摘要 在消化道疾病的诊断中,无线胶囊内窥镜(wireless capsule endoscopy,WCE)技术以其无创、无痛等特点得到了广泛的应用。然而,在诊断过程中,WCE 会产生含有整个消化道大约 55 000 张图像,仅靠医生通过人眼观察并作出诊断是既费时又费力的。随着人工智能技术的不断发展与进步,对医疗领域的研究也越来越多,研究人员利用深度学习的技术提出了去除冗余的胶囊内窥镜图像和检测出病灶区域的技术,有利于减轻医生的工作强度,提高医生的工作效率。因此,去除冗余的胶囊内窥
2、镜图像的技术逐渐成为研究热点。利用深度学习的技术,设计并实现了基于深度学习的胶囊内窥镜视频摘要提取的方法,利用 ResNet-50 提取胶囊内窥镜图像中更为高级的特征,能够克服使用传统方法使用低级特征的局限性,同时使用三元损失函数和二元交叉熵损失函数作为总的损失函数,提升了模型分类的精度。实验结果表明,与现有的相关方法进行对比,基于深度学习的胶囊内窥镜视频摘要提取方法,能够帮助医生减轻工作强度,提高工作效率,具有临床应用价值。关键词 消化道疾病;无线内窥镜;ResNet-50;深度学习;三元损失 doi:10.3969/j.issn.1672-9528.2023.10.0131.长江大学电子信
3、息学院 湖北荆州 434023 0 引言肿瘤、溃疡、息肉和出血等消化道疾病极大地危害着人们的健康。传统的内窥镜检查方法是通过机械推入式的内窥镜伸入人体,这种方法不仅需要昂贵的医疗设施,还会使患者难以忍受并产生极大的痛苦。无线胶囊内窥镜是一种利用吞咽的视频胶囊对消化道内部进行拍照的技术,与传统内窥镜检查相比,它不仅具有操作方便、无创伤、无交叉感染、容易耐受、无需镇静剂和潜在并发症较少等优点,而且能够检查整个消化道系统,医生可根据胶囊内窥镜拍摄的视频进行诊断。该方法在消化道疾病的筛查中起到了至关重要的作用,目前已被广泛应用于临床的消化道疾病检查诊断中1。尽管胶囊内窥镜与传统消化道检测手段具有许多优
4、势,但它在临床实践中存在一个重要的缺点,即 WCE 在人体内工作大约 8 小时并会拍摄大约 55 000 张 24 位的彩色图像。此外,为了减少漏诊和误诊,医生通常需要重复查看 WCE 视频。由于人工诊断效率低下,会使医生很难快速找到异常和有价值的图像,会直接影响到胶囊内窥镜的大规模使用,不利于胶囊内窥镜的推广与长期发展2。随着人工智能技术的不断发展与进步,利用计算机辅助手段对海量的内窥镜图像进行初步筛查来帮助临床医生尽快识别有问题的图像,从而减少临床医生的工作量并提高工作效率,逐渐成为医疗领域研究的热点3-5。本文提出了基于深度学习的胶囊内窥镜视频摘要提取的方法,该方法能够去除大量冗余的胶囊
5、内窥镜,有利于减轻医生的工作强度,提高医生的工作效率。1 基于深度学习的胶囊内窥镜视频摘要提取的方法1.1 总体流程针对医生需要花费大量的时间来处理包含大量冗余视频帧的胶囊内窥镜视频等问题,为提高医生的工作效率,本文提出了基于孪生网络的胶囊内窥镜视频摘要提取方法,总体流程如图 1 所示。图 1 方法流程图首先,使用 ResNet-50 模型实现胶囊内窥镜视频图像帧的特征提取;其次,使用三元损失函数来训练 3 个 ResNet-50组成的三元网络,使得锚样本与正样本之间的特征距离越来越近,锚样本与负样本之间的特征距离越来越远;然后,使2023 年第 10 期64计算机应用信息技术与信息化用二元交
6、叉熵损失函数来训练逻辑回归模型,并判定图像之间的相似性;最后,将新的胶囊内窥镜视频输入训练好的三元网络模型中,利用图像之间的相似度去除冗余的胶囊内窥镜视频帧,将保留的胶囊内窥镜序列帧组成无线胶囊内窥镜视频摘要。1.2 孪生网络孪生网络(siamese network)是深度学习中被广泛应用的神经网络,由两个孪生的卷积神经网络组成,具有相同的权重、结构和参数等特点。将一对样本提供给网络以训练并让网络学习特征之间的关系,在网络的最后一层表示每个输入样本的特征嵌入。为了计算两个样本生成的特征嵌入之间的距离,使用了对比损失。两个样本的距离值小于阈值就意味着两个输入样本属于同一类,否则意味着两个输入样本
7、属于不同类。三元网络(triplet network)是孪生网络的扩展,它将锚样本、正样本和负样本作为一个三元组,并使锚样本与正样本之间的特征距离尽可能近,锚样本与负样本之间的特征距离尽可能远。triplet network 使用 triplet loss 损失函数,与siamese network 相比,其提取的特征具有更强的泛化能力和表达能力。如图 2 所示,左图是 siamese network 结构,右图是 triplet network 结构。图 2 孪生网络和三元网络示意图1.3 损失函数使用三元损失(Ltriplet)和二元交叉熵损失(Lcls)作为总的损失函数(L)来训练模型。
8、在孪生网络部分,使用三元损失,使得同一类别的胶囊内窥镜图像相互靠近,不同类别的胶囊内窥镜图像相互远离,以便后续在逻辑回归部分用于区分图像之间的相似性。在逻辑回归部分,使用二元交叉熵损失,用于区分胶囊内窥镜图像之间的相似性,去除相似的图像,保留不相似的图像。1.3.1 三元损失三元损失6是目前被广泛使用的一个损失函数,它是由谷歌研究团队提出的用作人脸识别任务的损失函数,其目的是区分非同类极其相似的样本,如区分孪生兄弟、孪生姐妹等。三元损失的优势在于细节区分,即当输入两个相似样本时,三元损失能够更好地对细节进行建模,相当于加入了两个输入差异性的度量,学习到输入的更好表示,从而有更出色的表现。三元损
9、失的基本思想如下。输入的三元组是由锚样本、正样本和负样本构成,锚样本和正样本属于同一类别,而锚样本和负样本属于不同类别。三个样本输入网络中,每个样本对应的特征被嵌入,在嵌入空间中,来自同一类别的样本应该靠近,来自不同类别的样本应该远离。这个概念可以表述为:2222|,(,)apanapnffffxxx+(1)式中:xa表示锚样本,xp表示正样本,xn表示负样本,fk表示样本特征,|*|22表示欧式距离,表示阈值,其作用能控制正负样本之间的距离。如图 3 所示,模型训练学习后,所有锚样本与正样本之间的距离被最小化,同时,所有锚样本与负样本之间的距离被最大化。NegativeNegativeBas
10、ePositiveBasePositiveTriplet lossLearning(a)Triplet images before learning(b)Triplet images after learning图 3 三元距离示意图1.3.2 二元交叉熵损失交叉熵损失也是深度学习中被广泛使用的损失函数之一。交叉熵起源于信息论,它测量给定随机变量或事件集的两个概率分布之间的差异。当两个输入样本的类型相同时,标签设为 1;当它们是不同类型时,标签设为 0。利用逻辑回归进行训练,并对网络的输出结果和实际标签进行二元交叉熵运算。损失函数中还有一个 L2 权重衰减项,因此网络可以学习更小或更平滑的权重
11、,从而提高其泛化能力。二元交叉熵损失函数定义为:log()(1)log(1()BCEiiiiLyp yyp y=+(2)式中:yi是实际目标值,p(yi)表示模型的预测值。为了训练网络模型并达到所需条件,二元交叉熵损失函数定义为:101(,()lg()(1)lg(1()mclsiiiiiiiLy g dyg dyg dm=(3)式中:m 表示样本总数,di表示样本间的欧式距离,g()表示 Sigmoid 函数。2023 年第 10 期65计算机应用信息技术与信息化2 实验结果与分析2.1 实验数据集在专业医生的指导下筛选并构造了一个含有 257 362 张胶囊内窥镜图像的视频摘要提取的数据集,
12、其中,233 362 张胶囊内窥镜图像用于训练,其余图像用于测试。用于测试的数据集包含 3 种类型,分别是正常的胶囊内窥镜图像、含有气泡的胶囊内窥镜图像和含有病灶区域的胶囊内窥镜图像。从测试集中选取了消化道胃部和肠部的部分样本。如图 4 所示,第一行表示胶囊内窥镜在胃部拍摄的图像,第二行表示胶囊内窥镜在肠部拍摄的图像,第一列表示正常的胶囊内窥镜图像,第二列表示含有气泡的胶囊内窥镜图像,第三列至第五列表示含有病灶区域的胶囊内窥镜图像。正常气泡出血炎症灶状淋巴管扩张症胃部肠部图 4 胶囊内窥镜图像数据集的部分样本示例图2.2 实验评价指标本实验使用了以下几个指标来对胶囊内窥镜视频摘要提取模型的性能
13、进行评价:误检率(false detection rate,FDR)、漏检率(missed detection rate,MDR)、压缩比(compression ratio,CR)和时间性能。这些指标的计算公式为:100%AFFDRAL=(4)_100%_groundtruthATMDRgroundtruth=(5)(1)100%ALCRN=(6)totalcTTN=(7)式中:ground_truth 表示由专业医生人工标定的关键帧数量,AT表示模型检测正确的关键帧数量,AF表示模型检测错误的关键帧数量,AL表示模型检测所有的关键帧数量,N 表示一组胶囊内窥镜图像测试集总的图像数量,Tto
14、tal表示模型检测一组胶囊内窥镜图像测试集所用的总时间,Tc表示模型检测一组胶囊内窥镜图像测试集所用的平均时间。误检率代表了模型检测错误的胶囊内窥镜图像占全部胶囊内窥镜图像的比例,误检率越低,表示模型越能够有效地降低视频摘要的冗余性。漏检率代表了模型遗漏的关键帧占全部标记的胶囊内窥镜关键帧的比例,漏检率越低,表示模型对于预先标记的关键帧检测能力越强,使得视频摘要的内容具有更强的表述能力。压缩比也是衡量视频摘要的指标之一,压缩比越高,说明生成的视频摘要越精简。时间性能可体现模型的效率,时间越少,模型的效率越高。2.3 实验结果及分析本实验将分别从精度分析、效率分析和参数分析来检验模型的性能。首先
15、,用不同特征提取方法和其他现有技术方法来进行精度分析。其次,在模型运行速度上,与其他现有技术方法进行效率分析。最后,详细分析不同的学习率对训练损失的影响,以及不同的三元损失阈值对误检率和漏检率的影响。2.3.1 精度分析为了进一步评估所提出的方法的性能,选择了三种提取特征的方法来与 ResNet-50 进行比较,分别是 VGG16、In-ceptionV3 和 Xception,实验结果如表 1 所示。从表 1 中可以看出,ResNet-50 网络比其他三种特征提取的方法获得了最高的压缩比(96.21%)、最低的误检率(2.84%)和最低的漏检率(0.19%)。Inception V3 网络虽
16、然利用多尺度卷积结构来提升网络的性能,但其在压缩比、误检率和漏检率等表现性能上均落后于 ResNet-50 网络。Xception 网络是对 Inception V3 网络和 ResNet-50 网络的改进,提出了深度可分离卷积结构,在其他数据集上比 Inception V3、ResNet-50 等卷积神经网络表现出更准确的性能,但在本实验的数据集上没有表现出最准确的性能,其压缩比为 95.38%,误检率为 3.71%,漏检率为 0.53%。表 1 各种提取特征的方法在性能上的比较VGG16InceptionV3XceptionOursCR/%93.3494.3695.3896.21FDR/%
17、4.984.083.712.84MDR/%2.051.240.530.19此外,本文提出的方法还与参考文献 7 中的自适应K-means 方法、参考文献 8 中的峰值检测方法、参考文献 9中的运动分析方法和参考文献 10 中的线性 SVM 方法进行了测试。针对这些方法,都使用相同的数据集和评估方法进行了实施、训练和评估,实验结果如表 2 所示。从表 2 可以看出,虽然参考文献 7 和参考文献 8 都使用了基于 HSV颜色直方图的颜色特征和基于 GLCM 的纹理特征,但他们利用不同的方法去除冗余的胶囊内窥镜视频帧。参考文献 7采用了自适应的 K-means 聚类算法,取得了较高的压缩比。参考文献
18、 8 使用了基于峰值检测的消除算法的帧缓冲版本来在线去除冗余的胶囊内窥镜视频帧,实现了低漏诊率。然而,颜色特征和纹理特征等在计算机视觉中代表了低层次的特征,低级特征不能捕捉胶囊内窥镜视频帧之间的高级语义特征。因此,参考文献 7 和参考文献 8 两种方法在误检率这一表现性能上产生了较差的实验结果。参考文献 9 采用2023 年第 10 期66计算机应用信息技术与信息化了帧间压缩的方法,利用运动分析来减少无线胶囊内窥镜的冗余帧,在所有性能上都取得了较好的实验结果。遗憾的是,该方法有很多人工选择的且具有主观性和经验性的参数需要设置,这对于视频摘要的选取具有较大的人为干预性。参考文献10也采用孪生神经
19、网络去除无线胶囊内窥镜的冗余帧,实验结果表明,其在各项性能上也取得了令人满意的结果。但它由两个深度卷积神经网络组成,限制了胶囊内窥镜中图像特征的呈现能力。本章提出的方法在数据集上优于其他竞争方法,因为其不仅使用了基于深度学习的高级特征,而且仅仅设置了一个人工选择的参数。表 2 提出的方法与其他方法的性能比较Ref7Ref8 Ref9Ref10 OursCR/%80.3167.7583.1285.0396.21FDR/%6.987.175.075.022.84MDR/%3.452.372.122.070.192.3.2 参数分析参数的设置也会影响模型的准确性,在本节中,将详细分析训练损失与学习率
20、的设置。图 5 显示了在胶囊内窥镜视频摘要提取数据集上,迭代次数为 50 时,基于孪生网络的胶囊内窥镜视频摘要提取模型在不同学习率的训练过程中的损失变化。从图 5 中可以看出,随着迭代次数的增加,训练损失均逐渐减小,即训练损失曲线在训练后期趋于平缓,且仅在小范围内波动。当学习率设置为 0.002 0 时,训练损失曲线的收敛速度最慢,因而将降低学习率的设置,小的学习率有利于模型在一个 Epoch 内学习三元组数据的相似性和不相似性,加快训练损失曲线的收敛速度。随着学习率逐渐减小,训练损失曲线的收敛速度逐渐加快,在学习率设置为 0.000 1时,训练损失曲线仅经过 20 轮训练就成功收敛了。图 5
21、 不同的学习率对模型收敛的影响3 结论针对胶囊内窥镜图像高度相似且存在如微小的出血或息肉的小块状物等含有肉眼可见的局部细节信息等问题,本课题提出了一种基于孪生网络的胶囊内窥镜视频摘要提取方法。该方法利用 ResNet-50 提取胶囊内窥镜图像中更为高级的特征,能够克服使用传统方法使用低级特征的局限性,同时使用三元损失函数和二元交叉熵损失函数作为总的损失函数,提升了模型分类的精度。将该方法与计算机视觉领域常用的分类模型和已有的相关方法进行对比,实验结果表明,本文所使用的基于深度学习的胶囊内窥镜视频摘要提取方法,对于胶囊内窥镜视频的压缩比高达 96.21%,误检率为2.84%,漏检率为 0.19%
22、,而且该方法以 0.017 1 帧/s 的速度检测一个完整的胶囊内窥镜视频,相较于聚类、运动分析等传统的方法,性能提升明显。参考文献:1 顾卫忠.无线胶囊内窥镜的研究进展和讨论 J.中国医疗设备,2011,26(8):60-62.2 赵杰,李华峰.胶囊内窥镜 J.数字技术与应用,2011(11):38-38.3 詹昌飞.无线胶囊内窥镜图像检索及视频摘要方法研究与系统实现 D.北京:北京工业大学,2017.4 孙宇千,吕庆文,刘哲星,等.胶囊内窥镜冗余图像数据自动筛除方法 J.计算机应用研究,2012,29(6):2393-2396+2400.5 张林琪,郭旭东,张璐璐,等.基于图像块信息相似性
23、算法的胶囊内窥镜图像去冗余研究 J.电子测量技术,2020,43(22):93-97.6 HE K,ZHANG X,REN S,et al.Deep residual learning for image recognitionC/Proceedings of the IEEE Confer-ence on Computer Vision and Pattern Recognition.Piscat-away:IEEE,2016:770-778.7 CHEN J,WANG Y,ZOU Y X.An adaptive redundant image elimination for Wireles
24、s Capsule Endoscopy review based on temporal correlation and color-texture feature similari-tyC/2015 IEEE International Conference on Digital Signal Processing(DSP).Piscataway:IEEE,2015:735-739.8 LI C,HAMZA A B,BOUGUILA N,et al.Online redundant image elimination and its application to wireless capsu
25、le en-doscopyJ.Signal,image and video processing,2014,8(8):1497-1506.9 SUSHMA B,APARNA P.Summarization of wireless capsule endoscopy video using deep feature matching and motion analysisJ.IEEE access,2020,9:13691-13703.10 CHEN J,ZOU Y,WANG Y.Wireless capsule endoscopy video summarization:a learning approach based on siamese neural network and support vector machineC/2016 23rd International Conference on Pattern Recognition(ICPR).Pis-cataway:IEEE,2016:1303-1308.【作者简介】邱威(1997),男,湖北武汉人,硕士研究生,研究方向:医学图像处理。(收稿日期:2023-04-23 修回日期:2023-05-18)