基于DeeplabV3 网络的睑板腺图像分割研究和评价.pdf

资源描述

1、18 China Digital Medicine.2023,Vol.18,No.8基于 DeeplabV3+网络的睑板腺图像分割研究和评价杨伊张洪单琨刘瑶赵文兵蔡越江洪佳旭赵地【摘要】目的：构建基于 DeeplabV3+网络的人工智能（AI）系统算法模型，提高眼干燥症诊疗效率。方法：收集某医院干眼门诊就诊患者的睑板腺图像，构建图像数据库，随机分配为训练集和验证集，投入模型训练，分析并验证其可行性和有效性。结果：在内部验证集，基于 DeeplabV3+的算法模型对于睑板腺区域分割的准确率达 95.65%，均交并比和 Kappa 系数分别为 83.75%和 92.96%。该算法分割

2、出的萎缩区域，与临床医生分割结果相似。结论：DeeplabV3+网络模型能够实现眼干燥症患者睑板腺腺体的自动切分，可辅助相关疾病的临床诊断和筛查，提高诊断效率。【关键词】机器学习；语义分割；眼干燥症；睑板腺萎缩Doi:10.3969/j.issn.1673-7571.2023.08.004【中图分类号】R770.4;R319 Research and evaluation of tarsal gland image segmentation based on DeeplabV3+networkYANG Yi,ZHANG Hong,SHAN Kun,LIU Yao,ZHAO Wenbing,CA

3、I Yuejiang,HONG Jiaxu,ZHAO Di.School of Computer Science,Beijing University of Technology,Beijing 100124,China(YANG Yi,ZHAO Wenbing,CAI Yuejiang);Eye and ENT Hospital of Fudan University(ZHANG Hong,SHAN Kun,HONG Jiaxu);Institute of Computing Technology,Chinese Academy of Sciences(LIU Yao,ZHAO Di)Cor

4、responding authors:ZHAO Wenbing,Email: HONG Jiaxu,Email:jiaxu.hongfdeent.org ZHAO Di,Email:【Abstract】Objective To construct an artificial intelligence(AI)system algorithm model based on DeeplabV3+network to improve the efficiency of ophthalmoxerosis diagnosis and treatment.Methods The tarsal gland i

5、mages of ophthalmoxerosis patients in a hospital were collected and the image database was constructed.The images were randomly divided into a training set and a validation set,and the model trained to analyze and verify its feasibility and effectiveness.Results For the internal validation set,the a

6、ccuracy of the algorithm model based on DeeplabV3+for tarsal gland region segmentation reached 95.65%,with the mIOU and Kappa coefficient of 83.75%and 92.96%,respectively.The atrophic regions segmented by this algorithm were similar to those segmented by clinical doctors.Conclusion The DeeplabV3+net

7、work model can achieve automatic segmentation of tarsal gland,which can assist clinical diagnosis and screening of related diseases and improve diagnostic efficiency.【Keywords】Machine learning;Semantic segmentation;Ophthalmoxerosis;Tarsal gland atrophy作者单位：100124 北京，北京工业大学计算机学院（杨伊、赵文兵、蔡越江）；复旦大学附属眼耳鼻

8、喉科医院（张洪、单琨、洪佳旭）；中国科学院计算技术研究所（刘瑶、赵地）通信作者：赵文兵，Email：洪佳旭，Email：jiaxu.hongfdeent.org 赵地，Email：专题策划人工智能在医药领域的应用Special Planning中国数字医学2023 第 18 卷第 8 期 19眼干燥症是指由泪液的量或质或流体动力学异常引起的泪膜不稳定和眼表损害，从而导致眼部不适症状及视功能障碍的一类疾病，多发于老年人群体，但随着电脑、手机、平板等电子设备的高频率使用，其发病也逐渐呈现年轻化趋势1。全球眼干燥症发病率为 5.5%33.7%；我国眼干燥症患病人数居世界首位，患病率达21%30%

9、，眼干燥症患者占眼科门诊患者的 30%以上2。眼干燥症检测过程复杂，亟需更加便捷的诊断方式，临床中由睑板腺功能障碍引起者占 50%以上，因此睑板腺的形态变化对于其诊断尤为重要。机器学习技术在眼干燥症检测领域的研究与应用中已取得了一定进展，本研究通过图像预处理、图像增强、睑板区域分割、睑板腺的面积缺失率计算及等级判定，实现睑板腺萎缩状况的自动诊断，避免手动分析图片的时间消耗及人为因素的干扰，提高眼干燥症诊断的客观性。1 方法1.1 图像处理1.1.1 数据集标注选取就诊于复旦大学附属眼耳鼻喉科医院干眼中心的眼干燥症患者，应用眼表综合分析仪 OCULUS Keratograph 5M 采集红外

10、睑板图像，剔除过于模糊、拍摄范围不全面、有睫毛遮挡、存在大面积过强反光的睑板腺图像后，最终纳入 90 幅较清晰的图像作为本次研究的数据集，训练集和验证集比例设置为 0.8:0.2。每幅图像均使用 Labelme 软件中的多边形工具标记睑板腺腺体存在区域和缺失区域。完成标注后保存文件，软件生成的语义分割标签图为 json 格式。将 json 格式的标签图转换成与标注图像尺寸相同的 png 标签图。其中，_background_ 不在本文的语义分割类别中，该类别是未标注的区域对应的标签，语义分割网络不会对 _background_ 标签对应的类别进行训练。最终，形成原始图像、伪彩色标注图及彩色可视

11、化结果。见图 1。1.1.2 数据集增强由于原始训练图片数据集只有90 幅图像，不足以训练神经网络，本研究选取数据增强模块中调整步长缩放（resize step scaling）、随机填充裁剪（random padding crop）、随机水平翻转（random horizontal flip）、随机失真（random distort）和归一化（normalize）5 种配置选项以增加数据样本的多样性。调整步长缩放操作将尺寸调整的最小比例（min_scale_factor）设置为 0.5，最大比例（max_scale_factor）设置为2.0，步长设置为0.25，

12、用于控制每次调整的幅度，提供精细的尺寸调整，增加数据增强的计算复杂度。随机填充裁剪操作填充的位置可以选择在图像的上、下、左、右或任意组合位置，裁剪的尺寸（crop_size）设置为 1024,512。随机水平翻转操作是基于概率图 1 标注结果（c）彩色可视化结果（a）原始图像（b）伪彩色标注图专题策划人工智能在医药领域的应用Special Planning20 China Digital Medicine.2023,Vol.18,No.8执行图片的水平翻转。本研究将水平翻转的概率设置为 0.5，对于每张图像，随机生成一个 0 1 的随机数。如果生成的随机数小于水平翻转的概率，那么执行水平翻转操

13、作；如果大于概率，则保持图像不变。随机失真操作通过随机应用一系列图像扭曲操作改变图像的外观和特征。本研究将亮度、饱和度和对比度调整因子设置为 0.4。进行归一化处理时首先计算图像数据集的均值和标准差。对于每个像素位置上的像素值，执行以下操作减去均值并除以标准差，使得图像每个像素位置上的值都被缩放到合适的范围，从而消除奇异样本数据导致的不良影响。1.2 模型构建1.2.1 DeeplabV3+整体结构见图 2。DeeplabV3+3在编码器(encoder）中的具体过程如下。首先，利用并行的空洞卷积从压缩 4 次后的初步有效特征层得到特征层，然后分别以不同的膨胀率进行特征提取，其中卷积

14、采用膨胀率分别为 6、12、18 的 33 卷积，在不损失信息的情况下提高网络的感受野，使每个卷积输出都包含较大范围的信息，网络有不同的特征感受情况，特征提取后再进行合并，最后进行11 卷积压缩特征，获得绿色特征层。解码器（decoder）的主要过程是对深度卷积神经网络（deep convolutional neural network,DCNN）生成的压缩两次的较浅的特征层经过 11 卷积，得到的结果与由编码器生成的具有高语义信息的特征层（encoder 输出）进入Decoder 中进行上采样后的结果进行堆叠，完成堆叠后，以 33 卷积提取特征，这时获得一个最终的有效特征层，是整张图片的特征

15、浓缩。最后进行上采样使得最终输出图片的大小和输入图片一样，得到预测结果。1.2.2 特征提取网络 ResNet 网络4的核心思想是在神经网络中增加跨层连接（skip connection），使得模型的深度更加容易训练。在传统的神经网络中，网络的每一层都会对输入数据做出一些变换，这些变换可能对后续层的学习产生负面影响，尤其是在网络深度加深时。而 ResNet 提出的跨层连接可以将输入直接跳过一些层之后与输出相加，保留浅层特征，从而解决梯度消失和过拟合问题。本研究采用ResNet50-D 结构，即拥有 50 个卷积层的 ResNet-D 网络，结构见图 3。ResNet50-D 分为 5 个阶

16、段，其中输入项（input item）的结构比较简单，可以视其为对输入（input）的预处理，Stage1、Stage2、Stage3和 Stage4 都由瓶颈层（bottleneck,沙漏型结构）5组成，结构较为相似。Stage 1 包含 3 个 bottleneck，Stage2、Stage3 和 Stage4 分别包括4、6、3 个 bottleneck。Bottleneck残差块分为 3 层，第一层、第三层使用 11 的卷积核，而第二层使用 33 的卷积核，11 卷积核减小了输入特征图的深度，这样可以减少模型参数和计算量，并且保留重要信息。ResNet-D 改变了 ResNet 下采

17、样模块中 Path A 的前两个卷积的步长大小，在 Path B 卷积前加入平均为 22 的池化层，步长为 2，卷积层步长为 1。1.2.3 空洞空间金字塔池化空洞卷积6相当于对卷积核进行上采样操作，用空洞系数（rate）控制上采样率，rate=1 时的空洞卷积是普通卷积。通过控制 rate 的值，可以控制卷积操作的感受野。见图 4。图 2 DeeplabV3+网络模型架构专题策划人工智能在医药领域的应用Special Planning中国数字医学2023 第 18 卷第 8 期 21空洞卷积并不增加可学习参数的情况。定义输出步长（output_stride）为网络输入图像尺寸与输出特征图

18、尺寸的比值。在用于分类任务中，全连接层或全局池化层之前的特征图尺寸一般为输入图像尺寸的 1/32，因此 output_stirde=32。若欲使网络输出的特征图的 output_stride=16，可以将原网络中最后一个下采样操作（比如池化或者步长为 2 的卷积）的步长设置为 1，然后将后续的卷积替换为 rate=2 的空洞卷积。这样既可以使网络有比较大的输出特征图，还能保证足够大的感受野。1.2.4 解码区首先将 encoder 的特征双线性插值7得到 4 倍的特征，然后与 encoder 中对应大小的低级特征连接，为防止 encoder 得到的高级特征被弱化，先采用 11 卷积对低级特征

19、进行降维，两个特征连接后，再采用 33 卷积进一步融合特征，最后再双线性插值得到与原始图片相同大小的分割预测。2 评价指标2.1 模型性能评价本研究采用准确度（accuracy）、Kappa 系数、均交并比（mean intersectionover union,mIOU）作为评价睑板腺医学图像分割模型性能的指标。预测值与真实值的对比见图 5。左边椭圆形代表预测值，右边椭圆形代表真实值，可以将样本分成以下 4 个部分：真阳性（true positive,TP）为真实值与预测值都为真的部分，即图中 C 部分；真阴性（true negative,TN）为真实值与预测值都为假的部分，

20、即图中D 部分；假阳性（false positive，FP）为真实值为假，预测值为真的部分。即图中A部分；假阴性（false negative,FN）为真实值为真，预测值为假的部分，即图中 B 部分。准确度是指分类正确的预测数与总预测数的比值，准确度越高，分类器越好。其计算公式见式（1）：(1)均值交并比是指计算每个分类真实值与预测值的交集与并集之比，然后对多个分类求平均。其计算公式见式（2）：(2)Kappa 系数是用于一致性检验的指标，可以用于衡量分类的效果。其计算公式见式（3）：(3)其中，p0是每一类正确分类的样本数量之和除以总样本数，假设每一类的真实样本个数分别为a1,a1,.ac，

21、预测每一类的样本个数分别为b1,b2,.bc，总样本个数为n，则有式（4）：(4)图 3 ResNet50-D 结构图 4 空洞卷积图 5 预测值与真实值对比专题策划人工智能在医药领域的应用Special Planning22 China Digital Medicine.2023,Vol.18,No.82.2 睑板腺萎缩比计算睑板腺萎缩比为睑板腺腺体缺失区域与睑板区域之比。进行数据标注时，将睑板腺腺体存在区域标注为 dry，腺体缺失区域标注为wet，则整个睑板腺腺体面积缺失率为式（5）：(5)本研究采用临床上使用最为广泛的 4 级分类法对睑板腺萎缩情况进行分级。见表 1。表 1 睑板腺萎缩情

22、况分级睑板腺萎缩百分比（%）睑板腺萎缩等级000 33133 66266 100 33 结果本次实验环境为Tesla V100 GPU服务器，代码基于 PaddlePaddle-2.4.0框架，CUDA Version11.2。本研究使用随机梯度下降(stochastic gradient descent,SGD)学习器8，为加速收敛、减小震荡和避免过拟合等问题，在 SGD 的基础上加入动量和权值衰减两种技术，动量(momentum)为 0.9，权值衰减(weight decay)为 4.0e-5。使用多项式学习率衰减（PolynomialDecay）策略，学习率从 0.01 下降

23、衰减，交叉熵(cross entropy)损失函数9用于衡量模型输出与真实标签之间的差异，见图 6。Deeplab V3+采用空洞空间卷积池化金字塔（atrous spatial pyramid pooling,ASPP），以解决高分辨率图像上计算效率低的问题，使网络同时获得不同采样率的特征，从而提高分割精度。经训练，验证集的精确度和均较并比不断上升，其中精确度达 0.95，均交并比达 0.83，Kappa 系数达 0.92。预测得到两种类型图片，一种是叠加图（added_prediction），另一种是 3 通道伪彩色图像（pseudo_prediction），模型预测

24、效果见图 7。首次进入原型界面，信息区会提示“请选择待检测图片，支持格式 jpg,jpeg,png,bmp,tif！”。点击“选择图片”按钮后选择待检测图片，然后提示“请确认图片正确后点击开始预测按钮”，点击“开始预测”按钮进行预测，预测结束后将分割图片覆盖原图片，计算萎缩比例并与表 1 中的标准进行比较，产生提示信息，原型界面见图 8。4 讨论我国在眼干燥症检测和睑板腺图像处理方面的研究已取得了一定的进展。例如，福建医科大学附属第二医院眼科使用 AlexNet网络识别眼睑健康状况，讨论不同优化方法、不同学习率、不同正则化方法和不同批量大小对识别精度的影响10。温州医科大学附属

25、眼视光医院杭州院区角膜病与屈光手术中心建立了基于卷积神经网络的人工智能系统11，能自动识别睑板腺的腺体，并评估睑板腺的各项形态参数。图 6 loss 曲线与学习率曲线（a）原图（b）叠加图（c）伪彩色图像图 7 模型预测效果专题策划人工智能在医药领域的应用Special Planning中国数字医学2023 第 18 卷第 8 期 23本研究睑板腺图像训练数据集较小，模型容易发生过拟合，因此添加了数据增强模块，在特征上增加了数据量12。当一张图片进入数据增强模块时，该照片会依次执行函数内的操作序列，如翻转、扭曲和填充裁剪等，所有操作完成后，输出的仍是一张图像，所以整个数据集的数量并不

26、会增多。但在训练模型时，训练集中所有样本都被使用一次的情况下，训练次数(epoch)会进行数据增强，重新调用使得训练数据变换，而因为内部操作的随机性，每次最后输出的图像都可能不一样，因此每次 epoch 迭代后进入网络的图像都是增强后的图像，在特征上可以理解为数据增加，模型的泛化性得到提升。对于睑板腺图像的细节，存在图像不清晰或腺体发生严重形变情况，因此本研究提出的模型可能会误判腺体区域，导致模型预测结果不准确，从而影响睑板腺萎缩比的计算，在后续的研究中可以采用交叉验证或模型融合等方法，提高模型的稳定性和预测准确率。5 结论机器学习在医学图像领域的应用研究，使得计算机具备了自动化疾病检测、辅助

27、诊断、筛选高病灶等级患者的能力。本研究基于DeeplabV3+网络的算法模型在睑板腺萎缩区域和未萎缩区域的分割方面表现出了良好的智能化应用效果，可以辅助医生工作，为眼干燥症的诊断和治疗提供更加全面和准确的数据参考。参考文献1 张正,李银花,丁亚丽,等.干眼症的发病机制及治疗现状J.中华眼科医学杂志(电子版),2014,4(2):44-46.2 田碧珊,傅绮,黄红飞,等.中山大学中山眼科中心干眼整体护理方案J.眼科学报,2021(4):319-324.3 ZHANG K,LIU X,CHEN Y.Research on semantic segmentation of portraits ba

28、sed on improved Deeplabv3+C/AEIC Academic Exchange Information Center,Asia-Pacific Institute of Innovation and Economics.Proceedings of International Conference on AI and Big Data Application(AIBDA 2019).IOP Publishing,2019:425-431.4 HE K M,ZHANG X Y,REN S Q,et al.Deep residual learning for image re

29、cognitionR.2015,arXiv:1512.03385.5 杨怀江,王二帅,隋永新,等.简化型残差结构与快速深度残差网络J.吉林大学学报,2022,52(6):1413-1421.6 马其鹏,谢林柏,彭力.改进的卷积神经网络在医学影像分割中的应用J.激光与光电子学进展,2020,57(14):182-188.7 赵巍颂,钟汇才,高兴宇,等.基于双线性插值和池化的尺度可变网络J.电子设计工程,2019,27(1):19-24.8 史加荣,王丹,尚凡华,等.随机梯度下降算法研究进展J.自动化学报,2021,47(9):2103-2119.9 杨倩会,张长伦,何强,等.目标检测的损失函数研

30、究进展J.计算机科学与应用,2021,11(11):2836-2844.10 罗仙仙,许松芽,吴福成,等.基于VGG16预训练模型的睑板腺缺失程度识别J.泉州师范学院学报,2023,41(2):16-22.11 张祖辉,于新新,林晓蕾,等.基于深度学习的睑板腺功能障碍图像分析模型研究和评价J.国际眼科杂志,2022,22(5):746-751.12 张永亮,熊健皓,李明,等.糖尿病视网膜病变智能识别的SCSDN泛化性增强方法J.中国数字医学,2021,16(7):82-87.【收稿日期：2023-06-15】（责任编辑：刘慧铭）图 8 原型界面专题策划人工智能在医药领域的应用Special Planning

展开阅读全文