1、 82 0 引言胶质瘤是人类脑部最常见的原发性肿瘤,约占人类中枢神经系统肿瘤的30%40%,是最常见的中枢神经系统恶性肿瘤,根据世界卫生组织标准可分为低级别胶质瘤(LGGs,级或级)和高级别胶质瘤(HGGs,级或级)1。研究表明,肿瘤分级越高,它的术后复发率越高、患者生存期率越低2。因此,术前对胶质瘤进行准确分级对指导治疗方案的选择、改善患者预后至关重要3。此前,影像组学已应用于肿瘤研究包括脑膜瘤和肺癌4,5等。Zhou 等利用基于增强 T1WI 的 MRI 影像组学技术建立便捷无创的方法对胶质瘤进行术前分级,提高了诊断的准确性1。Zhang 等利用机器学习算法探讨 MRI 影像组学特征在鉴别
2、间变性少突胶质细胞瘤(AO)和非典型低级别少突胶质细胞瘤中的能力,在基于 T1C 图像和FLAIR 图像的影像组学特征建立预测模型6。Chen 等探讨了基于影像组学与机器学基于影像组学的预建模胶质瘤分级研究文/李旺1,邹冬梅2,曹旭2,黄小莉1*(1.西华大学 电气与电子信息学院,成都 610039;2.什邡市人民医院,四川 什邡 618499)摘要:本文利用胶质瘤病例的特点,将数据集的胶质瘤区域分为瘤周水肿区(P)、强化肿瘤区(T)、胶质瘤区域(ALL),再对各区域提取对应的影像组学特征进行预建模特征筛选用以最终模型建立。在提取了各区域的不同图像类型的影像组学特征之后,对各区域的不同图像类型
3、的特征进行预建模,预建模中在训练集上采用五折交叉验证。在特征筛选过程中,本文将预建模模型在验证集上 AUC 值前五的模型选中的特征筛选出来并做频次统计,统计出高频率出现的特征代入最终模型建立。最终共筛选出 66 个高频特征代入分级模型,本文的两种胶质瘤分级模型在测试集的 ROC 曲线下面积(AUC)分别达到 0.945、0.909。相对于不进行多区域预建模的模型有着较为明显的提高,对脑部胶质瘤分级研究有着一定意义。关键词:影像组学;多区域;预建模;胶质瘤分级中图分类号:TP391;R739.4 文献标志码:A 文章编号:2096-5036(2023)04-0082-09DOI:10.16453
4、/j.2096-5036.2023.04.009探索与创新AI-VIEW2023 年第 4 期 83 基于影像组学的预建模胶质瘤分级研究(1.西华大学 电气与电子信息学院,成都 610039;2.什邡市人民医院,四川 什邡 618499)基于影像组学的预建模胶质瘤分级研究习鉴别非典型低级别星形细胞瘤与间变性星形细胞瘤的诊断能力,从对比增强 T1 加权成像(T1C)中提取影像组学特征,采用三种特征筛选方法和三种分类算法建立了 9 个分类模型7。Gao 等用基于机器学习的影像组学方法可以为术前预测胶质瘤级别和多种病理生物标志物的表达水平提供一种无创的方法,并具有良好的预测准确性和稳定性8。1 数据
5、本文使用的数据集来自癌症影像档案(The Cancer Imaging Archive,TCIA)公用数据库,共采用了其中的 267名患者的 T1 加权对比增强成像(T1C)和 T2 加权液体衰减反转恢复(Flair)9成像(T2F),具体数量信息如表 1 所示。本文又将每位患者两个模态MRI 影像的标签数据中的肿瘤区域分为了瘤周水肿区(P)、强化肿瘤区(T)、胶质瘤整体病变区域(ALL),并进行实验,分别提取了不同区域的影像组学特征,并且该数据集中的每例患者的肿瘤区域均由专业的放射科医生进行勾画。以下是该数据集中的某一位患者的 MRI 影像。该 数 据 集 共 包 含267 例 胶 质 瘤
6、MRI 影像,含 高 级 别 胶 质 瘤(HGGs)患者 101例以及低级别胶质瘤(LGGs)患者 166 例,同时给出了每位患者的性别与年龄信息做数据均衡操作,使在划分训练集、验证集时年龄与性别的相对均衡。可以看出,该数据中在部分年龄段中还是存在高级别胶质瘤(HGGs)患者与低级别胶质瘤(LGGs)患者分布不均匀的情况,在性别中也同样存在分布不均匀的情况。年龄、性别与胶质瘤患者的统计信息如图 2 所示。根据图 2 所示的患者的年龄与性别信息,本文将 267 例患者分 215 例作为训练集(包含交叉验证的验证集),54例作为测试集。训练集与测试集的具体年龄及性别的划分情况如表 2 所示。表 1
7、脑胶质瘤数据集信息数据集高级别(HGG)低级别(LGG)总数量TCIA101166267图 1TCIA 数据集中某患者 MRI 影像图 2TCIA 数据集统计信息(左图为年龄,右图为性别)训练集(Train)测试集(Test)单位年龄(Age)46.08+-14.9945.74+-13.81岁性别(Gender)0:94,1:1200:29,1:24例表 2训练集与测试集的具体年龄及性别划分表 84 探索与创新AI-VIEW2023 年第 4 期2 方法2.1 数据集预处理本文将该数据集包含的所有影像统一进行重采样处理,将该数据集所有 MRI 按照相同体素(Volume Pixel)大小为 2
8、22 输出,并对输出的 MRI 进行 N4 偏置场矫正处理,以确保数据集本身不会影响后续研究。2.2 特征提取在进行该文的影像组学研究前,已由专业的放射科医生在该数据集影像上勾画了相应的感兴趣区域(Region of interest,ROI),如图 1 中的颜色区域所示。本文分别提取了 T1C 和 T2F 两个模态的 P、T、ALL 三个区域的影像组学特征,共提取了 1730 个影像组学特征。各模态每类特征具体数量如表 3 所示。每个训练模型的具体特征数量如表 4 所示。2.3 预建模模型建立本文所建立预建模特征筛选模型流程如图 3 所示。首先,由于正负样本不均衡问题,本文采用了 SMOTE
9、算分进行样本均衡操作,SMOTE 算法做了样本均衡操作,同时因为提取到的影像组学特征数值差异过大而采用了 Z-score 数据标准化处理。其次,因为特征数据的维度过大,本文采用表 3各类特征提取数量特征类别名称数量First Order Features18Shape Features14Gray Level Co-occurrence Matrix(GLCM)Features24Gray Level Run Length Matrix(GLRLM)Features16Gray Level Size Zone Matrix(GLSZM)Features16Neighbouring Gray T
10、one Difference Matrix(NGTDM)Features5Gray Level Dependence Matrix(GLDM)Features14名称(Name)原始图像(Original)小波变换图像(Wavelet-XB)原始图像与小波变换图像(Both)胶质瘤区域(ALL)21415161730瘤周水肿区域(P)21415161730强化肿瘤区域(T)21415161730表 4各模型特征提取数量图 3预建模模型流程图 85 了皮尔逊相关系数(Pearson Correlation Coefficient,PCC)对特征数据进行了降维处理。最后,在代入本文所选择的三种机器
11、学习分类器模型(SVM、LR、RF)之前,对特征进行了特征选择。2.3.1 样本均衡化由于该数据集的正负样本数量不均衡,因此在训练模型时采用了少数类过采样算法10(Synthetic Minority Oversampling Technique,SMOTE)对数据集的正负样本进行样本均衡化处理。2.3.2 特征数据标准化在进行建模之前,还应对特征数据进行标准化处理,消除各项特征数据之间因数值差异以及取值范围所带来的的影响,对各项特征数据进行标准化处理,将数据按照一定的比例进行缩放,使之在一个特定的区域以便于后续的研究分析。本文采用 Z 分数(Z-Standard score,Z-Score)
12、进行数据标准化。2.3.3 预建模特征降维及选择本文在预建模时采用皮尔逊相关系数(Pearson Correlation Coefficient,PCC)对预建模中的特征进行特征降维。为了防止建模时因特征冗余产生过拟合现象将 P 值设定为 0.95,只有当两个任意特征数据之间的相关系数大于 0.95 时再随机筛选掉一个,即默认这两个特征数据的相似度过高。最后,使用 5 折交叉验证在训练集上进行交叉验证,在模型建立过程中不泄露测试集信息的同时,使训练集得到充分利用。2.4 预建模结果分析分别在每个图像类型及不同肿瘤区域的模型上以 5 折交叉验证的对应曲线下面积(Area Under the Cu
13、rve,AUC)和接受者操作特性曲线(Receiver Operating Characteristic curve,ROC)在验证集上对模型进行筛选11。筛选出在验证集上表现前五的模型,将每个区域每个类型建立模型所选择的特征进行统计,如图 4、图 5、图 6基于影像组学的预建模胶质瘤分级研究图 4胶质瘤区域(ALL)预建模特征筛选结果图 5瘤周水肿区域(P)预建模特征筛选结果图 6强化肿瘤区域(T)预建模特征筛选结果出现次数出现次数出现次数出现次数出现次数出现次数出现次数出现次数出现次数 86 探索与创新AI-VIEW2023 年第 4 期所示,再将出现频率为 5 次的特征(即可靠性极高、百
14、分百选择率特征)挑选出来组成新的特征数据,以供最终胶质瘤分级模型的建立。在胶质瘤区域(ALL)三种图像类型前五模型特征筛选结果中,原始图像区域共筛选出13个特征,小波变换图像区域共筛选出 16 个特征,小波变换加原始图像共筛选出 8 个特征。胶质瘤区域(ALL)预建模特征筛选的特征类型及个数的情况如表 5 所示。在瘤周水肿区域(P)三种图像类型前五模型特征筛选结果中,原始图像区域共筛选出 7 个特征,小波变换图像区域共筛选出 11 个特征,小波变换加原始图像共筛选出 15个特征。瘤周水肿区域(P)预建模特征筛选的特征类型及个数的情况如表 6 所示。在强化肿瘤区域(T)三种图像类型前五模型特征筛
15、选结果中,原始图像区域共筛选出 8 个特征,小波变换图像区域共筛选出 2 个特征,小波变换加原始图像共筛选出 3 个特征。强化肿瘤区域(T)预建模特征筛选的特征类型及个数的情况如表 7 所示。因为在预建模特征筛选的过程中会存在特征重复的情况,因此对各区域的特征进行统计去重之后,预建模过程总共筛选出了 66 个高频、高可靠性特征用以后续的分级模型建立。2.5 分级模型建立在预建模特征筛选中,共计筛选出 66 个特征。在最终的胶质瘤分级模型建立中,由于数据集本身的样本不均衡,该模型同样采用 SMOTE 算法对数据集的正负样本进行样本均衡化处理,再使用 Z 分数(Z-Standard score,Z
16、-Score)对特征数据标准化。由于在预建模特征筛选过程中使用皮尔逊相关系数(Pearson 特征类型个数相邻灰度差分矩阵12(NGTDM)2一阶统计特征(FirstOrderStatistics)3灰度相关矩阵13(GrayLevelDependenceMatrix)5灰度游程矩阵14(GrayLevelRunLengthMatrix)7 灰度区域大小矩阵15(GrayLevelSizeZoneMatrix)8灰度共生矩阵16(GrayLevelCooccurenceMatrix)12表 5胶质瘤区域(ALL)预建模特征筛选类型及个数特征类型个数形状特征(Shape)1相邻灰度差分矩阵12(
17、NGTDM)2一阶统计特征(FirstOrderStatistics)5灰度共生矩阵16(GrayLevelCooccurenceMatrix)6灰度游程矩阵14(GrayLevelRunLengthMatrix)7灰度相关矩阵13(GrayLevelDependenceMatrix)12表 6瘤周水肿区域(P)预建模特征筛选类型及个数特征类型个数灰度相关矩阵13(GrayLevelDependenceMatrix)1灰度游程矩阵14(GrayLevelRunLengthMatrix)1灰度区域大小矩阵15(GrayLevelSizeZoneMatrix)1一阶统计特征(FirstOrderS
18、tatistics)4灰度共生矩阵16(GrayLevelCooccurenceMatrix)6表 7强化肿瘤区域(T)预建模特征筛选类型及个数 87 Correlation Coefficient,PCC)对特征进行了特征降维,通过特征数据之间的相关系数大于 0.95 筛选掉了各区域相似度高的特征。因此,在预建模筛选出的 66 个特征,本身相似度低,并且都是出现频率极高、可靠性极高的特征,所以在最终的分级模型建立特征降维中,本文选择加入主成分分析24(Principal Component Analysis,PCA)对特征进行降维。为了确保研究对比的可靠性以及充分性,在完成特征数据降维之后,
19、本文同样选择预建模时相同的特征选择方法以及相同的机器学习模型进行建模,并同样使用 5 折交叉验证防止模型训练时泄露测试集信息,以保证最终模型的可靠性。3 结果在利用同样的样本均衡方法(SMOTE)、特征数据标准化方法(Z-Score)、特征选择方法(KW、RFE、ANOVA)、机器学习分类模型的同时,基于本文的多区域预建模筛选出来的 66 个高频率、高可靠性的特征进行二次建模与预建模的模型进行比较,如表 8 所示。根据表 8、图 7 可知,利用本文提出的方法从多区域预建模特征筛选的 66 个特征进行二次建模的两个模型,在独立测试集上的表现分别为 0.945、0.909。其中,利用PCA 结合
20、RFE 算法筛选特征数为 18,在独立测试集 AUC 为 0.945,为最优模型,模型的灵敏度(Sensitivity)即对正例的预测能力为 0.85,特异度(Specificity)即对负样本的预测能力为 0.939,其 AUC 95%CIs 为 0.888 0.987,相对于其他模型也较为稳定。利用 PCC 结合 RFE 算法筛选特征数为 10,在独立测试集 AUC 为 0.909 相对于预建模模型略有提高,模型的灵敏度(Sensitivity)即对正例的预测能力为 0.900,特异度(Specificity)即对负样本的预测能力为 0.787,其 AUC 95%CIs 为 0.830 0
21、.967,相对于预建模中的其他模型也更为稳定。基于影像组学的预建模胶质瘤分级研究表 8预建模多区域模型与特征筛选过后模型对比Model NameFeature NumberTest AUCAUC 95%CIsSensitivitySpecificity胶质瘤区域(ALL)PCC_RFE_LR_OR190.8590.773-0.9450.8330.780PCC_RFE_LR_XB120.8840.808-0.9610.7660.860PCC_RFE_LR_BOTH160.8910.818-0.9640.83330.840瘤周水肿区(P)PCC_RFE_LR_OR150.8680.789-0.94
22、60.7660.800PCC_KW_LR_XB190.8640.784-0.9430.8000.820PCC_KW_SVM_BOTH70.8680.789-0.9460.8330.800强化肿瘤区(T)PCC_RFE_SVM_OR160.8760.789-0.9640.7330.920PCC_RFE_LR_XB100.8780.806-0.9500.8660.780PCC_RFE_SVM_BOTH150.8740.792-0.9550.7330.920预建模多区域特征筛选PCA_RFE_SVM180.9450.888-0.9870.8500.939PCC_RFE_LR100.9090.830-
23、0.9670.9000.787 88 探索与创新AI-VIEW2023 年第 4 期根据图 8、图 9 可知,基于 PCA 的多区域预建模特征筛选后模型,明显优于基于PCC 的多区域预建模特征筛选后模型。随着模型选择的特征数量的变化模型的 AUC 值也更加趋于稳定。本文通过预建模特征筛选在高维的影像组学特征中筛选出了 66个可靠、高频的影像组学特征,并统计了它们的特征类型及数量关系以供参考。本文分析是由于在特征筛选过后,特征数据维度差距过大导致,因此使用 PCA 进行数据降维更加有利于分类模型。4 结论本文采用基于影像组学的多区图 8基于 PCA 的多区域预建模特征筛选后模型(分别为ROC 曲
24、线图、验证集 AUC 与特征数关系图)图 9基于 PCC 的多区域预建模特征筛选后模型(分别为ROC 曲线图、验证集 AUC 与特征数关系图)图 7预建模各模型 ROC 曲线图 89 域预建模特征筛选的方法,结合机器学习模型,对脑部胶质瘤进行分级研究。在对数据集进行预处理、合理划分训练集及验证集后,利用胶质瘤病例的特点,从 T1C 和 T2F两个模态的 MRI 图像的瘤周水肿区(P)、强化肿瘤区(T)、胶质瘤区域(ALL)三个区域的原始图像(Original)、小波变换图像(Wavelet)、原始与小波变换图像(Both)分别提取影像组学特征,不同区域不同图像类型的影像组学特征对高低级别胶质瘤
25、分类的影响不同。首先通过少数类过采样算法(SMOTE)将样本均衡化,其次采用 Z-Score 算法将各样本数据标准化,再用皮尔逊相关系数(PCC)对特征降维,然后采用特征选择方法(KW、RFE、ANOVA)对特征进行选择然后输入到分类器中,最后在训练集上 5折交叉验证使训练集得到充分利用。根据预建模模型在验证集上的表现,筛选出在验证集上 AUC 前五的模型将模型所选择的特征进行统计分析,统计出高频率、高可靠性的特征进行最终胶质瘤分级建模。在最终建模中保持其他算法不变的基础上建立了新的两种模型基于 PCA 的多区域预建模特征筛选模型、基于 PCC 的多区域预建模特征筛选模型。本文采用预建模的方法
26、对特征进行筛选,选出高频率、高可靠性特征进行最终胶质瘤分级模型建模,相对于多区域预建模模型,最终模型 ROC 曲线下面积(AUC)有了明显提高,实现了对胶质瘤的分级作用。参考文献1 ZHOU H Z,XU R,MEI H T.Application of Enhanced T1WI of MRI radiomics inglioma gradingJ.the International Journal of Clinical Practice,2022.DOI:10.1155/2022/3252574.2 OSTROM Q T,CIOffi G,GITTLEMAN H,et al.CBTRUS
27、 sta-tistical report:primary brain and other central nervous systemtumors diagnosed in the United States in 2012-2016J.Neuro-Oncology,2019,21(Supplement_5):v1v95.3 JANG K,RUSSO C,IEVA A D.Radiomics in gliomas:clinical implications of computational modeling and fractal-based analysisJ.Neuroradiology,
28、2020,62(7):771-790.4 CHU H,LIN X,HE J,et al.Value of MRI radiomics based onenhanced T1WI images in prediction of meningiomas gradeJ.Academic Radiology,2021,28(5):687693.5 Zerunian M,Caruso D,Zucchelli A,et al.CT basedradiomic approach onfirst line pembrolizumab in lungcancerJ.Scientific Reports,2021
29、,11(1):6633.6 ZHANG Y,CHEN C Y,CHENG Y F,et al.Ability of radiomics in differentiation of anaplastic oligodendroglioma from atypical low-grade oligodendroglioma using machine-learning approachJ.Frontiers in Oncology,2019,9.7 CHEN B R,CHEN C Y,WANG J,et al.Differentiation of low-grade astrocytoma fro
30、m anaplastic astrocytoma using radiomics-based machine learning techniquesJ.Frontiers in Oncology,2021,11.8 GAO M,HUANG S Y,PAN X Q,et al.Machine learning-based radiomics predicting tumor grades and expression of multiple pathologic biomarkers in gliomasJ.Frontiers in Oncology,2020.9贾颖,杜学松,陈君辉,等.基于常
31、规MRI的定量影像学特征用于胶质瘤分级诊断J.中国医学影像技术,2018,34(8):1137-1142.10 ELREEDY D,ATIYA A F.A comprehensive analysis of synthetic minority oversampling technique(SMOTE)for handling class imbalanceJ.Information Sciences,2019,505:32-64.11 淡一波.影像组学技术及应用研究D.华东师范大学,2021,2:12-13.12 AMADASUN M,KING R.Textural features cor
32、responding to textural propertiesJ.IEEE Transactions Systems,Man,and Cybernetics,1989,19(5):1264-1274.13 SUN C,WEE W G.Neighboring gray level dependence matrix for texture classificationJ.Computer Vision Graphics and Image Processing,1983,23(3):341-352.14 GALLOWAY M.Texture analysis using gray level
33、 run lengthsJ.Computer Graphics and Image Processing,1975,4(2):172-179.15 THIBAULT G,ANGULO J,MEYER F.Advanced statistical matrices for texture characterization:application to cell classificationJ.IEEE Transactions on Biomedical Engineering,2014,61(3):630-637.16 HARALICK R M,SHANMUGAM K,DINSTEIN I.T
34、extural features for image classificationJ.Studies in Media and Communication,1973,3(6):610-621.基于影像组学的预建模胶质瘤分级研究 90 探索与创新AI-VIEW2023 年第 4 期西华大学电气与电子信息学院硕士研究生在读。研究方向为图像处理与机器视觉。李 旺什邡市人民医院主治医师。从事医学影像诊断超声方向工作10余年,具有丰富的工作经验。擅长肌骨、心脏超声诊断。邹冬梅西华大学电气与电子信息学院教授,硕士研究生导师。研究方向为大数据分析与挖掘、智能信号与信息处理及传输、图像处理与机器视觉、物联网技术及应用。*通信作者 email:黄小莉什邡市人民医院主治医师。影像医学与核医学硕士。从事影像诊断10 余年,具有丰富的工作经验,擅长神经肌骨系统影像诊断。曹 旭