收藏 分销(赏)

基于低秩表示判别域适应的多中心自闭症诊断.pdf

上传人:自信****多点 文档编号:636856 上传时间:2024-01-21 格式:PDF 页数:12 大小:2.50MB
下载 相关 举报
基于低秩表示判别域适应的多中心自闭症诊断.pdf_第1页
第1页 / 共12页
基于低秩表示判别域适应的多中心自闭症诊断.pdf_第2页
第2页 / 共12页
亲,该文档总共12页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、ISSN 10049037,CODEN SCYCE4Journal of Data Acquisition and Processing Vol.38,No.4,Jul.2023,pp.886-897DOI:10.16337/j.10049037.2023.04.012 2023 by Journal of Data Acquisition and Processinghttp:/Email:sjcj Tel/Fax:+8602584892742基于低秩表示判别域适应的多中心自闭症诊断李习之1,2,朱灵瑶1,2,王明亮1,2,3(1.南京信息工程大学计算机与软件学院,南京 210044;2.南

2、京信息工程大学数字取证教育部工程研究中心,南京 210044;3.南京航空航天大学模式分析与机器智能工业和信息化部重点实验室,南京 211106)摘要:自闭症的诊断主要依靠患者的病史与临床症状表现,尚缺乏客观的评价指标,因此挖掘与疾病相关的生物标记,对于实现自闭症的早期识别与干预至关重要。尽管多中心脑影像数据增加了样本数量并提高了数据的统计能力,有助于提高自闭症的诊断性能,但目前的研究常受到数据异质性的困扰。为此本文提出基于低秩表示判别域适应的诊断模型,实现对多中心自闭症的预测分析。首先将源域数据和目标域数据映射到公共空间,并在空间用目标域数据对源域数据进行重新表示,从而降低源域和目标域之间的

3、分布差异;其次通过学习正交重构矩阵使得源域数据在公共空间中的表示能够保留主要能量,从而适合于随后的学习任务;最后使用源域数据的标签信息将分类损失整合到训练过程中,从而保证公共空间表示的判别能力。为了求解所提出的模型,提出了基于交替方向乘子算法的优化策略。实验结果表明,该模型能够降低多中心数据分布差异,实现知识的有效迁移,从而提高多中心自闭症的诊断性能。关键词:低秩表示;域适应;多中心;自闭症;疾病预测中图分类号:TP391 文献标志码:ADiscriminative Domain Adaptation via LowRank Representation for Multisite Autis

4、m Spectrum Disorder IdentificationLI Xizhi1,2,ZHU Lingyao1,2,WANG Mingliang1,2,3(1.School of Computer and Software,Nanjing University of Information Science and Technology,Nanjing 210044,China;2.Engineering Research Center of Digital Forensics,Ministry of Education,Nanjing University of Information

5、Science and Technology,Nanjing 210044,China;3.MIIT Key Laboratory of Pattern Analysis and Machine Intelligence,Nanjing University of Aeronautics&Astronautics,Nanjing 211106,China)Abstract:The diagnosis of autism spectrum disorder(ASD)mainly relies on the patient s medical history and clinical sympto

6、ms,and there is still a lack of objective evaluation indicators.Therefore,the discovery of disease-related biomarkers is essential for early identification and intervention.Although the multi-site brain imaging data have increased the sample size and improved the statistical power,which helps to imp

7、rove the diagnostic performance of autism,the current research is often plagued by data heterogeneity.To address this issue,a discriminative domain adaption via low-rank representation(DDA-LRR)基金项目:国家自然科学基金青年基金(62102188);江苏省自然科学基金青年基金(BK20210647);江苏省高等学校自然科学研究项目(21KJB520013);中国博士后科学基金(2021M700076);中

8、央高校基本科研业务费资助项目(NJ2022028);南京信息工程大学人才启动经费项目。收稿日期:20220513;修订日期:20220926李习之 等:基于低秩表示判别域适应的多中心自闭症诊断framework for multi-site ASD identification is proposed.Specifically,we first transfer both source and target data to a common subspace,where each source data can be represented by a combination of source

9、 samples such that the distribution differences can be well relieved.Then,we learn an orthogonal reconstruction matrix,which can preserve the main energy in the obtained low-dimensional embedding space and thus is appropriate for the subsequent learning tasks.Finally,to ensure the discriminative abi

10、lity of the low-rank representation,we use the label information of the source data to integrate the classification loss into the training stage.An efficient optimization strategy based on the alternating direction method of multipliers method is developed to solve the proposed DDA-LRR method.Experi

11、mental results show that the proposed method can reduce the differences in data distributions of multiple sites,realize the effective transfer of knowledge,and improve the diagnosis performance of multi-site ASD effectively.Key words:low-rank representation;domain adaptation;multi-site;autism spectr

12、um disorder(ASD);disease prediction引 言自闭症(Autism spectrum disorder,ASD)是一种神经发育障碍,以社会交流障碍、兴趣狭隘或重复为主要临床特征1。近年来,全球自闭症发病率逐年上升,据美国疾病控制与预防中心报道2,2018年美国儿童发病率为 1/59,而全球患病率为 1%1.5%。随着患者数量的不断增多,如果缺少有效的预防手段和干预措施,会给社会和家庭带来极大的负担。遗憾的是,自闭症的病因和发病机制尚未完全明晰,尚缺乏有效的治疗手段和药物。因此,实现自闭症的早期诊断,对患者进行早期的干预和治疗,具有十分重要的临床意义。静息态功能磁共

13、振成像(restingstate functional Magnetic resonance imaging,rsfMRI)通过刻画大脑固有的自发性活动规律,能够有效地揭示脑功能异常模式,从而被广泛应用于自闭症的诊断34。然而,目前基于 fMRI的自闭症研究其结论存在不一致性,这种不一致主要是由于不同研究所采集的数据来自于不同的成像中心。而不同中心的扫描仪、采集参数和被试群体的差异,都会导致数据的异质性,使得寻找稳定的、可重复的潜在致病生物标记变得具有挑战性56。实际上,聚合多中心数据增加了样本数量,可以提供更丰富的数据统计特性,有助于揭示更准确的与疾病相关的生物标记。因此,多中心的研究越来越

14、成为脑影像学研究的热点问题。现有的多中心自闭症研究工作大致可以分为两类:(1)单中心学习方法78,即在某一中心数据或简单聚合多中心数据所生成的数据集上,进行诊断模型的学习,但此类方法忽略了多中心数据之间的异质性,通常不能获得令人满意的诊断性能;(2)多中心学习方法910,旨在通过降低多中心数据异质性对疾病诊断性能与稳定生物标记发现的负面影响。域自适应技术能够将从源域学习到的知识迁移到目标域,以促进目标域中的学习问题,目前已经被广泛地用于医学影像分析领域。近年来,低秩表示(Lowrank representation,LRR)因其对含噪声数据的鲁棒性和保持数据全局结构的特性而被引入到域自适应学习

15、中11。在域自适应学习中,低秩表示能够通过发现数据中的全局结构对数据进行重构,从而实现源/目标域中的结构知识转移到目标/源中1213。通过使用稀疏误差项来补偿异常值,有效地避免知识的负迁移。然而,现有的基于低秩表示的域适应研究通常存在以下 3个方面的问题:(1)在域适应过程中,先前的方法仅关注如何学习转换矩阵获得更好的数据表示,却忽略了空间转变过程中信息的丢失,即从变换空间到原始数据空间的重构误差;(2)即使在无监督域适应场景中,依然可以获得源域的标签信息,而现有的方法中忽略其在转换矩阵学习中的重要性;(3)最优表示887数据采集与处理 Journal of Data Acquisition

16、and Processing Vol.38,No.4,2023的学习过程和随后的学习任务是独立的,这可能会导致模型无法获得最优的性能。针对上述问题,本文提出一种新的基于低秩表示的判别性域适应(Discriminative domain adaptation via lowrank representation,DDALRR)诊断模型,旨在学习判别性的数据表示,发现与自闭症相关的、稳定的生物标记,实现多中心异质自闭症的精准预测。具体而言,首先学习一个变换矩阵,将源域数据和目标域数据转换到一个低维公共空间,在该空间用目标域数据线性表示源域数据,降低数据分布差异;其次学习一个正交重构矩阵,使得源域数

17、据在公共空间中的表示能保留主要能量,从而适合于执行后续任务;最后学习一个线性分类器,将分类损失函数整合到训练过程中,使得源域的标签信息和线性分类器完美地结合在一起,保证学到的特征适合于分类任务。为了求解所提出的 DDALRR 优化问题,提出了一种基于交替方向乘子算法(Alternating direction method of multipliers,ADMM)的迭代优化算法。在 ABIDE(Autism brain imaging data exchange)数据集上的实验结果表明,DDALRR方法可以有效地提高多中心异质数据的诊断性能。本文的主要贡献如下:(1)提出了基于低秩表示判别域适

18、应的多中心疾病诊断模型,将数据表示、数据重构和分类损失集成到统一的学习框架中,从而获得具有判别性的数据表示;(2)提出了一种基于ADMM 的迭代优化算法,该算法可以求解所提出的优化问题;(3)在多中心自闭症数据集上进行验证,多个分类任务上都取得了优异的性能,超越了其他对比模型,结果证明了本文方法在多中心问题上的有效性。1 相关工作 1.1域适应领域自适应(简称域适应)是迁移学习的代表方法。域适应是为了用源域数据中有标签的数据来解决目标域的学习问题,从而能够解决领域间数据分布的变化。根据目标域数据是否有标签信息,域适应可以分为两大类,即半监督和无监督域适应。例如,Zhuang等14提出基于混合正

19、则化的迁移学习方法,该方法首先在源域数据上训练一个分类器,然后在目标领域数据上用混合正则化对所获得的分类器进行优化,在模拟数据和真实数据上均获得了优越的性能;Duan 等15提出一种跨源的学习方法,通过最小化结构风险函数和不同域之间数据分布的不匹配程度,学习自适应分类器模型。半监督域适应学习通常需要源域数据有标签信息,同时还需要目标域数据有部分标签信息。然而,获取源域和目标域完全准确可靠的样本标签较为困难,从而限制了半监督域适应学习方法在现实中的应用。不同于半监督域适应,无监督域适应不需要任何标签信息,因而得到广泛的关注。例如,Pan等16提出迁移成分分析(Transfer component

20、 analysis,TCA)方法,使用最大均值差异准则在再生核希尔伯特空间中学得不同域数据之间的可迁移成份,这是一种常用的测量不同域之间差异的方法;Gong等17基于采样测地线流(Sample geodesic flow,SGF)方法提出了测地线流式核(Geodesic flow kernel,GFK)方法。GFK算法是经典的通过子空间的转换学习,实现不同域之间的适配。在无监督域适应学习中,尽管不需要源域的标签信息,但在实际问题中源域通常会存在大量标签数据,因此需要一种新的技术利用源域标签信息提高分类任务准确度。在医学影像领域,目前存在多个不同中心所采集的功能磁共振成像数据可用于自闭症研究中,

21、且很多研究工作将多个中心数据合并成为更大的样本集进行研究。例如,Nielsen等6通过尝试将脑功能连接聚合到不同的组,从而测试聚合多中心数据的分类性能。与单中心预测结果相比,多中心数据的分类精度显著降低。主要原因是,传统研究方法假设多中心影像数据是从相同的数据分布中采样的,888李习之 等:基于低秩表示判别域适应的多中心自闭症诊断但这种假设在上述应用中并不成立;此外,由于数据分布的异质性,在某一中心采集的数据上所训练的模型在其他中心数据上难以获得较好的预测性能。为了减少数据分布差异以获得好的诊断性能,基于域适应的方法被广泛用于医学影像分析领域。例如,Moradi等18提出基于偏最小二乘归的域适

22、应方法,降低多中心自闭症数据的分布差异,从而获得好的诊断性能;Wachinger等9提出通过计算目标域和源域概率的比率对源域训练数据集中的样本进行加权的域适应方法,并将其集成到多项式弹性网分类中,实现对脑疾病的诊断;Heinsfeld 等19使用改进的无监督去噪自编码网络,通过学习新的特征表示降低不同中心数据之间所存在的分布差异,对多中心自闭症进行分析。上述研究表明,利用域自适应方法有助于提高多中心脑疾病的诊断性能。然而,这些研究通常倾向于学习域之间的不变特征表示,忽略了不同中心数据固有的结构特征。1.2低秩表示目前基于 LRR 方法,通过数据本身的自我表示获取数据潜在特征,进而通过一部分数据

23、的特征组合捕获数据的全局结构信息。通过上述方式,能有效降低异常值或噪声污染对数据表示的负面影响,从而被广泛地应用于脑疾病分析中。例如,Schuler等20提出使用广义低阶秩模型降低两个数据分布之间的差异,从而识别与自闭症相关的表型;Zhu等21设计了基于稀疏诱导和低秩约束的诊断模型,有效提高了自闭症的诊断性能;Adeli等22采用基于低秩矩阵重构策略的特征选择模型对帕金森疾病进行分析;Vounou 等23使用线性判别分析和稀疏降秩回归的两步策略识别与阿尔兹海默病相关的潜在基因;Wang等24提出基于低秩表示的域适应诊断模型,旨在通过为源域与目标域学习一个公共空间,有效降低多中心数据分布差异,实

24、现对多中心自闭症的诊断。上述研究表明,基于低秩表示的方法通过揭示数据固有的结构信息,有效提高了基于影像数据的脑疾病诊断性能。然而,先前的研究或忽略了公共空间和原空间变换过程中的信息损失,或将低秩表示过程和分类器的学习作为两个独立的任务,不能获得最优的数据表示。不同于上述研究,本文提出的基于低秩表示判别域适应方法,通过联合优化低秩表示和分类器学习,使得数据表示与分类密切相关,从而使得学到的数据表示更具判别性。值得注意的是,为了有效分离噪声信息,本文假设在公共空间学习过程中源域数据和目标域数据是无损的,仅在低秩表示学习中使用稀疏误差项来补偿异常值。另外,本文方法可以适用于多源域的情况,仅需将多个源

25、域数据整合成单一的数据集合,就可以进行诊断分析。2 基于低秩表示的判别性域适应方法 2.1符号定义本文分别用Xs Rd ns和Xt Rd nt表示源域和目标域数据,d表示两个域中的数据维度,ns和nt分别表示源域和目标域的样本个数。P Rd m和Q Rd m分别表示映射矩阵和重构矩阵,m表示公共空间维度。i(Z)表示矩阵Z的第i个奇异值,Z的核范数和1范数分别表示为Z=ii(Z)和Z1=i,j|Zij。假设源域和目标域都包含C类样本,源域标签信息表示为Ys RC ns,而目标域无标签信息。如果xi为第k类样本(k=1,2,C),则yi的第k个元素为 1,其余元素为 0。线性分类器的参数矩阵表示

26、为R RC m。2.2基于低秩表示的判别性域适应为了降低不同域之间的分布差异,首先学习一个变换矩阵将源域和目标域映射到一个公共空间。889数据采集与处理 Journal of Data Acquisition and Processing Vol.38,No.4,2023假设在公共空间源域数据可以用目标域数据线性表示,可定义为PTXs=PTXtZ(1)式中:PTXs为在公共空间通过目标域数据重建的源域表示;Z为重新表示的系数矩阵。通过上述方式,每个源域的样本将由目标域样本线性表示,从而降低了不同域数据之间的分布差异12。然而,式(1)分别对每个样本进行表示学习,却忽略了数据的结构信息。实际上,

27、在多中心自闭症诊断过程中,尽管不同中心采集的数据之间存在分布差异,但它们的病理机制是相同的。因此假设多中心数据之间存在一个固有的数据结构是合理的,为了实现这一目的,引入低秩约束让Z具有上述结构信息。因此,式(1)可以写成minP,Zrank()s.t.PTXs=PTXtZ(2)式中rank()表示矩阵的秩。由于秩最小化问题是非凸的,式(2)所求解问题是 NP难问题。通过对式(2)的松弛11可将其转化为minP,ZZ*s.t.PTXs=PTXtZ(3)如上所述,先前的基于低秩表示的方法忽略了数据表示过程中的信息丢失问题,这会降低表示所包含的有效信息。针对此问题,本文学习一个正交重构矩阵,使得源域

28、数据在公共空间中的表示能够保留主要能量,从而适合于执行后续任务,模型可表示为minP,Z,Q,EZ*+E1s.t.Xs=QPTXs+E,PTXs=PTXtZ,QTQ=I(4)式中:I Rm m为单位矩阵,引入Q的正交约束可以避免获得非重要的解。同时,为了缓解噪声对数据重构的影响,引入误差矩阵E和稀疏约束补偿异常值。式(4)可以简化为minP,Z,Q,EZ*+E1+PFs.t.Xs=QPTXtZ+E,QTQ=I(5)式(5)使用两个不同的矩阵P和Q执行数据的重构,从而使得PTXt保留数据最主要能量。另外,为了保证变换矩阵P具有较强的判别性,利用学到的数据表示学习对应的线性分类器R RC m。即将

29、分类损失函数整合到训练过程中,使源域的标签信息和线性分类器的学习相结合,以保证学到的变换矩阵和其对应的特征适合于分类任务。因此,DDALRR的优化问题可以写成minR,P,Z,Q,E12Ys-RPTXs2F+R2F+P2F+Z*+E1s.t.Xs=QPTXtZ+E,QTQ=I(6)式中:、和为非负的正则项平衡参数;第 1项用于度量训练数据的经验损失,第 2和 3项控制方法的复杂度,第 4项用于刻画多中心数据之间的共性结构信息,最后一项用于约束误差矩阵的稀疏性。学到的线性分类器R可以实现对未知测试样本的预测。2.3模型求解本文使用 ADMM 来求解式(6)所示的优化问题25。首先引入辅助变量A,

30、并令RPT=B,则式(6)可转化成如下等价优化问题minR,P,Z,Q,E,A,B12Ys-BXs2F+R2F+P2F+A*+E1s.t.Xs=QPTXtZ+E,QTQ=I,Z=A,RPT=B(7)定义L(R,P,Z,Q,E,A,B)为式(7)的增广拉格朗日函数,可得890李习之 等:基于低秩表示判别域适应的多中心自闭症诊断L(R,P,Z,Q,E,A,B)=12Ys-BXs2F+R2F+P2F+A*+E1+U1,Xs-QPTXtZ-E+U2,Z-A+U3,RPT-B+2()Xs-QPTXtZ-E2F+Z-A2F+RPT-B2Fs.t.QTQ=I(8)式中:U1、U2和U3表示拉格朗日乘子;是一

31、个正的惩罚标量值;,表示矩阵内积,例如A,B=tr(ATB)。为了优化式(8),本文采用交替优化更新的方法,即优化某一变量时,固定其余变量,直到满足收敛条件时停止迭代。每次迭代变量的更新步骤如下:(1)更新P:固定式(8)中其他变量,令(L P)=0,可得(2I+XtZZTXTt)P+PRTR=XtZYTsQ-UT3R+XtZMTQ+BTR(9)式中M=Xs-E。式(9)中P的最优解可通过 Sylvester方程求解获得。(2)更新Q:固定式(8)中其他变量,通过计算L相对于Q的偏导数并将其设置为 0,可得Q的闭式解为Q=(MZTXTtP+1U1ZTXTtP)(PTXtZZTXTtP)-1(1

32、0)式中M=Xs-E。(3)更新R:固定式(8)中其他变量,保留与R有关的项,对R求偏导数并令其为 0,可得R的闭式解为R=(BP-U3P)(2I+PTP)-1(11)(4)更新B:固定式(8)中其他变量,令(L B)=0,可获得B的闭式解为B=(YsXTs+U3+RPT)(XsXTs+I)-1(12)(5)更新A:固定式(8)中其他变量,保留与A有关的项,则可获得如下优化问题arg minAA*+2 A-()Z+U22F(13)问题(13)通过使用奇异值阈值(Singular value thresholding,SVT)算子26进行求解。(6)更新E:固定式(8)中其他变量,对误差矩阵E的

33、更新可表示为arg minEE1+12 E-()XS-QPTXtZ+U12F(14)式(14)的闭式解可写成E=S Xs-QPTXtZ+U1(15)式中S t=sign(t)max(|t|-(),0)。(7)更新Z:固定式(8)中其他变量,令(L Z)=0,则Z的闭式解为Z=(XTtPQTQPTXt+I)-1(A+XTtPQTU1-U2+XTtPQTM)(16)式中M=Xs-E。(8)更新乘子:使用下列方程式对拉格朗日乘子进行更新891数据采集与处理 Journal of Data Acquisition and Processing Vol.38,No.4,2023 U1=U1+()Xs-Q

34、PTXtZ-EU2=U2+()Z-AU3=U3+()RPT-B(17)依照上述优化步骤交替迭代直到满足收敛条件,得到线性分类器的矩阵R,利用R实现对多中心自闭症的预测分析。2.4DDALRR算法步骤输入:源域和目标域数据Xs和Xt,源域标签Ys,公共空间维度m,参数、和;输出:线性分类器R;初 始 化:R=0,P=0,Z=0,Q=0,E=0,A=0,B=0,U1=0,U2=0,U3=0,=0.1,max=106,=1.1,=10-6若不满足终止条件,执行循环:(1)根据式(9)更新P;(2)根据式(10)更新Q;(3)根据式(11)更新R;(4)根据式(12)更新B;(5)根据式(13)更新A

35、;(6)根据式(15)更新E;(7)根据式(16)更新Z;(8)根据式(17)更新U1,U2,U3;(9)更新参数:=min(,max);(10)检查收敛条件:Xs-QPTXtZ-E,Z-A,RPT-B 3 实验及结果分析 3.1实验数据为了验证 DDALRR 模型的有效性,本文在公开的 ABIDE(Autism brain imaging data exchange)数据上进行实验。ABIDE 收集了 17 个不同研究机构采集的数据,共包含 1 112 个被试(539 个 ASD,573个正常对照(Normal control,NC)27。所有参与者都有 rsfMRI脑影像数据和对应的表型信

36、息,详细的信息及扫描协议见 ABIDE 官方网站(http:/fcon_1000.projects.nitrc.org/indi/abide/)。由于某些中心采集的样本数量极其有限,只选取了 3 个样本数量超过 70 的中心,即 NYU、UCLA 和 UM。3 个影像中心包含的样本数分别为 164,74和 113个,其统计信息如表 1所示。本 文 使 用 CPAC(Configurable pipeline for the analysis of connectomes)方法对数据进行预处理,处理过程详见文献 28。基于自动解剖标记(Anatomical automatic labeling,

37、AAL)模 板29将每个被试大脑划分成 116 个预定义的感兴趣区表 13个不同数据集的被试人口统计信息Table 1Demographic information of subjects from three different datasets中心NYUUCLAUMASD年龄/岁17.597.8416.276.4817.058.36男/女人数66/528/843/5NC年龄/岁16.497.6814.654.9717.357.12男/女人数79/1431/756/9892李习之 等:基于低秩表示判别域适应的多中心自闭症诊断域,通过计算成对脑区时间序列信号之间的皮尔逊相关系数可为每个被试构建

38、一个116 116的功能连接网络。为了便于计算,移除功能连接网络的上三角元素,并将剩余的元素转换成包含 6 670维度的特征向量以表示每个被试。3.2对比方法和实验设置为了验证本文方法的有效性,将其与以下 6种方法进行比较。(1)K最近邻法(Knearest neighbor,KNN)。将 KNN 作为基准方法,通过测量源域和目标域数据之间的距离,确定目标域数据的类别。(2)支持向量机(Support vector machine,SVM)。与 KNN 方法类似,同样将 SVM 作为基准方法,通过在源域数据上训练 SVM 模型,并将其应用到目标域,从而获得最终的分类标记。(3)迁移成分分析(T

39、CA)方法16。利用最大均值差异准则在再生核希尔伯特空间中学得不同域之间可迁移的成份,从而可以降低不同域数据之间的分布差异且保留数据的原始属性。(4)测地线流式核(GFK)方法17。利用核技巧将数据嵌入到格拉斯曼流行中,并在它们之间构建测地线,减少数据分布差异,以获得不同域之间可迁移的数据表示。(5)低秩表示(LRR 方法)11。通过约束所有数据在自表达下构成的联合系数矩阵的秩最小,从而捕获数据的结构信息。(6)基于低秩表示的多中心域适应(Multisite adaptation based on lowrank representation,maLRR)方法24。通过学习源域和目标域特异性和

40、共性转换矩阵,将数据转变到公共空间,降低不同域之间的数据分布差异,从而获得多中心数据新的表示。不同于本文提出的方法,TCA、GFK、LRR 和 maLRR 仅能用于学习数据新的特征表示。为了执行随后的分类任务,本文采用 KNN 和 SVM 作为分类器。作为分类器时,KNN 的近邻值设为 5,SVM 采用线性默认参数设置。基准 KNN 算法的近邻值在 3,5,7,11,13 范围内进行选择;基准线性 SVM 的惩罚参数在 2-5,2-4,24,25 范围内进行选择;LRR 和 DDALRR 方法的参数在 10-2,10-1,1,10,102 范围内进行选择;GFK 和 TCA 方法参数在 5,1

41、0,20,100 范围内进行选择。DDALRR 方法在公共空间的维度经验性设为 100。值得注意的是,为了学习具有判别性的投影变换矩阵,在实验中DDALRR需要使用源域的标签信息。采用 5折交叉验证评价所有方法的性能。具体的,将每一个中心数据随机分成 5个样本子集,留一个单独的样本子集作为测试数据,其他 4个样本子集作为训练数据。上述过程重复 5次,并取 5次结果的平均值作为最终结果。需要注意的是,在训练数据上,同样采用内部的 5折交叉验证策略选取最优的模型参数。采用 3 个评价指标度量算法的有效性,即分类精度(Accuracy,ACC)、敏感度(Sensitivity,SEN)和特异性(Sp

42、ecificity,SPE)。3.3实验结果在 ABIDE 数据集 3个不同中心数据(NYU、UCLA 和 UM)上进行实验,依次选择不同的中心作为源域,将需要分析的中心作为目标域。基于 KNN 和 SVM 的实验结果分别如表 2 和图 1 及表 3 和图 2所示。从表 2 和表 3 中可以看出,基准方法 KNN 和 SVM 在多中心分类任务中的性能比域适应方法和低秩表示方法差。结果表明,利用域适应和低秩表示方法有助于降低多中心数据分布差异,提高基于rsfMRI数据的多中心自闭症诊断性能。另外,所提出的 DDALRR方法所获得的诊断精度始终优于其他对比方法。例如,DDALRR 方法在 3个分类

43、任务中的精度分别为 75.00%、72.73%和 73.12%,优于893数据采集与处理 Journal of Data Acquisition and Processing Vol.38,No.4,2023基于 KNN 和 SVM 分类器的 maLRR 方法所获得的次最优诊断性能 73.81%、70.45%和 71.30%,在 3个任务上分别提高了 1.19%、2.28%和 1.82%。结果表明,所提出的方法通过结合域适应和低秩表示能进一步降低数据分布差异,且利用源域标签信息的策略有助于促进多中心自闭症的诊断性能。从图 1和图 2可以看出,在 SEN 和 SPE 度量下 DDALRR 方法依

44、然能获得可比较的性能。具体而言,在 NYUUCLA 和 UCLAUM 两个任务中,DDALRR 方法所获得的 SEN 值分别为 92.86%和82.05%,比次最优性能 78.21%(基于 KNN 的 LRR 方法)和 76.92%(基于 KNN 的 maLRR 方法)分别提表 3基于 SVM 的不同方法在 3个域适应任务上对 ASD的分类精度Table 3ACC of ASD using different methods based on SVM on three domain adaptation tasks%任务NYUUCLAUCLAUMUMNYUSVM60.715.1563.143.

45、9660.942.21TCA68.524.7868.126.4359.381.58LRR72.024.9168.184.5568.983.15maLRR73.814.1270.365.1670.661.72DDALRR(本文)75.005.0572.734.5573.121.71表 2基于 KNN的不同方法在 3个域适应任务上对 ASD的分类精度Table 2ACC of ASD using different methods based on KNN on three domain adaptation tasks%任务NYUUCLAUCLAUMUMNYUKNN60.323.8460.004

46、.0957.291.47TCA63.173.9863.353.7659.030.60GFK64.295.0561.363.2168.924.66LRR70.246.3068.365.2065.635.41maLRR72.029.6070.455.6571.306.42DDALRR(本文)75.005.0572.734.5573.121.71图 1基于 KNN的不同方法在 3个任务上的敏感度和特异性结果Fig.1SEN and SPE results of different methods based on KNN on three tasks图 2基于 SVM 的不同方法在 3个任务上的敏感

47、度和特异性结果Fig.2SEN and SPE results of different methods based on SVM on three tasks894李习之 等:基于低秩表示判别域适应的多中心自闭症诊断高了 14.65%和 5.13%。SEN值越高,表明从整个被试群体中识别出自闭症患者的能力越可靠。3.4与现有自闭症诊断方法的结果比较本节进一步比较了所提出的 DDALRR 方法与现有的基于 ABIDE 数据集的多中心自闭症诊断方法。具体而言,分别比较了自编码器模型(ASDDiagNet)30、图卷积神经网络模型(siamese Graph convolutional neura

48、l network,sGCN)8、去噪自编码器模型(Denoising autoencoder,DAE)19、功能连接分析(Functional connectivity analysis,FCA)6以及隐马尔科夫模型(Hidden Markov models,HMM)75种方法以 NYU 中心为目标域的诊断性能,实验结果如表 4所示。从表 4可知,尽管所提方法与现有研究特征类型、特征维度以及分类器不同,无法进行直接比较,但是定量的指标(如精度、敏感性和特异性)间接证明了本文方法优于其他方法。值得注意的是,即使与ASDDiagNet、sGCN 和 DAE 这 3个基于深度学习的模型相比,本文方

49、法也能在 3个指标上一致获得较好的实验结果。3.5参数分析本实验中存在 3个参数、和。在 3组不同任务中实验参数都是从集合 10-2,10-1,1,10,102 中进行选择。本小节以 NYU 中心为目标域分析在不同参数情况下的分类性能。具体而言,依次固定其中一个参数,改变另外两个参数的值,记录 DDALRR 方法在不同参数下的分类精度,实验结果如图 3所示。从图 3 可以看到,随着参数的变化,DDALRR 在较小的范围内略有波动,在大多数情况下分类性能相对较为稳定,表明该方法对参数不是很敏感。表 4与最新使用 ABIDE数据集 NYU中心数据方法的结果比较Table 4Comparison o

50、f results with the latest ABIDE dataset NYU central data method方法ASDDiagNetsGCNDAEFCAHMMDDALRR(本文)特征类别AALHOACC200GMRAALAAL特征维度6 67011111119 9007 2667 2661166 670分类器SLPKNNSoftmaxttestSVMLinear classifierACC/%68.0068.3666.0063.0070.5973.12SEN/%66.0072.0061.6477.14SPE/%65.0058.0066.6767.71图 3不同参数值下所提出的

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服