基于改进的大间隔最近邻胰腺单细胞分类方法.pdf

资源描述

1、第5 4卷第5期2 0 2 3年9月太原理工大学学报J OUR NA L O F T A I YUAN UN I V E R S I T Y O F T E CHNO L OG Y V o l.5 4 N o.5 S e p.2 0 2 3 引文格式:奚紫怡,鲁佳宇,陈卓,等.基于改进的大间隔最近邻胰腺单细胞分类方法J.太原理工大学学报,2 0 2 3,5 4(5):8 1 2-8 1 9.X I Z i y i,L U J i a y u,CHE N Z h u o,e t a l.C l a s s i f i c a t i o n m e t h o d o f p a n c r

2、 e a t i c s i n g l e c e l l s b a s e d o n i m p r o v e d L a r g e M a r g i n N e a r e s t N e i g h b o rJ.J o u r n a l o f T a i y u a n U n i v e r s i t y o f T e c h n o l o g y,2 0 2 3,5 4(5):8 1 2-8 1 9.收稿日期:2 0 2 2-1 1-1 4;修回日期:2 0 2 3-0 2-2 4 基金项目:国家自然科学基金资助项目(6 2 1 7 6 1 7 7)第一作者:

3、奚紫怡(1 9 9 7-),硕士研究生,(E-m a i l)3 2 3 7 2 8 8 6 1 9q q.c o m 通信作者:王彬(1 9 8 3-),博士,教授,主要从事脑科学、脑网络、医学影像人工智能、深度学习、脑机接口的研究,(E-m a i l)w a n g b i n 0 1t y u t.e d u.c n基于改进的大间隔最近邻胰腺单细胞分类方法奚紫怡,鲁佳宇,陈卓,相洁,王彬(太原理工大学信息与计算机学院,山西晋中 0 3 0 6 0 0)摘要:【目的】细胞类型鉴定是单细胞R NA测序的关键步骤之一,存在单细胞R NA测序数据分类准确率较低及各细胞类型距离特征度

4、量不足的问题。【方法】提出一种基于多相似性损失函数(M u l t i S i m i l a r i t y L o s s,M S L)的大间隔最近邻(L a r g e M a r g i n N e a r e s t N e i g h b o r,LMNN)单细胞分类方法。多相似性损失从多个角度衡量相似性,解决了LMNN算法的三元组损失函数训练样本较小时样本对之间关系利用率不高的问题,从而提升单细胞分类效果。【结果】在胰腺单细胞数据集b a r o n_h u m a n和s e g e r s t o l p e上的实验表明,基于M S L-LMNN的分类准确率高于主要度量学习方

5、法,而且与随机森林结合的准确率达到0.9 6,较现有单细胞分类方法有所提升。【结论】提出的M S L-LMNN能够准确有效地识别胰腺单细胞测序数据细胞类型,具有一定的应用价值。关键词:胰腺单细胞数据;大间隔最近邻;多相似性损失函数;随机森林中图分类号:T P 3 9 1 文献标识码:AD O I:1 0.1 6 3 5 5/j.t y u t.1 0 0 7-9 4 3 2.2 0 2 3.0 5.0 0 8 文章编号:1 0 0 7-9 4 3 2(2 0 2 3)0 5-0 8 1 2-0 8C l a s s i f i c a t i o n M e t h o d o f P a n

6、 c r e a t i c S i n g l e C e l l s B a s e d o n I m p r o v e d L a r g e M a r g i n N e a r e s t N e i g h b o rX I Z i y i,L U J i a y u,C H E N Z h u o,X I A N G J i e,WA N G B i n(C o l l e g e o f I n f o r m a t i o n a n d C o mp u t e r,T a i y u a n U n i v e r s i t y o f T e c h n o

7、l o g y,J i n z h o n g 0 3 0 6 0 0,C h i n a)A b s t r a c t:【P u r p o s e】C e l l t y p e i d e n t i f i c a t i o n i s o n e o f t h e k e y s t e p s i n s i n g l e c e l l R NA s e q u e n-c i n g.【M e t h o d s】T o s o l v e t h e p r o b l e m o f l o w c l a s s i f i c a t i o n a c c u

8、 r a c y w i t h s i n g l e c e l l R NA s e q u e n-c i n g d a t a a n d i n s u f f i c i e n t m e a s u r e m e n t o f d i s t a n c e c h a r a c t e r i s t i c s o f e a c h c e l l t y p e,a L a r g e M a r-g i n N e a r e s t N e i g h b o r(LMNN)b a s e d o n M u l t i S i m i l a r i t

9、 y L o s s(M S L)m e t r i c l e a r n i n g m e t h o d i s p r o p o s e d t o a d a p t LMNN t o t h e s i n g l e c e l l c l a s s i f i c a t i o n f i e l d.M u l t i S i m i l a r i t y L o s s c a n b e u s e d t o m e a s u r e t h e s i m i l a r i t y f r o m m u l t i p l e p e r s p e

10、c t i v e s,a n d s o l v e t h e p r o b l e m t h a t t h e r e l a t i o n s h i p u t i l i z a t i o n r a t e b e t w e e n s a m p l e p a i r s i s n o t h i g h w h e n t h e t r a i n i n g s a m p l e s a r e s m a l l i n t h e t r i p l e t l o s s o f LMNN a l g o r i t h m,t h u s i m

11、 p r o v i n g t h e s i n g l e c e l l c l a s s i f i c a t i o n e f f e c t.【F i n d i n g s】E x p e r i-m e n t s o n t h e p a n c r e a t i c s i n g l e c e l l d a t a s e t b a r o n_h u m a n a n d s e g e r s t o l p e s h o w t h a t t h e c l a s s i f i c a-t i o n a c c u r a c y o

12、f M S L-LMNN i s h i g h e r t h a n t h a t o f t h e m a i n m e t r i c l e a r n i n g m e t h o d,a n d t h e a c-c u r a c y r a t e o f t h e c o m b i n a t i o n o f M S L-LMNN a n d R a n d o m F o r e s t i s i m p r o v e d c o m p a r e d w i t h e x i s t i n g s i n g l e c e l l c l

13、a s s i f i c a t i o n m e t h o d,w i t h t h e a c c u r a c y r a t e o f 0.9 6.【C o n c l u s i o n s】T h e M S L-LMNN p r o p o s e d i n t h i s p a p e r c a n a c c u r a t e l y a n d e f f e c t i v e l y i d e n t i f y t h e c e l l t y p e s o f p a n-c r e a t i c s i n g l e c e l l

14、s e q u e n c i n g d a t a,a n d h a s i t s a p p l i c a t i o n v a l u e.K e y w o r d s:p a n c r e a t i c s i n g l e c e l l d a t a;l a r g e m a r g i n n e a r e s t n e i g h b o r;m u l t i s i m i l a r i t y l o s s;r a n d o m f o r e s t 单细胞R NA测序技术从单个细胞维度了解转录组信息,能够解决传统转录组测序无法解决的细胞

15、异质性问题,在胚胎发育、组织器官发育、免疫学及肿瘤治疗等领域得到了广泛的应用1。细胞类型鉴定是单细胞R NA测序数据分析的一个重要步骤2。传统单细胞测序数据细胞类型识别方法耗时费力且依赖于人工注释。相比之下,基于机器学习的自动细胞类型识别方法具有快速、准确和实验结果可以跨实验室重现的优点3,在单细胞测序数据分析中具有重要意义。近年来,研究者提出了许多基于参考数据集的自动细胞类型识别方法。例如s c m a p-c l u s t e r分析待测样本基因表达的空间距离,将细胞与参考数据集中最相似细胞匹配4;CHE T AH对参考数据集进行分层聚类构建分类树,通过斯皮尔曼相关计算自定义的“置信度分

16、数”分配细胞类型5;s c P r e d结合分解基因表达矩阵的方差结构来识别有限信息特征,并使用支持向量机来估计这些特征对细胞分类的影响6;S c i B e t借鉴信息熵来对特征基因进行选择,对训练集的每一种细胞类型训练多项式分布模型,使用极大似然估计对新细胞分配细胞类型7。这些分类方法大多比较测试集细胞与训练集细胞的相似性,依据经验设定阈值,存在准确率较低、依赖人为设定标准、面对不同单细胞分类任务时无法保持稳定分类性能的问题。由于单细胞测序数据的高维特征和噪声特性8-1 0,以上分类方法捕捉样本有效特征的能力有限,导致分类效果不佳。因此,探索高效准确的细胞类型识别算法成为该领域亟待解决的

17、问题之一。度量学习算法旨在寻找一种距离度量映射,使得原数据在该映射下同类间距离缩小,异类间间距增大。度量学习能够从异质性和复杂性高的单细胞测序数据中提取到有效的细胞类型特征,同时避免人为设定测度和参数,有助于提高细胞分类方法的性能。近年来,研究者逐渐发现度量学习算法在细胞分类上更具优势。例如s c P r e d借助P C A分解基因表达矩阵的方差结构来识别有效信息维度,但是P C A无法利用先验信息,且经过P C A处理后的样本间的非线性相关性会丢失1 1。MONO C L E1 2构建细胞分化轨迹之前利用I C A进行降维,但是求解过程中如果特征矩阵的特征数量大于原始数据维度会产生优化困难

18、,并导致训练时间过长1 3。2 0 2 0年,同济大学刘琦教授课题组发表了单细胞细胞类型鉴定计算平台s c L e a r n1 4,发现判别成分分析1 5(D C A)可以很好刻画参考数据集的特征,提升细胞类型鉴定效果。D C A算法采用特征向量方法发现单细胞测序数据集的线性变换信息,但是没有对映射矩阵进行优化。LMNN是由WE I N B E R G E R e t a l1 6提出的一种度量学习算法,它通过设定一个合适边界构造最优化条件,然后借助半定规划(S e m i D e f i n i t e P r o g r a mm i n g,S D P)优化求解,找到一个合适的映射矩阵

19、,将原数据空间用马氏距离进行表达,可以有效学习数据集的转换矩阵。LMNN算法使用的三元组损失函数在批量训练样本较小时很难利用所有的样本对之间的关系。针对此问题,研究者在三元组损失的基础上提出了结构损失函数1 7和层次三元组损失函数1 8。WANG e t a l1 9全面分析了度量学习中的损失函数,发现关键的影响因素是数据样本的包含自相似度和相对相似度在内的多种相似度,其中相对相似度主要取决于其他样本对。多相似性损失函数能同时度量自相似度和相对相似度。因此,本论文提出一种基于多相似性损失的LMNN单细胞分类方法。多相似性损失能从多个角度衡量相似性,克服了以往相似度衡

20、量方法的片面性,解决了LMNN算法的三元组损失函数在训练样本较小时样本对之间关系利用率不高的问题,从而提升单细胞分类效果。1 相关理论LMNN是由WE I N B E R G E R e t a l1 6提出的一种和K近邻(KNN)分类算法2 0相结合的距离度量学习算法。它通过最小化样本与其相同标签的最近邻样本(目标样本)间距离且最大化与其不同标签样本间距离来设定一个合适边界来构造最优化条件,然后通过迭代学习找到一个合适的映射矩阵L,将原数据空间以马氏距离形式进行表达。318 第5期奚紫怡,等:基于改进的大间隔最近邻胰腺单细胞分类方法(xi,yi)ni=1代表的是训练集中n个已知标签的样本,

21、xiRd表示一个特征维数为d的样本,yi表示该样本的类别。LMNN的目标是学习一种马氏距离度量方式:DM(xi,xj)=(xi-xj)TM(xi-xj).(1)式中:M为马氏矩阵(半正定对称矩阵),可以表示为M=LTL,L即为要得到的映射矩阵。对于输入样本xi类别为yi,定义k个目标近邻为所有类别为yi的训练样本中与xi距离最近的k个样本。如果xj是xi的目标近邻,记作ji.设计一个二值矩阵yi j0,1,yi j=1表示样本xi和xj类别相同,yi j=0表示类别不同。在训练阶段,通过损失函数训练出一个适合该数据集的距离度量。(M)=(1-)p u l l(M)+p u s h(M).(2)

22、p u l l(M)=i,jKpNNDM(xi,xj).(3)p u s h(M)=i,jKpNNl(1-yi l)1+DM(xi,xj)-DM(xi,xl)+.(4)损失函数由两项组成,p u l l(M)作用是惩罚样本和其目标邻居之间的距离过大,p u s h(M)作用是惩罚不具有相同标签的输入样本之间的距离过小。其中,z+=m a x(z,0).是权重参数,一般取0.5.传统度量学习算法如P C A、I C A对特征空间进行距离度量时采用欧式距离,该距离平等对待所有特征间的差别,不能很好揭示内部结构。由于单细胞测序数据的高维特征和噪声特性,欧式距离在单细胞测序数据上难以捕捉到有效的样本特

23、征,而马氏距离分别对待特征间差别,并且不受样本量纲大小影响,可以很好地揭示单细胞内部结构。2 M S L-LMNN组合模型构建LMNN算法使用经典的三元组损失函数,它在训练样本较小时很难利用所有样本对之间的关系。为了应对这个问题,研究者提出了结构损失函数和层次三元组损失函数等,但结构损失函数会损失大量样本间信息,层次三元组损失函数实现复杂。大多数现有损失函数仅探索了一种相似度。WANG e t a l1 9全面研究度量学习中的损失函数后发现,关键的影响因素是样本中包含自相似度和相对相似度在内的多种相似度。多相似性损失综合考虑了自相似度和相对相似度。本文最终采用多相似性损失函数替换LMNN算法中

24、的三元组损失函数,它从多个角度对相似性进行衡量,克服了以往对相似度衡量的片面性。本文首先从h e m b e r g-l a b获取胰腺组织原始单细胞测序数据,然后进行预处理操作,包括质量控制和特征选择。其次通过M S L-LMNN模型从胰腺单细胞测序数据中识别细胞类型。单细胞测序数据集可以形式化表示成X=(xi,yi)|i=1,N,其中N表示数据集中细胞个数;xiRd,表示单个细胞,d表示基因数;yi表示第i个细胞的细胞类型,yi j0,1,表示第i个细胞和第j个细胞是否属于同一类细胞。两个细胞间的马氏距离如公式1所示。根据M S L的思想,用多相似性损失函数替换LMNN算法中的三元组损失函

25、数,可以写出其损失函数为:LMS=1m1l o g1+jPie-(Si j-)+1l o g1+jNie(Si j-).(5)其中,m为训练样本数;Si j表示两个样本i和j的相似度;、为超参数;Pi、Ni指的是同类细胞对和异类细胞对。多相似性损失函数从自相似性、负样本相对相似性和正样本相对相似性三方面评估损失值:1)自相似性。从自身细胞对计算而来,是最重要的相似性。一个异类细胞对有一个更大的余弦相似度意味着从不同的类别中区分两对细胞对是更困难的。上述样本对在学习一个可区分的特征时具有更多的信息和意义。2)负样本相对相似性。通过考虑附近异类细胞对关系计算而来,当附近的异类细胞变得和锚点更近时,

26、增加了附近细胞对的自相似度,即使当前对的自相似度不变,其相对相似度也减少。3)正样本相对相似性。通过考虑附近同类细胞对关系计算而来,当这些同类细胞变得和锚点更近的时候,当前对的相对相似度变小,因此该对的权重也变小。多相似性损失函数赋予异类细胞对和正类细胞对相应权重。异类细胞对的权重计算公式如下:w-i j=1e(-Si j)+kNie(Si k-Si j)=e(Si j-)1+kNie(Si k-).(6)同类细胞对的权重计算公式如下:418太原理工大学学报第5 4卷 w+i j=1e-(-Si j)+kPie-(Si k-Si j).(7)异类细胞对的权重是通过联合计算其自相

27、似性和负样本相对相似性而来,同类细胞对的权重与之类似。最后为了验证该模型优势,应用不同度量学习算法分别对预处理后的训练集进行处理,借助转换训练集的线性映射将测试集和训练集映射到同一特征子空间。最后,将处理后的训练集送入不同分类器构建分类模型,识别测试集内细胞的类型。图1描述了本文的方法流程。MSL-LMNNcellsfeaturesselected质量控制特征选择cellsgenes胰腺单细胞原始测序数据基因表达矩阵（训练集）cellstransformedfeatures转换后训练集训练集转换cellstransformedfeatures转换后测试集测试集转换线性映射矩阵 A（a）学习度量

28、矩阵（b）训练分类模型（c）测试集分类cellstransformedfeatures选择多种分类器训练不同分类模型并保存转换后训练集cellstransformedfeatures转换后测试集训练好的分类模型细胞 IDCell?1Cell?2Cell?m细胞类型类型 1类型 2类型 m图1 本文方法流程F i g.1 W o r k f l o w o f t h i s m e t h o d3 实验与分析3.1 数据集介绍及预处理本文从h e m b e r g-l a b获取b a r o n_h u m a n、s e g e r-s t o l p e两个胰腺单细胞测序数据集。数据

29、集的详细信息参见表1.数据集预处理操作包括两部分:1)质量控制。数据集里的细胞需要满足一定基因数、短序列UM I(U n i q u e M o l e c u l a r I d e n t i-f i e r s)数以及线粒体基因占比要求,并对数据集进行缩放和对数归一化处理。2)特征选择。采用M 3 d r o p2 1筛选特征基因。表1 数据集描述T a b l e 1 D a t a s e t d e s c r i p t i o n数据集细胞来源细胞数量细胞类型数测序技术b a r o n_h u m a n人类胰腺8 5 6 91 4i n D r o ps e g e

30、r s t o l p e人类胰腺3 5 1 41 2S m a r t-S e q 23.2 实验设置实验选取b a r o n_h u m a n、s e g e r s t o l p e两个数据集,数据预处理阶段要保证训练集的细胞类型可以覆盖测试集的数据类型。然后应用不同度量学习算法对预处理的训练集进行转换;为了避免样本分布不均匀对算法的影响,实验采取b o o t s t r a p抽样的思想,每次抽取覆盖每一种细胞类型的2 0%的训练样本,对抽取的样本进行度量学习算法映射;由于测试集要和训练集映射在同一特征子空间下,因此测试集要与训练集特征相匹配,若有缺失特征用零补齐。随后,转换后

31、的训练集送入不同的分类器训练分类模型,对胰腺组织单细胞测序数据进行分类。上述操作执行1 0次,对1 0次的结果求平均值,作为最后分类结果。3.3 评价准则评价指标有 A c c u r a c y(准确率)、P r e c i s i o n(精准度)、R e c a l l(召回率)和F1-s c o r e,4个指标的形式如下:A c c u r a c y=T P+T NT P+T N+F P+F N.(8)P r e c i s i o n=T PT P+F P.(9)R e c a l l=T PT P+F N.(1 0)F1-s c o r e=2P r e c i s i o n

32、 R e c a l lP r e c i s i o n+R e c a l l.(1 1)A c c u r a c y计算的是所有分类正确细胞的预测518 第5期奚紫怡,等:基于改进的大间隔最近邻胰腺单细胞分类方法数与总预测数的比值,其他指标计算方法是首先计算每一种细胞类别评估指标(P r e c i s i o n、R e c a l l、F 1-s c o r e),然后除以细胞类型个数取平均值。3.4 结果与分析3.4.1 不同度量学习算法处理数据集后的聚类效果以b a r o n_h u m a n数据集为例,分别使用P C A、I C A、L D A2 2、D C A、LMN

33、N、M S L-LMNN度量学习算法对数据集进行线性映射,并进行数据可视化。图2展示了各种算法转换b a r o n_h u m a n数据集前后的聚类效果。从图中可以看出P C A和I C A算法转换数据集的效果并不理想,处理后的数据分布和原始数据相比差别不大;D C A、L D A、LMNN和M S L-LMNN则可以使得同类型细胞聚拢,不同类细胞间隔变大;相较于L D A、D C A算法,通过LMNN和M S L-LMNN算法学习到的度量更适合数据特征,同类样本距离变得紧凑,不同类样本的界限明显。相较于LMNN算法,M S L-LMNN转换后的数据集,同

34、类内间距变得更小、异类间距离变得更大,边缘离散点聚集效果更加明显。acinaractivated_stellatealphabetadeltaductalendothelialepsilongammamacrophagemastquiescent_stellateschwanncell_groupacinaractivated_stellatealphabetadeltaductalendothelialepsilongammamacrophagemastquiescent_stellateschwanncell_group200-20-40tSNE1（c）ICA200-20tSNE2acin

35、aractivated_stellatealphabetadeltaductalendothelialepsilongammamacrophagemastquiescent_stellateschwanncell_group200-20-40（b）PCA200-20tSNE240tSNE1acinaractivated_stellatealphabetadeltaductalendothelialepsilongammamacrophagemastquiescent_stellateschwanncell_group200-20tSNE1（e）DCAtSNE2acinaractivated_s

36、tellatealphabetadeltaductalendothelialepsilongammamacrophagemastquiescent_stellateschwanncell_group100-20（d）LDA3020100-10-20tSNE220tSNE1-103020100-10-20acinaractivated_stellatealphabetadeltaductalendothelialepsilongammamacrophagemastquiescent_stellateschwanncell_group200-20tSNE1（g）MSL-LMNNtSNE2acina

37、ractivated_stellatealphabetadeltaductalendothelialepsilongammamacrophagemastquiescent_stellateschwanncell_group0-40（f）LMNN200-20tSNE220tSNE1-2040200-20-4040200-20tSNE2-40-20020tSNE1（a）Before_transform图2 b a r o n_h u m a n数据集经过P C A、I C A、L D A、D C A、LMNN、M S L-LMNN转化前后可视化效果的对比F i g.2 C o m p a r i

38、s o n o f t h e v i s u a l i z a t i o n e f f e c t s o f t h e b a r o n_h u m a n d a t a s e t b e f o r e a n d a f t e r P C A,I C A,L D A,D C A,LMNN,a n d M S L-LMNN t r a n s f o r m a t i o n3.4.2 不同度量学习算法和不同分类器的细胞分类结果对经过不同度量学习算法处理后的训练集,分别采用支持向量机2 3、随机森林2 4与KNN分类器构建分类模型,然后对测试集进行分类。实验结果如表2

39、、3所示。从表2、3中可以看出,当指定分类器时,与P C A、L D A、I C A、D C A、LMNN算法相比,M S L-LMNN算法转化数据集后的综合分类效果是最佳的。M S L-LMNN有效考虑了同类细胞和不同类细胞的多种相似度,借助优化准则求解距离变换矩阵,使同种细胞距离变小,不同种细胞距离变大。LMNN算法是针对KNN分类器的度量学习算法,但在实验中发现KNN的分类效果并不一定优于S VM和R a n d o m F o r e s t.这与数据集的细胞类型数目有关,两个数据集中有的细胞类型数量差异较大,因此KNN倾向于选

40、择数量较多的一类。实验结果发现,R a n d o m F o r e s t在各种度量学习算法后的分类效果是最好的,原因是随机森林多次抽取样本子集和特征子集进行训练,计算最佳的分割方式;对于样本分布不平衡的b a r o n_h u m a n和s e g e r s t o l p e胰腺数据集,随机森林能提供平衡数据集误差的有效方法。基于以上结果,本文设计了基于M S L-L MN N和随机森林的胰腺单细胞测序数据分类方法。618太原理工大学学报第5 4卷表2 b a r o n_h u m a n:训练集、s e g e r s t o l p e:测试集的测试集分类

41、结果T a b l e 2 C l a s s i f i c a t i o n p e r f o r m a n c e o f t e s t s e t w i t h b a r o n_h u m a n a s t r a i n s e t,s e g e r s t o l p e a s t e s t s e t分类器度量学习算法准确度精准度召回率F1-分数S VMP C A0.9 2 4 70.9 6 3 40.8 6 7 20.8 7 6 1L D A0.9 3 2 10.9 1 2 10.9 0 6 80.8 8 5 8I C A0.9 2 4 30.9 6 3

42、70.8 6 6 30.8 7 6 4D C A0.9 3 3 80.9 6 6 90.9 1 7 90.9 1 8 0LMNN0.9 3 8 10.9 6 6 30.9 2 3 60.9 2 5 5M S L-LMNN0.9 4 0 60.9 6 8 50.9 2 6 90.9 2 9 6R a n d o m f o r e s tP C A0.9 3 1 00.9 6 3 70.8 9 5 40.8 9 8 7L D A0.9 2 9 40.9 4 5 40.8 6 4 20.8 7 9 1I C A0.9 2 9 50.9 6 2 70.8 8 5 80.8 9 3 9D C A0.9

43、 3 8 40.9 7 0 10.9 1 7 00.9 2 0 8LMNN0.9 3 9 60.9 7 0 00.9 2 3 60.9 2 6 3M S L-LMNN0.9 4 7 90.9 7 2 80.9 3 3 80.9 3 8 8KNNP C A0.9 2 7 90.9 4 4 70.8 8 4 00.8 8 8 7L D A0.9 4 1 10.9 7 0 00.9 0 9 80.9 2 0 0I C A0.9 3 2 80.9 6 8 20.8 2 4 00.8 3 7 2D C A0.9 3 6 20.9 6 9 10.9 1 9 10.9 2 0 5LMNN0.9 4 0 10

44、.9 6 7 50.9 1 0 90.9 2 1 1M S L-LMNN0.9 4 4 50.9 7 1 40.9 3 0 40.9 3 4 7表3 s e g e r s t o l p e:训练集、b a r o n_h u m a n:测试集的测试集分类结果T a b l e 3 C l a s s i f i c a t i o n p e r f o r m a n c e o f t e s t s e t w i t h s e g e r s t o l p e a s t r a i n s e t,b a r o n_h u m a n a s t e s t s e t分

45、类器度量学习算法准确度精准度召回率F1-分数S VMP C A0.9 4 8 70.9 5 6 60.8 5 9 70.8 8 9 5L D A0.9 4 9 20.9 1 9 70.8 7 2 40.8 8 3 7I C A0.9 5 1 40.9 5 8 70.8 5 7 50.8 8 6 0D C A0.9 5 5 60.9 6 5 10.8 8 3 00.9 1 1 9LMNN0.9 4 7 40.9 5 5 70.9 1 1 70.9 2 7 6M S L-LMNN0.9 5 7 80.9 6 4 00.9 2 0 50.9 3 7 6R a n d o m f o r e s tP

46、 C A0.9 4 7 60.8 7 1 00.8 7 1 70.8 5 4 1L D A0.9 2 3 40.8 7 0 40.8 1 2 20.8 2 7 6I C A0.9 0 5 60.9 0 2 40.7 4 1 00.7 7 8 1D C A0.9 5 7 70.9 2 8 20.9 1 9 90.9 1 5 0LMNN0.9 4 7 20.9 5 3 80.9 2 6 90.9 3 5 5M S L-LMNN0.9 6 3 50.9 6 3 00.9 4 8 20.9 5 3 3KNNP C A0.9 4 7 30.9 5 3 90.9 2 6 90.9 3 5 6L D A0.

47、7 5 6 60.7 5 8 10.7 5 5 60.7 1 0 3I C A0.9 1 4 40.9 2 2 60.8 4 4 50.8 6 7 4D C A0.9 4 1 60.9 5 3 60.9 1 3 90.9 2 8 2LMNN0.9 4 8 20.9 5 6 40.9 1 6 20.9 3 0 9M S L-LMNN0.9 5 2 40.9 5 6 80.9 1 9 20.9 3 2 63.4.3 与其他自动细胞分类方法的对比为了验证本文设计方法的性能,对比了目前广泛使用的5种自动细胞类型鉴定方法s c m a p-c l u s-t e r4、C H E T AH5、s c P

48、 r e d6、S c i B e t7、s c L e a r n1 4,6种方法的性能结果如表4所示。由表4可知,本文提出的基于M S L-LMNN和随机森林的细胞类型鉴定方法相比其他方法优势突出,绝大部分分类指标排在前列。其他单细胞分类方法构建的分类模型主要是比较目标数据集和参考数据集细胞之间的相似性,依据以往经验选取分类阈值,面对不同细胞类型和不同数据集时无法保持稳定的分类性能。如CHE T AH在b a r o n_h u m a n作为训练集、s e g e r s t o l-p e作为测试集时,分类性能良好,但在s e g e r s t o l

49、 p e作为训练集、b a r o n_h u m a n作为测试集时较其他方法准确度下降幅度最大,而精确度上升,说明CHE-T AH对b a r o n_h u m a n数据集里的某些细胞类型可以有效分类,但无法对所有的细胞类型保持同样的高效分类效果。在b a r o n_h u m a n作为训练集、s e g-e r s t o l p e作为测试集时,s c m a p-c l u s t e r和s c P r e d以及S c i B e t的分类效果明显,而在s e g e r s t o l p e作为训练集、b a r o n_h u m a n作为测试集时,分类性能有所欠

50、缺,说明上述模型面对不同单细胞数据集时无法学习到充足的样本间信息,不能保持稳定且高效的分类性能。本文设计的基于M S L-LMNN和随机森林的自动单细胞分类方法可以最大化单细胞测序数据的类内紧凑度和类间复杂度,有利于进行单细胞分类任务。表4 六种方法在不同数据集上的分类效果T a b l e 4 C l a s s i f i c a t i o n p e r f o r m a n c e o f s i x m e t h o d s o n d i f f e r e n t d a t a s e t s训练集/测试集细胞类型鉴定方法分类准则准确度精准度召回率F 1-分数b a r

展开阅读全文