1、Learning(in Chinese).Chinese Journal of:Space Science,2023,43(4):768-779.D0I:10.11728/cjss2023.04.20220301022GAO Lijing,CHEN Zhimin,GUO Guohang,WANG Chunmei.Recognition of Working Pattern of Space ScienceSatellite Based on Ensemble0254-6124/2023/43(4)-0768-12Chin.J.SpaceSci.空间科学学报基于集成学习的空间科学卫星工作模式识别
2、*1,2陈志敏郭国航1,2高立京王春梅1(中国科学院国家空间科学中心北京100190)2(中国科学院大学北京100049)摘要针对空间科学卫星遥测参数数据量大且特征维度高、需要消耗大量人力资源预先设置海量阈值、预先设置的阈值可能不再适用、现有监测手段可扩展性低等问题,提出了一种基于集成学习的空间科学卫星工作模式识别方法。该方法采用相关系数统计特性和互信息理论对遥测参数数据进行筛选降维,使用数据重采样技术解决数据集中存在的类别不平衡问题,构建集成学习模型,实现空间科学卫星工作模式的识别。借助某型号科学卫星真实遥测参数数据对该方法进行验证,在短时内便可构建完成算法模型,模型对整体类别的识别正确率高
3、达99.67%,可正确识别多数类样本和少数类样本,为地面运控人员判断空间科学卫星工作模式提供了决策依据。关键词遥测参数数据,特征降维,数据重采样,集成学习中图分类号TP391Recognition of Working Pattern of Space ScienceSatellite Based on Ensemble LearningCHEN ZhiminGAO Lijing1,2GUO Guohang1,2WANG Chunmeil1(National Space Science Center,Chinese Academy of Sciences,Beijing 100190)2(Un
4、iversity of Chinese Academy of Sciences,Beijing 100049)AbstractAiming at the issues of space science satellite telemetry parameters,such as large amount ofdata,high dimension,the need of numerous artificial resource consumption for preset massive thresholds,the preset thresholds that may not be appl
5、icable,and the current monitoring methods with low scalabili-ty,a working pattern recognition method is proposed for scientific satellite based on ensemble learning.Correlation coefficient statistical characteristics and mutual information theory are used to screen andreduce the dimension of telemet
6、ry parameter data.Data resampling technology is used to solve the prob-lem of category imbalance for the dataset.An integrated learning model is used to identify the workingmode of space science satellite.The method is verified with the real telemetry parameter data of quan-*中国科学院空间科学先导专项科学卫星任务运控技术项
7、目资助(XDA15040100)2022-03-01收到原稿,2 0 2 2-10-11收到修定稿E-mail:The Author(s)2023.This is an open access article under the CC-BY 4.0 License(https:/creativecommons.org/licenses/by/4.0/)769高立京等:基于集成学习的空间科学卫星工作模式识别tum science satellites.And the algorithm model can be constructed in a short time,and the overal
8、lrecognition accuracy rate reaches 99.67%,which can correctly identify the majority and minority classsamples.The method can provide decision-making basis for ground personnel to judge the working modeof space science satellites.Key wordsTelemetry parameter data,Feature dimension reduction,Data resa
9、mpling,Ensemble learning0引言空间科学卫星在轨工作期间会向地面下传海量遥测参数数据,这些遥测参数数据是地面运控系统判断其在轨工作模式的重要依据。目前地面运控人员主要通过监视重点遥测参数是否超出事先设定的阈值来识别空间科学卫星当前工作模式,由于空间科学卫星上携带的有效载荷数量众多,需要地面人员事先设定海量的阈值,耗费大量的人力资源。当需要监视其他卫星时,需要重新为新的卫星设置海量的阈值,移植成本高,可扩展性弱。同时,随着卫星在轨运行时间的增加,加之空间环境复杂,辐射因素或温度因素可能引起元器件发生异常,同时机械部件的长期磨损、电子线路的老化、蓄电池因充放电过多导致的性能退
10、化等一系列问题都可能会使得前期预先设定的阈值不再适用,而地面人员又难以根据当前情况适时调整阈值。因此,设计一种可以根据遥测参数自动识别空间科学卫星工作模式的方法是很有必要的。目前,对于航天器工作模式识别的研究主要集中于航天器故障诊断和遥测参数判读方面。文献 2 开发了NoveltyDetection组件,利用最大最小值、均值、标准差等统计特征重新表示遥测数据,并结合LOF(LocalOutlierFactor)方法进行异常检测。文献 3 使用混合概率主成分分析(MixtureProbabilis-tic Principal Component Analysis,MPPCA)与隐半马尔科夫模型(
11、Hidden Semi-Markov Model,HSMM)实现数据维度约简,使用序列蒙特卡罗算法进行参数估计,实现航天器故障诊断。文献 4 针对遥测参数中缓变参数的自动判读问题,提出使用基于历史数据的统计特性自动判读遥测数据参数的方法。文献 5以极限学习机(Extreme Learning Machine,ELM)预测模型为基础,使用集成学习的方法,针对目标参数的不同类别分别给出判读策略。文献 6 将传感器与卫星姿态之间的穴余关系作为特征,利用主成分分析(Principal Component Analysis,PC A)进行特征降维,通过监测特征值之间相应比例的变化实现遥测参数的判读。文献
12、 7 使用灰关联分析以及信息熵剔除余参数并离散化参数,提出的PrefixSpan算法能够通过卫星遥测数据检测其异常的模式。基于上述研究,本文提出了一种基于随机森林算法模型的空间科学卫星工作模式识别方法,将卫星工作模式识别问题归约为机器学习领域中的多标签分类问题。借助皮尔逊相关系数和互信息理论,剔除特征与特征之间相关性高、特征与目标之间相关性低的特征,实现对遥测参数数据的特征降维。使用随机过采样、SMOTE过采样、SMOTE-Tomek混合采样等多种数据重采样技术处理数据集,解决数据集中存在的类别不平衡问题。构建以Bagging集成学习思想为基础的随机森林算法模型,实现空间科学卫星工作模式的识别
13、。使用某型号科学卫星真实遥测参数数据进行实验验证,比较不同数据重采样技术之间的性能差异,探索了不同基学习器数量下算法模型的性能表现,将随机森林模型与其他常用机器学习算法模型在同一数据集上进行性能对比。实验结果证明,本文方法解决了数据集中存在的类别不平衡问题,同时构建算法模型耗时短,整体类别的识别正确率高,可正确识别多数类样本和少数类样本,能够为地面运控人员判断空间科学卫星工作模式提供决策依据1工作模式识别方法1.1问题模型与向量表示1.1.1遥测数据形式化描述定义1空间科学卫星的遥测参数集合表示为P=(pili=1,2,n).(1)其中pi表示第i维的遥测参数。7702023,43(4)Chi
14、n.J.SpaceSci.空间科学学报定义2以星上时为时间基准,在某一时刻卫星采集到的遥测参数数据向量表示为Mg)=(0(=E(0 p p9.(2)其中,t(i)表示某一时刻的星上时,用来在时间维度上标识遥测参数数据向量。P()=pp9p)为对应时刻采集到的n维遥测参数数据向量。定义3卫星在时间1K的时间段内产生的遥测数据表示为1TD1,K=MgMSPt(1)(1)(1)(1)PiP2Pnt(2)(2)(2)(2)PiP2Pn(3)t(K)(K)(K)(K)PiP2n定义4其某型号空间科学卫星共存在5种工作模式,其工作模式集合表示为L=(l1,l2,l3,l4,ls).(4)1.1.2工作模式
15、识别问题模型空间科学卫星的工作模式指的是卫星在执行特定科学任务时所处的整体状态,可以将空间科学卫星工作模式识别问题归约为机器学习领域的多标签分类问题。1.2算法框架基于集成学习的空间科学卫星工作模式识别方法的整体算法框架如图1所示。首先从数据库中获取以分库分表形式存放的原始遥测参数数据,合并分库分表中的遥测参数数据并将其中的十六进制数据按照配置文件转换为十进制数据。借助星历计划安排获取每个星上时区间内卫星所处的工作模式,根据遥测参数数据的星上时时间戳所处的时间区间为每条数据打上标签,用以标识该条数据产生时卫星所处的工作模式,得到带有标签的原始数据集。之后对原始数据集中的数据进行缺失值填充、异常
16、值剔除、数据标准化等预处理操作。剔除数据集中的余无关特征,可以减少训练和预测的计算量,因此下一步需对特征进行筛选降维,计算特征与特征之间的皮尔逊相关系数剔除余特征,计算特征与目标之间的互信息剔除无关特征。在航天任务中,空间科学卫星工作模式调度的特殊性决定了其处于不同工作模式间的时间占比相差较大,造成遥测参数数据存在严重的类别不平衡问题。为解决该问题,对原始数据集分别进DatabaseTelemetry raw data of sub database and sub tableData parserCategory imbalancetreatmentHexadecimalTelemetry
17、parameterRandomSMOTEconversionmergingoversamplingalgorithmDatasetSMOTE-TomekannotationalgorithmData preprocessingModel selectionMissingvalueOutlierfieliminationBaggingRandom forestDatanormalizationFeature selectionModelevaluationBetweenBetweenfeaturefeaturesand targetAccuracyF1-scorePearson correlat
18、ionMutualcoefficientinformation图1整体算法框架Fig.1Overall algorithm framework771高立京等:基于集成学习的空间科学卫星工作模式识别行随机过采样、SMOTE过采样、SMOTE-Tomek混合采样等处理。在模型选择方面,基于Bagging集成学习思想,采用随机森林作为识别空间科学卫星工作模式的算法模型。在算法模型的评价指标方面,由于数据集中存在严重的类别不平衡问题,单靠正确率这一评价指标不能完整评价模型的拟合能力和泛化能力,还需要用到F1-score这一评价指标。下面以图1中的整体算法框架为基础,介绍其每一部分内容。1.3数据预处理
19、数据预处理过程主要进行缺失值填充、异常值剔除和数据归一化的工作。1.3.1缺失值填充遥测参数数据的一个特点是数据变化缓慢,同一个遥测参数的值不会在短期内发生剧烈变化,因此对于某个遥测参数中的缺失值可参考其附近时刻值。这里取该缺失值前后各30 个采样值的均值作为该缺失值的填充值,若采样值的数量不满30 则以实际数量为准。1.3.2异常值剔除异常值定义为因设备编解码错误或传输过程出错而产生的严重偏离正常数据范围的值,对于异常值,使用箱型图进行判别。箱型图是一种用作显示一组数据分散情况的统计图,可以用来识别数据分布以及检测异常数据,其主要由5个点组成:下边缘Tmin,下四分位数Q1,中位数Q2,上四
20、分位数Q3,上边缘Tmax。若数据位于上下边缘区间之外,则认为是异常值8,如图2 中两个红色点所示,均为异常值。箱型图的下边缘和上边缘计算公式如下:Tmin=Q1-1.5R,(5)Tmax=Q3+1.5R.(6)其中,R=Q3-Q1o对使用箱型图检测出的异常值进行剔除,并使用1.3.1节中提到的缺失值填充方法进行填充1.3.3数据归一化遥测参数数据中不同参数的数值量纲是不同的,特征之间取值范围的悬殊性不利于数值求解,导致模型收敛困难,降低模型的训练效率。针对大部分机器学习算法,在建模之前都需要对数据进行归一化处理,消除参数间数值量纲差异带来的不利影响。本文中使用的数据归一化方式为零均值归一化,
21、该方式可以将数据映射到均值为0、标准差为1的标准正态分布上9。数值c的零均值归一化公式为a=(7)其中,表示该特征下的数据均值,表示该特征下的数据标准差。1.4特征筛选对数据集进行特征筛选降维可以删除穴余无关的参数特征并保留重点参数特征,能够在不影响或略微影响模型精度的情况下大大减少计算量,提高训练和预测的效率。本文根据数据集的统计特性判断数据集中的参数特征是否具备余参数特征和无关参数特征,借助皮尔逊相关系数和互信息理论分析数据集样本的统计分布特性,剔除特征与特征之间相关性高、特征与目标之间相关性低的特征。1.4.1皮尔逊相关系数皮尔逊相关系数是一种衡量数据统计特性的指标,可以描述遥测参数数据
22、中特征与特征之间的线性相关性。遥测参数特征X与遥测参数特征Y之间的皮尔逊相关系数为MedianQ2Lower edge TminLowerquartileQiUpperquartileQsUpper edge TmaxOutlierOutlierR1.5xR1.5R图2箱型图检测异常值Fig.2Abnormal value detected by box diagram7722023,43(4)Chin.J.SpaceSci.空间科学学报cov(X,Y)Px,YE(XY)-E(X)E(Y)/E(X2)-(E(X)VE(Y2)-(E(Y)?nnciyiiyi=1=1=122nn2nyi=1=1=
23、11(8)其中,cov(X,Y)表示遥测参数特征X与遥测参数特征Y的协方差,x和o分别表示遥测参数特征X和遥测参数特征Y的标准差 10 相关系数p的取值范围为-1,1,p=-1时表示两个遥测参数特征之间为线性负相关,=1表示两个遥测参数特征之间为线性正相关,=0时表示两个遥测参数特征之间不存在线性关系。一般地,使用相关系数的绝对值表示两个遥测参数特征之间的相关程度,相关系数的绝对值pl与相关程度的关系见表1。在本文中,对于遥测参数数据中的所有特征,分别计算两两之间的皮尔逊相关系数,对于皮尔逊相关系数绝对值满足0.9lpl1的两个遥测参数特征,只保留其中一个特征,即剔除了遥测参数数据中特征与特征
24、之间相关程度极高的穴余参数特征1.4.2互信息互信息用来描述两个随机变量之间共同拥有的信息量,可以度量遥测参数特征与目标标签之间的线性和非线性依赖程度。遥测参数特征X和目标标签Y之间的互信息为I(X,Y)=H(X)-H(X|Y).(9)其中,H(X)表示遥测参数特征X的,H(X|Y)表示在给定目标标签Y的条件下遥测参数特征X条件概率分布的嫡,二者计算公式分别为表1皮尔逊系数与相关程度的关系Table 1Relationship between Pearson coefficientand correlation degree皮尔逊相关系数绝对值p取值相关程度0Ipl0.3低相关0.3 Ipl0
25、.8中相关0.8Ipl1高相关H(X)=-p(a)Ibp(a);(10)aEXH(X|Y)=-p(c,y)Ibp(aly).(11)CEXEY计算遥测参数数据中每个特征与目标标签之间的互信息,并对互信息结果进行降序排序,选取前50%的特征进行保留,即剔除了遥测参数数据中与目标标签相关性较低的特征。1.5类别不平衡处理类别不平衡问题指的是在一个分类问题中某些类的样本数量远多于其他类别的样本数量 12 。对于分类问题的场景,如果直接将传统分类器应用于类别不平衡数据集,由于数据集中各个类别的不平衡比例过大,分类器极有可能将所有的样本数据均识别为类别数量多的那一类 13)。在遥测参数数据中类别不平衡问
26、题较为普遍,这是因为航天任务工作模式调度决定了处于某些工作模式的遥测参数样本占比高,而处于另一些工作模式的遥测参数样本占比低。因此,在使用遥测参数识别空间科学卫星工作模式的问题上,类别不平衡是呕待解决的问题处理分类场景下的类别不平衡问题,通常可以分为数据重采样、改进模型训练算法两大类。其中,改进模型训练算法主要是代价敏感学习,但此方法仅改进了模型训练算法,没有改变数据原始的分布,存在模型使用的局限性。数据重采样是指从原始数据集人手,对原始不平衡数据进行调整,使得不平衡数据在一定程度上达到平衡状态,从而消除类别不平衡问题。常见的数据重采样方法分为两大类,即欠采样和过采样。欠采样主要采用某些特定方
27、法移除多类样本中的数据来平衡数据集中的类别分布,很明显该方法会丢失数据集中有价值的信息,因此本文使用过采样方法解决数据类别不平衡问题常见的过采样技术有随机过采样技术、合成少数类过采样(Synthetic Minority Oversampling Tech-nique,SMOTE)技术、合成少数类过采样与TomekLink混合采样(Synthetic Minority OversamplingTechnique-Tomek Links,SMOTE-Tomek)技术。1.5.1随机过采样随机过采样通过随机性直接复制少数类中的样本达到类别平衡,该方式虽然不会丢失数据的有价值信息,但是对少数类中样本
28、的直接复制增加了过拟合的可能性。773高立京等:基于集成学习的空间科学卫星工作模式识别1.5.2SMOTE过采样SMOTE过采样根据预先设定的采样倍率k,使用K最近邻算法(K-Nearest Neighbor,KNN)找到样本点的k个近邻样本,通过在样本点和近邻样本之间人工合成新样本的方式使样本重新达到平衡 14。该算法可以有效减缓随机过采样带来的过拟合问题,但是该方法在进行人工合成样本时,由于没有考虑到近邻样本可能来自不同类别,因此会加剧类别间重叠的问题。SMOTE算法步骤如下步骤1计算少量类别的样本X,与所有样本点的距离。步骤2 根据设定的样本不平衡过采样倍率k,找到最近的k个样本。步骤3
29、每一个新生成的样本为Xnewj=X;+rand(0,1)(X,-X,)。如图3所示,Xnew1,Xn e w 2,Xn e w 3和Xnew4即为使用SMOTE过采样生成的新样本。1.5.3SMOTE-Tomek混合采样SMOTE-Tomek混合采样首先利用SMOTE过采样对少数类生成新样本,对得到的扩充数据集,找到所有的 Tomek Link并剔除。其中,Tomek Link定义为:假设样本点X。和X,属于不同的类别,d(X。,X.)表示两个样本点之间的距离,如果不存在第三个样本点X使得d(Xc,Xa)d(Xa,X,)和d(Xc,Xb)d(Xa,X.)成立,称(Xa,Xb)为一个 Tomek
30、 Linkl15。图4(a)为原始数据集,可以看到存在样本类别不平衡和样本类别重叠的问题;图4(b)为使用SMOTE过采样后得到的数据集,很明显SMOTE过采样后加剧了样本类别重叠问题;对于得到的扩充数据集找到所有的Tomek Link,如图4(c)中虚线框所示;剔除所有的TomekLink,可以看到数据集中原本的重叠问题Inew4ew2new图3SMOTE算法Fig.3SMOTE algorithm(a)(b)(d)O图4SMOTE-Tomek算法Fig.4SMOTE-Tomek algorithm7742023,43(4)Chin.J.Space Sci.空间科学学报大大减少,使得分类器更
31、容易对两种类别做出区分,如图 4(d)所示。根据上述三种过采样方式特点可以看出,SMOTE-Tomek混合采样的性能较为优越,故采取该种过采样方式,同时为了进行比较,也会给出其他过采样方式在数据集上的处理效果。1.6随机森林算法原理随机森林(Random Forest,RF)是一种基于Bagging思想的集成学习算法,由多个弱分类器CART决策树组合成一个强分类器 16 。相比于传统决策树,随机森林在决策树的训练过程中引入了随机属性选择,具体而言,传统决策树在选择划分属性时是在当前含有M个属性结点的属性集合中选择一个最优属性,而在随机森林中,对基决策树的每个结点,先从该结点的属性集合中随机选择
32、一个包含m个属性的子集,然后从这个子集中选择一个最优属性用于划分 17 。构建随机森林并进行预测的示意如图5所示,具体步骤描述如下。步骤1对于含有N个样本的原始数据集,采取有放回随机抽样的方式选取N个样本。步骤2 假设每个样本有M个属性特征,在决策树的每个结点需要分裂时,随机从这M个属性特征中选取出m个属性特征,满足mM,之后从这m个属性中采用Gini系数策略来选择1个属性特征作为该节点的分裂属性。步骤3重复步骤2,使得决策树形成过程中每个节点进行分裂,直到不能再分裂为止,整个决策树形成过程中不进行剪枝。步骤4重复步骤13建立K棵基决策树,此时构建完成随机森林步骤5对输入样例进行预测,每棵基决
33、策树都产生一个预测结果,对这K个预测结果进行投票,票数最高者作为预测结果输出。1.7评估指标对数据集样本进行分类,结果有4种情况:真阳性(TP),即预测为正,真实标签为正;假阳性(FP),即预测为正,真实标签为负;假阴性(FN),即预测为负,真实标签为正;真阴性(TN),即预测为负,真实标签TrainingdatasetBootstrap samplingGeneratingrandom forestSubSubSubdatasetldataset21datasetkCARTdecisionCART decisionCARTdecisiontree1tree2treekTestdatasetP
34、redictingCART decisionCARTdecisionCART decisiontree1tree2treekVoteClassification result图5随机森林算法Fig.5Random forest algorithm775高立京等:基于集成学习的空间科学卫星工作模式识别为负。本文采用正确率和F1-score作为评价指标描述算法模型的分类效果。1.7.1正确率正确率(Accuracy)为正确预测样本数占总样本数的百分比,表征算法模型对所有类别的整体分类表现。对于多标签分类任务,正确率的计算公式为KZTPA=TA+FP+FN.+TN1(12)其中,K表示数据集中的类别
35、数,Tp表示预测为正且真实标签为正的数量,Fp表示预测为正且真实标签为负的数量,F表示预测为负且真实标签为正的数量,T表示预测为负且真实标签为负的数量。1.7.2F1-scoreF1-score综合考虑分类结果的精确率(Precision)和召回率(Recall)的值,如果精确率和召回率都比较高,则F1-score的值会比较高,此时分类器对少数类和多数类的识别精度均较高,适用于类别不平衡数据集场景下的算法模型评估。某一类别的精确率(Precision)为TpP:=TP.+FP(13)某一类别的召回率(Recall)为Tp.R;=T.+FN(14)多分类任务中对于全部类别的F1-score为K1
36、2P,R;Fi=KP:+R,(15)=1其中K表示数据集中的类别数。2仿真实验与结果分析2.1数据集准备仿真实验所用数据集来自2 0 17 年1月1日至2019年2 月2 7 日期间某型号科学卫星在轨产生的遥测参数数据,选取其中代号8 36 2 的源包数据作为原始数据集。原始数据集中共有8 7 317 条数据,包含203维特征,某型号科学卫星存在5种工作模式,故数据集的标签标注为工作模式1、工作模式2、工作模式3、工作模式4和工作模式5。原始数据集中数据的总缺失数为8 2 6,总缺失率约为0.0 0 46 6%。使用1.3节中介绍的箱型图检测法检测数据集中每一个特征所存在的异常值,对异常值剔除
37、后使用1.3节中介绍的缺失值填充方法进行填充。如图6 所示,通过绘制特征V107和特征V141的箱型图,可以看出红框内的值判定为异常值,需要将其剔除并重新填充;如图7 所示,通过绘制特征V130和特征V174的箱型图,可以看出这两个特征中不存在异常值,无须进行特殊处理。之后使用1.4节给出的方法对数据集进行特征筛选降维,降维后的数据集特征维度为7 6。对特征筛选降维后的数据集按照7:3的比例划分为训练集和测试集,其中训练集用于训练算法模型,测试集用于测试算法模型对数据的拟合能力和泛Boxdiagramof featureV107Boxdiagramof featureV141(a)(b)口-2
38、.502.55.001000200030004000Voltage/VStorage capacity/kByte图6存在异常值特征的箱型图例Fig.6Examples of box diagram with characteristics of outliers7762023,43(4)Chin.J.SpaceSci.空间科学学报化能力,此时数据集中的训练集和测试集的样本类别数量分布如图8(a)所示。使用1.5节中介绍的随机过采样、SMOTE过采样、SMOTE-Tomek混合采样三种数据重采样方式对原始数据集中的训练集分别进行处理,处理后得到的扩充数据集的样本类别数量分布分别如图8(b)(d
39、)所示2.2模型训练与评估实验环境信息列于表2。使用scikit-learn机器学习库实现随机森林的算法,在随机森林中,有多个参数需要确定以使模型达到较优的分类效果。其中,参数max_depth表示每个基学习器,即CART决策树的最大深度,该值越大则决策树的拟合数据能力越强,该值在超过某个临界值之后,决策树的拟合能力不再发生显著提升;参数min_samples_spli表示分割节点时考虑特征随机子集的大小,这个值越低,方差减小越多,但偏差的增大也越多。设置max_depth=Box diagram of feature V130BoxdiagramoffeatureV174(a)(b)0204
40、0600100200Total number of write errorsTotal number of unexecuted events图7不存在异常值特征的箱型图例Fig.7Examples of box diagram of features without outliersTraining datasetTest datasetDistribution of categories in the datasetDistribution of categories in the original datasetafter random oversampling3000029169(a)
41、300002916929169291692916929169(b)22668200002000012439124399737100001000097375113223630471124,4741310474223631000Pattern 1 Pattern 2 Pattern 3 Pattern 4 Pattern 5Pattern 1 Pattern 2 Pattern 3 Pattern 4 Pattern 5Distribution of categories in the datasetDistribution of categories in the datasetafter SM
42、OTE oversamplingafter SMOTE-Tomek oversampling300002916929169291692916929169(c)300002916929168291532915429169(d)20000200001243912439100009737100009737223613102236474474131000Pattern1Pattern2Pattern3Pattern4Pattern5Pattern1Pattern2Pattern 3Pattern 4Pattern 5Working patternWorking pattern图8数据集中类别数量分布F
43、ig.8Number distribution of categories in dataset777高立京等:基于集成学习的空间科学卫星工作模式识别None结合min_samples_spli=2,为不限制生成一个不修剪的完全树,可以使得每棵CART决策树达到较好的分类性能。参数n_estimators表示随机森林中基学习器即CART决策树的个数,通常数量越大,算法效果越好,但是计算时间也会随之增加。当基学习器数量超过一个临界值后,算法的效果不会显著变好。本文分别在原始训练集、随机过采样处理后的训练集、SMOTE过采样处理后的训练集和SMOTE-Tomek混合采样处理后的训练集上进行训练,并
44、在测试集上进行测试,其F1-score如图9所示,训练时间如图10所示。从图9可以看出,在基学习器数量达到19后,随机森林算法模型的F1-score趋于稳定,不再有显著提升,同时结合图10 可以看出,训练时间随着基学习器数量的增加近乎线性增加,因此为了平衡训练时间表2实验环境信息Table 2Experimental environment information类目详细信息CPU8核i7-1165G72.8GHz内存16GByte硬盘500GByte操作系统Windows10家庭中文版编程语言Python编程工具Pycharm Community 2021.3与算法模型效果,设定基学习器数为
45、19,此时随机森林模型在不同数据集上的性能表现列于表3。同时,为了比较不同机器学习算法模型在空间科学卫星工作模式识别方面的性能差异,还训练了朴素贝叶斯模型、逻辑回归模型、支持向量机模型和CART决策树模型,每一个算法模型均经过参数调优达到较优的分类性能。几种机器学习算法模型在SMOTE-Tomek混合采样处理后数据集上的性能表现列于表 4。2.3实验结果分析观察图9可以看出,随着基学习器数量的增加,随机森林模型在测试集上的F1-score逐渐升高直至趋于稳定,当基学习器数量19之后,分类性能稳定,不再有显著的变化。这说明基学习器数量的增加确实可以提高分类性能,Bagging集成学习的思想可以提
46、高弱学习器的分类性能,体现了群体智慧的优越性。当基学习器数量19之后,随机森林模型的分类性能达到稳定,此时可以观察到,随机森林模型在数据重采样后的数据集上的F1-score优于原始数据集。这说明随机过采样、SMOTE过采样、SMOTE-Tomek混合采样确实能够解决数据集中存在的类别不平衡问题;并且在三种数据过采样方式中,SMOTE-Tomek可以达到最高的F1-score,这与理论上三者中SMOTE-Tomek最优是相符的。通过观察表4可以看出,在正确率和F1-score这0.9920.9910.99090000609000000900090000000000000000000000000.
47、9890.9880.9870.9860.9850.984Original0.983Random oversamplingSMOTE0.982SMOTE-Tomek0.9810510152025 303540455055 6065 707580 85 9095100Numberofbaselearners图9不同基学习器数量下的F1-scoreFig.9F1-score under different number of basic learners7782023,43(4)Chin.J.SpaceSci空间科学学报22Original20Random oversamplingSMOTE18SM
48、OTE-Tomek1614121086420051015202530 3540455055606570758085 9095100Number of base learners图10不同基学习器数量下的训练时间Fig.10Training time under different number of basic learners表3随机森林模型(基学习器数19)在不同数据集上的性能表现Table3Performance of random forest model(number of base learners 19)on different datasets数据集类别正确率F1-score原
49、始数据集0.99660.9894随机过采样后数据集0.99670.9911SMOTE过采样后数据集0.99670.9908SMOTE-Tomek过采样后数据集0.99670.9914注黑体数字表示该数据在所列中表现最优。两个评价指标上,相比朴素贝叶斯、逻辑回归、支持向量机和CART决策树四种算法模型,决策树模型性能最优,可以达到99.6 7%的正确率和99.14%的F1-score。这说明本文所提方法确实可以学习到遥测参数数据与卫星工作模式之间的内在联系,在空间科学卫星工作模式识别方面可以达到较高的整体预测正确率,对于多数类样本和少数类样本均能正确识别。在训练时间方面,决策树模型虽未达到最短时
50、间,但是4.36 s的训练时间也是可以接受的,这说明本文所提方法在构建算法模型方面耗时是比较短的。3结语本文所提出的基于集成学习的空间科学卫星工作模式识别方法,将空间科学卫星工作模式识别问题归约为机器学习领域中的多标签分类问题,借助皮尔表4不同机器学习模型的性能表现Table 4Performance of different machinelearning models机器学习模型类别正确率F1-score训练时间/s朴素贝叶斯0.74560.61760.18逻辑回归0.93090.86646.42支持向量机0.91690.8483144.36CART决策树0.99590.98962.88随