基于邻域容差熵选择集成分类算法.pdf

资源描述

1、第 55 卷第 6 期郑州大学学报(理学版)Vol.55 No.62023 年 11 月J.Zhengzhou Univ.(Nat.Sci.Ed.)Nov.2023收稿日期:2022-07-30基金项目:河北省数据科学与应用重点实验室项目(10120201);唐山市数据科学重点实验室项目(10120301)。第一作者:董红瑶(1997),女,硕士研究生,主要从事数据挖掘、粒计算、三支决策研究,E-mail:1877077447 。通信作者:李丽红(1979),女,教授,主要从事数据挖掘、三支决策研究,E-mail:22687426 。基于邻域容差熵选择集成分类算法董红瑶1,2,3

2、,申成奥1,李丽红1,2,3(1.华北理工大学理学院河北唐山 063210;2.河北省数据科学与应用重点实验室河北唐山 063210;3.唐山市工程计算重点实验室河北唐山 063210)摘要:针对不完备混合型信息系统的分类问题,融合粒计算和集成学习思想,引入邻域容差关系,提出基于邻域容差熵选择集成分类算法。首先根据样本中的缺失属性将不完备混合型数据集划分为不同的信息粒,并再次遍历数据集进行最大化信息粒,构成新的粒空间,用以 BP 神经网络为基分类器的集成算法在粒空间上训练最大化信息粒,构建新的基分类器;然后以每个信息粒的缺失属性作为条件计算出关于类别属性的邻域容差条件熵,各个信息粒的重

3、要度通过邻域容差条件熵进行量化后,通过信息粒的大小、新训练出的基分类器预测准确率以及邻域容差条件熵重新定义各个基分类器的权重;最后根据预测样本对基分类器加权集成,预测分类结果,并与传统的集成分类算法进行对比分析。对于不完备混合型数据集,新提出的集成分类算法能有效提升分类准确率。关键词:不完备混合型信息系统;信息粒;邻域容差熵;集成学习;分类中图分类号:TP181文献标志码:A文章编号:1671-6841(2023)06-0015-07DOI:10.13705/j.issn.1671-6841.2022221Ensemble Classification Algorithm Selecting

4、Based on Neighborhood-tolerance EntropyDONG Hongyao1,2,3,SHEN Chengao1,LI Lihong1,2,3(1.College of Science,North China University of Science and Technology,Tangshan 063210,China;2.Hebei Province Key Laboratory of Data Science and Application,Tangshan 063210,China;3.Tangshan Key Laboratory of Enginee

5、ring Computing,Tangshan 063210,China)Abstract:In order to solve the classification problem of incomplete hybrid information systems,a neigh-borhood-tolerance entropy selective ensemble classification algorithm based on neighborhood-tolerance re-lation was proposed by integrating the idea of granular

6、 computing and ensemble learning.Firstly,the in-complete mixed dataset was divided into different information grains according to the missing attributes in the samples,and the dataset was traversed again to maximize the grains to form a new grain space.In the grain space,the BP neural network was us

7、ed as the basic classifiers to train the maximum information grains to construct a new basic classifier.And then with each information missing attributes as conditions the category attributes of the neighborhood-tolerance conditional entropy was caculated,the importance of information was quantified

8、 by neighborhood-tolerance entropy.By the size of the information grain,the prediction accuracy of the newly trained basic classifier and neighborhood-tolerance conditional entropy were used to redefine the weight of the basic classifiers.Finally,based on the prediction samples,the weighted ensemble

9、 of the basic classifier was used to predict the classification results.Compared with the traditional ensemble classification algorithms,for incomplete mixed datasets,the new ensemble classifica-tion algorithm could effectively improve the classification accuracy.郑州大学学报(理学版)第 55 卷Key words:in

10、complete hybrid information system;information granule;neighborhood-tolerance entropy;ensemble learning;classification0引言针对不完备混合型数据集的分类问题,可以直接删除掉包含缺失属性值的样本,或者对含有缺失属性值的数据采用计算所有属性值的均值、众数等方法将不完备数据集补充完整,然后用完备的数据集作进一步的分类,这些方法都需要依赖一些假设,比如属性独立性假设、随机缺失假设等,若不能保证数据满足这些假设会导致填充的属性值产生偏差,对分类的精度产生影响1。还可以使用某些算法直接处理

11、含有缺失属性的数据集,此类方法较为复杂2。此外,针对不完备混合型信息系统中的数值型属性通常采用离散化方法将数值型属性直接转化为离散型属性,这样做会带来信息损失,从而影响分类准确率。所以对于此问题,有学者提出了相容关系粗糙集模型3,邻域容差关系模型4和直觉模糊决策粗糙集模型5等,不同的数据结构采用不同的逼近机制和粗糙粒化方式6-8。文献9 首次提出神经网络集成,通过训练多个神经网络将结果合成,相较于单个学习算法能显著提高系统的泛化能力。并且集成学习能保证弱分类器的多样性,对于不稳定的基分类器集成后也能使性能明显提升。针对不完备数据集的分类问题,集成学习不需要依赖随机缺失假设,粒化处理后可以充分利

12、用数据集的信息。所以,用集成算法处理不完备数据集的问题相继被提出并得到广泛研究10-11。文献12首次提出了 Learn+MF 集成算法来处理不完备数据集的分类问题,但是这种分类算法相对复杂,处理维数较大的数据集效率较低。Yan 等13针对不完备数据集提出一种选择性神经网络集成分类算法,相比于传统的神经网络集成算法,在保证精度的前提下,提高了算法效率。由于集成分类算法在计算各个子分类器的权重时仅考虑数据集样本的数量以及属性的多少,而没有考虑不同的属性或属性组合对最终分类结果的贡献度,从而影响最终预测的准确率。因此,如何有效地衡量不完备混合型信息系统中属性对分类结果的贡献度,从

13、而更加合理地计算基分类器的权重有待进一步完善和解决。针对上述问题,根据当前利用集成分类算法和粗糙粒化思想处理不完备混合型数据集的不足及优势,本文提出了基于邻域容差熵选择集成分类算法(neighborhood tolerance entropy selection ensemble classification algorithm,NTESECA)。使用以信息粒缺失属性为条件计算邻域容差条件熵代替属性的维数,并根据邻域容差条件熵、信息粒的大小和基分类器的预测准确率重新定义构建的基分类器权重,实现加权集成投票,新提出的集成分类算法能有效提升分类准确率。1基础知识1.1不完备混合型信息系统设一个混合

14、型信息系统表示为 S=(U,A),其中:U 为信息系统的论域;A=C D 为信息系统的属性集合,C=Cd Cc称为信息系统的条件属性集合,D 称为信息系统的决策属性集合,这里的 Cd为条件属性值,是离散型数值,Cc为条件属性值,是连续型数值。若 x U,x 在属性 a(a A)上的取值未知,通常用表示,即 a(x)=,那么此时 S 称为不完备混合型信息系统14。1.2邻域容差熵定义 14设不完备混合型信息系统 S=(U,A),A=C D,B C 为属性子集,并且 B=Bd Bc,其中:Bd表示属性子集中的离散型属性;Bc表示属性子集中的连续型属性。已知邻域为,则在不完备混合信息系统 S 下属性

15、子集 B 确定的邻域容差关系为NTB=(x,y)U2(a(x)=a(y)=(a(x,y)=0)(b(x,y),a Bd,b Bc,(1)其中:a(x,y)和 b(x,y)分别表示对于离散属性和连续属性对象 x 与对象 y 之间的距离度量。那么对于 x U,关于 NTB的邻域类定义为B(x)=y U(x,y)NTB。(2)定义 24给定不完备混合型信息系统S=(U,A),B A,邻域半径为,并且 U/NTB=NTB(x1),NTB(x2),NTB(x|U|),定义 B 的邻域容差信息熵为NTE(B)=1UUi=1(1-NTB(xi)U)。(3)如果 xi U,NTB(xi

16、)=U,那么 NTE(B)=61第 6 期董红瑶,等:基于邻域容差熵选择集成分类算法0。如果 xi U,NTB(xi)=xi,那么 NTE(B)=1-1U,则 0 NTE(B)1-1U。定义 34给定不完备混合型信息系统S=(U,A),A=C D,B1,B2 C,U/NTB=NTB(x1),NTB(x2),NTB(x|U|)。B1和 B2的邻域容差联合熵记为NTE(B1,B2)=1UUi=1(1-NTB1(xi)NTB2(xi)U)。(4)如果设 U/NTD=NTD(x1),NTD(x2),NTD(x|U|),对于任意 B C,D 和 B 的邻域容差联合熵记为NTE

17、(D,B)=1UUi=1(1-NTD(xi)NTB(xi)U)。(5)定义 44给定不完备混合型信息系统S=(U,A),A=C D,B1,B2 C,U/NTB1=NTB1(x1),NTB1(x2),NTB1(x|U|),并且 U/NTB2=NTB2(x1),NTB2(x2),NTB2(x|U|)。B2到 B1的邻域容差条件熵记为NTE(B2B1)=NTE(B1,B2)-NTE(B1)=1UUi=1(NTB1(xi)U-NTB1(xi)NTB2(xi)U)。(6)如果设 U/NTD=NTD(x1),NTD(x2),NTD(x|U|),对于任意 B C,D 对 B 的邻

18、域容差条件熵记为NTE(DB)=NTE(B,D)-NTE(B)=1UUi=1(NTB(xi)U-NTB(xi)NTD(xi)U)。(7)如果 xi U,NTB1(Xi)NTB2(Xi),则NTE(B2B1)=0。如果 xi U,NTB1(Xi)=U,并且 NTB1(Xi)=xi,则 NTE(B2B1)=1-1U,因此 0 NTE(B2B1)1-1U。1.3集成学习传统的单个分类器的学习算法种类繁多,但其分类精度有待提高且容易出现过拟合等,因此选择集成多个分类器来提高学习算法的性能。通常,集成学习具有比基学习器更高的预测准确率及更强的泛化能力。目前根据集成学习中基分类器的生成方式不同分为:个体

19、学习器之间存在较强的依赖性必须串行生成的序列化方法;个体之间不存在强依赖关系,可以并行生成学习器。也可以根据基分类器的种类将集成学习分为同质集成和异质集成,同质集成对于数据集采用同种基学习算法构建同种基分类器训练数据,异质集成则使用多种学习算法构建的不同基分类器进行训练15。如图 1 所示介绍了集成学习的典型算法。图 1集成学习典型算法Figure 1Typical algorithms for ensemble learning2基于邻域容差熵选择集成分类算法2.1算法思想基于邻域容差熵选择集成分类算法的基本思想:针对不完备混合型信息系统的分类问题,若直接将连续属性进行离散化会造成信息损失,

20、并且将不完备混合型数据集直接删除含有缺失值的样本或采用插补的方式会导致数据偏差,影响分类结果,降低分类准确率,鉴于此,利用粒化思想和集成分类算法融合邻域容差粗糙集的理论提出基于邻域容差熵选择集成分类算法。利用粒化思想根据缺失属性将不完备混合型数据集进行粒化处理。在一个完整的数据集上计算缺失属性与决策属性的邻域容差条件熵,利用邻域容差条件熵衡量缺失属性对决策分类结果的贡献度,邻域容差条件熵越小,说明条件属性对决策属性的贡献程度越大,反之亦成立。我们使用以信息粒缺失属性作为条件计算邻域容差条件熵代替属性的维数。用邻域容差条件熵、信息粒的大小和基分类器的预测准确率来衡量由此信息粒构建的分类器的权重,

21、要比仅使用属性维数来衡量基分类器预测的权重更加科学。定义的权重公式为i=(AcciGraiNTEi)/(AcciGraiNTEi),(8)71郑州大学学报(理学版)第 55 卷其中:i为第 i 个基分类器的预测赋予的权值;Acci表示第 i 个基分类器的准确率;Grai表示第 i 个信息粒的大小;NTEi表示第 i 个信息粒的缺失属性集合对应类别属性的邻域容差条件熵。图 2 介绍了基于邻域容差熵选择集成分类算法(NTESECA)的框架图。图 2NTESECA 算法框架图Figure 2Algorithm flow chart of NTESECA2.2算法流程1)x1,x2,x6

22、为样本,a1,a2,a3,a4为条件属性,a5为决策属性。根据不完备混合型数据集中的缺失属性对样本进行粒化处理,得到若干信息粒。给出不完备混合型数据集,如表 1 所示,列出了每个样本对应的属性值。表 1不完备混合型数据集Table 1The incomplete mixed data set样本a1a2a3a4a5x10.15110.21x20.70001x30.200.51x40.30000.72x50.80000.80 x60.8500按照缺失属性进行划分,则 Granule=x1,x4,x5,x2,x3,x62)为了提高预测准确率,充分利用含有缺失属性的数据信息进行最大化信息粒。首先再次

23、遍历原始数据集,那些不含有缺失属性集的信息粒,以及含有缺失属性集的信息粒的属性集合包含在某个信息粒的属性集合中时,把此类信息粒中包含的样本缺失属性集设置为该信息粒的缺失属性集,形成最大化信息粒。最大化信息粒步骤如下:不含缺失属性。X1=x1,x4,x5;缺失属性 a4。把不含缺失属性的样本去掉属性 a4,则 X2=x1,x2,x4,x5;缺失属性 a2、a3。把不含缺失属性的样本去掉属性 a2、a3,则 X3=x1,x3,x4,x5;缺失属性 a3、a4。把不含缺失属性的样本去掉属性 a3、a4,把缺失属性 a4的样本去掉属性 a3,则 X4=x1,x2,x4,x5,x6。3)首先根据定义划分

24、邻域容差类,根据公式(3)计算邻域容差信息熵,根据公式(5)计算邻域容差联合熵,最后以缺失属性包括连续属性和离散属性作为已知条件,根据公式(7)计算出基于类别属性的邻域容差条件熵。4)在各个最大化信息粒上,以非缺失属性作为输入,用以 BP 算法为基分类器的集成分类算法进行集成学习,得到若干个分类预测模型。5)根据公式(8)使用各个信息粒缺失属性相应的邻域容差条件熵、信息粒的大小和子分类器的精度计算出各个子分类器的权值。6)进行预测。假设预测数据集的缺失属性集是某些信息粒的缺失属性集的子集,那么可以将该缺失属性集的样本和这些信息粒相对应的属性集合作为对应的子分类器的输入,通过训练后得出该样本在这

25、些子分类器上的预测类别,然后再根据这些基分类器的分析结果,按照权值公式(8)进行加权集成,得到最终预测结果。2.3NTESECA 算法伪代码输入:不完备混合型数据集X=(x1,y1),(x2,y2),(xn,yn);基分类器:L;训练数据集:TS=x1,x2,;训练数据集的类别:C=c1,c2,;输出:数据集的预测类别H=y1,y2,yn;初始化:预测数据集类别集 TS=;1)根据样本的缺失属性将数据集粒化处理,得到若干信息粒 Granule=x1,x2,For i=1 to Granule-1For j=i+1 to Granule如果信息粒 Xi的缺失属性集是 Xj的缺失属性集的子集,则

26、Xj=Xi Xj,并且将新添加的样本删除部分属性直至和原信息粒 Xj的缺失属性集相同,End For End For2)For each Xi Granule81第 6 期董红瑶,等:基于邻域容差熵选择集成分类算法使用最大化信息粒 Xj的非缺失属性作为基分类器的输入,训练得到一组新的基分类器 Graci=grac1,grac2,End For3)For i=2 to Granule 以 Xi的缺失属性作为条件,根据公式计算邻域容差条件熵 NTEi,End For4)按照公式计算各个基分类器的权值 ij,5)For each xk TSFor each Xj GranuleIf xk的缺失属性集

27、为 Xi的缺失属性集的子集,把和最大化信息粒 Xi相应的预测样本 xk的非缺失属性作为 Graci中各个分类器的输入进行预测,得到最终结果为 Ri=rijj=1,2,End ifEnd For通过对基分类器加权投票获得 xk的最终类别yk,yk=argmaxcmrijij,TS=TS yk,End For6)输出 TS。3仿真实验与性能分析3.1数据集与仿真环境基于 Python 实现算法仿真。系统环境:CPU 为Intel i7-10750H;RAM 为 18 GB;操作系统为 Win-dows10 专业版;解释器为 Python3.7.10。本文提出的算法从 UCI(https:archi

28、ve.ics.uci.edu/ml/in-dex.php)中选取数据集进行实验验证,表 2 给出实验数据集的详细信息,其中 3 个数据集既含有离散属性,也包含连续属性。只包含离散属性或数值属性是不完备混合型数据集的特殊情况,所以选择 1个数据集只包含离散属性进行实验验证。将含有连续属性值的数据进行 z-score 标准化处理。第一层集成所用的方法采用 BP 神经网络作为基础分类器,以传统集成分类算法对比集成分类算法,实验采取十折交叉验证方法,预测分类结果。3.2实验结果表 3 是通过实验得到的以各个信息粒缺失属性作为条件关于类别属性的邻域容差条件熵,其中信息粒缺失属性按照缺失属性从少到多表示。

29、当所有属性都为离散型属性时,邻域容差关系即为容差关表 2数据集的详细信息Table 2Details of the data sets数据集名称样本数/个类别数/类属性数/个连续属性数/个离散属性数/个Housing loan61421358Adult32 56121468Credit69021569Mushroom8 124222022系,例如 Mushroom 数据集,不含有连续型属性,此时阈值设为 0,其缺失属性为 1 个,计算容差熵为0.361 6。对于其他 3 个数据集,阈值的选择对分类性能有实际的影响,阈值的设置参考文献4,18-19。表 3数据集缺失属性的

30、邻域容差条件熵Table 3Conditional entropy of neighborhood-tolerance for missing attributes in data sets数据集名称信息粒缺失属性邻域容差条件熵Adult10.037 360.281 9130.098 71,6,130.002 9Credit00.341 410.238 7130.256 21,130.116 65,60.030 70,5,60.002 53,4,5,6,130.013 9Housing loan00.298 120.165 840.302 770.320 680.300 190.242 64,

31、90.195 13.3实验分析由表 3 可以看出,对于同一数据集,信息粒中不同的缺失属性集合作为条件的类别属性的邻域容差条件熵是不同的,数据集中缺失属性集合包含元素的数量对于计算类别属性的邻域容差条件熵是无关的,若以信息粒缺失属性集合为条件的类别属性的邻域容差条件熵较小,说明此缺失属性集合对决策类别的贡献率较大,携带的信息量也较大,对最终的决策类别较为重要。根据实验过程分析基分类器的预测准确率与信息粒包含样本的多少是高度相关的,所以预测准确率出现很高或很低的情况。因此,在定义基分类器的权重时,充分考虑其邻域容差条件熵,基分类器准确率以及信息粒的大小会更加合91郑州大学学报(理学版

32、)第 55 卷情合理,最终加权集成的分类器预测更加准确,构建的集成分类算法也更具有普适性。对于处理不完备混合数据的集成分类算法,最为典型的是 XGBoost 算法,可以直接预测不完备数据,从表 4 的实验结果可以看出对于不完备混合数据集的分类问题,使用邻域容差熵选择集成分类算法得到的分类结果的准确率普遍要高于传统的XGBoost 的准确率,对于其他传统的集成分类算法,也有效提升了分类准确率。所以本文提出的基于邻域容差熵选择集成分类算法对于解决不完备混合数据的分类问题的研究提供了新的思路,在公开的不完备混合数据集上的实验结果证实了本文提出的分类算法的有效性和可行性。表 4针对不

33、同数据集不同算法的分类准确率Table 4Classification accuracy of different algorithms for different data sets单位:%数据集准确率NTESECAXGBoost随机森林GBDTAdaboostStackingHousing loan81.626 575.459 976.593 471.703 377.472 575.879 1Adult84.029 083.383 885.702 786.242 285.873 786.446 9Credit88.249 487.671 285.048 182.788 582.211 58

34、4.278 8Mushroom10099.753 81001001001004结论与展望本文利用粒计算的基本思想,结合邻域容差熵基本理论以及集成方法,提出了一种解决不完备混合信息系统的分类问题的集成算法,即基于邻域容差熵选择集成分类算法(NTESECA),根据粒计算的思想按照缺失属性将数据集划分为不同的信息粒,为充分利用数据信息,将信息粒最大化,并用集成算法训练出基分类器,利用信息粒的大小、邻域容差条件熵和基分类器预测准确率来定义基分类器的权重,再次实现加权集成投票,双重集成使预测的分类结果更加准确。当样本数量比较少,缺失属性过多时,或者完整的样本比较少时,如何更加准确地预测分类结果是下一步需

35、要解决的问题之一。本文所选用数据集全部为静态数据集,对于动态不完备混合数据集如何设计集成分类算法,并且对于集成学习算法训练时间会比较长,如何进一步提升预测效率也是一个值得研究的问题。参考文献:1邓建新,单路宝,贺德强,等.缺失数据的处理方法及其发展趋势 J.统计与决策,2019,35(23):28-34.DENG J X,SHAN L B,HE D Q,et al.Processing method of missing data and its developing tendencyJ.Statistics&decision,2019,35(23):28-34.2赵姝,吕靖,张

36、燕平,等.不完整数据集的信息熵集成分类算法 J.模式识别与人工智能,2014,27(3):193-198.ZHAO S,L J,ZHANG Y P,et al.Information entropy ensemble classification algorithm for incomplete dataJ.Pattern recognition and artificial intelligence,2014,27(3):193-198.3杨美丽.基于相容关系的不完整数据集成分类方法研究D.合肥:安徽大学,2021.YANG M L.Incomplete data en

37、semble classification based-on tolerance relationshipD.Hefei:Anhui Uni-versity,2021.4ZHAO H,QIN K Y.Mixed feature selection in incom-plete decision table J.Knowledge-based systems,2014,57:181-190.5张利亭,冯涛,李欢.不完备信息系统的直觉模糊决策粗糙集 J.郑州大学学报(理学版),2021,53(2):57-65.ZHANG L T,FENG T,LI H.Intuitionisti

38、c fuzzy deci-sion rough sets for incomplete information systems J.Journal of Zhengzhou university(natural science edi-tion),2021,53(2):57-65.6王光琼.不完备混合型数据的决策粗糙集与三支决策分类算法J.计算机应用与软件,2020,37(11):246-254.WANG G Q.Decision-theoretic rough set and three-way decisions classification algorithms for incomple

39、te mixed dataJ.Computer applications and software,2020,37(11):246-254.7徐风.数值型数据的粗糙集模型与特征选择研究D.合肥:安徽大学,2018.XU F.Researches of rough set model and feature selec-tion for numerical data D.Hefei:Anhui University,2018.02第 6 期董红瑶,等:基于邻域容差熵选择集成分类算法8岳文琦,张楠,童向荣,等.混合决策信息系统的模糊效用三支决策模型J.郑州大学学报

40、(理学版),2020,52(1):24-32.YUE W Q,ZHANG N,TONG X R,et al.Fuzzy utility three-way decisions model in hybrid decision information systems J.Journal of Zhengzhou university(natural science edition),2020,52(1):24-32.9HANSEN L K,SALAMON P.Neural network ensemblesJ.IEEE transactions on pattern analysis and m

41、achine intelligence,1990,12(10):993-1001.10 KRAUSE S,POLIKAR R.An ensemble of classifiers ap-proach for the missing feature problemCProceedings of the International Joint Conference on Neural Networks.Piscataway:IEEE Press,2013:553-558.11 TRAN C T,ZHANG M J,ANDREAE P,et al.An ef-fective and efficien

42、t approach to classification with incom-plete data J.Knowledge-based systems,2018,154:1-16.12 丁敬安,张欣海,胡博,等.基于集成学习的不完备数据补全算法研究J.中国电子科学研究院学报,2020,15(1):78-83,91.DING J G,ZHANG X H,HU B,et al.Research on completion algorithm for incomplete data based on ensem-ble learningJ.Journal of China academy of e

43、lectronics and information technology,2020,15(1):78-83,91.13 YAN Y T,ZHANG Y P,ZHANG Y W,et al.A selec-tive neural network ensemble classification for incomplete data J.International journal of machine learning and cybernetics,2017,8(5):1513-1524.14 姚晟,李初宴,陈悦.基于非平衡数据下不完备混合型信息系统的属性约简J.计算机应用研究,2021,38

44、(5):1331-1335.YAO S,LI C Y,CHEN Y.Attribute reduction of incom-plete hybrid information system based on unbalanced dataJ.Application research of computers,2021,38(5):1331-1335.15 徐继伟,杨云.集成学习方法:研究综述J.云南大学学报(自然科学版),2018,40(6):1082-1092.XU J W,YANG Y.A survey of ensemble learning ap-proachesJ.Journal o

45、f Yunnan university(natural sci-ences edition),2018,40(6):1082-1092.16 CHEN T,HE T,BENESTY M,et al.Xgboost:extreme gradient boosting EB/OL.(2023-03-31)2023-05-30.https:kill-mrr-1.its.dal.ca/cran/web/packages/xgboost/vignettes/xgboost.pdf.17 李梦洋,唐湘滟,程杰仁,等.基于组合相关度的随机森林 DDoS 攻击检测方法J.郑州大学学报(理学版),2019,51

46、(2):23-28,39.LI M Y,TANG X Y,CHENG J R,et al.DDoS attack detection method based on combination correlation degree and random forest J.Journal of Zhengzhou university(natural science edition),2019,51(2):23-28,39.18 HU Q H,YU D R,LIU J F,et al.Neighborhood rough set based heterogeneous feature subset selectionJ.In-formation sciences,2008,178(18):3577-3594.19 HE Q,XIE Z X,HU Q H,et al.Neighborhood based sample and feature selection for SVM classification learn-ingJ.Neurocomputing,2011,74(10):1585-1594.12

展开阅读全文