收藏 分销(赏)

基于混淆熵的分类器集成方法.pdf

上传人:自信****多点 文档编号:638364 上传时间:2024-01-22 格式:PDF 页数:5 大小:1.76MB
下载 相关 举报
基于混淆熵的分类器集成方法.pdf_第1页
第1页 / 共5页
基于混淆熵的分类器集成方法.pdf_第2页
第2页 / 共5页
亲,该文档总共5页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、本文提出了一种基于混淆熵(confusion entropy,CEN)的分类器集成算法.该算法按照候选分类器的 CEN值升序排序,遍历选择使得 CEN 值减小的分类器,从而使组合不断优化,以获得更好的集成分类结果.使用 7 个候选分类器在 5 个 UCI 数据集上进行实验,结果表明,所提算法整体上优于经典的分类器集成算法 AdaBoost 和XGBoost 以及另外 3 种近期算法(AdaCost、AdaCost-CNN 和 CU-AdaCost),验证了算法的可行性.关键词:分类器集成;集成学习;混淆矩阵;混淆熵中图分类号:TP181文献标志码:A文章编号:1671-1114(2023)03

2、-0069-05收稿日期:2022-02-25基金项目:国家自然科学基金资助项目(61070089);天津市应用基础与前沿技术研究计划重点资助项目(15JCYBJC4600);天津市科技计划资助项目(19JCZDJC35100);天津市科技计划项目技术创新引导专项基金资助项目(22YDTPJC00610)第一作者:陈浩(1998),男,硕士研究生.通信作者:王淑琴(1972),女,教授,主要从事机器学习和生物信息方面的研究.E-mail:.分类器设计是机器学习和数据挖掘等领域的常见任务,传统机器学习的方法是寻找一个与实际分类函数最接近的分类器,而集成学习的方法通过融合多个学习器的结果进行整体预

3、测1.有研究表明2-3,集成学习系统往往可以获得比单一学习器更优越的泛化性能或鲁棒性,并且可以在保证系统性能的前提下,选择一组最佳的子学习器提高学习系统的效率.机器学习奠基人 Thomas G Dietterich 将集成学习列为机器学习四大研究方向(集成学习、监督学习、强化学习和复杂随机模型的学习)之首4,随着集成学习技术的快速发展,其已被广泛应用于大数据不平衡处理5、医疗诊断6-7、生物识别(脸部识别8、指纹识别9)、一对多识别10等多个领域.集成学习技术的发展是基于实践驱动的,在目前大量经典的学习算法中,Bagging11和 Boosting12是最有效且最流行的方法.近年来,国内外学者

4、对分类器集成方法做了大量研究,在 Boosting 模型的基础上构造出多种性能较好且应用广泛的分类器集成模型,如AdaBoost13和 XGBoost14等.这些集成模型的分类效果提升显著,但也存在一些问题.对于 AdaBoost 算法,在前几轮迭代中,每一个新的子分类器都关注于上一个子分类器难以被正确分类的样本,因此具有较强的多样性,然而在几轮迭代之后,难以被正确分类的样本很可能始终被错误分类,导致后生成的子分类器越来越关注同一批不能被正确分类的样本,多样性急剧减弱15,而且每次通过重采样得到的分类器不一定能改进之前的结果,这导致了集成表现不佳,未达到预期的分类效果.为此,相关研究提出了许多

5、对经典模型的改进方法.文献16提出的 AdaCost 算法通过修改样本的误分类代价构建代价敏感集成算法,使得第 43 卷第 3 期2023 年 5 月天 津 师 范 大 学 学 报(自 然 科 学 版)Journal of Tianjin Normal University(Natural Science Edition)Vol.43 No.3May 2023doi:10.19638/j.issn1671-1114.20230311天 津 师 范 大 学 学 报(自 然 科 学 版)2023 年 5 月AdaBoost 对不同类别的误分类代价具有不同的样本权重更新策略.文献17将 AdaBoo

6、st 与 CNN(convol-utional neural network)相结合构建了 AdaBoost-CNN 集成算法,通过减少基分类器的学习周期数降低原始AdaBoost 处理大量数据的计算成本,从而提高了计算精度.文献18提出了基于聚类欠采样的集成分类算法 CU-AdaCost(cluster undersampling AdaCost),结合了聚类、欠采样和集成的思想,有效提高了分类性能.本文提出一种基于混淆熵(confusionentropy,CEN)的分类器集成算法.按照各候选分类器获得的 CEN 值进行排序,依序遍历选择使得 CEN 值减小的分类器,通过更新所选基分类器获得

7、的混淆矩阵,使得每一次获得的新组合都优于之前的组合,同时保证了基分类器的多样性.使用 7 个候选分类器在 5 个 UCI 数据集上进行实验,结果表明,本文算法的整体性能优于其他算法.1分类器集成算法1.1混淆熵混淆熵(CEN)是一种新的分类器性能评价指标,它揭示了所有类的误分类信息,同时考虑了分类器的分类精度和分类能力19-20,与 ACC 和 RCI 相比更具辨别力.在一些数据集上的实验表明,CEN 比 ACC、RCI和 MCC(Matthews correlation coefficient)更精确20-21.对于一个(N+1)类问题的每个类,错误分类信息既包括具有真实类的样本被错误分到其

8、他类的信息,也包括其他类的样本被错误分到真实类的信息.以4类问题为例,设其类别为 C1、C2、C3、C4,混淆矩阵为M 为C1C2C3C4C1C2C3C450101030109010100504201010833?对于 C2类,加粗数字代表误分类信息,其中既包括M2,1、M2,3和 M2,4这种具有真实类标签被错误分到 C1、C3和 C4类的元素,也包括 M1,2、M3,2和 M4,2这种 C1、C3、C4类样本被错误分到 C2类的元素.在一个(N+1)类问题的混淆矩阵 M 中,Mi,k(ki,k=1,2,N+1)为具有真实类标签 Cj的样本被错误分到 Ck类的个数,Mk,i(ki,k=1,2

9、,N+1)为Ck类的样本被错误分到 Cj类的个数.若属于 Ci类的样本被分到了 Cj类,则 Ci类相对于 Cj类的错误分类概率 Pji,j为Pji,j=?Mi,jN+1k=1移(Mj,k+Mk,j)(1)若属于 Cj类的样本被分到了 Ci类,则 Cj类相对于 Ci类的错误分类概率 Pii,j为Pii,j=?Mi,jN+1k=1移(Mi,k+Mk,i)?(2)式中:ij;i、j=1,2,N+1.Cj类的混淆熵 CENj定义为CENj=-N+1k=1,kj移(Pjk,jlog2NPjk,j+Pjj,klog2NPjj,k)(3)对于一个给定的混淆矩阵 M,其总的混淆熵为CEN=N+1j=1移PjC

10、ENj(4)式中 Pj为 Cj类的混淆概率,其计算公式为Pj=k移(Mk,j+Mj,k)2k,l移Mk,l(5)对于多类问题,CEN 的取值范围是0,1,对于二类问题,CEN 的值可能大于 1.CEN 是错误分类样本所包含错误信息的熵的加权和,因此,CEN 的值越大表明分类器的性能越差.在混淆矩阵中,当错误分类的样本均匀分布于各类时,CEN=1,当分类器分类的结果完全正确时,CEN=0.1.2基于 CEN 的分类器集成算法设使用 k 个分类器,对于一个数据集,分别用各分类器进行分类,获得多个混淆矩阵及相应的 CEN值,按照 CEN 值对分类器升序排序,设排序后的分类器的混淆矩阵分别为 M(1)

11、,M(2),M(k),相应的 CEN值分别为 CEN(1),CEN(2),CEN(k).首先,选择分类器序列的第 1 个分类器,将第 1 个分类器的混淆矩阵 M(1)赋值给集成分类器的混淆矩阵 M,对应的 CEN(1)赋值给集成分类器的 CEN 变量 M_CEN;然后,依次遍历其余所有 CEN(i)0 的候选分类器,并计算当前分类器集合的 CEN 值.在遍历过程中,如果当前候选分类器被选择后使 M_CEN 值减小,则将此候选分类器加入到集成分类器集合 U 中.对于 CEN(i)0 的第 i 个候选分类器,首先计算它被选择时的集成分类器的新的混淆矩阵 M(初值设为 M)及其混淆熵 CEN(初值设

12、为 M_CEN).将当前候选分类器的混淆矩阵 M(i)的对角线元素加到 M中,同时将 M的非对角线元素减去相应的样本数,此时 M的对角线元素即为分类器 i 和之前选择的所有分类器都分类正确的样本数.上述操作使得集成分类器的混淆矩阵的对角线元素值变大,也就获得了更好的分类效果.再根据更新后的 M重新计算其 CEN 值,如果新的 CEN 值小于更新前的 M_CEN,则选择此基分类70第 43 卷第 3 期器,用新的 CEN 值更新 M_CEN,并用 M更新 M,否则不选择此基分类器,也不做更新.上述算法流程如下:算法 1基于 CEN 的集成算法(ensemblealgorithmbased on

13、CEN,EABC).输入:样本数为 n 且特征维度为 m 的数据集 D,含有 k 个候选分类器的集合 CF.输出:集成分类器集合 U.在数据集 D 上计算各候选分类器的 CEN 值;根据 CEN 值从低到高对分类器排序,设为 CF1,CF2,CFk;定义总混淆矩阵 M 及相应的 M_CEN;定义集合 U=;M=M(1);M_CEN=CEN(1);i=2.while M_CEN 0&i kM=M;将 M(i)的对角线元素加到 M中;再将 M的非对角线元素减去第 i 个分类器分类正确的样本数;计算此时 M对应的 CEN 值;if(CEN M_CEN)U=UCFi;/选择此基分类器M=M;M

14、_CEN=CEN;/更新总混淆矩阵及其混淆熵i=i+1;Return U;2结果与分析2.1数据集为验证所提算法的正确性和有效性,在 5 个数据集Breast-cancer、Sonar、Heart-statlog、Ionosphere 和Cylinder-bands 上进行实验,5 个数据集均下载自机器学习数据库 UCI.表 1 给出了这些数据集的样本总数、特征维度以及类别数.2.2比较方法Boosting 算法是一种重要的集成学习技术,能够将预测精度仅比随机猜度略高的弱学习器增强为预测精度较高的强学习器,为学习算法设计提供了一种有效的新思路.作为一种元算法框架,Boosting 几乎可以应用

15、于所有目前流行的机器学习算法,以进一步加强原算法的预测精度15.本文选择 Boosting 算法中的Ada-Boost 算法和 XGBoost 算法与 EABC 算法进行比较.AdaBoost 是最优秀的 Boosting 算法之一,其核心思想是在迭代过程中通过更新不同基分类器的权重优化强分类器的性能22,被评为数据挖掘十大算法之一23.本文实验中的参数使用默认值.XGBoost 是梯度提升思想的一种高效的系统实现,它是一种基于梯度提升决策树的改进算法,可以有效构建增强树并且并行运行.本文实验中采用的参数如下:booster=gbtree,objective=binary:logistic,m

16、ax_ depth=3,learning_rate=0.08,n_estimators=500,gamma=1,min_child_weight=1,subsample=0.8,colsample_bytree=0.8,reg_lambda=1,reg_alpha=1,scale_pos_weight=1,random_state=0,seed=1,n_jobs=-1,eval_metric=auc,use_label_encoder=False另外,本文还将 EABC 算法与 AdaCost 算法24、AdaCost-CNN 算法24和 CU-AdaCost 算法18在不同数据集上进行了比较

17、.2.3实验结果及分析选择 7 种基分类器构成候选分类器集合,分别为K 近邻(KNN)、支持向量机(SVM)、朴素贝叶斯(SVM)、随机森林(RF)、决策树(DT)、逻辑回归(LR)和梯度提升(GBDT).这 7 种分类器分类性能良好,应用广泛,具有良好的适用性,实验中均使用默认参数.2.3.1与 Boosting 算法的比较采用分类精度(ACC)、F1 值(F1-score)和召回率(Recall)作为评价指标.使用 AdaBoost、XGBoost 和EABC 在 5 个数据集上进行集成分类,实验结果见表2.由表 2 可见,EABC 算法在 5 个数据集上的 3 个指标值均优于 AdaBo

18、ost 算法,在数据集 Breast-cancer、Sonar 和 Heart-statlog 上的 3 个指标值均优于 XGBoost算法.在数据集 Cylinder-bands 上,EABC 与 XGBoost算法的指标值相近.在数据集 Ionosphere 上,EABC 算法的 ACC 和 F1-score 略低于 XGBoost 算法,Recall 与XGBoost 算法持平.综合来看,EABC 算法的性能优于表 1数据集参数Tab.1Parameters of datasets数据集样本总数特征维度类别数Breast-cancer683112Sonar208582Heart-stat

19、log270132Ionosphere351322Cylinder-bands277382陈浩,等:基于混淆熵的分类器集成方法71天 津 师 范 大 学 学 报(自 然 科 学 版)2023 年 5 月1.00.80.60.40.2001.00.20.40.60.8False positive rateTrue positive rate(d)IonosphereEABC(AUC=0.940 5)AdaBoost(AUC=0.869 0)XGBoost(AUC=0.964 3)1.00.80.60.40.2001.00.20.40.60.8False positive rateTrue pos

20、itive rate(c)Heart-statlogEABC(AUC=0.860 6)AdaBoost(AUC=0.841 3)XGBoost(AUC=0.822 1)1.00.80.60.40.2001.00.20.40.60.8False positive rateTrue positive rate(a)Breast-cancerEABC(AUC=0.976 2)AdaBoost(AUC=0.869 0)XGBoost(AUC=0.964 3)1.00.80.60.40.2001.00.20.40.60.8False positive rateTrue positive rate(b)S

21、onarEABC(AUC=0.841 3)AdaBoost(AUC=0.841 3)XGBoost(AUC=0.822 1)1.00.80.60.40.2001.00.20.40.60.8False positive rateTrue positive rate(e)Cylinder-bandsEABC(AUC=0.964 3)AdaBoost(AUC=0.869 0)XGBoost(AUC=0.964 3)图 13 种算法在 5 个数据集上的 ROC 曲线及 AUCFig.1ROC curve and AUC of three algorithms on fivedatasetsAdaBoo

22、st 和 XGBoost 算法.受试者工作特征(receiver operating characteristic,ROC)曲线下面积 AUC(area under curve)是衡量二分类模型性能的一种评价指标,表示预测的正例排在负例前面的概率,AUC值越大表明分类性能越好.AdaBoost、XGBoost 和 EABC 在 5 个数据集上的 ROC曲线分别见图 1(a)(e).由图 1 可见,在数据集Breast-cancer和Heart-statlog 上,EABC 的 AUC 值均大于另 2 种算法;在数据集 Sonar 上,EABC 的 AUC 值大于 XGBoost,与AdaBoo

23、st 持平;在数据集 Ionosphere 上,EABC 的AUC值略低于 XGBoost,大于 AdaBoost;在数据集 Cylinder-bands 上,EABC 的 AUC 值大于 AdaBoost,与 XGBoost持平.以上实验结果表明,本文算法 EABC 根据不同数据集上各候选分类器的不同表现择优组合,保证了多样性,达到了强化集成的目的.2.3.2与其他算法的比较使用 AdaCost、AdaCost-CNN 和 EABC 在数据集Breast-cancer 上进行集成分类,实验结果见表 3.由表3 可见,EABC 的 AUC 和 Recall 略低于 AdaCost,其他指标均优

24、于另 2 种算法.由于 CU-AdaCost 仅在 Ionosphere 数据集上进行了 ACC 和 F1-score 指标的实验,因此本文采用相同的实验标准,使用 EABC 在 Ionosphere 上进行了集成分类,实验结果显示,CU-AdaCost 和 EABC 的 ACC分别为 0.932 0 和 0.942 8,F1-score 分别为 0.856 0 和0.928 5,EABC 的 ACC 和 F1-score 均优于 CU-AdaCost.表 23 种算法在 5 个数据集上的实验结果Tab.2Experimental results of three algorithms on

25、fivedatasets数据集指标AdaBoostXGBoostEABCBreast-cancerACC0.885 70.942 80.971 4F1-score0.846 10.928 50.962 9Recall0.785 70.927 90.928 5SonarACC0.809 50.816 90.833 3F1-score0.833 30.854 60.875 1Recall0.769 20.784 50.807 6Heart-statlogACC0.833 30.809 50.857 1F1-score0.857 10.833 30.979 9Recall0.807 60.769 2

26、0.846 2IonosphereACC0.885 70.971 40.942 8F1-score0.846 10.962 90.928 5Recall0.785 70.928 50.928 5Cylinder-bandsACC0.875 30.971 40.971 4F1-score0.834 10.962 90.962 9Recall0.784 80.928 50.928 572第 43 卷第 3 期3结论本文基于混淆熵提出了一种分类器集成算法EABC,使用 7 个候选分类器在 5 个数据集上进行实验,结果表明,本文算法的分类性能优于其他算法,获得了较好的分类效果.另外,由实验结果可见,E

27、ABC 的指标 Recall 在各数据集上均有较好表现,因此其在医学图像筛查和安全隐患排查等领域会有一定的应用前景,未来的工作可考虑将 EABC 与深度学习算法结合,在神经网络强大的算力辅助下获得数据特征并进行集成分类,以进一步提升其分类性能.参考文献:1周星,丁立新,万润泽,等.分类器集成算法研究J.武汉大学学报(理学版),2015,61(6):503-508.ZHOU X,DING L X,WAN R Z,et al.Research on classifier ensem-ble algorithmsJ.Journal of Wuhan University(Natural Scienc

28、e Edi-tion),2015,61(6):503-508(in Chinese).2MAHMOODA,LIT,YANGY,etal.Semi-supervisedevolutionary ens-embles for web video categorizationJ.Knowledge-BasedSystems,2015,76:53-66.3NAG K,PAL N R.A multiobjective genetic programming-based ensem-ble for simultaneous feature selection and classificationJ.IEE

29、E Trans-actions on Cybernetics,2016,46(2):499-510.4丁爽,白晨希,申石磊.一种基于小波变换特征提取的集成学习算法J.鲁东大学学报(自然科学版),2010,26(2):140-142.DING S,BAI C X,SHEN S L.An ensemble learning algorithm basedon the feature extraction by wavelet transformJ.Ludong UniversityJournal(NaturalScienceEdition),2010,26(2):140-142(inChinese

30、).5MARIO J G,魣LVAR A G,RODR魱GUEZ JN J,et al.Experimental eva-luation of ensemble classifiers for imbalance in Big DataJ.Applied SoftComputing,2021(1):107447-107452.6SOHAIL A,KHAN A,NISAR H,et al.Mitotic nuclei analysis in bre-ast cancer histopathology images using deep ensemble classifier J.Medical

31、Image Analysis,2021,72:102121.7GU D X,SU K S,ZHAO H M.A case-based ensemble learning systemfor explainable breast cancer recurrence predictionJ.Artificial Intelli-gence in Medicine,2020,107:101858.8DE-LA-TORRE M,GRANGER E,SABOURIN R,et al.An adaptiveensemble-based system for face recognition in pers

32、on re-identificationJ.Machine Vision and Applications,2015,26(6):741-773.9ZHANG L,ZHANG L,ZHANG D,et al.Ensemble of local and globalinformation for finger-knuckle-print recognitionJ.Pattern Recogni-tion,2011,44(9):1990-1998.10 KAVITHA B,KARTHIKEYAN S,MAYBELL P S.An ensemble de-sign of intrusion dete

33、ction system for handling uncertainty using Neutr-osophic Logic ClassifierJ.Knowledge-Based Systems,2012,28:88-96.11 BREIMAN L.Bagging predictorsJ.Machine Language,1996,24(2):123-140.12 FREUND Y.Experiments with a new boosting algorithmC/Procee-dings of the13th International Conference on Machine Le

34、arning,MorganKaufmann,1996,148-156.13 FREUND Y,SCHAPIRE R E.A decision-theoretic generalization ofon-line learning and an application to boostingJ.Journal of Computerand System Sciences,1997,55(1):119-139.14 CHEN T Q,GUESTRIN C.XGBoost:A scalable tree boosting systemC/Proceedings of the 22nd ACM SIG

35、KDD International Conferenceon Knowledge Discovery and Data Mining.August 13-17,2016,SanFrancisco,California,USA.New York:ACM,2016:785-794.15 曹莹,苗启广,刘家辰,等.AdaBoost 算法研究进展与展望J.自动化学报,2013,39(6):745-758.CAO Y,MIAO Q G,LIU J C,et al.Advance and prospects of AdaBoostalgorithmJ.Acta Automatica Sinica,2013

36、,39(6):745-758(in Chi-nese).16 FAN W,STOLFO S J,ZHANG J X,et al.AdaCost:Misclassificationcost-sensitive boostingC/Proceedings of the Sixteenth InternationalConference on Machine Learning.New York:ACM,1999:97-105.17 ABOOZAR,TAHERKHANI.AdaBoost-CNN:An adaptive boostingalgorithm for convolutional neura

37、l networks to classify multi-class imba-lanced datasets using transfer learningJ.Neurocomputing,2020,404:351-366.18 周传华,朱俊杰,徐文倩,等.基于聚类欠采样的集成分类算法J.计算机与现代化,2021(11):72-76.ZHOU C H,ZHU J J,XU W Q,et al.Integrated classification algori-thm based on clustering and undersamplingJ.Computer and Moderni-zati

38、on,2021(11):72-76(in Chinese).19 WANG X N,WEI J M,JIN H,et al.Probabilistic confusion entropyfor evaluating classifiersJ.Entropy,2013,15(11):4969-4992.20 WEI J M,YUAN X J,HU Q H,et al.A novel measure for evaluatingclassifiersJ.Expert Systems with Applications,2010,37(5):3799-3809.21 张冰,刘林,王淑琴,等.分类器评

39、价指标 MCC、CEN 和 ACC 的比较研究J.天津师范大学学报(自然科学版),2020,40(3):69-74.ZHANG B,LIU L,WANG S Q,et al.Comparison of classifier evalua-tion indexes MCC,CEN and ACCJ.Journal of Tianjin Normal Univer-sity(Natural Science Edition),2020,40(3):69-74(in Chinese).22 陈力,赵礼峰.基于集成方法的不平衡数据分类研究J.计算机与数字工程,2021,49(11):2271-2275.

40、CHEN L,ZHAO L F.Research on imbalanced data classification basedon ensemble methodJ.Computer and Digital Engineering,2021,49(11):2271-2275(in Chinese).23 WU X D,KUMAR V.The Top Ten Algorithms in Data MiningM.BocaRaton:CRC Press,200924 周传华,徐文倩,朱俊杰.基于代价敏感卷积神经网络的集成分类算法J.应用科学学报,2022,40(1):69-79.ZHOU C H

41、,XU W Q,ZHU J J.Ensemble classification algorithmbased on cost sensitive convolutional neural networksJ.Journal ofApplied Sciences,2022,40(1):69-79(in Chinese).(责任编辑马新光)表 3AdaCost、AdaCost-CNN 和 EABC 在数据集 Breast-cancer 上的实验结果Tab.3Experimental results of AdaCost,AdaCost-CNN andEABC on Breast-cancer指标AdaCostAdaCost-CNNEABCAUC0.990 10.932 80.964 2ACC0.958 80.938 10.971 4F1-score0.943 60.872 70.962 9Recall0.931 80.923 10.928 5陈浩,等:基于混淆熵的分类器集成方法73

展开阅读全文
部分上传会员的收益排行 01、路***(¥15400+),02、曲****(¥15300+),
03、wei****016(¥13200+),04、大***流(¥12600+),
05、Fis****915(¥4200+),06、h****i(¥4100+),
07、Q**(¥3400+),08、自******点(¥2400+),
09、h*****x(¥1400+),10、c****e(¥1100+),
11、be*****ha(¥800+),12、13********8(¥800+)。
相似文档                                   自信AI助手自信AI助手
百度文库年卡

猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服