1、收稿日期:2022-10-08作者简介:张 珏(1984),女,陕西榆林人,副教授,博士,主要从事机器学习与模式识别研究。基金项目:国家自然科学基金资助项目(62266047);榆林市科技局产学研项目(CXY-2022-66);榆林市高新区科学计划项目(CXY-2021-30,CXY-2021-44);榆林学院博士科研启动金(22GK03)基于不平衡数据的特征选择算法研究张 珏,田建学(榆林学院 信息工程学院,陕西 榆林 719000)摘 要:不平衡分类问题广泛存在于医学检测、人脸识别、异常检测等领域,研究表明对于不平衡数据分类,有效的特征选择算法至关重要。对特征选择算法 Laplacian
2、进行改进,在考虑不平衡数据分类评价指标的同时,提出基于改进的 Laplacian 特征选择算法,该算法首先使用 Laplacian 分数对特征进行评估;其次通过聚类对选择的特征进行聚类;最后通过聚类后的标签和真实的标签来计算每个特征子集的归一化信息,有着最高归一化值的特征子集即为最优特征子集。实验结果表明,本文提出的算法能有效进行不平衡数据的特征选择,在一定程度上提高了小类的分类性能。关键词:特征选择;不平衡数据;支持向量机;拉普拉斯算法中图分类号:TP309 文献标志码:A 文章编号:1008-3871(2023)05-0061-03DOI:10.16752/ki.jylu.2023.05.
3、015 当将全部特征直接用于构建分类器,不但耗时,而且会降低分类性能。因此,需要引入特征选择方法,对原始属性进行裁剪,进而依据分类的要求筛选出最有效特征子集用于构建分类器。具体的说,引入特征选择对算法性能提升主要表现在以下四个方面:(1)经过特征选择获得的数据表达,能够增强学习模型在绝大多数实际场景中泛化能力;(2)可以有效克服由维数增加所引发的“维数灾难”和“过拟合”等问题;(3)采用降低维度后的特征构建学习模型,可以在有效提高算法的分类性能的同时降低算法的计算复杂度;(4)通过特征选择后获得的知识表达式,可以降低研究人员对问题理解和解释的难度。特征选择方法可以改进分类器预测性能,提高计算速
4、度并减少内存开销。不平衡数据是指某一种分类的数量多余另一种分类的数量。不平衡分类问题在多个领域存在,在这些领域中,人们对少数类更感兴趣,少数类的样本也往往更具有价值。面向不平衡数据进行特征选择时,少数类的存在增大了寻找最优特征子集的难度,传统的以最大分类正确率为准则的特征选择算法往往不能选择出有效的特征子集。Ogura 等1指出传统的特征选择算法对不平衡数据进行特征选择时的不适应性,提出应该设计是适应于不平衡数据的特征选择算法。因此,对于不平数据集分类,特征选择有时比分类算法更重要2,3。拉普拉斯 Laplacian 是由 He 和 Cai 于 2006 年提出的,算法基于拉普拉斯特征图4和局
5、部保留投影算法5,算法的基本思想是计算每个特征的Laplacian 分数,通过拉普拉斯分数来反映它的局部保持能力。因为在很多实际的分类问题中,数据的局部空间比全局结构更为重要。然而,在不平衡分类这个问题背景下,以最大化分类精度为主要目标的拉普拉斯特征选择算法往往效果较差,因为算法偏向于多数类而忽略少数类,传统的评估指标不能准确地评估分类器的性能。因此,本文在分析传统特征选择算法不足的基础上,针对二类不平衡分类问题对拉普拉斯特征选择算法进行改进,提出基于改进的 Laplacian 特征选择算法 LP(Laplacian)。算法主要包括四个步骤:(1)根据拉普拉斯分数对特征进行排序。(2)构建若干
6、个特征子集,由最高拉普拉斯分数的特征组成。(3)通过聚类后的标签和真实的标签值来计算每个特征子集的归一化值,有着最高归一化值的特征子集为最优特征子集。实验结果表明,算法具有一定的竞争力。1 Laplacian 特征选择算法算法描述:Lr 代表第 r 个特征的拉普拉斯分数。Fri 代表了第 i 个样本的 r 个特征,i=1,m。2023 年 9 月第 33 卷 第 5 期榆 林 学 院 学 报JOURNAL OF YULIN UNIVERSITYSep.2023Vol.33 No.5(1)构造一个有 m 个结点的图 G。xi代表第 i个结点,如果 xi 是 xj的 K 近邻样本,或者 xj是 x
7、i的K 近邻样本,那么就认为 xi,xj是近邻。当标签样本是可得到的,那么就在 xi,xj之间放置一条边,并且共享标签。(2)如果结点 i 和 j 是相连接的,令 Sij=e-xi-xj2t,t 是一个固定的值。其余情况,令 Sij=0。图模型的权值矩阵 S 代表了样本空间的局部结构。(3)第 r 个特征,定义 fr=fr1,fr2,frmT,D=diag(S1),1=1,1T,L=D-S,其中矩阵 L被称为拉普拉斯图。令 fr=fr-fTrD1ITD11(4)计算第 r 个特征的拉普拉斯分数 Lr=fTrLfrfTrDfr。2 改进的拉普拉斯特征选择算法常用的特征选择算法以分类准确度为度量标
8、准,也取得了不错的效果。在不平衡数据的情况下,传统的特征选择方法所选择的特征更加偏向于多数类,然而实际生活中,人们往往更关注少数类。由于数据的不平衡性,传统的分类评估指标并不能准确评估分类器的性能。为此研究者引入新的分类评价指标马修斯相关系数(Matthews correlation coeffi-cient,MCC)。马修斯相关系数考虑到真和假阳性和假阴性,通常被视为一种平衡的措施,即时数据的规模大小不同也可以使用。MCC 本质上是观察到的和预测的二元分类之间的相关系统,值介于-1 和+1 之间,+1 表示完美预测,-1 表示预测和观察之间的完全不一致。马修斯相关系数的定义为:MCC=TNT
9、P-FNFP(TP+FP)(TP+FN)(TN+FP)(TN+FN)公式中,TP 代表真阳性,TN 代表真阴性,FP 代表假阳,FN 代表假阴。当 FP=FN=0 也就是预测完全正确时 MCC=1,当完全预测错误时 MCC=-1,当 MCC=0 时表明模型和随机预测性能类似。传统的以最大化分类准确度为目标的特征选择研究中,以拉普拉斯为代表的算法表明能明显的改善算法的性能。受此启发,本文提出一种改进的以最大化 MCC 为目标的拉普拉斯特征选择算法。改进的拉普拉斯特征选择算法,选择使用 MCC 评价指标来衡量算法性能,从而提高不平衡数据的分类性能。具体的说,算法在构建最近邻图的时候,使用MCC 评
10、价指标来寻找近邻参数 k 值,在原始的应用中,k 值取常数,但是常数不能提供令人满意的性能,而且 k 的值对于图构建也非常敏感。以 MCC 为评价指标计算每个特征的 Laplacian 分数,接下来构建特征子集,第一个特征子集由有着最高 Laplacian分数的一个特征构成,第二个特征子集由有着最高Laplacian 分数的前两个特征构成,第 n 个特征子集由有着最高 Laplacian 分数的前 n 个特征构成。最后计算每个特征子集的归一化值,有着最优归一化值的特征子集为最优特征子集。3 实验结果与分析为了验证本文所提出算法的性能,在公开的不平衡数据集 WDBC 上进行测试,这个数据集来自于
11、UCI 数据库乳腺癌标准数据集,威斯康星大学医院麦迪逊分校,由 Mangasarian 等人收集。表 1 列出了这个数据集的详细信息。对于数据集,采用保持方法使用 80%的样本进行训练,20%的样本进行测试。算法使用 Matlab 2016a 和 R3.5.1 平台上进行对比验证。仿真实验在 Intel(R)Core(TM)I5-8400 CPU,8GB 内存,2.80GHz CPU 和 windows 64 位操作系统的个人电脑上运行。实验中采用有着线性核函数的 SVM 作为分类器,来验证特征选择的效果。SVM 算法使用 R 中的“kernlab”包来实现,其它参数采用默认设计。表 1 实验
12、数据集数据集属性个数样本个数不平衡率WDBC305691.80图 1 WDBC 数据集上每个特征对应的 LS 分数为了评估本文提出的 LP-SVM 算法的有效性,将 LP-SVM 的结果与局部投影算法(Locality Preser-ving Projection,LPP)和 SVM 分类组成 LPP-SVM进行比较。LP-SVM 与 LPP-SVM 算法对比,为了说明拉普拉斯特征选择算法的有效性。为了进一步评估算法的有效性,表 2 显示了本文提出的 LP-SVM 算法在 WDBC 上的结果以及各种不同文献方法的对比。Accuracy 分类准确度、Sensitivity 灵敏度和 MCC 用作
13、性能指标进行比较。表中的符号“”26榆林学院学报 2023 年第 5 期(总第 169 期)代表对应的文献中没有相关数据。表 2 WDBC 数据集上各种方法对比算法Accuracy SensitivitySpecificityMCCQKCLDA0.973K-SVM0.974EC0.965PSO-KDE0.985Aisl0.9830.9430.996EM-PCA-CART-Fuzzy Rule-Based60.932LPP-SVM0.9250.9050.9360.842LP-SVM0.974810.9610.948 根据表 2 所示,本文提出的 LP-SVM 取得了97.48%的精度、100%的
14、敏感度、96.17%的特异性、94.8%的 MCC 值。通过分类精度可以看到,LP-SVM 算法优于大部分的算法,同时本文的算法优于LPP-SVM。本文算法优于 LPP-SVM,说明改进的LP 特征选择算法优于经典的局部投影算法 LPP。虽然部分文献的方法略微优于本文算法,但是本文提出的 LP-SVM 算法有着和文献类似的性能,和文献方法没有显著差异。综合分析,本文算法有着和经典算法 LPP-SVM 以及其它流行算法类似甚至更好的预测能力。4 结论在不平衡分类这个问题背景下,传统的以最大化分类精度为主要目标的特征选择算法往往效果较差。基于此本文提出一种基于改进 LP 拉普拉斯特征选择算法,用
15、MCC 取代精度来衡量特征子集的分类性能。实验结果表明,LP-SVM 算法具有一定的竞争力。该算法也存在一些不足,比如算法效率低、参数设定困难等。因此,如何改进算法效率以及对特征选择算法中某些参数设置问题,摒弃经验值,引入算法实现对参数的自动寻优,是将来重要的研究方向。参考文献:1OGURA H,AMANO H,KONDO M.Comparison of metrics for feature selection in imbalanced text classifica-tion J.Expert Systems with Applications,2011,38(5):4978-4989.
16、2SUN L,ZHANG J,DING W,et al.Feature reduction for imbalanced data classification using similarity-based feature clustering with adaptive weighted K-nearest neighbors J.Information Sciences,2022,593:591-613.3王俊红,赵彬佳.基于不平衡数据的特征选择算法研究 J.计算机工程,2021,47(11):100-107.4吴换霞.无监督动态超图学习拉普拉斯矩阵特征选择 J.计算机工程与设计,2022
17、,43(7):2078-2087.5HE X.Locality preserving projections J.Advances in Neural Information Processing Systems,2003,16(1):186-197.6NILASHI M,IBRAHIM O,AHMADI H,et al.A knowledge-based system for breast cancer classification u-sing fuzzy logic method J.Telematics and Informatics,2017,34(4):133-144.(责任编辑:
18、杨 飞)Feature Selection Algorithm Based on Imbalanced DataZHANG Jue,TIAN Jian-xue(School of Information Engineering,Yulin University,Yulin 719000,China)Abstract:Class imbalance is a problem that is commonly associated to numerous applications and domains such as medical testing,face detection,anomaly
19、detection and other fields.Thid study shows that for classification of im-balanced data,an effective feature selection algorithm is crucial.Thus,a feature selection technique based on im-proved Laplacian is proposed which has considered the overall evaluation metrics of imbalanced data carefully.Thi
20、s algorithm consists of three stages,first,computing the Laplacian score of each feature;second,clustering the fea-ture subset,and third,computing the mutual information from clusters and ground truth.The feature subset which has the highest mutual information is the optimal subset.The experiment results demonstrate the effectiveness of the proposed method for feature selection.Key words:feature selection;imbalance data;SVM:laplacian algorithm36张 珏,田建学:基于不平衡数据的特征选择算法研究