1、DOI:10.11992/tis.202202026网络出版地址:https:/ LSSVM吴晗,王士同(江南大学 人工智能与计算机学院,江苏 无锡 214122)摘 要:针对直接移除缺失数据的样本可能会导致因样本数量规模的减少从而降低了分类性能的问题,本文基于同时处理缺失数据与构建模式分类模型的策略,提出使用特权信息学习(learning using privileged information,LUPI)的特权最小二乘支持向量机(privileged least squares support vector machine,P-LSSVM),从而达到既能改进其分类性能,又能在保证无偏的情况
2、下确定缺失特征的重要性。本文的基本思想是将完整数据的训练作为特权信息,以此来引导面向整个不完全数据的最小二乘支持向量机(least squares support vector machine,LSSVM)的学习,通过可加性核表达每个特征(含缺失特征)的重要性,推导完整数据的训练的特权信息,并以此构建 P-LSSVM,运用所提出的留一交叉验证方法完成无偏的缺失特征重要性识别。实验结果表明,本文提出的方法不但在平均测试精度上优于对比算法,还能同时确定缺失特征的重要性。关键词:最小二乘支持向量机;特权信息学习;可加性核;数据缺失;k 最近邻;样本空间;特权空间;数据质量中图分类号:TP181 文献
3、标志码:A 文章编号:16734785(2023)04074311中文引用格式:吴晗,王士同.不完整数据分类与缺失信息重要性识别特权 LSSVMJ.智能系统学报,2023,18(4):743753.英文引用格式:WU Han,WANG Shitong.Privileged LSSVM for classification and simultaneous importance identification of miss-ing information on incomplete dataJ.CAAI transactions on intelligent systems,2023,18(4)
4、:743753.Privileged LSSVM for classification and simultaneous importanceidentification of missing information on incomplete dataWU Han,WANG Shitong(School of Artificial Intelligence and Computer Science,Jiangnan University,Wuxi 214122,China)Abstract:While handling missing data classification tasks,th
5、e commonly-used removal strategy of missing data mayperhaps degrade the classifiers performance,due to very insufficient perfect data.Based on the strategy of processingmissing data and constructing classification model simultaneously,we develop a novel privileged LSSVM(P-LSSVM),which learns using p
6、rivilaged information.It can not only improve its classification performance,but also determines theimportance of missing features without bias.The basic idea is to take the trained classifier of the available perfect data asthe privileged information to guide the learning of LSSVM for the whole inc
7、omplete data,express the importance ofeach feature including missing features through the additivity kernel,then deduce the privilaged information of com-plete data after training,based on which P-LSSVM is constructed.Finally,the unbiased missing feature importance re-cognition is completed by the p
8、roposed leaving-one cross-validation method.Experimental results show that the pro-posed method can achieve better testing accuracies,with the importance identification of missing features.Keywords:least squares support vector machines;learning using privileged information;additional kernel;missingd
9、ata;k-nearest neighbor;sample space;privileged space;data quality 在实际应用中,数据的缺失是一个难以避免的问题。它减少了样本数量,还可能会在研究中引入偏见1。数据缺失的原因多且难以有效避免。例收稿日期:20220227.网络出版日期:20230324.基金项目:国家自然科学基金项目(61972181).通信作者:王士同.E-mail:.第 18 卷第 4 期智能系统学报Vol.18 No.42023 年 7 月CAAI Transactions on Intelligent SystemsJul.2023智能系统学报编辑部版权所
10、有如受访者出于保护隐私的目的拒绝提供某些信息、设备在某一时刻出现故障、调查时的失误导致的信息遗漏。缺失数据的修复通常比较困难,对缺失数据的不当处理可能导致分类性能下降。因此,以适当方式处理分类问题中缺失数据是一项基本要求2。机器学习对缺失数据分类的研究一般分为2 个部分:缺失数据的处理和分类模型的构建。在目前的机器学习中,已对样本的局部缺失做了很多研究1。通常会用 3 种类型的策略处理缺失数据。最直接的处理策略是直接丢弃不完整的数据,仅使用完整的样本构建分类模型2。这种策略会减少样本的数量,只适用于样本足够多且不完整样本占比例较小的情况。当丢失的数据不满足随机分布时,可能引入偏差2-3。另一种
11、策略是模式基础法,估计输入数据的分布并将其用于模式分类。例如,使用期望最大化(expectation max-imization,EM)算法4开发混合模型来估计数据分布,再使用贝叶斯决策理论来分类5。但估计值标准误差的计算6,以及建模协变量联合分布的EM 算法的蒙特卡罗实现7较复杂,使该方法的适用性差。第 3 种策略先通过使用估计值填充缺失数据来修复数据集,然后再使用修复后的数据建立分类模型。常用的填充方法有均值填充1和基于回归的填充2。均值填充法是使用具有完整数据的样本的特征平均值来填充缺失样本缺失的特征值。此方法没有考虑到数据集中样本的其他特征之间的相关性1。基于回归的填充使用具有完整数据
12、的样本构建出的回归模型来估计特征的缺失值。该方法高度依赖于数据的质量2-3。此外,还可以通过使用机器学习技术构建预测模型来估计缺失值。例如 k 最邻近填充(k-nearest neighbor,KNN)8和神经网络9。其中最常被使用的方法是 KNN,从完整样本中选出距离含缺失数据的样本最近的 k 个样本,用它们来估算出缺失的数据。KNN 的性能总体上优于其他机器学习方法,如决策树和均值填充方法3。在 DNA 研究中,KNN 具有优于均值填充和基于奇异值分解填充的性能10。然而,KNN 的性能依赖于 k 值等参数的设置,而这些参数难以使用理论方法确定。近年来,在处理缺失数据的同时构建模式分类模型
13、的相关研究工作正在发展,不同于前述策略中先处理缺失数据再建立模型的思路,该策略选择将处理缺失数据与构建模式分类模型同时进行。例如,设计神经网络集成用于不完整数据的分类11-13。从含有缺失数据的数据集中生成多个完整的子数据集,将其作为神经网络的训练数据集14。此外,还有使用模糊规则分类器处理缺失数据的模糊方法,可以通过使用模糊 C 均值算法15实现。该策略最大限度地利用了数据集中的信息,在尽可能地保留原始数据特性的同时,无需对数据分布做任何假设。越来越多的研究用该策略提高模型的性能 1。基于教学中教师的角色对学生学习起到的重要作用,Vapnik 等16提出了使用特权信息学习范式(learnin
14、g using privileged information,LUPI)方法。LUPI 通过提供仅在训练阶段可用的信息帮助提高模型在测试阶段的表现。经典的使用特权信息学习支持向量机(learning using privileged in-formation support vector machine,SVM+),若在校正空间获得了较小的误差,在决策空间中也会得到较小的误差,使用特权信息所定义的校正函数来计算支持向量机(support vector machine,SVM)中的松弛变量16。利用这一特性,将 LUPI 引入到此策略中,将完整数据的训练作为特权信息,保证训练样本中误差和特权信息
15、误差的相似,能得到由不完整特征的局部数据缺失所带来的对整体分类性能的影响。然而,目前还没有将 LUPI 引入这种策略的研究。大多数机器学习方法侧重于提高缺失数据的总体性能,但很少关注数据集中特征的缺失数据对分类性能的影响。如果能识别其影响,慎重地对待影响更大的特征,依此为数据收集过程提供指导,可以促进数据质量的改善2。基于在处理缺失数据的同时构建分类模型的思路,本文提出一种新的引入 LUPI 的特权最小二乘支持向量机(privileged least squares support vectormachine,P-LSSVM)来处理数据缺失问题17-18。将 LSSVM 与可加性高斯核相结合,
16、用完整数据的训练作为特权信息引导面向含有缺失数据的最小二乘支持向量机(least squares support vector ma-chine,LSSVM)的学习。P-LSSVM 可同时完成对不完整样本的分类和对缺失数据特征无偏的重要性识别。P-LSSVM继承了 LSSVM 的理想特性,即通过最小化基于 LSSVM 的目标函数,可以得到对应凸优化问题的解18-19。在实验部分,将 P-LSSVM 与使用了前 3 种策略处理缺失数据的 LSSVM 在公开数据集上进行了比较,实验结果证明了 P-LSSVM 的有效性。此外还介绍了使用 P-LSSVM 对 German 数据集进行的案例研究,强调了
17、该方法对该实际应用的贡献。744智能系统学报第 18 卷 本文的主要贡献归纳如下:1)开展了将 LUPI 引入在处理缺失数据的同时构建模式分类模型这一处理数据缺失策略的研究。2)提出了一种新的引入了 LUPI 的可加性 LSS-VM 模型,可直接用于具有缺失数据的数据集的分类任务,不需要提前对不完整数据集进行处理。3)通过留一交叉验证无偏评估出模型构建过程中特征缺失数据造成的分类误差,提供了其相关重要性,可为数据收集过程提供引导,改善数据质量。4)在公开数据集的实验结果证明了 P-LSSVM的有效性。并针对使用 P-LSSVM 对指导数据收集进行了案例研究。1 相关模型与学习范式 1.1 最小
18、二乘支持向量机LSSVM 将 SVM 中的不等式约束修改为等式约束,将原来的解二次规划问题变成了解线性方程组的问题,方便了对拉格朗日乘子的求解17。标准 LSSVM 模型为minw,b,eJ(w,e)=12w,w+2ni=1e2is.t.yt=w,(xt)+b+et,t=1,2,n(1)wb()etxt式中:、为样本特征空间的权重向量和偏置向量;为样本特征空间上的由核函数所诱导的特征映射函数,用于非线性可分的训练样本;为第t 个样本的误差变量,用来处理可能出现特异点的问题;正实数 为正则化参数,通过在训练误差和模型复杂度之间进行折衷,可以使函数具有更好的泛化能力17。对式(1)求解即可得到 L
19、SS-VM 的决策函数。1.2 可加性核在本文中,为了能够使模型可以学习包含了缺失信息的样本数据,采用可加性核。可加性核能单独的考虑每一维特征产生的影响,使用在各特征上的影响的组合衡量 2 个样本的关系。可加性核在多种框架下得到应用。Maji 等20证明了利用可加性核 SVM 建立分类器,其运行时和内存复杂度与支持向量的数量无关。在运行时间相同的情况下,与线性 SVM 相比,可加性核 SVM可以显著提高各种任务的精度,使其适用于大规模识别或实时检测任务。Demir 等21在遥感任务中引入了适合直方图特征的可加性核,提出了基于直方图特征和可加性核 SVM 的快速准确的分类方法。王旭凤22使用随机
20、梯度下降(stochasticgradient descent,SGD)以及一些改进的 SGD 方法包括异步随机梯度下降(asynchronous stochasticgradient descent,ASGD)、随机方差减少梯度下降(stochastic variance reduced gradient,SVRG)和Katyusha 算法来处理基于可加性核的 SVM 分类问题。Pelckman 等18将可加性核引入 LSSVM,提出分量 LSSVM,用于建立由非线性分量和组成的可加性模型。可加性核定义为k(xi,xj)=dl=1kg(xgj,xgi)(2)xixjdkg(,)g式中:、为数
21、据集中的任意 2 个样本,为样本的特征数量,为在样本的第 维特征上使用的核函数。相比较于传统的核函数,在模型上应用可加性核,不论特征是否具有缺失值,都可以很容易地用于计算核函数的相应值。1.3 特权信息学习基于老师往往在学习过程中发挥重要作用这一观察,Vapnik 等16提出了使用特权信息学习的算法。在实际应用中特权信息是常见且有用的。Xue 等23使用特权信息来控制决策误差,设计出可以有效对抗数据中噪声的鲁棒的 SVM+算法。Xu 等24基于 LUPI 设计了一种新颖的距离度量学习算法,从图像中分别提取视觉特征和深度特征并将深度特征视为特权信息,改进 RGB 图像中的人脸验证和人员重新识别。
22、Pal 等25从数据集中提取特权信息,将特权信息引入校正函数,提出了使用特权信息改进型双支持向量机(improvedtwin support vector machine using privilege informa-tion,I-TWSVMPI)。本文基于 LUPI,以 LSSVM 为基础,提出了能将缺失数据的处理和分类模型的构建同时进行的特权最小二乘支持向量机(privileged least squaressupport vector machine,P-LSSVM),可用于缺失数据的分类问题以及缺失数据影响识别问题。2 P-LSSVM 2.1 数据表示Ddd在引入 LUPI 的 LS
23、SVM 模型中,训练数据集的形式和 SVM+类似。定义是一个数据集,它具有 n 个样本和 n 个样本对应的特权信息,样本有 个特征,样本对应的特权信息具有个特征:第 4 期吴晗,等:不完整数据分类与缺失信息重要性识别特权 LSSVM745(x1,x1,y1),(x2,x2,y2),(xn,xn,yn)ixi=(x1i,x2i,xdi)xi=(x1i,x2i,xdi)yi+1,1 i=1,2,nddDDX=x1i,x2i,xdi|i=1,2,nDX=x1i,x2i,xdi|i=1,2,nD式中:第 个样本的特征向量标记为,对应的特权信息标记为,其对应的标签为,。对于一个包含了缺失数据的数据集,定
24、义 为含有缺失数据的特征的个数,可以定义为数据集中完整特征的个数,将原数据集划分为 2 部分。即原数据集的只含有不完整特征的一个子集和原数据集的子集,其中只含有完整信息的特征。图 1 是对数据集的描述,标记“?”表示此处的数据缺失了。D11Y2XX*dd*.x1x2xn?.图 1 数据集的表示Fig.1 Representation of dataset 2.2 P-LSSVM 算法在 SVM+中使用特权信息定义的校正函数来计算 SVM 中的误差变量。保证了训练样本中误差以特权信息为上界,即对于 LUPI 方法,特权信息对决策模型的建立进行了引导,如果在校正空间获得了较小的损失,那么在决策空间
25、中也应该得到较小的损失23。在 LSSVM 中引入 LUPI,将完整数据的训练作为特权信息,利用特权信息对LSSVM 进行引导,保证不完整特征中误差和特权信息误差的相似,反映出由特征的局部数据缺失所带来的对整体分类性能的影响。在 LSSVM 中引入 LUPI 得到的使用特权信息来引导 LSSVM中误差变量 e 的 LSSVM+模型,可得到其目标函数和约束为minw,w,b,bJ(w,w,e,)=12w,w+2w,w+2ni=1e2i+C2ni=1(eii)2s.t.yt=w,(xt)+b+ett=w,(xt)+bt=1,2,n(3)w bwb()()式中:、和、分别为样本特征空间和特权信息特征
26、空间的权重向量与偏置;和分别为 2 空间上由核所诱导的特征映射函数。和 Cw,wgg=1,2,dIig为正则化参数;用来限制校正空间的容量;为非负权衡参数。在本文提出的 P-LSSVM 模型中,定义 Vg为由于第 维特征数据的缺失所导致的分类误差上界,。在构建分类器时,可以同时使用留一交叉验证将 Vg求出。定义 为Iig=1,xi的第g个特征(xig)的值缺失0,其他(4)idg=1VgIigVgggg那么对于第 个样本,公式给出了所有缺失数据特征所导致的误差之和,即总分类误差的上界。的绝对值越大,说明由第 维特征数据缺失造成的误差越大,第 维特征对分类性能的影响就越大,第 维特征也就越重要。
27、Vg在式(3)中引入,可得:minw,w,b,bJ(w,w,e,)=12w,w+2w,w+2ni=1e2i+C2ni=1(eii)2s.t.yt=w,(xt)+b+et+dg=1VgItgt=w,(xt)+bt=1,2,n(5)式(5)在数学上等价于:minw,w,b,bJ(w,w,e,)=12w,w+2w,w+2ni=1eidg=1VgIig2+C2ni=1eidg=1VgIigi2s.t.yt=w,(xt)+b+ett=w,(xt)+bt=1,2,n(6)(xi)=(xi1),(xi2),(xid)(xig)xig不论特征是否具有缺失值,可加性核都能计算出核函数的值。在算法中使用可加性核函
28、数,使算法具有单独计算各维度所带来影响的能力。这样本文提出的算法就可以分别对每一维特征上由于数据缺失所带来的误差进行统计。,可加性核中是对样本第 个特征进行映射的函数。采用可加性核的样本核函数矩阵定义为ij=(xi)(xj)T=dg=1(xig)(xjg)=dg=1kg(xig,xjg)(7)类似的,特权信息的核函数矩阵为ij=(xi)(xj)T=dg=1(xig)(xjg)=dg=1kg(xig,xjg)(8)其中,kg(xig,xjg)=kg(xig,xjg),xig和xjg都有值0,其他(9)746智能系统学报第 18 卷 kg(xig,xjg)kg(xig,xjg)=exp(xjgxi
29、g)2/2g2),g=1,2,dgg式中为核函数。在本文中采用高斯核函数。其中是应用在第 维特征的核函数参数。I=0在去除训练数据集中由缺失特征所导致的总分类误差后,式(6)原问题的优化目标本质上可以看作是最小化所有完整特征所导致的总分类误差。即当训练数据集的所有样本中都没有缺失值时,任意的,式(6)会简化为式(3)中的 LSSVM+模型。为了得到式(6)的解,令f(x)=nt=1t(w,(xt)+b+etyt)(10)g(x)=nt=1t(w,(xt)+bt)(11)构造其拉格朗日函数为L(w,w,b,b,)=J(w,w,b,b)f(x)g(x)(12)t,t,t=1,2,n通过引入拉格朗日
30、乘子,根据 KKT 条件,可以得:Lw=0 w=ni=1i(xi)(13)Lb=0 ni=0i=0(14)Lw=0 w=ni=1i(xi)(15)Lb=0 ni=0i=0(16)Let=0 et=1(tt)+dg=1VgItg(17)Lt=0 t=1t(1+1C)t(18)Lt=0 w,(xt)+b+etyt=0(19)Lt=0 w,(xt)+bt=0(20)t=1,2,nwetw,t结合式(13)、(17)和(19),消去 和,结合式(15)、(18)和(20),消去后,得到线性等式:ni=1dg=1i(xig)(xtg)+b+1(tt)+dg=1VgItg=yt(21)1ni=1dg=1i
31、(xig)(xtg)+b(1t(1+1C)t)=0t=1,2,n(22)结合式(14)、(16)可进一步将式(21)和式(22)写成紧凑矩阵形式:+1E11E01T00T01E01+(1+1C)E10T01T0bb=ydg=1VgIg000(23)=(a1,a2,an)T=(1,2,n)Tyy=(y1,y2,yn)T1=(1,1,1)T0=(0,0,0)TIgIgIg=(I1g,I2g,Ing)TE式中:、是拉格朗日乘子组成的向量,;是样本的标签所组成的向量,;是矩阵 的第 列,;是单位矩阵;和分别是样本特征空间和特权特征空间的核函数矩阵,可用式(7)、(8)求出。bb=Pydg=1VgIg0
32、00(24)P=Q1Q式中:,是式(23)中等号左侧的第 1 项。Vgbw依据式(24),若已知所有的值,便可求出,进而可根据式(13)重构权重向量。最后可得到P-LSSVM 的决策函数为y(xt)=ni=1dg=1ikg(xig,xtg)+b+dg=1VgItg(25)xty(xt)xtdg=1VgItg=0式中:是输入的未知样本,是决策函数的预测值。如果未知样本是完整的,那么有,决策函数就会被简化。V=(V1,V2,Vd)VV令,若要得到式(25)中的决策函数,需要得到的值。本文采用留一交叉验证这一无偏估计方法通过迭代来求出的最优值。定义:TbTbT=PyT0 0T0T(26)TbgTbg
33、T=PIgT0 0T0T(27)由式(24)可得:=dg=1Vgg(28)结合式(28)和决策函数式(25),有:y(xt)=ni=1dl=1aidg=1Vggikl(xil,xtl)+b+dg=1VgItg(29)第 4 期吴晗,等:不完整数据分类与缺失信息重要性识别特权 LSSVM747 VVxt yt=y(xt)ytxt ytytVV ytyt从式(28)可以看出,和存在线性关系,只要确定了一组的值,的值也可被确定。随后便可使用式(29)作为决策函数求出样本的预测值。是样本的标签值,对于在训练集中所有的样本,能使取正值的值,即为的最优值。但是如果在优化时只考虑到的正负,可能产生具有许多局
34、部极小值的非凸解。因此,本文中使用了一种类似于 hinge 损失的损失函数:l(yt,yt)=|1 ytyt|+=?1ytni=1dl=1idg=1Vggikl(xil,xtl)+b+dg=1VgItg?+(30)|l|+=max 0,l ytyt式中。式(30)中的损失函数给出了误分类损失的凸上界,它更偏好可使绝对值不小于 1 且与 同号的解。最后可以得到目标函数为nt=1l(yt,yt)s.t.V2 B(31)2VVV在约束条件中,B 是一个常数,是施加在向量上的 L2 范数,用来保证的解存在。本文使用次梯度投影法实现对的优化。VVby(x)P-LSSVM 的伪代码如下所示。先初始化,然后
35、通过次梯度投影法实现对的优化,在确定的最优值后,可以方便地计算出 P-LSSVM 的 和,最后可得到 P-LSSVM 的决策函数。P-LSSVM 算法算法,g,Ig,g=1,2,d输入。V 0,t 1初始化:Repeat:For t 1 to n by 1:x_train xm|m=1,2,t1,t+1,n x_train Vbxt使用,及式(28)求出 LSSVM+的 和,得到其决策函数关于的预测值:yt=n1i=1dl=1ik(x_trainil,xtl)+b+dg=1VgItg Enddt=1 ytyt 0 t=1,2,n,For g 1 to d by 1:Vg=Vg1tnt=1dty
36、tni=1dl=1gikl(xil,xtl)Itg EndV BV (VB)/V2If then End ift=t+1 Until convergenceVb使用式(28)由求出 P-LSSVM 的 和,得到P-LSSVM 决策函数:y(x)=ni=1dg=1ikg(xig,xg)+b+dg=1VgIg V norm(|V|)V y(x)输出,。VVVP-LSSVM算法将处理缺失数据与构建分类模型同时进行。首先在 LSSVM 中引入 LUPI,利用特权信息对 LSSVM 进行引导,可以保证不完整特征中误差和特权信息误差的相似,反映出由特征的局部数据缺失所带来的对整体分类性能的影响。选用可加性
37、核作为算法的核函数,使算法可对每一维特征上由缺失值所带来的误差分别进行统计。利用这一特性,在 LSSVM+中的约束条件里引入了分类误差上界,最后采用留一交叉验证的无偏估计方法通过迭代来求出的最优值,对缺失值的处理包含在对的优化过程中。上述的同时进行指的是在构建分类器的同时,通过对不同特征的缺失值带来的分类误差上界进行优化,改善模型的性能,而无需在建模前先对缺失值进行处理。2.3 包含缺失值的特征的重要性VggVggg在本文提出的 P-LSSVM 中,被定义为由于第 维特征数据的缺失所导致的总分类误差上界,由提出留一交叉验证法迭代求出,的大小揭示了包含缺失值的第 维特征对于分类性能所造成的影响,
38、它提供了在分类模型中第 维特征的相对重要性。此相对重要性可以对数据收集过程提供指导。共考虑以下 3 种情况:Vgg1)如果等于 0,可以将由第 维特征数据缺失对分类性能所能造成的影响视为是无关紧要的,其缺失数据造成的影响相对其他特征是最小的。Vgggg2)如果小于一个给定的阈值,由第 维特征数据的缺失所带来的分类误差较小,说明第 维特征数据的缺失对分类性能所能造成的影响较小,即第 维特征相对其他具有较大值的特征是不重要的,在模式分类过程中起到的效果要小于其他特征,在收集数据时不用太过关注。Vgggg3)如果大于一个给定的阈值,由第 维特征数据的缺失所带来的分类误差较大,说明第 维特征数据的缺失
39、对分类性能所能造成的影响更大,即第 维特征相对其他具有较大值的特征是更重要的,在模式分类过程中起到了更大的效果。在收集数据时要比其他特征更慎重的对待,尽量先保证其数据的完整。Vgg是作为衡量第 维特征对分类性能影响程748智能系统学报第 18 卷 VggVVgg度的指标,的值越大,第 维特征的缺失对分类性能造成的影响越大。为了凸显出缺失特征之间的相对重要程度,在本算法中对取绝对值后应用了归一化。的大小,说明了包含了缺失值的第 维特征对分类性能的相对影响的大小。3 实验结果与分析为了验证本文提出的 P-LSSVM 的有效性,将 P-LSSVM 与 4 种面向缺失数据的算法分别在German(UC
40、I german credit)、Fire(fire dataset)等公开数据集上的表现进行对比。不同于处理缺失数据和建模同时进行的 P-LSSVM,对比算法采用了先处理缺失数据,再对处理后的数据使用 LSS-VM 进行建模这一常用策略。在 3.3.1 节给出了实验的结果,证明了 P-LSSVM 的有效性。此外,为了说明 P-LSSVM 确定的特征相对重要性对于改善数据质量的贡献,在 3.3.2 节给出了使用 P-LSSVM 对 German 数据集进行的案例研究。表 1 汇总了数据集的相关信息。所有实验均在同一环境下完成,处理器为 AMD Ryzen 74 800U,内存 16 GB,在
41、Windows10 环境下配置 Python3.9.0。表 1 数据集相关信息Table 1 Dataset descriptions 数据集样本数特征数German1 00020Australian69014Fire24313Surgery47016Wine17812Diabetes1 15119Fertility1009Pima7698 3.1 数据集预处理为了进行仿真实验,在实验中为所有数据集设置一个缺失信息矩阵 I,在样本数据中以随机的方式选取一部分的数据作为缺失的数据,在I 中记录缺失情况。此外,为了防止数据的缺失将样本完全破坏,出现无法分类的情况,规定每个数据集最多可缺失 10%的
42、信息。German 数据集是 UCI 德国信用数据集。可用来根据个人财务情况来预测贷款客户违约倾向。Fire 数据集中前3 个特征不使用。Wine 数据集将通过划分将第1 种葡萄酒设定为正例,将其余 2 种葡萄酒合并后设定为负例。3.2 实验设计本文进行的实验的主要目的是与使用了不同的缺失数据处理策略 LSSVM 相比,评估所提出的 P-LSSVM 的性能,对比算法有:1)特征删除LSSVM:把包含了缺失值的特征移除,再对处理后的数据用标准 LSSVM 进行建模。2)样本删除LSSVM:把含有缺失值的样本移出数据集,再对处理后的数据用 LSSVM 进行建模。3)均值填充LSSVM:若一个样本的
43、某个特征含有缺失值,可使用其余完整样本在此特征的平均值来填充此缺失值,再对处理后的数据用 LSSVM 进行建模。4)最近邻填充 LSSVM:从完整样本中选取距离缺失特征数据的样本最近的样本来估算缺失的特征信息,再对处理后的数据使用标准 LSSVM 进行建模。lll为了保证公平性,本文提出的 P-LSSVM 算法与对比方法都采用加性高斯核函数。是应用在第维特征的核函数参数,取第 维特征的方差23。102,101,100,101,102C104,103,102,101,100,101,102,103,104102,101,100,101,102LUPI 的超参数 在中搜索选取最优值,基于对式(13
44、)的观察,为了保持量纲的一致性,超参数在23搜索选取最优值。所有的算法的正则化参数 都在中搜索选取最优值。在实验中使用了五折交叉验证策略,以确保数据集中的每个样本都有机会用于训练集和测试集,减少可能会导致过拟合或欠拟合的偏差的影响。本文将数据集随机分成 5 个子集。该模型使用 4 个子集构建,并在剩余的 1 个子集上进行测试。采用五折交叉验证中准确度的平均值和标准差作为分类性能的评估。3.3 实验结果分析表 2 和图 2 给出了 P-LSSVM 和对比算法的关于平均准确率和标准差的实验结果,接下来将在3.3节对实验结果进行分析和讨论。为了对P-LSSVM还可得到不完整特征的重要性这一优势进行说
45、明,以 German 数据集为例进行了案例研究,具体说明如何使用 P-LSSVM 对特征的相关重要性进行分析,区分出更重要的特征,用以指导数据收集。总体而言,本文提出的算法不但在平均测试精度上优于对比算法,而且可以同时获得特征数据的缺失对于分类预测的影响,即特征的相对重要性这一额外成果。3.3.1 分类性能分析结合表 2 和图 2,容易观察到:1)在大多数数据集上,与先修复缺失数据,第 4 期吴晗,等:不完整数据分类与缺失信息重要性识别特权 LSSVM749 再对处理后的数据使用标准 LSSVM 建模的算法相比,本文提出的算法取得了更好的分类性能。这表明本文提出的算法能够对缺失数据进行分类,证
46、明了其有效性。2)在 Diabetes 数据集上,样本删除 LSSVM 算法的性能比其他算法更好。这可能是因为 LSSVM 对噪声的敏感性较高,而被丢弃的样本上具有噪声,即在将缺失数据样本移出数据集时,将较多的异常样本移除了,因此样本删除增强了分类性能。需要强调的是,P-LSSVM 还提供了关于缺少数据的特征的相对重要性信息,具有指导数据收集的优势,这是其他对比方法都无法做到的。表 2 5 种算法在 8 个数据集上的实验结果Table 2 Performance of the five algorithms on eight datasets 数据集P-LSSVM对比算法特征删除LSSVM样本
47、删除LSSVM均值填充LSSVM最近邻填充LSSVMGerman0.769 00.022 20.701 00.027 80.710 00.042 60.761 00.020 30.751 00.020 8Australia0.837 60.022 70.682 60.035 30.673 10.052 50.775 30.033 30.797 10.027 0Fire0.979 10.013 10.858 30.084 70.957 10.034 90.950 00.028 20.975 00.024 2Surgery0.853 10.020 60.853 10.023 60.852 60.0
48、37 60.851 00.024 20.851 00.051 2Wine0.977 10.011 40.965 70.011 40.921 50.036 60.960 00.038 70.960 00.029 1Diabetes0.676 50.024 30.584 30.023 10.692 70.028 00.628 60.014 10.681 70.018 1Fertility0.900 00.077 40.880 00.074 80.866 60.066 60.880 00.074 80.880 00.074 8Pima0.741 10.025 30.679 70.036 20.723
49、 00.051 70.725 40.018 40.722 80.006 6 0.50.60.70.80.91.0GermanAustraliaFireSurgeryWineDiabetesFertilityPima准确率P-LSSVM特征删除 LSSVM样本删除 LSSVM均值填充 LSSVM最近邻填充 LSSVM 图 2 5 种方法在 8 个数据集上的准确率Fig.2 Accuracy of five methods on eight datasets 表 3 列出了 P-LSSVM 和次优方法最近邻填充 LSSVM 的训练时间和测试时间。由表 3 可知,对 P-LSSVM 的训练需要花费更
50、多的时间成本,这是因为训练 P-LSSVM 时需要额外对特权信息进行训练和确定维度的重要性,但额外的运算也使 P-LSSVM 在平均测试精度上优于对比算法,还能同时得到缺失特征的重要性这一额外成果。此外,与最近邻填充 LSSVM 相比,P-LSSVM 的测试时间更短。也就是说,一旦训练完成,P-LSSVM 在应用时更有优势。所以本文认为时间成本的增加是可以接受的。当然,如何有效地降低 P-LSSVM 的训练时间也将是本文下一步的研究重点。表 3 P-LSSVM 和 最近邻填充 LSSVM 模型的计算时间 Table 3 Calculation time of P-LSSVM and LSS-V