基于过采样和代价敏感技术的软件缺陷预测.pdf

资源描述

1、第4 5卷第3期华北理工大学学报(自然科学版)V o l.4 5 N o.32 0 2 3年0 7月J o u r n a l o fN o r t hC h i n aU n i v e r s i t yo fS c i e n c ea n dT e c h n o l o g y(N a t u r a lS c i e n c eE d i t i o n)J u l.2 0 2 3 收稿日期:2 0 2 2-1 2-2 4 修回日期:2 0 2 3-0 6-1 0基金项目:河北省自然科学基金(F 2 0 1 8 2 0 9 3 7 4)。第一作者:王文彪,男,硕士研究生。研究方向

2、:网络空间安全基础。通讯作者:张春英,女,博士,教授。研究方向:机器学习、算法设计、网络空间安全等。D O I:1 0.3 9 6 9/j.i s s n.2 0 9 5-2 7 1 6.2 0 2 3.0 3.0 1 1文章编号:2 0 9 5-2 7 1 6(2 0 2 3)0 3-0 0 8 2-0 8基于过采样和代价敏感技术的软件缺陷预测王文彪1,2,3,张春英1,2,3,马英硕1,2,3(1.华北理工大学理学院,河北唐山0 6 3 2 1 0;2.河北省数据科学与应用重点实验室,河北唐山0 6 3 2 1 0;3.唐山市工程计算重点实验室,河北唐山0 6 3 2 1 0)关键

3、词:软件缺陷预测;类不平衡问题;过采样技术;代价敏感技术摘要:软件缺陷预测技术是保证软件质量、提升软件测试效率的重要方法,精准发现存在潜在缺陷的软件模块,已逐渐成为软件工程领域研究的热点。针对软件动态数据流的形式,考虑软件数据流中正类样例与负类样例的严重不平衡问题,提出一种面向动态软件数据流的类不平衡缓解方法S C S算法(C l a s s I m b a l a n c eM i t i g a t i o nA l g o r i t h m s)。该方法以时间序列为前提获取软件数据流,利用过采样技术与代价敏感技术相结合,提升预测模型对潜在缺陷数据的搜索范围。实验结果表明,S C S算

4、法可有效缓解类不平衡问题。S C S算法的准确率优于传统机器学习算法1 0%-2 0%,优于动态增量学习算法5%-1 0%;S C S算法的误报率低于其它学习算法5%-1 5%左右;S C S的AU C值稳定在0.6 3-0.7 3左右。中图分类号:T P 3 1 1.5 3 文献标识码:A人工智能时代背景下,对于软件行业来说软件缺陷预测是验证软件质量的一个有效途径1。基于机器学习的软件缺陷预测是一个二分类问题,是对软件“有缺陷”与“无缺陷”的判定2。同时,机器学习方法是利用历史软件缺陷数据进行一次性建模3。与传统的人工测试方法相比,在软件行业中利用机器学习方法测试软件是否有缺陷,不仅提高了效

5、率,还节省了不少的人力和财力4。在这种高效率的驱动下,软件缺陷技术得到了很大的发展。然而,软件每天都在产生大量的数据。面对与日俱增的“新数据”,传统的机器学习方法需要重新进行多次建模,即使在耗费时间的情况下也难以保证较好的效果。因此,有研究者提出了增量式机器学习,以解决现有软件缺陷预测中存在的问题5。集成式增量学习注重对海量数据的全面的学习。例如典型的L e a r n i n g+算法6-1 0,这种算法的主要思想是在保留所有数据的前提下基于基模型对数据进行训练,由于L e a r n i n g+算法保留了“之前数据”与“新增数据”,而“新增数据”与“之前数据”存在类不平衡问题,这种算法未

6、对数据的不平衡进行处理,只是对基模型的简单集成,因此直接影响到了分类器的分类效果。针对上述问题,提出了类不平衡的缓解方法S C S算法(C l a s s I m b a l a n c eM i t i g a t i o nA l g o r i t h m s),以时间序列为前提获取软件数据流,将过采样技术与代价敏感技术相结合,以此提升预测模型对潜在缺陷数据的搜索范围。通过实验比较,表明该方法可有效提升算法的分类精度,在召回率指标上表现优异。1相关工作1.1 代价敏感方法代价敏感学习是通过给不同类型的样本赋予不同的权值,使其能够进行机器学习1 1-1 9。在常规的学习任务中,样本的权重基

7、本相同,但在一些特殊的任务中,也可以对样本赋予不同的权重。对风险控制和入侵检测来说,这2种类型的数据都存在着严重的不均衡性,比如风险控制模式2 0,算法重点放在坏人的分类上,增加坏人的查全率,但是也可能把好用户分类为坏用户,降低坏用户分类的查准率。在软件故障的历史资料中2 1,只有少量的故障数据和大量的无故障数据,即存在着严重的不平衡。对不均衡的数据直接训练,得出的预测结果会对大部分的小类别数据产生较大的偏差,导致预测效果不佳。由于分类误差在实际中的影响很难估计,故采用成本敏感技术来减轻这种不均衡2 2。代价敏感性技术是由于算法对目标项的错误分类成本不同而导致的2 3。基于最大类的算法和基于成

8、本敏感性技术的分类误差成本,通过调整2种分类结果的不同权值,实现了少类和多类的均衡。表1所示为软件缺陷预测问题的代价矩阵。表1 代价矩阵预测结果真实标记1(缺陷模块)0(无缺陷模块)1(预测为有缺陷)C(1,1)=0C(0,1)=10(预测为无缺陷)C(1,0)=aC(0,0)=0 表1中的C x1,x2()为代价因子表达式,x通过符号“1”,“0”表示,“1”表示软件模块有缺陷,“0”表示软件模块无缺陷。当x1=x2时,代价表达式为0,即预测结果正确;当x1x2时,说明预测结果错误,文献2 4最早提出在软件缺陷预测中不同的分类错误造成的代价是不同的,当把缺陷模块预测为无缺陷时,则此缺陷在软件

9、中一直存在,使得软件不可靠;当把无缺陷模块预测为有缺陷,会导致无用测试,浪费资源,但不会有致命的损失,所以有代价表达式C1(,0)C0(,1)C1(,0)C0(,1)。当=1时,表示错误分类的代价相等,当1时,表示将有缺陷模块预测为无缺陷的代价要高。其中C1(,0)表示将有缺陷模块预测为无缺陷,C0(,1)表示将无缺陷模块预测为有缺陷。当分类器错分时,设代价函数:F(x)=Px,1()*C0,1()+Px,0()*C1,0()其中代价函数F(x)表示对软件模块x进行缺陷预测的期望代价,对于模块x,最小化F(x)等同于选择最优的缺陷预测分类结果,Px,i()表示把模块x预测为i类的概率;C x1

10、,x2()表示代价矩阵中对应模块的代价因子表达式。1.2 S MOT E过采样技术S MOT E算法的思想是合成新的少数类样本,合成的策略是对每个少数类样本a,从它的最近邻中随机选一个样本b,然后在a、b之间的连线上随机选一点作为新合成的少数类样本2 5。图1所示为S MOT E过采样示意图。图1 S MO T E采样示意图38 第3期王文彪,等:基于过采样和代价敏感技术的软件缺陷预测对于少数类中每一个样本x,以欧氏距离为标准计算它到少数类样本集中所有样本的距离,得到其k近邻。根据样本不平衡比例,设置一个采样比例以确定采样倍率N,对于每一个少数类样本x,从其k近邻中随机选择若干个样本,假设选

11、择的近邻为xn。对于每一个随机选出的近邻xn,分别与原样本,按照如下的公式构建新的样本。xn e w=x+r a n d(0,1)(xn-x)(1)2类不平衡的缓解方法类不平衡缓解算法S C S(C l a s s I m b a l a n c eM i t i g a t i o nA l g o r i t h m s)以时间序列为前提获取软件数据流,融合过采样与代价敏感技术,构建代价敏感与过采样的增量模型,提升预测模型对潜在缺陷数据的搜索范围。2.1 算法框架与实现软件数据窗口通过设定的过采样技术缓解软件数据窗口中的类不平衡问题,最终得到用于训练基分类器的软件数据窗口。S C S算法通

12、过对软件数据进行采样后训练基分类器加入集成模型之后完成对集成模型的更新。S C S算法框架流程如图2所示。图2 算法流程图(1)软件数据:软件数据以数据流的形式到达,设置存储空间保留数据流,并统计数据流数量,当存储空间到达阈值M时完成其中一个数据块的构建。(2)代价敏感权重设置:普通基分类器对于数据分布不平衡的情况没有较好的处理效果,所以S C S算法中通过设置敏感代价因子,将不同类型的样本数据赋予不同的权重,重点关注分类错误但损失大的样本,来减缓权重的递减速度,从而达到更好的分类效果。(3)进行采样:因为软件数据流具有随机性与不平衡性,因此基于时间序列构建的数据块中正类样例和负类样例的占比严

13、重失衡,为缓解不平衡数据集给分类模型带来的困扰,S C S算法中引入S m o t e过采样使得正类样例与负类样例占比相等。对于少数类的每一个样本x计算其与少数类样本集中其他所有样本的欧式距离,并随机选出近邻xn,与原样本构建新的样本。(4)训练基分类器加入集成模型:数据块随着数据流的不断产生而持续增加,利用采样后的数据块直接训练基模型,若基分类器的数量小于集成模型中的基分类器数量阈值M时,训练结束的基分类器可直接加入集成模型中。(5)完成集成模型更新:当集成模型中基分类器个数等于阈值M时,每当有最新的基分类器加入,则删48 华北理工大学学报(自然科学版)第4 5卷除最原始的基分类器,保证集

14、成模型中的基分类器数量始终等于阈值M,完成更新。(6)若存在数据流持续流入则重复操作,否则输出集成模型。2.2 代价因子与采样比例设定在解决数据类不平衡问题上,从算法层面提出了代价敏感。在软件缺陷预测中,将有缺陷数据误判为无缺陷数据需要付出更大代价。因此,通过设置代价敏感因子对软件数据集做平衡处理,在模型学习阶段,选择代价因子进行实验,并采用十折交叉验证方法对测试集进行验证,得出最优的软件缺陷类不平衡采样比例。通过代价敏感方法对数据集的不平衡处理可有效提升模型性能。代价因子的取值与采样比例的确定决定着模型的预测性能,为保证取值的科学有效性,分别设置代价因子的取值实验以及采样比例的实验。由于缺陷

15、预测的准确率可直观展示分类器的预测性能,因此选择准确率作为参数确定的标准。实验1给出实验中代价因子的选择过程。在采用S C S算法构建预测模型时,代价因子1。当=1时,表示错误分类的代价相等;当1时,表示将有缺陷模块预测为无缺陷的代价要高。为了得到准确率较高的代价因子,分段设置不同的参数,通过对比实验,发现当=3 0的时候,其获得的准确率数值相对较高,所以选取=3 0作为最终代价敏感因子。表2中所示为不同代价因子取值时所获得的准确率数值。同代价因子的选择过程一样,在选择采样比例的时候也是通过对比实验进行,发现当采样比例1:1时,其准确率数值相对较高。实验2给出不同采样比例下,分类模型的准确率,

16、具体详细结果见表2所示。表2 参数确定实验参数代价因子实验11 03 05 07 09 01 1 0采样比例实验21:11:0.91:0.81:0.71:0.61:0.6准确率P0.7 1 90.8 9 00.8 2 20.8 3 40.7 6 70.8 0 10.8 1 20.8 1 00.7 5 50.7 8 10.7 5 80.7 1 53实验结果与分析3.1 实验环境与评价指标3.1.1实验环境操作系统:W i n d o n s 1 0;显卡:G T X 1 0 6 0-4 G;C P U:i n t e l i 79 7 0 0 r;内存:1 2 G;硬盘:2 5 6 GS S D

17、;编译环境:P y C h a r m 2 0 2 1.1.1;P y t h o n库:A n a c o n d a、S k l e a r n。3.1.2评价指标利用混淆矩阵对软件缺陷预测中的评价指标进行定义,混淆矩阵如表3所示。表3 混淆矩阵真实标签预测为正类预测为负类正类样例正确正例T P错误负例FN负类样例错误正例F P正确负例TN (1)预测率P D(P r o b a b i l i t yo fd e t e c t i o n)P D=T P(T P+TN)(2)预测率P D和召回率的计算方式相同,它在一定程度上反应了寻找缺陷模块的整体情况,当P D值越大时表现为预测模型发

18、现缺陷模块的能力越强;当P D值越小时表现为预测模型发现缺陷模块的能力越弱。(2)误报率P F(P r o b a b i l i t yo f a l a r m)P F=F P(F P+TN)(3)58 第3期王文彪,等:基于过采样和代价敏感技术的软件缺陷预测误报率P F为把软件中无缺陷模块预测为缺陷模块的数量占整体缺陷模块个数的比例。当误报率P F值越大时表现为错将无缺陷模块预测为缺陷模块的概率越大,但在一定条件下可牺牲一定的误报率保证预测率。(3)AU C(A r e au n d e r t h ec u r v e)A U C=10P D d(P F)(4)A U C的值是R O

19、 C(R e c e i v eo p e r a t i n gc h a r a c t e r i s t i c)曲线下的面积。R O C是描述P D、P F的一种曲线,R O C以P F作为坐标系横轴、P D作为坐标轴纵轴。以A U C的取值范围0A U C1,当A U C=1时模型为最佳模型;A U C=0.5时表示模型预测结果等同于随机事件概率;A U C0.5表示模型差。A U C的值越接近于1表示模型预测效果越好。3.2 实验设计3.2.1数据集NA S A数据集是美国航空航天局公开的数据集,在软件领域具有很强的权威性。采用NA S A公开数据集中的7组数据集进行实验,保证了

20、实验的有效性与可用性。同时也有利于其他研究人员对软件缺陷实验进行参考和实验对比。表4所示为实验的NA S A数据集。表4 实验数据集数据编程语言样本数特征缺陷率数据编程语言样本数特征缺陷率CM 1C3 2 63 71 2.9P C 2C7 1 83 62.2J M 1C77 2 02 22 0.9P C 3J a v a10 5 03 71 0.5K C 3J a v a11 4 52 11 3.0P C 5C16 9 23 82 7.0MC 1C+11 5 23 81.83.2.2验证S C S算法有效性设计利用多组实验验证S C S算法对不平衡软件数据流的分类有效性。第一组为利用随机过采样

21、算法与S C S算法对软件数据流的分类比较;第二组为利用欠采样算法与S C S算法对软件数据流的分类比较;第三组为利用代价敏感算法与S C S算法对软件数据流的分类比较。在实验中采用的模型分别为传统静态机器学习算法朴素贝叶斯、动态增量学习L e a r n i n g+。为了提高实验数据的可靠性,共进行5次实验对多个数据集进行了测试,并取得了各种算法在这些数据集上的平均性能和每种算法的分类结果平均值。3.3 实验结果与分析实验采用的模型分别为传统静态机器学习算法朴素贝叶斯和动态增量学习L e a r n i n g+,其中每组模型分别用代价敏感、欠采样、过采样和S C S算法对软件数据流进行分

22、类比较。图3所示为不同算法在指标P D上的实验结果。图3 P D实验结果图68 华北理工大学学报(自然科学版)第4 5卷从静态的错误预报与动态的递进式(N B与L e a r n i n g+)的角度看,S C S与上述2类方法有不同程度的改进。在N B方法中,S C S算法随着P D值随着数据量的增多而升高,从0.6 5升至0.9 8,平均值在0.9左右。N B过采样方法均值在0.8 5左右;N B欠采样方法均值在0.8 0左右;N B代价敏感方法均值在0.7 0左右。在L e a r n i n g+方法中,S C S算法的P D值在0.5 3左右,L e a r n i n g+过采样

23、方法均值在0.4 3左右;L e a r n i n g+欠采样方法均值在0.5 0左右;N B代价敏感方法均值在0.4 8左右。总体而言,在N B算法下S C S方法的准确率高出其它三种方法1 0%-2 0%;在L e a r n i n g+方法中S C S方法的准确率高出其它3种方法5%-1 0%;图4所示为不同算法在指标P F上的实验结果。图4 P F实验结果图从静态软件缺陷预测和动态增量学习的比较角度来看(N B和L e a r n i n g+算法),可以看出S C S算法相对于这2种算法来说有一定的提升,并且2种算法的表现结果相似。对于N B算法而言,在4种不同方法中,S C S

24、方法表现最好P F值在0.1 7 5左右,其次是代价敏感方法P F值在0.2 4左右,欠采样表现最差P F值在0.3 2 5左右。对于L e a r n i n g+算法而言,S C S方法、代价敏感方法和过采样方法随着数据量的增多P F值稳定在0.1 5左右,欠采样方法的P F值在0.2 0左右。总体来看,这2种算法对于采样后的扰动反应较为稳定。因此,可以看出S C S算法相对于欠采样、随机过采样和代价敏感方法来说,在指标P F上的表现有所提升,并且优于这些方法。其P F值低于其它方法5%-1 5%左右。图5所示为不同算法在指标AU C的实验结果。图5 AU C实验结果图78 第3期王文彪

25、,等:基于过采样和代价敏感技术的软件缺陷预测从静态软件缺陷预测与动态增量学习的缺陷预测比较中(N B、L e a r n i n g+)角度来看,S C S算法对这2个算法的提升是显然的,2种算法的表现结果相似。对于N B算法而言,S C S算法对其有提升效果但其表现并不稳定,平均值大约在0.6 3-0.6 4之间。对于L e a r n i n g+算法而言,L e a r n i n g+算法结合S C S算法依然表现出良好的结果,平均值大约在0.7 3左右。但总体而言,两种算法对于采样后的扰动后表现稳定。4结论(1)针对类不平衡对软件缺陷预测增量模型中基分类器分类效果不明显问题,提出了S

26、 C S算法可有效缓解类不平衡问题,进而提升分类算法的精度。(2)以P D、P F、AU C作为评价指标,S C S算法的准确率优于传统机器学习算法1 0%-2 0%,优于动态增量学习算法5%-1 0%;S C S算法的误报率低于其它学习算法5%-1 5%左右;S C S的AU C值对这2个算法的表现结果相似,稳定在在0.6 3-0.7 3左右。参考文献:1 马樱.基于机器学习的软件缺陷预测技术研究D.成都:电子科技大学,2 0 1 2.2 C HA L L A GU L L AV,B A S T AN IFB,Y E NIL,e t a l.Em p i r i c a l a s s e

27、s s m e n t o fm a c h i n e l e a r n i n gb a s e ds o f t w a r ed e f e c t p r e d i c t i o n t e c h-n i q u e sC/1 0 t hI E E EI n t e r n a t i o n a lW o r k s h o po nO b j e c t-O r i e n t e dR e a l-T i m eD e p e n d a b l eS y s t e m s.I E E E,2 0 0 5.3 V E N IM K,R AMUY.S o f t w a

28、 r eD e f e c tP r e d i c t i o nf r o m H i s t o r i c a lS o f t w a r eD a t aZ.2 0 1 2.4 傅艺绮,董威,尹良泽,等.基于组合机器学习算法的软件缺陷预测模型J.计算机研究与发展,2 0 1 7,5 4(3):9.5 M I CHA E L,J,S I E R S,e t a l.S o f t w a r ed e f e c t p r e d i c t i o nu s i n ga c o s t s e n s i t i v ed e c i s i o n f o r e s t a

29、 n dv o t i n g,a n dap o t e n t i a l s o l u t i o n t o t h ec l a s s i m b a l a n c ep r o b l e m-S c i e n c e D i r e c tJ.I n f o r m a t i o nS y s t e m s,2 0 1 5,5 1(J u l.):6 2-7 1.6 P O L I KA RR.L e a r n+:a ni n c r e m e n t a l l e a r n i n ga l g o r i t h m b a s e do np s y c

30、 h o-p h y s i o l o g i c a lm o d e l so fl e a r n i n gC/E n g i n e e r i n gi nM e d i c i n ea n dB i o l o g yS o c i e t y,2 0 0 1.P r o c e e d i n g so f t h e2 3 r dA n n u a l I n t e r n a t i o n a lC o n f e r e n c eo f t h e I E E E.I E E E,2 0 0 1.7 P O L I KA RR,B YO R I C KJ,K R

31、 AU S ES,e t a l.L e a r n+:a c l a s s i f i e r i n d e p e n d e n t i n c r e m e n t a l l e a r n i n ga l g o r i t h mf o r s u p e r v i s e dn e u-r a l n e t w o r k sC/I n t e r n a t i o n a l J o i n tC o n f e r e n c eo nN e u r a lN e t w o r k s.I E E E,2 0 0 2.8 P O L I KA RR,D E

32、P A S QUA L EJ,MOHAMME D HS,e ta l.L e a r n+.MF:Ar a n d o ms u b s p a c ea p p r o a c hf o rt h em i s s i n gf e a t u r ep r o b l e mJ.P a t t e r nR e c o g n i t i o n,2 0 1 0,4 3(1 1):3 8 1 7-3 8 3 2.9 D I T Z L E RG,MD MUHL B A I E R,P O L I KA R R.I n c r e m e n t a lL e a r n i n go fN

33、 e w C l a s s e si nU n b a l a n c e dD a t a s e t s:L e a r n+.UD N CC/S p r i n g e rB e r l i nH e i d e l b e r g.S p r i n g e rB e r l i nH e i d e l b e r g,2 0 1 0.1 0 田慧欣,毛志忠.基于L e a r n+的软测量建模新方法J.东北大学学报:自然科学版,2 0 0 9,3 0(1):4.1 1 E L KANC.T h eF o u n d a t i o n so fC o s t-S e n s i

34、t i v eL e a r n i n gC/I n t e r n a t i o n a l J o i n tC o n f e r e n c eo nA r t i f i c i a l I n t e l l i g e n c e.M o r g a nK a u f-m a n nP u b l i s h e r s I n c.2 0 0 1.1 2 李勇,黄志球,房丙午,等.代价敏感分类的软件缺陷预测方法J.计算机科学与探索,2 0 1 4,8(1 2):1 4 4 2-1 4 5 1.1 3 曲豫宾,陈翔.基于代价敏感主动学习的软件缺陷预测方法J.南通大学学报(自然

35、科学版),2 0 1 9,1 8(0 1):9-1 5.1 4 杨杰,燕雪峰,张德平.基于B o o s t i n g的代价敏感软件缺陷预测方法J.计算机科学,2 0 1 7,4 4(0 8):1 7 6-1 8 0+2 0 6.1 5 R E NZ,Z HUY,KAN G W,e t a l.A d a p t i v e c o s t-s e n s i t i v e l e a r n i n g:I m p r o v i n g t h e c o n v e r g e n c eo f i n t e l l i g e n t d i a g n o s i sm o d

36、 e l su n d e ri m b a l a n c e dd a t aJ.K n o w l e d g e-b a s e ds y s t e m s,2 0 2 2(A p r.6):2 4 1.1 6 L I U M,M I AOL,Z HAN GD.T w o-S t a g eC o s t-S e n s i t i v eL e a r n i n g f o rS o f t w a r eD e f e c tP r e d i c t i o nJ.I E E ET r a n s a c t i o n so nR e l i a b i l i-t y,2

37、 0 1 4,6 3(2):6 7 6-6 8 6.1 7 陆海洋,荆晓远,董西伟,等.基于代价敏感学习的软件缺陷预测方法J.计算机技术与发展,2 0 1 5,2 5(1 1):5 8-6 0+6 6.1 8 李莉,任振康,石可欣.代价敏感的B o o s t i n g软件缺陷预测方法J.计算机工程,2 0 2 2,4 8(0 3):1 7 5-1 8 0.1 9 M I N GT.C o s t-s e n s i t i v e l e a r n i n go f c l a s s i f i c a t i o nk n o w l e d g ea n d i t sa p p

38、l i c a t i o n s i nr o b o t i c sJ.M a c h i n eL e a r n i n g,1 9 9 3,1 3(1):7-3 3.2 0 叶志飞,文益民,吕宝粮.不平衡分类问题研究综述J.智能系统学报,2 0 0 9,4(0 2):1 4 8-1 5 6.2 1 于巧,姜淑娟,张艳梅,等.分类不平衡对软件缺陷预测模型性能的影响研究J.计算机学报,2 0 1 8,4 1(0 4):8 0 9-8 2 4.2 2 L OMA XS,VA D E R AS.As u r v e yo f c o s t-s e n s i t i v ed e c i

39、s i o nt r e e i n d u c t i o na l g o r i t h m sJ.A c mC o m p u t i n gS u r v e y s,2 0 1 3,4 5(2):1-3 5.2 3 王瑞.针对类别不平衡和代价敏感分类问题的特征选择和分类算法D.合肥:中国科学技术大学.2 4 L ANU B I L EF,V I S A G G I OG.E v a l u a t i n gp r e d i c t i v eq u a l i t ym o d e l s d e r i v e d f r o ms o f t w a r em e a s

40、u r e s:l e s s o n s l e a r n e dJ.J o u r n a l o f S y s-t e m sa n dS o f t w a r e,1 9 9 7,3 8(3):2 2 5-2 3 4.2 5 J E A T R AKU LP,WONGK W,F UN GC.C l a s s i f i c a t i o no f I m b a l a n c e dD a t ab yC o m b i n i n gt h eC o m p l e m e n t a r yN e u r a lN e t w o r ka n dS MO T EA l

41、 g o r i t h mC/N e u r a l I n f o r m a t i o nP r o c e s s i n g.M o d e l sa n dA p p l i c a t i o n s-1 7 t hI n t e r n a t i o n a lC o n f e r e n c e,I C ON I P2 0 1 0,S y d-88 华北理工大学学报(自然科学版)第4 5卷 n e y,A u s t r a l i a,N o v e m b e r2 2-2 5,2 0 1 0,P r o c e e d i n g s,P a r t I I.2

42、0 1 0.S o f t w a r eD e f e c tP r e d i c t i o nB a s e do nO v e r s a m p l i n ga n dC o s t S e n s i t i v eT e c h n o l o g yWANG W e n-b i a o1,2,3,Z HANGC h u n-y i n g1,2,3,MAY i n g-s h u o1,2,3(1.C o l l e g eo fS c i e n c e,N o r t hC h i n aU n i v e r s i t yo fT e c h n o l o g y

43、,T a n g s h a nH e b e i 0 6 3 2 1 0,C h i n a;2.K e yL a b o r a t o r yo fD a t aS c i e n c ea n dA p p l i c a t i o no fH e b e i,T a n g s h a nH e b e i 0 6 3 2 1 0,C h i n a;3.T a n g s h a nK e yL a b o r a t o r yo fD a t aS c i e n c e,T a n g s h a nH e b e i 0 6 3 2 1 0,C h i n a)K e y

44、w o r d s:s o f t w a r ed e f e c tp r e d i c t i o n;q u a s iu n b a l a n c ep r o b l e m;o v e r s a m p l i n gt e c h n o l o g y;c o s ts e n s i t i v et e c h n o l o g yA b s t r a c t:S o f t w a r ed e f e c tp r e d i c t i o nt e c h n o l o g yi sa ni m p o r t a n tm e t h o dt oe

45、 n s u r es o f t w a r eq u a l i t ya n di m p r o v es o f t w a r et e s t i n ge f f i c i e n c y.A c c u r a t e l yf i n d i n gs o f t w a r e m o d u l e s w i t h p o t e n t i a ld e f e c t sh a sg r a d u a l l yb e c o m ear e s e a r c hh o t s p o t i nt h ef i e l do fs o f t w a r

46、 ee n g i n e e r i n g.A i m i n ga t t h ef o r mo fs o f t w a r ed y n a m i cd a t af l o w,c o n s i d e r i n gt h es e r i o u si m b a l a n c eb e t w e e np o s i t i v ea n dn e g a t i v ec l a s se x a m p l e si ns o f t w a r ed a t a f l o w,ac l a s s i m b a l a n c em i t i g a t

47、 i o na l g o r i t h mS C S(C l a s s I m b a l a n c eM i t i g a t i o nA l g o r i t h m s)f o rd y n a m i cs o f t w a r ed a t a f l o ww a sp r o p o s e d.T a k i n gt i m es e r i e sa st h ep r e m i s e,s o f t w a r ed a t af l o w w a so b t a i n e d.C o m b i n i n go v e r s a m p l

48、 i n g t e c h n o l o g yw i t hc o s t s e n s i t i v e t e c h n o l o g y,t h e s e a r c hr a n g eo f p r e d i c t i o nm o d e lf o rp o t e n t i a ld e f e c td a t a w a si m p r o v e d.E x p e r i m e n t a lr e s u l t ss h o w t h a tS C S a l g o r i t h m c a ne f f e c t i v e l ya l l e v i a t et h ec l a s si m b a l a n c ep r o b l e m,a n df u r t h e ri m p r o v et h ea c c u r a c y o fc l a s s i f i c a t i o na l g o r i t h m.98 第3期王文彪,等:基于过采样和代价敏感技术的软件缺陷预测

展开阅读全文