收藏 分销(赏)

基于近邻规则和粒子群优化的半监督自标记方法.pdf

上传人:自信****多点 文档编号:649483 上传时间:2024-01-23 格式:PDF 页数:6 大小:1.96MB
下载 相关 举报
基于近邻规则和粒子群优化的半监督自标记方法.pdf_第1页
第1页 / 共6页
基于近邻规则和粒子群优化的半监督自标记方法.pdf_第2页
第2页 / 共6页
亲,该文档总共6页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、统计与决策2023年第18期总第630期0引言数据分类1是统计机器学习中的一个重要任务。在数据分类中,通过学习足够的有标记样本,一个分类模型能对无标记样本进行类别预测。半监督分类能利用少量有标记和大量无标记的样本去训练分类模型和完成分类任务。经过数十年的研究,学者们提出了许多半监督分类范式2,包括半监督支持向量机、半监督优化路径森林3、半监督k近邻分类器4、半监督自标记方法5等。半监督支持向量机、半监督优化路径森林和半监督k近邻分类器是算法水平方法。他们能改进传统的分类器(或分类模型),如支持向量机分类器、优化路径森林分类器3和最近邻分类器4,以使得被改进的分类器能适用于包含有标记和无标记样本

2、的半监督数据集。而半监督自标记方法是数据水平方法,它能用被自己预测的样本来扩充初始的有标记集,然后用被扩充的有标记集来训练给定的分类模型和完成数据分类任务。Yarowsky(1995)5提出了最早的自标记方法,并把它应用于文本分类。Triguero等(2015)6于2015年对自标记方法进行了综述,并把自标记方法大致划分为自训练方法、协同训练方法、基于多视图的自标记方法和基于分歧的自标记方法。STSFCM(Self-Training with Semi-Super-vised Fuzzy C-Means)7和 STDP(Self-Training with DensityPeaks)8是典型的

3、自训练方法。在迭代过程中,STSFCM和STDP分别用半监督模糊C均值聚类9和密度峰值聚类10来发现容易被预测正确的(即具有高置信度的)无标记样本,并用一个给定的分类器来迭代地预测和学习他们。Triguero等(2014)11发现,由于初始有标记样本数量不足和分布受限,因此在迭代过程中,自标记方法会不可避免地误预测无标记样本。如果自标记方法把被误预测样本加入有标记集,那么自标记方法的性能将明显降低,且将造成更多的误预测。学者们提出用数据剪辑技术(如ENN(Edited Nearest Neighbor)11、CEWS(Cut Edge WeightStatistic)11、ENaNE(Exte

4、nded Natural Neighbor Editing)12等)去识别和移除在自标记方法迭代过程中的被误预测样本,从而克服误标记。例如,MLSTE13用ENN去识别和移除在自训练方法迭代过程中的被误预测样本。STDP-CEWS14用CEWS去识别和移除在STDP迭代过程中的被误预测样本。STDPNF13用ENaNE去识别和移除在STDP迭代过程中的被误预测样本。然而,许多数据剪辑技术严重依赖于特定的假设。例如,ENN、CEWS和ENaNE假设被误预测的样本与其周围样本有不同的类别。当给定假设不被满足时,数据剪辑技术容易误识别被误预测的样本。为了克服误标记问题和相关解决方案(即数据剪辑技术1

5、114)中的缺陷,本文提出一种基于近邻规则和粒子群优化的自标记方法(a Self-Labeled Method based on基于近邻规则和粒子群优化的半监督自标记方法周鹏1,刘河2,黎隽男3(1.重庆人文科技学院 工商学院,重庆 401524;2.重庆市教育科学研究院,重庆 400015;3.重庆工商大学 人工智能学院,重庆 400067)摘要:自标记方法能用少量有标记样本和大量无标记样本来训练给定分类模型。误标记是自标记方法中的主要挑战。尽管学者们用数据剪辑技术去识别和移除在自标记方法迭代过程中被误预测的样本,但是许多数据剪辑技术严重依赖于特定假设。为了克服误标记问题和相关解决方案中的缺

6、陷,文章提出一种基于近邻规则和粒子群优化的自标记方法SLM-NNPSO。首先,SLM-NNPSO用有标记集去训练一个给定的分类模型。其次,SLM-NNPSO用近邻规则来发现具有高置信度的无标记样本,并用被训练的分类模型来预测他们。再次,SLM-NNPSO用粒子优化来识别和移除被误预测的样本,并把被正确预测的样本加入有标记集中。上述过程不断迭代,直到SLM-NNPSO没有发现具有高置信度的无标记样本。最后,SLM-NNPSO输出在迭代过程中被训练的分类模型。经仿真实验证明,就训练k近邻分类器的平均分类正确率而言,在来自销售市场、医学检测、图像识别等领域的12个真实数据集上,SLM-NNPSO优于

7、5个流行的自标记方法。关键词:统计机器学习;数据挖掘;半监督分类;自标记方法;粒子群优化算法;智能管理中图分类号:TP181文献标识码:A文章编号:1002-6487(2023)18-0044-06基金项目:重庆市教育科学规划项目(K22YG218233);重庆市教委科学技术研究计划重点项目(KJZD-K202114401);重庆市教育科学规划课题一般课题(k23YG6020127);重庆市自然科学基金面上项目(CSTB2022NSCQ-MSX1415)作者简介:周鹏(1988),男,重庆人,硕士,副教授,研究方向:应用数学、数学分析。刘河(1975),男,重庆人,博士,讲师,研究方向:数据预

8、处理、机器学习。黎隽男(1992),男,重庆人,博士,讲师,研究方向:数据预处理、机器学习。理 论 探 讨DOI:10.13546/ki.tjyjc.2023.18.00844统计与决策2023年第18期总第630期Nearest Neighbor rules and Particle Swarm Optimization,SLM-NNPSO),采用一种新的近邻规则去快速地发现具有高置信度的无标记样本,提出用粒子群优化算法去识别和移除被误预测的样本,而无须依赖任何假设,并在来自销售市场、医学检测、图像识别等领域的真实数据集上进行仿真实验,以验证SLM-NNPSO的优越性。1理论基础1.1基本术

9、语和符号设XSSL=x1xn代表一个包含有标记和无标记样本的半监督数据集,XSSL=XLXU。XSSL中的样本数为n。XL=(x1y1)(x2y2)(xlyl)代表有标记样本集。yi(i=12l)是样本xi的类标记。XU=xl+1xn代表无标记样本集。xi=xi1xi2xidxiD代表具有D个属性的第i个样本。本文涉及的主要术语和符号如下:(1)Particle=P1P2PN代表一个拥有N个粒子的粒子群。(2)Si=(Si1Si2SiM)代表粒子Pi的位置向量。(3)Vi=(Vi1Vi2ViM)代表粒子Pi的速度向量。(4)c1和c2代表学习率。(5)w代表惯性权重。(6)gbest代表粒子群

10、Particle中最好的粒子的位置。(7)pbesti代表粒子Pi在迭代过程中的最好位置。(8)NN(xiXSSL)代表样本xi在半监督数据集XSSL上的k近邻集合。(9)XConf代表具有高置信度的无标记样本集。(10)Xnew代表新预测的样本集。(11)Xcorrect代表被正确预测的样本集。(12)XnewPi代表用粒子Pi在Xnew上形成的样本子集。(13)fitnessgi代表粒子Pi第g次迭代的适应度值。(14)fitnessgbest代表最好粒子的适应度值。1.2粒子群优化算法Kennedy和Eberhart于1995年提出了粒子群优化算法(Particle Swarm Opti

11、mization,PSO)15。与传统方法(如数据剪辑技术等)1114相比,PSO不需要对样本的几何、分布、类关系等作出具体假设16。与遗传算法、蚁群算法、模拟退火算法等优化算法相比,PSO易于实现,收敛速度快,且易于找到全局最优解。PSO有两种版本,即CPSO(Con-tinuous PSO)17和 BPSO(Binary PSO)16。学者们已经把BPSO应用于许多组合问题,如特征选择、样本子空间优化等16,17。接下来,本文简单地介绍BPSO的原理。设Particle=P1P2PN是一个拥有N个粒子的粒子群。每个粒子Pi(i=12N)有一个位置向量Si=(Si1Si2SiM)和速度向量V

12、i=(Vi1Vi2ViM)。M是针对特定问题的解空间的维数。位置Si,j(i=12N;j=12M)仅有0或1的值,这暗示是否需要选择粒子Pi(i=12N)的第j(j=12M)个解空间。起初,BPSO用式(1)和式(2)来初始化每个粒子Pi的位置向量Si和速度向量Vi:Sij=1如果 rand()0.50如果 rand()0.5(1)Vgij=-Vmax+2rand()Vmax(2)在式(1)中,函数rand()返回0至1之间的随机值。在式(2)中,Vmax是一个参数,它用来控制每个粒子Pi的速度Vij的最大值。当初始化位置向量Si和速度向量Vi之后,BPSO迭代地更新每个粒子Pi的速度向量Vi

13、和位置向量Si,并计算每个粒子Pi的适应度值(通常用一个与问题相关的适应度函数来计算适应度值),直到BPSO达到最大迭代次数G。在迭代过程中,BPSO用式(3)和式(4)来更新每个粒子Pi的速度向量Vi和位置向量Si。Vij=wVij+c1r1(pbestij-Sij)+c2r2(gbestj-Sij)(3)Sij=1 如果 rand()finessgbestgbest=Temp_gbest,fitnessgbest=Max_fitnessend ifend while用gbest从Xnew中发现样本子集XcorrectreturnXcorrect;如前文描述,BPSO 拥有具有N个粒子的粒子

14、群Particle=P1P2PN。每个粒子Pi有一个速度向量Vi=(Vi1Vi2ViM)和位置向量Si=(Si1Si2SiM)。在SLM-NNPSO中,每个粒子Pi可以视为Xnew中的一个样本子集XnewPi。同样,Sij(i=12N;j=12M)仅有0值或1值。如果Sij等于0,那么用粒子Pi所形成的样本子集XnewPi包含Xnew中的第j个样本,反之亦然。在SLM-NNPSO的BPSO中,M等于Xnew的样本个数(即|Xnew|)。SLM-NNPSO中的BPSO需要一个与问题相关的适应度函数去评估每一个粒子的适应度值。本文用式(6)来计算每个粒子Pi的适应度值。fitnessgi=accu

15、racy(fXTrainingXValidating)(6)在式(6)中,fitnessgi代表粒子Pi在第g次迭代中的适应度值;accuracy(fXTrainingXValidating)返回一个给定分类器f在验证集XValidating上的分类正确率,且分类器f把XTraining作为训练集。本文把式(6)中的分类器f设置为k近 邻 分 类 器(k=3),且 让XTraining=XLXnewPi,并 让XValidating=XL。算法1描述了用BPSO去识别和移除被误预测样本的伪代码。本文把算法 1 记为 BPSOSSO(BP-SO-based SSO)在算法1的第9行上,fitne

16、ssgbest代表在Particle中最理 论 探 讨46统计与决策2023年第18期总第630期好粒子的适应度值。在算法1的第18行上,Sgi代表粒子Pi在第g次迭代中的位置向量。在算法 1 的第 26 行上,算法1用gbest来从Xnew中发现样本 子 集Xcorrect。具 体 地,如 果gbestj(j=1M)为 0,那么这代表子集Xcorrect包含Xnew中的第j个样本,反之亦然。与数据剪辑技术1115相比,由于BPSO的特性,因此算法1无须对样本的几何、分布、类关系等作出具体假设。2.3SLM-NNPSO的伪代码和特性SLM-NNPSO的伪代码如算法2所示(见表2)。表2算法2:

17、SLM-NNPSO项目输入输出123456789内容XL、XU、c1、c2、Vmax、G、w和k被训练的分类器Cdo用有标记集XL去训练一个给定的分类器C用式(5)从无标记集XU中发现具有高置信度的无标记样本Xconf用被训练的分类器C去预测Xconf的类标记,并形成新标记集合XnewXcorrect=BPSOSSO(XnewNc1c2VmaxGw)把被正确标记的样本集合Xcorrect加入XL中,即XL=XLXcorrectXU=XU-XconfwhileXconfreturnCSLM-NNPSO 需要输入参数c1、c2、Vmax、G、w和k。其中,c1和c2是算法1中的学习率参数;Vmax

18、是算法1中的速度边界参数,G是算法1中的最大迭代次数参数,w是算法1中的惯性权重参数,k是用于公式(5)和发现高置信度无标记样本的参数。在算法 2 的第 5 行上,SLM-NNPSO 用 BPSO(即算法 1BPSOSSO)重新标记集合Xnew中选出被正确标记的集合Xcorrect,从而过滤掉被误预测的样本,且不需要特定的假设。接下来,本文将用实验来证明SLM-NNPSO的有效性。3仿真实验3.1 仿真实验的设置本文用一台具有 2.10GHz 的 Inter(R)Xeon(R)Silver4100 CPU 和 32G 内存的个人电脑去运行所有的仿真实验。从UCI机器学习公开数据库(http:/

19、archive.ics.uci.edu/ml/)和 Kaggle 机器学习公开数据库(https:/ 3 中可以发现,实验数据集的样本数在 214 到5000范围内,实验数据集的属性数在6到44范围内,实验数据集的类别数在2到10范围内。本文用10折交叉验证把每个真实数据集划分为测试集和训练集。在训练集中,本文把10%50%的样本作为有标记样本,并且把剩余样本作为无标记样本。全部实验重复10次,把10次实验的平均分类正确率(Average Classification Accuracy,ACA)作为评估标准,如式(7)所示:ACA=i=110|CorXitest|Xitest10(7)在式(7

20、)中,Xitest代表第i次实验的测试集,CorXitest代表在Xitest中被训练的分类模型预测正确的样本。另外,表4描述了实验所采取的对比方法。本文将5个流行的半监督自标记方法作为对比方法。在表4中,MLSTE13、STDPCEWS8和STDPNF9是自训练方法,Op-FSCO18是基于多视图的自标记方法,Tri-training19是基于分歧的自标记方法。本文把对比方法的参数设置为他们的标准版本。表4用于对比的半监督自标记方法序号123456对比方法MLSTESTDPCEWSSTDPNFOp-FSCOTri-trainingSLM-NNPSO参数设置k=5Pa=2和=0.05Pa=2k

21、=3N=30,c1=2,c2=2,Vmax=5,G=50,w=1,k=10在对比方法中,本文把k近邻分类器(k=3)设置为最终训练的分类器。换句话说,在实验中,表4中的自标记方法用少量有标记样本和大量无标记样本去训练k近邻分类器(k=3)。然后,本文用平均分类正确率来评估对比方法的有效性。3.2采用真实数据集验证SLM-NNPSO本文用表3中的真实数据集和表4中的对比方法来验证SLM-NNPSO的有效性。用10折交叉验证把每个真实数据集划分为训练集和测试集,在每个真实数据集的训练集上,把10%的样本作为有标记样本,且把剩余样本作为无标记样本。下页表5展示了对比方法就训练k近邻分类器的平均分类正

22、确率。从表5中可以看出,在8个真实数据集(即Audio、SPECTF Heart、Wisconsin Diagnostic Breast Cancer、理 论 探 讨表3实验的真实数据集序号123456789101112真实数据集名称AudioSPECTF HeartContraceptive Method ChoiceYeastWisconsin Diagnostic Breast CancerGlassVehicleVertebral ColumnWaveFormWholesale CustomersWine Quality WhiteWireless Indoor Localizatio

23、n样本数77626714731484569214846310500044048982000属性数2644983010186217117类别数2231026423272数据集的应用背景预测听力的数据集预测心脏病的数据集预测女性避孕方法的数据集预测酵母菌种类的数据集预测乳腺癌症的数据集预测玻璃种类的数据集预测汽车种类的数据集依据六种生物力学特征值来预测骨科患者病情的数据集预测波形的数据集预测批发商客户的数据集预测红酒质量的数据集依据wifi信号强度来预测室内位置的数据集47统计与决策2023年第18期总第630期Glass、Vehicle、Vertebral Column、Wholesale Cu

24、stomers 和Wine Quality White)上,SLM-NNPSO实现了最高的平均分类正确率。在 4 个真实数据集(即 Contraceptive MethodChoice、Yeast、WaveForm 和 Wireless Indoor Localization)上,SLM-NNPSO所实现的平均分类正确率稍微低于对比方法。可能的原因是,由于有标记集包含噪声或离群点,因此SLM-NNPSO中的BPSO(即算法1BPSOSSO)仅搜索到一个局部最优解。从表5中的“平均值”行也可以发现,在所有数据集的平均分类正确率上,SLM-NNPSO能实现最高的平均值,且比 MLSTE、STDPC

25、EWS、STDPNF、Op-FSCO 和 Tri-training分别平均高出1.11%、1.25%、0.55%、1.53%和1.19%。本文用Friedman检验20中的平均秩去分析表5中的数据。平均秩是表5中各组数据的秩的平均值。例如,对比方法在表5中的“Audio”行上的秩(升序)为1,3,4,2,5,6。如果一个对比方法越优越,它将能实现越高的平均秩。从表5的平均秩行可以看出,SLM-NNPSO实现了最高的平均秩。另外,本文也采用Wilcoxon秩和检验20去分析表5中的数据。本文把Wilcoxon秩和检验的显著性水平设置为0.05。在表5的“Wilcoxon秩和检验”行中,符号“+”

26、代表SLM-NNPSO显著地优于该栏上的对比方法,符号“=”代表SLM-NNPSO和该栏上的对比方法没有显著差别,符号“-”代表该栏上的对比方法显著优于SLM-NNPSO。从表5的“Wilcoxon秩和检验”行可以看出,就训练k近邻分类器而言,SLM-NNPSO 显著地优于 MLSTE、STDPCEWS、Op-FSCO和Tri-training。总的来说,表5中的数据能证明,在大多数的数据集上,SLM-NNPSO能优于5个流行的自标记方法。3.3有标记样本比例影响的实验验证为了讨论初始有标记样本比例的影响,本文把初始的有标记样本的比例从10%增加到50%。图2展示了对比方法在不同有标记样本比例

27、的情况下训练k近邻分类器的平均分类正确率。从图2可以看出,随着初始有标记样本比例的增加,初始有标记样本将变多,且所有对比方法将实现更高的平均分类正确率。另外,当初始有标记样本比例为10%、20%、40%和50%时,SLM-NNPSO 在 Wisconsin Diagnostic BreastCancer上实现了最高的平均分类正确率。当初始有标记样本比例为10%、40%和50%时,SLM-NNPSO在Vehicle上实现了最高的平均分类正确率。当初始有标记样本比例介于10%50%时,SLM-NNPSO 在 Vertebral Col-umn上实现了最高的平均分类正确率。当初始有标记样本比例为 1

28、0%、40%和 50%时,SLM-NNPSO在Wholesale Customers上实现了最高的平均分类正确率。当初始有标记样本比 例 为 20%、30%、40%和 50%时,SLM-NNPSO在Yeast上实现了最高的平均分类正确率。当初始有标记样本比例为 10%、20%、40%和 50%时,SLM-NNPSO在Wine Quality White 上实现了最高的平均分类正确率。10%20%30%40%50%初始有标记样本的比例(%)9695949392平均分类正确率(%)MLSTESTDPCEWSSTDPNFOp-FSCOTri-trainingSLM-NNPSO807570656055

29、504540平均分类正确率(%)MLSTESTDPCEWSSTDPNFOp-FSCOTri-trainingSLM-NNPSO10%20%30%40%50%初始有标记样本的比例(%)(a)Wisconsin Diagnostic Breast Cancer(b)Vehicle平均分类正确率(%)959085807570656010%20%30%40%50%10%20%30%40%50%939291908988878685平均分类正确率(%)初始有标记样本的比例(%)初始有标记样本的比例(%)MLSTESTDPCEWSSTDPNFOp-FSCOTri-trainingSLM-NNPSOMLSTE

30、STDPCEWSSTDPNFOp-FSCOTri-trainingSLM-NNPSO(c)Vertebral Column(d)Wholesale Customers61605958575655平均分类正确率(%)10%20%30%40%50%初始有标记样本的比例(%)5150494847464510%20%30%40%50%初始有标记样本的比例(%)MLSTESTDPCEWSSTDPNFOp-FSCOTri-trainingSLM-NNPSOMLSTESTDPCEWSSTDPNFOp-FSCOTri-trainingSLM-NNPSO平均分类正确率(%)(e)Yeast(f)Wine Qua

31、lity White图2 对比方法在6个真实数据集上的平均分类正确率总的来说,图2中的数据能证明,在大多数的初始有标记样本的比例下,SLM-NNPSO能优于5个流行的自标记方法。3.4计算效率的实验验证下页表6展示了对比方法在真实数据集上的平均运行时间(10次执行)。从表6中可以看出,就平均运行时间而言,在全部数据集上,SLM-NNPSO快于STDPCEWS和Op-FSCO。表5对比方法训练k近邻分类器的平均分类正确率(单位:%)数据集名称AudioSPECTF HeartContraceptive Method ChoiceYeastWisconsin Diagnostic Breast C

32、ancerGlassVehicleVertebral ColumnWaveFormWholesale CustomersWine Quality WhiteWireless Indoor Localization平均值平均秩Wilcoxon秩和检验MLSTE88.3187.8956.7156.7692.6769.8353.7670.8980.3288.1946.7897.8274.163.17+STDPCEWS89.4287.6455.1958.1192.7969.7853.3771.5978.6587.3946.6597.6474.022.75+STDPNF89.8788.1957.8258

33、.0593.2367.9252.1471.6582.8188.4847.5898.9274.724.33=Op-FSCO88.5686.1954.7357.8592.9168.6752.7970.5579.8186.5247.3299.0173.742.50+Tri-training90.9187.4255.6256.7593.4267.7453.8470.8779.1487.4346.4599.4174.083.00+SLM-NNPSO93.5188.4956.9557.7894.3470.8254.1171.9780.1188.8247.7198.6975.275.25N/A理 论 探 讨

34、48统计与决策2023年第18期总第630期4结束语为了克服自标记方法中的误标记问题和相关解决方案(即数据剪辑技术)中的缺陷,本文提出一种基于近邻规则和粒子群优化的自标记方法SLM-NNPSO,其包含如下主要步骤:(1)用有标记集去训练一个给定的分类模型;(2)用近邻规则从无标记集中发现具有高置信度的无标记样本集;(3)用分类模型来预测具有高置信度的无标记样本;(4)用BPSO来识别和移除被误预测的样本,并把被正确预测的样本加入有标记集中;(5)重复步骤(1)至步骤(4),当没有发现具有高置信度的无标记样本时,SLM-NNPSO输出在迭代过程中被训练的分类模型。相比于已有的半监督自标记方法,S

35、LM-NNPSO具有如下优势:(1)它能用近邻规则去快速地发现迭代过程中具有高置信度的无标记样本;(2)它能用BPSO来识别和移除被误预测的样本,且不需要对被误预测的样本作出具体的假设。在仿真实验中,本文用12个来自各个领域的真实数据集和5个流行的自标记方法(即MLSTE、STDPCEWS、STDPNF、Op-FSCO和Tri-training)来验证SLM-NNPSO的有效性。结果显示:(1)由于SLM-NNPSO能用粒子群优化去更好地克服误标记问题,因此,在大多数的数据集上,且在大多数的初始有标记样本比例下,SLM-NNPSO均优于5个流行的自标记方法;(2)就平均运行时间而言,SLM-N

36、NPSO快于STDP-CEWS和Op-FSCO。参考文献:1许敏.隐空间特征增强自标记半监督SVM分类新方法J.统计与决策,2022,(7).2Wang Y,Chen S.Safety-aware Semi-supervised Classification J.IEEE Transactions on Neural Networks and Learning Systems,2013,24(11).3Willian P A,Alexandre X F,Joo P P.Multi-label Semi-supervisedClassification Through Optimum-path

37、Forest J.Information Sciences,2018,(465).4吴强.基于局部均值k近邻和密度峰值的实例约简J.统计与决策,2022,(24).5Yarowsky D.Unsupervised Word Sense Disambiguation Rivaling Supervised Methods C.In Proceedings of the 33rd Annual Meeting on Association forComputational Linguistics,1995.6Triguero I,Garca S,Herrera F.Self-labeled Tec

38、hniques for Semi-supervised Learning:Taxonomy,Software and Empirical Study J.Knowledge and Information Systems,2015,42(2).7Gan H,Sang N,Huang R,et al.Using ClusteringAnalysis to Improve Semi-supervised Classification J.Neurocomputing,2013,(101).8Wu D,Shang M S,Luo X,et al.Self-training Semi-supervis

39、ed Classification Based on Density Peaks of Data J.Neurocomputing,2018,(275).9徐久成,侯钦臣,瞿康林,等.面向时间序列的鲁棒性半监督模糊C均值聚类J.计算机工程与应用,2023,59(8).10吴成英,张清华,赵凡,等.基于密度峰值聚类的超区间粒化方法及其分类模型J.计算机学报,2023,46(8).11Triguero I,Sez J A,Luengo J,et al.On the Characterization ofNoise Filters for Self-training Semi-supervised

40、in Nearest NeighborClassification J.Neurocomputing,2014,(132).12Li J,Zhu Q,Wu Q.A Self-training Method Based on Density Peaksand an Extended Parameter-free Local Noise Filter for k NearestNeighbor J.Knowledge-based Systems,2019,(184).13Wei Z,Wang H,Zhao R.Semi-supervised Multi-label Image Classifica

41、tion Based on Nearest Neighbor Editing J.Neurocomputing,2013,(110).14Li Y,Guo M.A New Relational Tri-training System With AdaptiveData Editing for Inductive Logic Programming J.Knowledge-basedSystems,2012,(35).15万春林,张卫.基于改进粒子群算法的基数受限最优化问题研究 J.统计与决策,2021,(20).16陈少淼,陈瑞,梁伟,等.面向复杂约束优化问题的进化算法综述J.软件学报,202

42、3,34(2).17黎建宇,詹志辉.面向大规模特征选择的自监督数据驱动粒子群优化算法J.智能系统学报,2023,18(1).18Nan F,Tang Y,Yang P,et al.A Novel Sub-kmeans Based onCo-trainingApproachbyTransformingSingle-viewIntoMulti-view J.Future Generation Computer Systems,2021,(125).19Zhou Z H,Li M.Tri-training:Exploiting Unlabeled Data UsingThree Classifier

43、s J.IEEE Transactions on Knowledge and Data Engineering,2005,17(11).20李兴国,赵晓冬.中国大学评价体系相关性和稳定性的统计学检验J.统计与决策,2018,(23).(责任编辑/梁红)表6对比方法的平均运行时间(单位:秒)数据集名称AudioSPECTF HeartContraceptive Method ChoiceYeastWisconsin Diagnostic Breast CancerGlassVehicleVertebral ColumnWaveFormWholesale CustomersWine Quality

44、 WhiteWireless Indoor LocalizationMLSTE0.180.170.850.810.190.140.200.162.110.172.031.42STDPCEWS0.330.271.371.320.290.220.330.264.470.273.792.37STDPNF0.250.191.231.110.200.160.310.172.760.182.411.73Op-FSCO0.370.311.481.440.310.230.370.285.180.294.272.68Tri-training0.190.150.960.920.150.090.250.121.880.131.621.21SLM-NNPSO0.280.221.261.240.240.150.290.192.450.202.242.01理 论 探 讨49

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服