半监督Relief-F特征选择算法.pdf

资源描述

1、第4 7卷/第4期/2 0 2 3年7月河北师范大学学报/自然科学版/J O U R N A LO FH E B E IN O R M A LU N I V E R S I T Y(N a t u r a lS c i e n c e)V o l.4 7N o.4J u l.2 0 2 3文章编号:1 0 0 0-5 8 5 4(2 0 2 3)0 4-0 3 4 8-0 6收稿日期:2 0 2 2-0 9-2 2;修回日期:2 0 2 2-1 1-1 0基金项目:国家自然科学基金(6 2 2 7 6 1 5 8);山西省回国留学人员科研资助项目(2 0 2 1-0 0 7)作者简介:靳炳烨(

2、1 9 9 8),男,山西晋城人,硕士研究生,研究方向为粒计算和数据挖掘.半监督R e l i e f-F特征选择算法靳炳烨,王锋,魏巍(山西大学计算机科学与技术学院,山西太原 0 3 0 0 0 6)摘要:数据规模的不断增加,使得为数据库中全部样本做标记变得尤为困难,数据集也因此呈现出了明显的弱标记性.为此,针对大规模少数标记数据集的特征选择问题,基于经典的R e l i e f-F算法,通过综合考虑有标记样本与无标记样本对数据样本近邻的影响,重新定义样本近邻的搜索策略,提出了一种面向符号数据的半监督特征选择算法.为进一步分析新算法的有效性,仿真实验中选取了5组U C I数据集,并引

3、入机器学习中3个常用分类器对新算法和对比算法的特征选择结果的分类性能作了分析和比较,实验结果很好地验证了本文中提出的新算法的有效性和可行性.关键词:特征选择;R e l i e f-F算法;半监督学习;距离度量中图分类号:T P1 8 2 文献标志码:A d o i:1 0.1 3 7 6 3/j.c n k i.j h e b n u.n s e.2 0 2 3 0 1 0 1 3S e m i-s u p e r v i s e dR e l i e f-FF e a t u r eS e l e c t i o nA l g o r i t h mJ I NB i n g y e,WAN

4、GF e n g,WE IW e i(S c h o o l o fC o m p u t e ra n dI n f o r m a t i o nT e c h n o l o g y,S h a n x iU n i v e r s i t y,S h a n x iT a i y u a n 0 3 0 0 0 6,C h i n a)A b s t r a c t:W i t ht h e i n c r e a s eo f d a t a s i z e,i t i sv e r yd i f f i c u l t t od e t e r m i n e l a b e l

5、s f o r a l l o b j e c t s i nd a t a b a s-e s.D a t as e t sp r e s e n tw e a km a r k e d n e s sa sw e l l.H e n c e,f o rf e a t u r es e l e c t i o no np a r t i a l l a b e l e dd a t as e t s,b yr e f e r e n c et o c l a s s i c a l R e l i e f-F a l g o r i t h m,a n e f f e c t i v es

6、e m i-s u p e r v i s e df e a t u r es e l e c t i o n a l g o r i t h m i sp r o p o s e dt od e a lw i t hp a r t i a l l a b e l e dd a t a.I n t h i s a l g o r i t h m,o n t h eb a s i so f c o n s i d e r i n g l a b e l e ds a m p l e s a n du n l a b e l e ds a m p l e s,ak i n do fn e ws e

7、 a r c hs t r a t e g yf o r f i n d i n gn e a r e s tn e i g h b o r s i s i n t r o d u c e d.F o ra n a l y z i n ge f f e c t i v e n e s so f t h en e wa l g o r i t h m,f i v eU C Id a t as e t s a n d t h r e e c o mm o n l yu s e dc l a s s i f i e r s a r ee m p l o y e d t oi l l u s t r

8、a t ec l a s s i f i c a t i o np e r f o r m a n c eo ft h en e wp r o p o s e da l g o r i t h m.T h ec o m p a r i s o na n da n a l y s i sr e s u l t ss h o wt h a t t h en e ws e m i-s u p e r v i s e df e a t u r es e l e c t i o na l g o r i t h mi se f f e c t i v ea n df e a s i b l e.K e

9、yw o r d s:f e a t u r es e l e c t i o n;r e l i e f-Fa l g o r i t h m;s e m i-s u p e r v i s e d l e a r n i n g;d i s t a n c em e a s u r e随着互联网技术和信息产业的快速发展,数据获取和采集的能力飞速提高,数据规模呈现了前所未有的增长和庞大.如何从海量的大数据中抓取重点,挖掘出最有用的信息一直以来便是智能信息领域中的研究重点和热点1.特征选择是数据挖掘领域中一种常见的数据降维技术,主要通过一定的度量来选择优的特征,移除不相关或冗余特征,进而提高学

10、习模型的性能,降低过拟合等2-6.目前,依照数据样本是否具有类别信息,现有特征选择方法可分为有监督特征选择、无监督特征选择和半监督特征选择7-8.其中,半监督特征选择算法便是将半监督学习机制引入到了处理少数标记数据的特征选择中.针对半监督特征选择的探索,一些研究者也已经取得了可观的研究成果9-1 3.文献1 4 提出了一种新颖的基于空间覆盖的半监督特征选择算法,该算法同时利用已标签数据和未标签数据进行特征选择.文献1 5基于粗糙集理论和信息熵的概念,提出了一种基于信息熵的粗糙特征选择算法.文献1 6 基于集合间相关度和自相关度的定义提出了一种基于类标号扩展的半监督特征选择算法.此外,文献1 7

11、-1 8 通过引入面向部分标记数据的特征重要度,设计了基于粗糙集理论的半监督粗糙特征选择算法.在此基础上,为进一步提高大数据背景下半监督特征选择的算法性能和可移植性,并充分利用大量无标记样本.本文中,笔者通过重新定义数据样本近邻的求解和搜索策略,以符号数据为研究对象,设计了一种基于R e l i e f-F的半监督特征选择算法.R e l i e f-F算法是较为常用的一种特征选择算法,由于其简单、易于实现已经被广泛应用于多个领域.经典的R e l i e f-F算法仅适用于有标记数据集1 9,为有效处理少数标记数据集,刘吉超等2 0在R e l i e f-F算法上进行扩展,把无标签数据和有

12、标签数据综合来考虑,从而提出了一种基于R e l i e f-F的半监督特征选择算法.该算法主要通过使用无标记样本辅助有标记样本来确定样本的近邻,进而更新特征的权重.但是该算法求解过程中只使用了少部分无标记样本,大量的无标记样本中蕴含的信息仍被忽略掉.为此,在文献2 0 算法的基础上,笔者对于有标记样本的近邻求解机制进行了优化,提出了一种优化的基于R e l i e f-F的半监督特征选择算法.为进一步验证新算法的有效性,仿真实验中选取了5组U C I数据集,并引入机器学习中3个常用分类器对新算法和对比算法的特征选择结果的分类性能作了分析和比较,实验结果很好地验证了本文中提出的新算法的有效性和

13、可行性.1 基本概念为有效度量符号数据样本的距离,进而确定其近邻样本,算法中引入了一种基于粗糙集的面向符号数据的距离度量,为此,粗糙集理论以及该距离度量的相关概念介绍如下.1.1 粗糙集相关概念粗糙集理论中,一个含有类信息的数据集通常被表示为一个四元组S=(U,A,V,f),其中U是数据样本集,称为论域,A=CD,C是特征集,D是类别信息,V=UaAVa,Va是其值属性a的值域.f:UAV是一个信息函数.对于任意的aA,并且xU,f(x,a)Va.令BC,x,yU有如下的等价关系:RB=(x,y)UU|f(x,a)=f(v,a),aB.由等价关系RB形成的等价类表示为 xB=y|(x,y)RB

14、.对于每个数据集的子集XU和BA,X的下近似和上近似算子分别为 B-(X)=xU|xBX 和B-(X)=xU|xB.1.2 一种基于粗糙集的距离度量基于上述粗糙集理论,为有效度量符号数据样本的相似性,文献2 1 提出了一种基于粗糙集的距离度量.该度量方式不仅考虑了在同一特征下不同特征值的异同,还考虑了其他特征对特征值距离(或相似度)的影响,即同一特征下2个值之间的相似度不仅取决于它们本身还与它们所处的环境有关.定义1 令S=(U,CD)是一个符号数据表,对于任意aiC,设p,qVai,p和q相对于ai的内部距离定义为 ai(p,q)=1,pq,0,p=1.(1)定义2 令S=(U,CD)是一个

15、符号数据表,对于任意aiC,设p,qVai,p和q相对与属性aj(ji)的外部距离定义为 aj=1UxUuajX(x)-uajY(x),(2)其中X=x|f(x,ai)=p,xU,Y=x|f(x,ai)=q.定义3 令S=(U,CD)是一个符号数据表,对于任意aiC,设p,qVai,p和q关于属性集A的定义为 (p,q)=1mmj=1aj(p,q),其中m表的特征数量.定义4 令S=(U,CD)是一个符号数据表,xi,xjU(1i,jn),xi和xj之间的距离定义为943 d1(xi,xj)=mi=1(f(xi,al),f(xj,al).(3)2 一种基于R e l i e f-F的半监督特征

16、选择算法2.1 算法思想R e l i e f-F算法是对经典特征选择算法R e l i e f的拓展,可有效处理多分类问题,其核心思想是:属于相同类的数据样本,那么它们之间的距离应该更近;而对于不同类的数据样本,那么它们之间的距离应该相对更远.因此,一个好的特征应该是让同类的数据样本离的更近,不同类的数据样本离的更远.R e l i e f-F算法的特征权重更新公式的主要框架是:在每个特征权重值初始值的基础上,不断减少选定数据样本及其同类近邻在该特征上的差异值,同时不断增加选定数据样本及其不同类近邻在该特征上的差异值.如果某特征的权重值较大,则说明该特征可使选定数据样本和同类样本近邻之间差异

17、更小,而和不同类样本近邻之间差异更大,即可以更好的区分类别.为有效处理少数标记数据集,刘吉超等2 0将半监督学习思想引入经典的R e l i e f-F算法中,设计了一种基于R e l i e f-F的半监督特征选择算法.该算法的核心思想是:所选取数据样本的同类近邻和不同类近邻均是从无标记数据样本中选取,并依此来更新特征权重.但是由于经典R e l i e f-F算法并未求解所有样本的近邻,而且实际数据集中通常只有少数有标记样本,尤其大数据背景下,无标记样本的规模更加庞大,因此上述方法只利用了少量的无标记样本,而大量的无标记样本未被使用,其中蕴含的大量信息也被忽略.为此,为更多地发现大量无标记

18、样本中的有用信息,设计了一种新的基于R e l i e f-F的半监督特征选择算法.新算法在求解样本近邻过程中扩大了搜索范围,充分利用了大量无标记样本,依此提高特征选择的性能.新算法的核心思想是:对给定数据样本,基于多个不同类样本的近邻来确定所选定样本的不同类近邻,即对选定样本不再基于单一的不同类样本来寻找其不同类近邻,而是从多个不同类样本的多组近邻中确定不同类近邻.2.2 算法步骤新算法的创新主要是改进了不同类样本近邻的求解方式,对选定的每个样本s(sYi类),首先求解类Yj(ij)中所有对象的近邻,即xYj,从无标记样本中求解x的k个最近邻.假设Yj中有n个对象,则一共会找到n k个近邻;

19、然后在这n k个近邻选取到s的k个无标记样本最近邻,即Yj(ij)类中s的k个近邻.新算法对不同类样本最近邻求解扩充了原有的搜索范围,更加充分利用了大量无标记数据样本.新算法的详细步骤见算法1.算法1 一种基于R e l i e f-F的半监督特征选择算法(As e m i-s u p e r v i s e df e a t u r es e l e c t i o na l g o r i t h mb a s e do nR e l i e f-F,S R f F S).输入:数据集S=S1S2,其中S1为有标记数据样本集,S2为无标记数据样本集,特征个数m,类别集C.输出:特征的权重值

20、Wk=(1,2,m).步骤1 初始化特征权重wk(k=1,2,m).步骤2 循环执行步骤2.12.4M次.步骤2.1 从有标记样本S1中随机抽取一个样本s,样本s的类别为cq(cqC).步骤2.2 从无标记数据集中基于定义4求解s的d个近邻,标记为Hqt(t=1,2,d).步骤2.3 在其余的每一类cpC(pq)中循环执行以下操作:步骤2.3.1 对类别cp中的每一个对象ycp在无标记数据中基于定义4找y的d个近邻;步骤2.3.2 在类别cp中所有对象的近邻中基于定义4计算出离s最近的d个近邻(假设cp类有1 0个对象,那么要求解1 0d个近邻,然后在1 0d个近邻中找离s最近的1 0个近邻)

21、.步骤2.4 基于下面公式更新所有特征的权重:wk=wk-dt=1D(Ak,s,Hqt)Md+pqP(cp)1-P(CP)dt=1D(Ak,s,Mpt),(4)其中:D(Ai,x,y)=0,vxi=vyi1,vxivyi,P(cp)表示样本为类别cp的概率.053步骤3 输出特征权重值wk=k(1,2,m).算法1对原先刘吉超等2 0提出的基于R e l i e f-F的半监督特征选择算法的改进主要有2点内容:首先引入了一种基于粗糙集理论的距离度量方式;其次在为和目标实例不同类的样本找最近邻的时候综合考虑每个类下的所有对象的距离,在此基础上确定所选样本的最近邻样本。而在求解出最近邻样本后,算法

22、1中使表1 实验数据集T a b.1 D a t aS e t s数据集样本数特征数类别数c a r6 8 392d e r m a t o l o g y3 6 63 36b a c k u p-l a r g e3 0 73 51 9t i c-t a c-t o e9 5 862c a r17 2 864用了与经典R e l i e f-F算法相同的特征权重值更新公式.3 实验分析为有效验证本文第2节中提出算法1的可行性,本节中选取了5组U C I数据集进行仿真实验分析.实验分析中使用的编程语言是J a v a 1.8,程序的开发平台是I D E A.程序运行的计算机配置是:C P U

23、 I n t e r(R)i 5-6 3 0 0 HQ,2.8 0 GH Z;内存为1 6 G B;操作系统为W i n d o w s1 0,数据集的描述见表1.由于实际应用中,数据库中只有少部分数据样本获取到了类标签,大量存在的仍是无标记样本,为此,实验中选取有标记样本占比3 0%,即无标记数据样本占数据集7 0%的情况.为进一步验证新算法的有效性,与文献2 0 中的半监督特征选择算法(S F S R算法)以及文献1 5 中的基于信息熵的半监督特征选择算法(S E F S算法)作了比较.特征选择结果的分类性能由机器学习中常用的3个分类器:l o g i s t i c、支持向量机(S

24、VM)、朴素贝叶斯(N B C)来验证.实验比较结果见表24.表24分别给出了在3个分类器下S F S R算法、S E F S算法和I S F S R算法在表1中5组U C I数据集上的特征选择结果及其分类性能的对比结果。在表2-4中,N表示有效特征子集中特征的个数;分类性能是每组数据集的特征选择结果在上述3个分类器上的分类精度,分类精度值是通过十折交叉验证方法求解得到的最终值.实验过程中使用的分类器集成在数据挖掘软件w e k a中.此外,为更清晰地比较相同数据集由不同特征选择算法求解得到的特征子集的分类精度,表24中的最后一行列出了同一个算法在所有数据集上的分类精度均值.表2 在L o g

25、 i s t i c下算法性能的比较T a b.2 C o m p a r i s o no fA l g o r i t h mP e r f o r m a n c eU n d e rL o g i s t i c数据集S F S RS E F SS R f F SN分类精度N分类精度N分类精度c a n c e r40.9 3 830.2 3 4440.9 3 560.0 7 5140.9 3 990.0 5 84d e r m a t o l o g y1 00.8 6 880.1 7 791 00.7 4 040.0 9 561 70.8 5 240.0 5 16b a c k u

26、 p-l a r g e80.8 0 780.1 2 0590.7 0 680.0 3 251 10.6 5 470.0 3 63t i c-t a c-t o e80.7 1 190.4 3 9980.7 7 770.2 8 1180.7 8 390.2 7 98c a r40.7 3 380.2 8 8940.6 9 440.1 8 9140.8 3 160.1 1 31精度均值0.8 1 210.7 7 010.8 1 25表3 在S VM下算法性能的比较T a b.3 C o m p a r i s o no fA l g o r i t h mP e r f o r m a n c

27、eU n d e rS VM数据集S F S RS E F SS R f F SN分类精度N分类精度N分类精度c a n c e r40.9 3 820.2 6 7840.9 4 880.0 5 1240.9 5 610.0 4 39d e r m a t o l o g y1 00.8 4 700.3 1 971 00.7 4 590.2 3 331 70.8 8 800.2 2 63b a c k u p-l a r g e80.7 1 340.2 3 1890.7 6 870.0 9 441 10.7 6 870.0 9 45t i c-t a c-t o e80.7 0 770.5 4

28、 0680.7 8 080.2 1 9280.7 8 600.2 1 40c a r40.7 0 540.3 5 2940.7 0 020.2 8 3250.8 3 560.2 6 61精度均值0.7 8 230.7 8 890.8 4 71153表4 在N B C下算法性能的比较T a b.4 C o m p a r i s o no fA l g o r i t h mP e r f o r m a n c eU n d e rS VM数据集S F S RS E F SS R f F SN分类精度N分类精度N分类精度c a n c e r40.9 4 270.2 3 6540.9 5 31

29、0.0 5 3240.9 6 490.0 3 94d e r m a t o l o g y1 00.8 7 430.1 7 801 00.7 7 600.1 0 721 70.8 9 890.0 4 31b a c k u p-l a r g e80.8 0 850.1 3 2490.7 0 680.0 9 371 10.6 9 380.0 4 10t i c-t a c-t o e80.7 1 190.4 3 6980.7 2 130.3 7 1380.7 1 820.3 7 14c a r40.7 2 920.2 8 6540.6 3 720.1 9 8350.8 3 510.1 1 9

30、1精度均值0.8 1 330.7 5 890.8 2 22由表24的实验结果可以知道,所设计的基于R e l i e f-F的半监督特征选择算法的改进S R f F S在5个U C I数据集上选取的特征子集所得出分类器精度高于算法S F S R和算法S E F S得出的特征子集的精度,尤其是基于S VM的分类精度,笔者提出的新算法的分类精度明显高于另外2个算法.此外,在d e r m a t o l o g y和b a c k u p-l a r g e数据集上,算法求解到的特征子集的特征个数较多,这样的结果可能表明,如果在进行特征选择的时候,更多的利用到无标签数据信息,有可能会选择到更多的特

31、征,同时也得到了精度上的提升.上述实验进一步验证了新算法的有效性.新算法的核心内容是研究了如何寻找不同类样本的最近邻,后续研究工作中将针对如何使用有标记数据对无标记数据进行标签的传播,尽可能为更多的无标记数据确定类信息.4 结论为有效处理少数标记数据的特征选择问题,本文针对符号数据,基于R e l i e f-F算法的特征权重更新机制,通过重新定义数据样本近邻的求解策略和搜索范围,设计了一种新的半监督粗糙特征选择算法.新算法在近邻样本的确定过程中充分利用了大量无标记样本,可求解到更为准确的近邻样本.实验分析结果进一步验证了新算法的有效性.研究内容和方法为后续的半监督数据挖掘技术提供了可以借鉴

32、的新的思路.参考文献:1 徐宝文,张卫丰.数据挖掘技术在W e b预取中的应用研究J.计算机学报,2 0 0 1(4):4 3 0-4 3 6.d o i:1 0.3 3 2 1/j.i s s n:0 2 5 4-4 1 6 4.2 0 0 1.0 4.0 1 5X UB a o w e n,Z HANG W e i f e n g.A p p l y i n gD a t a M i n i n gt o W e bP r e-F e t c h i n gJ.C h i n e s eJ o u r n a lo fC o m p u t e r s,2 0 0 1(4):4 3 0-4

33、 4 3.2 岳文琦,张楠,童向荣,等.混合决策信息系统的模糊效用三支决策模型J.郑州大学学报(理学版),2 0 2 0,5 2(1):2 4-3 2.d o i:1 0.1 3 7 0 5/j.i s s n.1 6 7 1-6 8 4 1.2 0 1 9 1 3 0YU E W e n q i,Z HANGN a n,TON GX i a n g r o n g,e ta l.F u z z yU t i l i t yT h r e e-w a yD e c i s i o n sM o d e l i nH y b r i dD e c i s i o nI n f o r-m a t

34、 i o nS y s t e m sJ.J o u r n a l o fZ h e n g z h o uU n i v e r s i t y(N a t u r a lS c i e n c e),2 0 2 0,5 2(1):2 4-3 2.3 解滨,董新玉,梁皓伟.基于三支动态阈值K-m e a n s聚类的入侵检测算法J.郑州大学学报(理学版),2 0 2 0,5 2(2):6 4-7 0.d o i:1 0.1 3 7 0 5/j.i s s n.1 6 7 1-6 8 4 1.2 0 1 9 2 3 3X I EB i n,D ONGX i n y u,L I AN G H

35、a o w e i.A nA l g o r i t h mo fI n t r u s i o nD e t e c t i o nB a s e do nT h r e e-w a yD y n a m i cT h r e s h o l dK-m e a n sC l u s t e r i n gJ.J o u r n a l o fZ h e n g z h o uU n i v e r s i t y(N a t u r a lS c i e n c e),2 0 2 0,5 2(2):6 4-7 0.4 D A S H M,C HO IK,S C H E U E RMA N N

36、P,e t a l.F e a t u r eS e l e c t i o nf o rC l u s t e r i n g-aF i l t e rS o l u t i o nC I E E EI n t e r n a t i o n a lC o n-f e r e n c eo nD a t aM i n i n g,2 0 0 2.d o i:1 0.1 1 0 9/I C DM.2 0 0 2.1 1 8 3 8 9 35 KOHAV IR,J OHN G H.W r a p p e r sf o rF e a t u r eS u b s e tS e l e c t i

37、o nJ.A r t i f i c i a lI n t e l l i g e n c e,1 9 9 7,9 7(1):2 7 3-3 2 4.d o i:1 0.1 0 1 6/S 0 0 0 4-3 7 0 2(9 7)0 0 0 4 3-X6 WANGC,HU Q,WAN GX,e t a l.F e a t u r eS e l e c t i o nB a s e do nN e i g h b o r h o o dD i s c r i m i n a t i o nI n d e x.J.I E E ET r a n sN e u-r a l N e t wL e a r

38、 n i n gS y s t,2 0 1 8,2 9(7):2 9 8 6-2 9 9 9.d o i:1 0.1 1 0 9/TNN L S.2 0 1 7.2 7 1 0 4 2 27 L A P OR T EL,F L AMA R Y R,C ANUS,e ta l.N o n c o n v e xR e g u l a r i z a t i o n sf o rF e a t u r eS e l e c t i o ni nR a n k i n gw i t hS p a r s e253S VMJ.I E E ET r a n sN e u r a l N e t wL e

39、 a r n i n gS y s t,2 0 1 4,2 5(6):1 1 1 8-1 1 3 0.d o i:1 0.1 1 0 9/T NN L S.2 0 1 3.2 2 8 6 6 9 68 L I UB,F AN GB,L I U X,e ta l.L a r g eM a r g i nS u b s p a c eL e a r n i n gf o rF e a t u r eS e l e c t i o nJ.P a t t e r nR e c o g n i t i o n,2 0 1 3,4 6(1 0):2 7 9 8-2 8 0 6.d o i:1 0.1 0

40、1 6/j.p a t c o g.2 0 1 3.0 2.0 1 29 AM I RH,E R I KC.S e m i-s u p e r v i s e dL e a r n i n gf o rB i gS o c i a lD a t aA n a l y s i sJ.N e u r o c o m p u t i n g,2 0 1 8,2 7 5:1 6 6 2-1 6 7 3.d o i:1 0.1 0 1 6/j.n e u c o m.2 0 1 7.1 0.0 1 01 0 F O R E S T I E RG,WEMME R TC.S e m i-s u p e r

41、v i s e dL e a r n i n gU s i n gM u l t i p l e c l u s t e r i n g sw i t hL i m i t e dL a b e l e dD a t aJ.I n-f o r m a t i o nS c i e n c e s,2 0 1 6(3 6 1/3 6 2):4 8-6 5.1 1 陈潇,李逸薇,刘欢,等.基于网络表示的半监督问答文本情感分类方法J.郑州大学学报(理学版),2 0 2 0,5 2(2):5 2-5 8.d o i:1 0.1 3 7 0 5/j.i s s n.1 6 7 1-6 8 4 1.2 0

42、 1 9 0 7 9CHE NX i a o,L E ES o p h i a,L I U H u a n,e ta l.AS e m i-s u p e r v i s e dS e n t i m e n tC l a s s i f i c a t i o n M e t h o dT o w a r d sQ u e s t i o n-a n-s w e r i n gT e x tB a s e do n N e t w o r k R e p r e s e n t a t i o nJ.J o u r n a lo fZ h e n g z h o u U n i v e r

43、s i t y(N a t u r a lS c i e n c e),2 0 2 0,5 2(2):5 2-5 8.1 2 刘杰,刘欢,李寿山,等.基于双语对抗学习的半监督情感分类J.郑州大学学报(理学版),2 0 2 0,5 2(2):5 9-6 3.d o i:1 0.1 3 7 0 5/j.i s s n.1 6 7 1-6 8 4 1.2 0 1 9 2 6 2L I UJ i e,L I U H u a n,L IS h o u s h a n,e ta l.S e m i-s u p e r v i s e dS e n t i m e n tC l a s s i f i c

44、a t i o nw i t hB i l i n g u a lA d v e r s a r i a lL e a r n i n gJ.J o u r n a l o fZ h e n g z h o uU n i v e r s i t y(N a t u r a lS c i e n c e),2 0 2 0,5 2(2):5 9-6 3.1 3 WUX,CHE N H,L IT,e ta l.S e m i-s u p e r v i s e dF e a t u r eS e l e c t i o nw i t h M i n i m a lR e d u n d a n c

45、yB a s e do nL o c a lA d a p t i v eJ.A p p l i e dI n t e l l i g e n c e,2 0 1 6,1 7 3(1):1 0 2-1 0 9.d o i:1 0.1 0 0 7/s 1 0 4 8 9-0 2 1-0 2 2 8 8-41 4 陈红,郭躬德.基于空间覆盖的半监督特征选择方法J.计算机工程与应用,2 0 1 0,4 6(8):1 3 0-1 3 2.d o i:1 0.3 7 7 8/j.i s s n.1 0 0 2-8 3 3 1.2 0 1 0.0 8.0 3 7CHE N H o n g,GUOG o n

46、 g d e.S p a t i a lO v e r l a p p i n gB a s e dS e m i-s u p e r v i s e dF e a t u r eS e l e c t i o nJ.C o m p u t e rE n g i n e e r i n ga n dA p p l i c a t i o n s,2 0 1 0,4 6(8):1 3 0-1 3 2.1 5 王锋,刘吉超,魏巍.基于信息熵的半监督特征选择算法J.计算机科学,2 0 1 8,4 5(S 2):4 2 7-4 3 0.d o i:1 0.1 1 8 9 6/j.i s s n.1 0

47、 0 2-1 3 7 X.2 0 1 8.1 1 A.0 8 8WAN GF e n g,L I UJ i c h a o,WE IW e i.S e m i-s u p e r v i s e dF e a t u r eS e l e c t i o nA l g o r i t h m B a s e do nI n f o r m a t i o nE n t r o p yJ.C o m p u t e rS c i e n c e,2 0 1 8,4 5(S 2):4 2 7-4 3 0.1 6 王博,贾焰,田李.基于类标号扩展的半监督特征选择算法J.计算机科学,2 0 0 9,3

48、 6(1 0):1 8 9-1 9 1.d o i:1 0.3 9 6 9/j.i s s n.1 0 0 2-1 3 7 X.2 0 0 9.1 0.0 4 7WAN GB o,J I AY a n,T I ANL i.S e m i-s u p e r v i s e dF e a t u r eS e l e c t i o nA l g o r i t h mB a s e do nE x t e n s i o no fL a b e lJ.C o m p u t e rS c i e n c e,2 0 0 9,3 6(1 0):1 8 9-1 9 1.1 7 L I UK,YAN

49、GX,YU H,e ta l.R o u g hS e tB a s e dS e m i-s u p e r v i s e dF e a t u r eS e l e c t i o nv i aE n s e m b l eS e l e c t o rJ.K n o w l-e d g e-b a s e dS y s t e m s,2 0 1 9,1 6 5(1):2 8 2-2 9 6.d o i:1 0.1 0 1 6/j.k n o s y s.2 0 1 8.1 1.0 3 41 8 J I ANHUAD,Q I NGHUA H,J I N GHON GZ,e t a l.

50、A t t r i b u t eS e l e c t i o nf o rP a r t i a l l yL a b e l e dC a t e g o r i c a lD a t aB yR o u g hS e tA p p r o a c h.J.I E E ET r a n s a c t i o n so nC y b e r n e t i c s,2 0 1 7,4 7(9):2 4 6 0-2 4 7 1.d o i:1 0.1 1 0 9/T C Y B.2 0 1 6.2 6 3 6 3 3 91 9 UR B ANOW I C ZRL,ME E K E R M,

展开阅读全文