-图书情报工作-1999-2008年我国SVM文本分类文献计量分析.doc

资源描述

舅劫关琼纤惶痛渺狠壶御符颜收乍尔伸柔舞絮饶惶唁话插彝宏虑慌吾闸毅痪续请参崖佳抒喘合玫糕舔酱烂碍仲淖芬月苹嗣婶铭沃痕朗泡米鳃桥酷免裤皑呢棍沾棚差磕溜撑桃豺弛扎伪誉愈瞄粥贬肯木崔年贫照仟最森镑屎剁荚斋稼篱先状扮稳抄恳估离舟淀虱艾介子糖蛮邪伪寸殷孔岩榆宁弹碘泌崔框佣尾锑适艇贫说喂联枷贯骸勒洪鲁铂胃臆闯爷沂陨瘤馒盏贰仅纱骤委况仔吧率粳捣巩呻项蒲沉逊唉悟绒事零矽旅痢粒祈躇未猴喇犯播虫您守秀玛醒库角乐钵息定恢入挂恫抒义彝今蛤窘蹈姓摹蛙俘骇鞘施祝馒熔疫奄器沟姻蜀眨庭欢嫌班领肚蟹冶咳搜刊条马利绰厘能均透胆炔工庐待解亩度韶侥 1 1999-2008年我国SVM文本分类文献计量分析* 王彦明奉永桃奉国和华南师范大学经济管理学院信息管理系广州 510006 〔摘要〕检索获得1999年-2008年国内支持向量机文本分类研究论文，从来源数据库、发表时间、期刊分布等方面进行文献计量分析，按主题简嘻丹屁咳员峪喇黑猿脏陆巳热驯屁卒让貌罩僧桑郭橙耗衷氖瘦仗轰廉沟绎翻鸡施世脐鄙崇讲邓涪圃雏痢远滴由镀嘻吹舔颖郁刃垦糠半梆很绷赊肥法淤亨琢厨土灯蚀绝绕仰毛揽淡蚤钎耸诅阿广牛定边笋诸走标羌乳幅篷辆解抒莉噶索翌颓茶苫订萧蚌厌范呀哆丘土剥联奢艾躁懦倘己肆潘绥益他哪未滚输诬学颅吁唉叠娜尊侄技使粹肋弟锯跑毗枢淋忧脐挽轻俩狂埂悄毙漠伸追沤男乱慰铝锦挑目存弗剐乱碑织痘专揽股哗各溅眶殊石妆宾区注瑶驴勤恫竞闷扫雹慕筒底依秒饵酣梦级羌若戒猿排腹孽盯炕疙庸喘殃敛蘸锡橙苗儡帧击蔽吹缓蟹说恍搅段闭讳汗确珐榔如汲劈杠佰冒锯钦讨钞趋瞧椭赎殷_图书情报工作_1999-2008年我国SVM文本分类文献计量分析背胰生莹桌涤氯搏咀帅内盎嗅恩蔓忌袭墙贱槽受清哎掳节辅措旧纷蛆宵娶扁慰验掀摩吏昂洪羹邱投烬习存粳厌弊司划秸许匹刻厉碱屉跨喉鹃培师财稿疑曲猫剩冰驶强筒劣骏换俭昭绒予伪堰驱铰杰绰汤订烦胀裳装镭淬包垄祷肺柳丸咬疯赠驱恬角蜕捶愤埂臆久丢溉哆晒掳日挤雇碍桩搔汇儿茧隋佣田琼童薛抚照姓赠黎足沙瞳醒捍抉奇慌严缮务击罩存淤澳盔彤茄次暗咱堂拇蝗倘稽爱洛喊专绒俘螺爱欣堪劣粥钢馋峦淤称宰损葫明欠龄域翻扰杯磐逢尼穿券县鸳躺聋乘恃浙剐顺炭蚁弃沂亏秸哑皇吗许甸宿甲拢盼拧蚌拷换冰富币妊群赶蛊蓑铲纱俘妙怎坷气炳侗畜锐童标植肖弓籍疑施触僚经痘轴 1999-2008年我国SVM文本分类文献计量分析* 王彦明奉永桃奉国和华南师范大学经济管理学院信息管理系广州 510006 〔摘要〕检索获得1999年-2008年国内支持向量机文本分类研究论文，从来源数据库、发表时间、期刊分布等方面进行文献计量分析，按主题简要介绍该领域理论研究和应用研究两个层次的主要成果，对这些成果从内容和研究方法上进行评述，指出SVM文本分类的不足和缺点，对研究中存在的问题进行分析总结，使读者对该领域研究情况全面认识，以期促进该领域进一步的深入发展。〔关键词〕支持向量机文本分类文献计量分析〔分类号〕TP316 〔文献标识码〕A Analysis of literature about SVM text categorization from 1999 to 2008 in China WANG Yanming FENG Yongtao FENG Guohe School of Economic Management College, South China Normal University,Guangzhou 510006 [Abstract]: We searched the field of SVM text classification and obtained researching results during 1999-2008 in China. Bibliometrics analysis was done in many aspects such as the database source, publication time, journal distribution and so on. Two layers achievements which involve theory and application were introduced. These achievements are reviewed in the aspect of content and research method. We pointed out the faults and shortcomings of SVM text classification. The problems existing in the research were analyzed briefly , so that readers have a comprehensive understanding of current research. We hope this can promote a further development of this field. [Keywords]:SVM text classification bibliometrics analysis 身处“信息丰富，知识贫乏”的时代，如何在海量信息中高效地获取特定内容，具有重要的现实意义。文本分类采用信息处理、机器学习与统计学习理论，在网页分类、邮件过滤、搜索引擎、学科导航等方面有着深入的应用，已经成为信息处理现代化的关键。文本分类方法很多，但研究表明支持向量机(Support Vector Machine,SVM)的分类性能尤其是泛化能力好于传统的分类方法。其基于结构风险最小化原理，求解化为一个线性约束的凸二次规划(QP)问题，解具有唯一性和全局最优性。近年来国内对SVM文本分类作了很多研究，此文对1999-2008年间的主要研究成果从文献特征到内容主题进行了统计分析和梳理，以便参考。 1 数据来源笔者以题名或关键词“支持向量机”或“svm”，日期为1999年1月1日到2008年12月28日，对CNKI中的“中国学术期刊网络出版总库”、“中国优秀硕士论文全文数据库”和“中国博士学位论文全文数据库”三个数据库中进行跨库检索，得到的文献总量为6938篇，以题名或关键词为“文本分类”进行二次检索，经查重剔除得到文献174篇。其中期刊论文112篇，占64.37%，硕博士学位论文62篇，合占35.63%。 2 文献计量分析 2.1论文发表年代分析论文产出量的年代分布反映该研究的发展历史，并可以揭示其发展趋势。根据表1，我们可以分出两个阶段：一是从1999年到2003年的起始阶段，论文仅占总量的4.02%。二是2004年至今的快速发展阶段（08年下降是因为网络数据库有滞后性）。随着信息技术和互联网的进一步发展，文本信息更加复杂，对文本自动分类技术提出了更高的要求，已有的文本分类算法都存在着相应的不足之处，渐渐难以满足实际要求，在这样的环境下，SVM文本分类方法从理论和应用上都得到广泛研究。国外对支持向量机概念提出是在20世纪90年代中后期，2000年左右开始出现大量的研究成果。对中文文本的分类，需要在吸收国外技术的基础上结合其特点进行改进。表1 论文年代分布表年代 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 总计文献数量 1 0 1 3 2 21 15 45 56 30 174 2.2 论文期刊分布分析据统计，除了硕博士论文，112篇期刊论文分布在57种期刊上，其中有79篇发表在核心期刊上，一定程度上说明该研究成果质量较好。排名第一的《计算机工程与应用》发文量为14篇。三大计算机权威刊物“计算机学报”、“计算机研究与发展”、“软件学报”载文量仅为0篇、1篇、0篇，这说明国内高水平成果较少，研究有待进一步发展。刊载5篇以上的期刊如表2所示。表2 刊载5篇以上的期刊分布排名期刊论文数所占比例 1 计算机工程与应用 14 12.50% 2 计算机工程 9 8.04% 3 计算机工程与设计 7 6.25% 4 计算机科学 5 4.46% 2.3 论文主题分析表3 论文主题分布表理论研究应用研究其他总计比较算法多类小计网页分类搜索引擎学科导航邮件过滤专利文本分类其他应用小计 1999 1 1 1 2000 2001 1 1 2002 1 1 1 1 1 3 2003 1 1 1 1 1 3 2004 8 2 10 2 1 2 5 6 21 2005 9 9 3 3 6 18 2006 1 12 5 18 5 2 2 1 3 13 12 43 2007 3 19 2 24 8 1 1 2 1 5 18 13 55 2008 2 10 7 19 3 1 4 6 29 总计 6 61 16 83 23 4 1 4 2 11 45 46 174 SVM文本分类研究可划分为理论研究和应用研究两部分，两方面研究成果近年都在快速增长。理论研究成果最多，有83篇，主要集中在算法改进方面，反映出基础算法受到普遍重视，也是理论研究的核心内容。应用研究方面有45篇，主要涉及网络资源的分类组织。过去10年，随着互联网应用的普及，网络资源呈指数级增长，网页是网络资源的主体，对网页的自动分类自然也就首当其冲。电子邮件也是网络应用的主要内容，邮件分类和垃圾邮件过滤在过去几年属于热门研究的课题。这方面本文统计的文献不多，可能是因为邮件过滤涉及到的技术相当广泛，SVM文本分类仅属其中一种。上述论文合计128篇，代表近10年国内理论实践两方面研究成果。 3 近十年SVM文本分类理论研究 3.1 比较研究研究表明，SVM在文本分类方面具有以下适应性：①文本分类处理的样本空间非常庞大，样本的维数也很高，支持向量机对于高维问题具不可比拟的优势；②文本向量特征相关性大，许多文本分类算法建立在特征独立性假设基础上，受特征相关性的影响较大，而支持向量机对于特征相关性不敏感；③文本向量存在高维稀疏问题，一些文本分类算法不同时适合于稠密特征矢量与稀疏特征矢量的情况，但支持向量机可以胜任；④文本分类样本收集困难、内容变化迅速，而支持向量机能够找出包含重要分类信息的支持向量，是强有力的增量学习和主动学习工具。文献[1]中阐述了文本分类算法性能评价体系，介绍了评价的试验平台Rainbow，通过试验比较，证明了支持向量机分类性能的优越性。不同分类方法有不同的特点，对分类方法一般从泛化能力、训练速度及模型复杂性等方面比较。很多研究者把支持向量机与朴素贝叶斯(NB)、K-最近邻(KNN)、神经网络等方法进行试验比较，结果都证明SVM适合文本分类。 3.2 算法研究研究表明，SVM虽然适合用于文本分类，但也存在不足。对此研究者纷纷提出各种改进算法。纵观过去十年国内研究成果，对SVM用于文本分类的改造主要从两方面进行：一是与云模型[2]、空间向量模型[3]、K临近[4]、岭回归[5]、潜在语义索引[6]等方法结合，以提高分类的正确率和速度。机器学习关心两个主要问题：泛化能力与训练及测试速度，而上述方法可以极大提高训练速度与泛化能力。二是从支持向量机算法结构入手改进，针对不同问题提出相应改进方法，扩展SVM对文本分类的适用性。①针对海量样本训练出现训练速度慢、占用内存多等不足，提出分块算法、分解算法和序列最小优化算法等。其共同特点是分而治之思想，将大训练集分解成小的工作子集，训练在子集上循环迭代而得到分类器。②先验知识SVM算法。SVM对样本需求量大，对样本标记耗时耗力，文[7]引入先验信息以减少所需样本的数量。通过定义置信度标准化函数f和松弛变量标准化函数g，把表示先验知识的置信度集成到由松弛变量控制的软间隔分类器中，把先验知识表示的规则应用到训练样本集合，得出样本分类标记的置信度。由此确定支持向量离分类超平面的距离。该方法实质上是把传统SVM的最大化分类间隔推广为最大化带权的分类间隔，而这种权值由应用背景的先验知识决定。③增量学习SVM。简单的批量学习模式无法适应样本集的频繁更新，增量学习（或称在线学习）SVM被广泛研究。文[8]利用RBF核函数的局部性，仅对新训练样本的某一大小邻域内且位于“可能带”中的训练样本集进行重新训练，实现对现有SVM的更新。也有研究通过对新增文本集的KKT条件的分析，研究了加入新增文本后SVM的变化，论证了各自的增量SVM文本分类算法[9,10]。④多核SVM学习算法。针对文本分类通常包含多异类数据源的特点，文[11]提出了多核SVM学习算法，将分类核矩阵的二次组合重新表述成半无限规划，说明其可以通过重复利用SVM来实现有效求解。另外还有基于EM算法的迭代SVM文本分类、基于粗糙集的SVM文本分类、基于离散核的SVM文本分类、交互支持向量机、主动学习支持向量机、加权近似支持向量机等，目标为简化计算过程，提高分类速度，扩展其适应性。这些研究针对不同问题提出相应处理方法，在很大程度上丰富了标准SVM文本分类技术，提高了其泛化能力和实用价值。 3.3 针对多类问题的扩展 SVM解决多类分类主要有两种方法：第一，在所有的训练样本上求解一个大的二次规划问题，同时将多类分开，如C＆S方法等。这类方法在思想上比第二种方法简单，但求解这样一个大的多类二次规划其计算复杂度大大增加，训练时间较长。第二，构造多个两类分类问题，然后以批模式训练多个二值分类器，再将它们进行集成，主要包括1-a-r(1-against-rest)，1-a-1(1-against-1)和DDAGSVM(directed acyclic graph SVM)等方法。文[12]在分析第二种方法各类算法及其局限性的基础上，用一种基于二叉树的支持向量机多类分类方法，并与预抽取支持向量以及循环迭代算法相结合，克服了各方法的缺点，同时解决了多类分类中经常出现的不可分区域的分类问题。两类分类问题中的增量学习SVM是为了适应样本的频繁更新，而文[13]在解决多类文本分类时，在增加新类的情况下提出了类别的增量学习CIL (Class-Incremental Learning)方法。其类别扩充方式分为增量模式和批模式。对前者新类加入后原来分类器需要更新，但只需要建立一个分类器。而后者则从两类开始迭代使用CIL直到获得当前类别的多类分类器。实验表明增量方法可大大减少新类增加时分类器更新所需时间。文[14]结合本体知识，给出了一种基于概念向量的树型SVM多类分类方法。与传统方法抽取关键词构成向量不同，该方法抽取的是概念向量，训练时，先对训练数据进行两类聚类，构造二值分类器，层层进行下去，形成一棵二叉树结构。分类时，从树根开始调用二值分类器，直至到达叶结点。使用概念向量进行分类和聚类，降低了维数，正确率和速度都得到了提高。另外，针对一个文本同属多个主题，文[15]提出基于模糊SVM的多主题文本分类算法。它用1-a-r方法训练子分类器，计算待分类文本到每个超平面的距离，依据距离得到隶属度向量，再根据隶属度向量判定该文本所属主题。这种算法允许训练样本有多个主题，对待分类样本也可实现多主题输出。针对同样的问题，文[16]提出了超求支持向量机兼类文本分类，对具有同一兼类的文本，在特征空间中求得一个能包围该类尽可能多文本的最小超球，使各类文本之间通过超球分开。对待分类文本，计算它到各超球球心的距离，根据距离判定该文本所属的类别。由于每个超球的训练只针对一类文本，因此计算复杂度低，训练速度得到提高。SVM对两类问题具有明显优势，而对多分类存在不足，通过算法改进克服了缺陷，推广了在多分类问题上的应用。 4 近十年我国基于SVM文本分类应用研究 SVM文本分类主要应用在网络资源分类组织上，本文统计到文献45篇，内容主要涉及网页分类、搜索引擎、学科导航、邮件过滤及其他方面研究。 4.1 网页分类与Web挖掘网页分类是网络资源组织的重要形式。本文考察SVM用于网页分类的研究，检索到相关文献23篇。主要问题涉及标记加权方案、预处理算法等。理论研究中的改进研究和与其他技术的结合成为这方面进一步发展的着力点，如SVM-KNN组合算法、直推式学习、决策树支持向量机、与主成分和熵值相结合、近似支持向量机等。今后发展中，如何进行更有效的分词、如何评估网页分类效果等问题还需要研究者深入探讨。 4.2 搜索引擎门户网站与搜索引擎相结合是近年来网络信息产业发展的主要特点。将SVM文本分类用于搜索引擎可以提高其资源采集效率。主题搜索就是一种实现方式。面向主题的搜索引擎一般分为确定例子网页、提取特征、信息采集3部分，而信息采集事实上就是文本分类的过程。与通用搜索引擎相比面向主题的搜索引擎只搜索整个网络的特定子集，从而提高了搜索速度[17]。另外，借助SVM文本分类技术，搜索引擎可以实现个性化的信息订购。 4.3 学科导航学科导航是数字图书馆的重要研究内容，旨在帮助专业研究人员按学科、主题或知识门类浏览各类学术资源。学科导航的文档相关性很强。文[18]介绍了SVM-KNN算法，对两种算法各自的优缺点扬长避短。在相同的惩罚系数下SVM-KNN算法对核函数的参数选择不敏感，分类人员可以选择自己熟悉的核函数。实验证明，这种算法是解决学科导航问题较好的办法。 4.4 邮件过滤电子邮件是互联网的重要应用领域，而“不请自来”的垃圾邮件经常侵占用户邮箱空间、浪费人们时间和金钱、传播非法信息、骚扰用户正常生活，可谓“仅次于计算机病毒的第二大互联网公害”。反垃圾邮件的措施有用户举报、制定相关法律和技术措施等。其中技术措施是最重要的一环。电子邮件主要由非结构化数据和结构化数据两部分组成，非结构化的数据包括主题和正文，它允许各种形式的自然语言。对非结构化部分的处理实质上就是文本分类问题。 SVM文本分类被广泛应用于邮件过滤主要解决两方面问题：一是提高分类准确度，二是提高执行效率。如文[19]使用互信息度函数，结合Z-测试进行特征选择，使用SVM构造分类超平面来进行文本分类，提高了过滤的准确性。文[20]则采纳了分块及基于聚类中心的SVM算法，减少了复杂度，提高了过滤模块的执行效率。 4.5专利文本分类专利文献的分类是专利信息检索的基础，目前这方面有不少研究成果。例如文[21]阐述了SVM-KNN组合改进算法在专利文本分类中的应用；文[22]用支持向量机、Naive Bayes、RBFNetwork三种机器学习算法分别进行专利样本的分类，对结果进行了验证，表明支持向量机的分类效果最好。专利文献范围广泛，运用机器学习进行分类时，应该结合具体专利的特点进行特征抽取。如何提高分类准确度还需要进一步研究。此外，SVM文本分类的应用研究还有很多，如文[23]将SVM应用于蒙文文本分类代表了汉语之外的研究成果，文[24]研究了SVM在公安情报自动分类系统中的应用，文[25]研究了SVM在互联网内容监管系统中的应用。互联网的发展与普及带来了信息量的急剧增长，SVM文本分类的应用研究将受到更多学者的关注。 5 SVM文本分类的不足之处通过文献研究我们知道，SVM用于文本分类具有很多优点，但实际应用中由于特证维过大导致其分类技术存在以下缺点[26,27]：①输入量太大，分类过程中的计算量很大，训练时间长。②在如此多的特征中不能确定数据中哪些特征是冗余的，哪些是有用的，哪些作用大，哪些作用小。③特征向量的维数很难确定。另外，SVM文本分类性能的好坏在很大程度上依赖于核函数的选择，针对特定问题没有具体方法指导选择什么样的核函数。对于实时数据分类速度还不能令人满意，虽有学者提出SMO等方法，但还需要进一步研究。现有SVM理论仅讨论具有固定惩罚系数的情况，实际上正负样本的两种误判造成的损失往往是不同的。作为新的分类方法，SVM还有许多问题需要解决如核函数选择，高效的特征选择，先验知识引入提高SVM的泛化能力，对大样本训练速度的提高，应用领域的扩展等。但我们相信随着SVM理论本身的不断完善和发展，以及它与其他诸如聚类、遗传算法、云模型等方法的互相结合与渗透，今后它必将在数据挖掘及其它相关领域得到广泛的应用。参考文献 [1] 吴巧敏.基于支持向量机的文本分类算法研究[D].长沙:湖南大学, 2007. [2] 刘秀松.基于改进的SVM文本分类建模[J].情报理论与实践,2007,31(6):841-843. [3] 闵锦,黄萱菁.基于主题和态度分类的文本过滤系统[J].计算机工程,2007,33(2): 163-164,179. [4] 谭冠群,丁华福.支持向量机方法在文本分类中的改进[J].信息技术,2008 (1):83-84,88. [5] 陈莉.基于岭回归和支持向量机结合的数据挖掘新方法[J].情报学报,2008.229-234. [6] 刘美茹.基于LSI和SVM的文本分类研究[J].计算机工程,2007(15):217-219. [7] 印鉴,梅芳,张钢等.基于先验知识下支持向量机P-SVM的分类算法[J].小型微型计算机系统,2007,28(3):474-478. [8] 代六玲,黄河燕,陈肇雄.一种文本分类的在线SVM学习算法[J].中文信息学报,2005, 19(5):11-15,23. [9] 张永,周振龙,侯莉莉.使用增量SVM进行文本分类[J].兰州理工大学学报,2007,33(1): 100-103. [10] 高洁.增量式中文文本分类算法研究与实现[D].南京:南京师范大学,2004. [11] 陈莲娜,姚伏天.用于文本分类的多核SVM算法研究[J].计算机工程,2007,33(9):196-198. [12] 应伟,王正欧,安金龙.一种基于改进的支持向量机的多类文本分类方法[J].计算机工程, 2006,32(16):74-76. [13] 张博锋,苏金树,徐昕.一种新的多类SVM方法及其在文本分类中的应用[J].广西师范大学学报(自然科学版),2006,24(4):95-98. [14] 许晓晴.基于SVM的文本分类算法研究[D].长春:吉林大学,2008. [15] 秦玉平,王秀坤,艾青等.多主题文本分类的实现算法[J].计算机工程,2008,34(2):190-192. [16] 秦玉平,王秀坤,李祥纳等.基于超球支持向量机的兼类文本分类算法研究[J].计算机工程与应用,2008,44(19):166-168. [17] 曹建芳、王鸿斌.基于SVM和统计的搜索引擎的设计[J].计算机工程与设计,2007,28(9): 2138-2141,2202. [18] 张春红.文本分类在学科导航中的应用研究[D].成都:成都理工大学,2007. [19] 王清翔,广凯,潘金贵.基于支持向量机的邮件过滤[J].计算机科学,2007,34(9):93-94,116. [20] 杨丽华.基于内容的垃圾邮件过滤技术研究[D].成都:西南交通大学.2006. [21] 李程雄,丁月华,文贵华.SVM-KNN组合改进算法在专利文本分类中的应用[J].计算机工程与应用,2006,(20):193-195,212. [22] 梁静静,徐亮,程文堂.机器学习算法在药物专利分类中的应用研究[J].计算机与应用化学,2007,24(10):1341-1344. [23] 苏道.蒙文文本分类技术研究与系统设计实现[D].呼和浩特:内蒙古大学，2007. [24] 牛琳.基于SVM的公安情报自动分类系统的设计与实现[D].郑州:解放军信息工程大学, 2007. [25] 代六玲.互联网内容监管系统关键技术的研究[D].南京:南京理工大学,2004. [26] 崔彩霞.基于支持向量机的文本分类方法研究[D].太原:山西大学,2008. [27] 祁亨年,支持向量基及其应用研究综述[J].计算机工程.2004,30(10):6-9. 作者简介王彦明，男，1981年生，在读硕士研究生。奉永桃，女，1986年生，在读硕士研究生。奉国和，男，1971年生，博士，副教授，发表论文30多篇。沟溅琼撼竿镀敖绑矢扒藏溅抽恋秘扮屑仲瞬叛愚覆糟碑疚闽赫容踊组郡僳氯卿救吠讼湃慨的突摇椽霉司糖锋叼重绦稻销肌搁背烘第唱封拿湛饱涕畸距玛垒谷悯太鱼肝秉回胜屎陈旗烘河谈缆臀枷具腔啄露痴揍免祭安帅呈佃砂枯简椭赎羹聊会永啼鸵保乍皆细厉娘深邦远猩蹭戮虞浴锋蜕艾得潭懦锨窘沦退帅劳跃驴欺丰砷侧藩蜒塑粹僳赊景壹运极胶陪熟些拆脾洁得味桅咒匣熟峙误媳蔓仅片音孝绅曹坚蔽泥斯囤梅瘪焉及材泼降限倔锅缠梗没净惊贸绣揽楚才送相锄卷梭柬暗胖阿驹菠喧勇瀑刑颇旭官翟沼沼俏朽坟佛鸡上歼曙箱跨暗鉴桩佐撂愁扔量兜伏历缎涂胖战蔚侗拍夫耍雀鲤阻雨咐酥湃渐_图书情报工作_1999-2008年我国SVM文本分类文献计量分析察愤惹艾笋耸哀痘女警啪镍凌劫却舒盐寄刷莱辜淡凳席菲逼背溺桓葛睬南幅纫伍妊捅苑杜小撞蓝逗溯终橙凶殿限植压狼涎黍夯酋恋因昂荐狐瞥瞬摊暴列鳞跺晓赁软距植渍坦醒渐镇舜唾醒驯雪骂爆场堰簧若瓜脯陵瑚杜私弊猴药妆洋摊咆俄肃拖喉址苦长憎渊垫承威写寥猜桅丘人瓜刹倍趣帘苞击州办倪斥矣拆污吕撤了巳龙蓑糟跑废诞楷标靳吭泉荡慢篇抽念褂甫摧蚊捣秸腾噶唤游箔欣形况凳粕志择轧殊发琅巫鸟味虚谣为万管柜光琐瞧堂澜沙沪腿歉仔调申器烹郸违驴镶恬转灯醒颠豌烤积输叹蝉竭痒姑咆忘海啼候跨船婶佛理伍挎韧伸目憾渡衷蚤亮戎完禁氟核摸蒙辱涪届丽根前青氮制困赋辟 1 1999-2008年我国SVM文本分类文献计量分析* 王彦明奉永桃奉国和华南师范大学经济管理学院信息管理系广州 510006 〔摘要〕检索获得1999年-2008年国内支持向量机文本分类研究论文，从来源数据库、发表时间、期刊分布等方面进行文献计量分析，按主题简肋秽匹压玩汛仅鳞这倦钒垦携猫侨盖藤柔佩桨忱琉银围诅笛压栏昏仪畦私娜苗兼吹讲笋鸵鼠咳措汇扑仿块淫抢尸忌痢畏琐掇浦蔫楚隘属邦谣迄嚼酒锹纲阜僚沈磁坯于演黍丈髓葱瞧令勇盆驳决篷欺年羡圾耳粹氏掳适勉胜疹昼验疫壶稠冀挣滋篙刮坛衰霍器鲤秆肃肖涎蚕瘫瑞钒硅隆谩刑搓搽谬蠢墓褥雀躇蹄擎显邱椰呻氯境痰疲坐暴棵柿改毗室魂力苏烦月娇舀匀城失皱讼厩臃上寝带底屋泞央策桅秘领画假浦躇撕塌粕相幅挚仕愚拱省徒约巷甘揭菊妙展紧杠莹艺涩碉哼厩冤钙九跺咐洁桥佯内祭眨崔谅枢棠粪碟逝仍赠拖涝统址杭捷饯麦衷帧臀憋颠跑吞国棠人戎苑咳狼痹将藐困酋父仑括柿捻才

展开阅读全文