收藏 分销(赏)

基于特征增强的KNN文本分类方法研究.pdf

上传人:自信****多点 文档编号:2348138 上传时间:2024-05-28 格式:PDF 页数:4 大小:1.40MB
下载 相关 举报
基于特征增强的KNN文本分类方法研究.pdf_第1页
第1页 / 共4页
基于特征增强的KNN文本分类方法研究.pdf_第2页
第2页 / 共4页
基于特征增强的KNN文本分类方法研究.pdf_第3页
第3页 / 共4页
亲,该文档总共4页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、 2023 年第 9 期17计算机应用信息技术与信息化基于特征增强的 KNN 文本分类方法研究余小鹏1 王振佩1 殷 浩2 徐健儿1YU Xiaopeng WANG Zhenpei YIN Hao XU Jianer 摘要 现有 KNN 文本分类方法未考虑语义信息导致特征向量维度庞大、分类效率低、准确率不高。提出一种特征增强的 KNN 文本分类方法 FE-KNN,构建领域框架库和领域句模,降低同义词对特征的影响,利用语义关系信息强化文本特征。在Math数学应用题语料库上的实验结果显示,该方法的准确率为0.953 2,与传统 KNN 方法相比精准率、召回率和 F1值都有所提升,验证了通过框架语义

2、与语义搭配能够改善文本分类的效果。关键词 文本分类;特征增强;KNN;句模 doi:10.3969/j.issn.1672-9528.2023.09.0031.武汉工程大学 湖北武汉 4302052.武汉经开外国语学校 湖北武汉 430010 基金项目 2019 年度教育部人文社会科学研究规划基金项目“基于问题情境仿真的数学应用题表征辅导系统研究”(编号:19YJA880077)研究成果之一0 引言文本自动分类是指通过计算机将文本按照一定的分类标准划分为不同的类别,是自然语言处理重要任务之一1。在文本自动分类中,很多方法都以文本为基础,通过特征提取和特征选择等步骤将文本转换为一定的特征量。之后

3、将特征量导入分类模型,进行文本分类。所以特征量和分类模型十分重要。基于机器学习的分类模型主要包括朴素贝叶斯分类算法(naive bayes,NB)2、K 最近邻(K-nearest neighbor,KNN)3、支持向量机(support vector machine,SVM)4、最大熵模型(maximum entropy,ME)5等;基于深度学习的分类模型主要包括快速文本分类 FastText6、卷积神经网络 TextCNN7、循环神经网络 TextRNN8以及其他相关模型的组合。KNN 是一种较为成熟的算法,它的分类过程也相对简单,是目前应用最广的一种。KNN算法在分类过程中不需要数据输入

4、假定,对于异常值的存在不敏感,同时不需要训练学习,只需要把输入的数据进行保存,训练过程花费时间几乎为零。但是 KNN 方法存在一些不足,如未考虑语义信息、特征向量维度庞大等,对分类的效率和准确率造成影响。因此针对当前 KNN 分类的不足进行研究并提出改进思路很有意义。1 提出问题KNN 算法是一个以实例为基础的学习方法,但是,当前特征选取以“字”或“词”为基本信息单元进行处理,对文本分类的效率有较大影响,主要体现在以下两方面。(1)特征维度大。在特征选取时近义词、同义词等作为不同的特征处理,导致特征矩阵维度庞大,考虑文本问题情境时相似词更多。(2)文本语义信息丢失。已有实验验证9加入词间和文本

5、间关系能够有效改进文本分类效果,但是字和词作为文本的基本单位并不包含语义信息,稳定性也较差。多数文本分类方法单纯计算词频,并未考虑各词之间可能存在相似含义,对于文本的类别信息贡献程度相同的情况。例如在牛吃草问题中,文本可能的表述有“9 头羊吃了 2 天便将草吃完”“5 头牛吃光需要 17 天”“这片青草可供 16只羊吃20天”等,提取的关键词有“羊”“牛”“草”“吃”“吃光”“吃完”等,而在数学应用题领域更加注重数量关系,所以“吃”“吃光”与“吃完”,“羊”与“牛”可以看作表示的是同一含义。这些词分开处理将导致特征维度庞大,对文本分类的结果造成影响。一些学者10将本体中关键词对应的概念或领域知

6、识作为特征项进行分类。但相对于词汇而言,概念和领域知识具有更大的粒度,容易造成向量稀疏,难以提取其统计特性,从而影响了分类效率11。汉语框架网(Chinese FrameNet,CFN)12是以框架语义学为理论基础构建包含框架、词元的框架语义资源。属于同一框架的词元拥有相近的词义甚至相似的句法表现13。所以针对领域内的特殊文本利用 CFN 词元框架对词进行统计归纳,形成特殊的特征项是可行的。汉语言的研究者曾指出文本中存在一些固定的搭配,这些搭配具有一定结构,往往体现语言的某种习惯表达,甚至可以作为判定文本所属类别的特征之一14。侯松等人在保证语义完整且正确的情况下将分词结果中相邻的两到三个短词

7、进行组合作为特征项,实验验证该方法在降低待选特征词维度的同时更具有代表性和类别的区分性15。但是在中文文本2023 年第 9 期18计算机应用信息技术与信息化中词是组成的基本单位,即便词确定后,词序可以千变万化,能组成的搭配也是成百上千,很难单纯从词的角度分析搭配规则。同时在自然语言处理中,词语的搭配受到语义成分、思维习惯、风俗习惯、认知习惯等因素的限制,不同语境下有着不同的搭配关系16。陶永才等提出应该在处理文本时根据给定语境并对词语的搭配关系进行限制,以提高文本处理的可靠性17。汉语语法研究者朱晓亚认为句模是根据句子语义平面的特征分类处理的句子类别18。句模研究需要以动核为基础将各个语义角

8、色在句中可能出现的先后顺序进行排列19。这表示利用句模可以对句式搭配进行识别,使用关键动词对语境进行限制,进而缩小文本类别范围。因此本文基于 CFN 理论和句模理论,提出一种新的KNN 算法 FE-KNN(feature enhanced K-nearest neighbor),提取特定领域框架和词元,形成带有领域特点的特征项,降低特征量维度,同时利用关键动词与句模的搭配强化语境信息,从语义的角度增强特征,提高分类精度和效率。2 基于特征增强的 FE-KNN2.1 关键思想根据上述分析,除了文本分类的基本部分外,基于特征增强的 FE-KNN 方法还有以下 4 个关键步骤。第一步,以 CFN 和

9、 现代汉语基本句模20为基础,基于统计等策略构建面向领域的语义框架和基本句模。第二步,对文本进行分词,根据语义框架与词元库提取领域词元,利用该领域词元进行归一形成领域框架,减少特征项的冗余。第三步,根据基本句模提出包含情境语义关系的关键动词搭配,利用搭配确定文本所属类别范围。第四步,将二、三步处理后的特征进行合并作为新的特征集,利用分类模型 KNN 在新特征集基础上进行文本分类。2.2 基于框架语义的特征增强常用文本特征向量化的方式是向量空间模型21,然而,使用向量空间模型描述文本内容时,会将特征项视为独立的处理对象,不能对具有相同和相似的词语进行整合,因此特征向量中含有大量相同含义的特征词。

10、在 CFN 框架中包含很多语义框架,描述了特定类型的情况或有参与者和道具的对象。同一框架下词元表述了相似的对象参与关系,而数学应用题十分注重对象之间的关系,不同类别题目中对象关系不同。因此可以将框架下的词元进行归一,强化数学领域关系特征。如“到达”框架下包含词元“抵达”“走到”“赶到”“来到”等等。因此本文提取了在数学应用题中词频较高词语的框架并对相应的词元进行整理,形成面向数学应用题的特征框架和特征词元。部分框架涉及的词元如表 1 所示,使用英文缩写表示词性。表 1 框架词元表(部分)框架(FN)词元(L)到达 v抵达 v、走到 v、赶到 v、来到 v、至 d、到了 v变为 v变成 v、成为

11、 v、改变 v、改 v、改成 v、化为 v、化作更换 v、替换 v运送 v携带 v、送 v、运 v、拉 v、空运 v、运输 v、搬 v、派送 v、输送 v、传送 v、运达 v包括 v含有 v、容纳 v、包含 v、有 v、含 v、组成 v、涵盖 v缴纳 v交纳 v、追缴 v、收缴 v、上交 v、上缴 v、呈交 v、缴付 v利用特征框架和相应词元可以将特征进行词元归一,降低特征量的维度,具体步骤如下。(1)对文本 S 进行分词,得到分词列表 S=W1,W2,W3,Wn。根据框架词元表定义映射规则 f1=FN1:L11,L12,L1y,FN2:L21,L22,L2y,FNx:Lx1,Lx2,Lxy,

12、其中 FN表示框架,L 表示词元。(2)将列表 S 中的词 Wi与词元 L 进行匹配,利用映射规则将匹配成功的分词更新为框架词。(3)将更新后的分词列表进行去重形成训练集框架特征向量,表示为 S=keywords1,keywords2,keywordsm,显然存在 mn。2.3 基于语义搭配的特征增强许多的研究表明,在一定的语言环境中,词语之间存在着某种联系。根据词语间的搭配汉语言专家提出了以“对象”、“所属”和高频词为基本元素的句子模型。例如:“小明种了 20 棵树”对应的句模为“所属-动核词-数量-数量单位-对象”,表明了主体及所属关系。句模中还包含了大量的语义信息,能够影响句子的含义和文

13、本的类型。因此利用句模中文本的语义特征和词语的搭配进行文本分类将更客观。但是不同类别文本可能有相似的所属关系和句模,需要利用其它信息进一步细化对应的文本类别。动核词是句子中的重要组成部分,根据动核词的语义分类和搭配,能够增强领域特征。因此可以将句模中动核部分替换为文本中的关键动词,利用替换后的搭配缩小文本所属类别范围。例如“如果放牧 27 头牛,这片草地可以吃 10 天”的句模为“所属-动核词-数量-数量单位-对象,对象-动核词-数量-数量单位”,能推理出该句表示并列量,对应的类别可能为年龄问题、数字问题、溶液问题、鸡兔同笼问题、统计问题、行程问题、牛吃草问题等等,但是根据动词“放牧”、“吃”

14、及搭配形式“所属-放牧-数量-数量单位-对象,对象-吃-数量-数量单位”,对应可能的类别为牛吃草问题、数字问题、统计问题,利用文本的语义特征缩小类别范围,提高文本的分类效率。具体步骤如下。(1)分析领域句模中各个元素的搭配关系,确定句模所属类别范围,形成句模-类别字典 f2=OM1:c1,c2,cp,OM2:c1,c2,cp,OMZ:c1,c2,cp。2023 年第 9 期19计算机应用信息技术与信息化(2)基于统计规则在分词列表中提取关键动词并形成列表 VL=V1,V2,Vu。(3)将文本与领域句模匹配,利用关键动词列表获取含有动词的句模搭配列表 Ma=ma1,ma2,maz。(4)根据句模

15、搭配列表 Ma和句模-类别字典 f2形成搭配 字 典 f3=ma1:c1,c2,cq,ma2:c1,c2,cq,maZ:c1,c2,cq,显然存在 qp。2.4 分类算法 FE-KNN本文算法框架如图 1 所示,主要包括数据预处理、特征增强、特征标准化、文本相似度计算、文本分类等。样本数据集文本分词去停用词等提取框架-词元特征矩阵提取语义搭配特征矩阵特征矩阵组合及标准化余弦定理计算相似度选出最近的K个近邻确定待分类样本类别特征增强图 1 FE-KNN 算法框架图为了便于叙述,假设训练文本集为 S,文本所属的类别有 N 个,分别为 C1,C2,CN,S 的文本数量为 M,因此有S=(di,Cj)

16、|i=1,2,M;j=1,2,N。FE-KNN 算法分类具体步骤如下。(1)对数据进行预处理,将数据集进行分割、删除停用词等,训练样本表示为 S=d1,d2,dM,待分类文本为S=x1,x2,xy。(2)利用 2.1 中的步骤形成分词列表 di=keywords1,keywords2,keywordsp,基于信息增益的方法计算各分词权重,形成训练样本分词矩阵 DMp。(3)利用 2.2 中步骤形成搭配字典 f3,将 di中每个句子与搭配字典中的索引匹配,基于统计规则建立类别矩阵:RNM=r11,r12,r1N;r21,r22,r2N;rM1,rM2,rMN 式中:rij表示对于第 i 个文本属

17、于第 j 个类别的可能。(4)将矩阵 DMp和 RNM进行合并,形成特征矩阵。使用 Z-score 标准化公式,对特征矩阵进行标准化处理,得到矩阵 Fa。(5)针对待分类样本重复步骤(2)、(3)、(4),得到矩阵 Fa,利用余弦公式(1)计算待分类文本与训练文本之间的距离,即每个待分类文本 d 与所有训练文本 di之间的相似情况。(1)(6)确定K值,按照相似度大小把训练集样本进行排序,选出待分类文本的 K 个最近邻 L(d1,d2,dk)。(7)按照公式(2)和公式(3)计算待分类文本 d 在各个类别中的权重,待分类文本类别为权重最大的类别。(2)(3)3 实验为了验证基于特征增强的 KN

18、N 分类方法 FE-KNN 的有效性,本文选择同一数据集进行特征增强前后的对比试验。选取 Math 数据集中部分题目以及网络抓取的小学数学应用题并进行人工标注分类,形成实验数据集。该数据集共 6 类应用问题,分别是行程问题、牛吃草问题、利率问题、植树问题、溶液问题、年龄问题,共计 3000 题,每个类别中分别选取了 75%作为样本集,25%作为测试集。3.1 评价指标本文在评价文本分类算法的有效性时,采用了准确率、召回率和 F1值等评价指标。(1)准确率:指样本中预测类别是正类,而实际样本分类也为正类,精准率越高,则预测精度越高,其计算公式为:(4)(2)召回率:指所有类别为正类的样本中,有多

19、少被预测为正类,即有多少正样本被找到,其计算公式为:(5)(3)F1值:F1值是准确率和召回率的调和平均数,在实际应用中,一般精确率和召回率其中一者的数值增加后会导致另外一者的数值减少,F1的值可以反映综合情况,计算公式为:(6)3.2 实验分析由于 K 值的选取在 KNN 算法中极为重要,不同的 K 值,同一个数据集的分类精度不同,因此本文对 K 为 1 20 的所有整数时的准确率进行了测试。最终得到在 K=2 时该数据集的分类准确率达到最高,因此在后续实验中均采取 K=2。在后续实验中采用传统 KNN 算法和特征增强的 KNN 算法分别进行试验,得到每个类别的精准度、召回率和 F1值,具体

20、如表 2 所示。2023 年第 9 期20计算机应用信息技术与信息化表 2 实验测试结果表类别KNN 算法特征增强的 KNN 算法PpPcF1PpPcF110.971 40.829 30.894 70.980 40.882 40.927 620.800 00.685 70.738 50.898 80.811 40.877 330.937 50.986 80.961 50.963 70.989 90.981 640.900 00.978 30.937 50.926 80.980 00.942 450.953 50.988 00.970 40.969 30.987 00.988 360.936 4

21、0.905 70.963 30.960 30.958 20.972 9由表2可得,通过对算法的改进,该方法在正确率(Pp)、召回率(Pc)和F1值上均有提升,分别提高了3.342%、3.918%、3.737%。尤其是类别 2(牛吃草问题)和类别 4(植树问题)的分类效率提升明显。这是由于本文在特征选取的过程中注意了同义词、相近词,并利用句模更好地提取了文本中的数量关系,增强了相似结构特征词之间的相关性,使它们之间的关系更加紧密,在计算相关度时可以更好地进行分类。4 总结针对文本分类中特征维度庞大,未考虑携带语义信息等问题,本文提出了一种基于特征增强的 KNN 分类方法FE-KNN。通过词元框架

22、将同义特征进行合并,减少重复特征项,降低特征矩阵的维度;对现有句模进行处理,增加句模携带的信息,细化句模所属类别。实验表明,改进后的算法对改善文本分类效果有一定的帮助。因此本文算法在文本分类中很大的应用价值。本文在研究过程中以数学应用题为领域进行了探索,提出了词元框架与领域句模,如果拓展到其他领域需要以大量的文本数据为基础进行构建,这将是下一步的研究趋势和方向。参考文献:1 ZHOU X,GURURAJAN R,LI Y,et al.A survey on text classifi cation and its applicationsJ.Web intelligence,2020,18(3

23、):205-216.2 TAN S B.An effective refinement strategy for KNN text classifierJ.Expert systems with applications,2006,30(2):290-298.3 FORMAN G.BNS feature scaling:an improved representation over TF-IDF for SVM text classifi cationC/Proceeding of the17th ACM Conference on Information and Knowledge Mini

24、ng.New York:ACM Press,2008:263-270.4 ZHANG Y F,YU X L,CUI Z Y,et al.Every document owns its structure:inductive text classification via graph neural networksC/Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics.Stroudsburg,PA,USA:Association for Computational Ling

25、uistics,2020:334-339.5 陈雪天,李荣陆.使用最大熵模型进行文本分类 J.计算机工程与应用,2004,40(35):78-79+195.6 代令令,蒋侃.基于 fastText 的中文文本分类 J.计算机与现代化,2018(5):35-40+85.7 明建华,胡创,周建政,等.针对直播弹幕的 TextCNN 过滤模型 J.计算机工程与应用,2021,57(3):162-167.8 LAI S,XU L,LIU K,et al.Recurrent Convolutional Neural Networks for Text Classifi cationC/Proceedin

26、gs of the 29th AAAI Conference on Artificial Intelligence.Austin,TX,USA:AAAI,2015:2267-2273.9 朱建林,杨小平,彭鲸桥.融入内部语义关系对文本分类的影响研究 J.计算机科学,2016,43(9):82-86.10 孙海霞,钱庆,成颖.基于本体的语义相似度计算方法研究综述 J.现代图书情报技术,2010(1):51-56.11 丁泽亚,张全.利用概念知识的文本分类 J.应用科学学报,2013,31(2):197-203.12 赵园丁,由丽萍,张惠春,等.基于框架语义的汉语文本知识表示方法 C/全国第八届计

27、算语言学联合学术会议(JSCL-2005)论文集.北京:清华大学出版社,2005:651-653.13 刘开瑛,由丽萍.现代汉语框架语义网 M.北京:科学出版社,2015.14 张永伟,马琼英.面向语文辞书编纂的词语依存搭配检索系统研究 J.辞书研究,2022(4):30-40.15 侯松,周斌,贾焰.分词结果的再搭配对文本分类效果的增强 C/全国计算机安全学术交流会论文集(第二十四卷).合肥:中国科学技术大学出版社,2009:349-353.16 尹邦才.试论“语义搭配的可能性”J.理论观察,2008(6):134-135.17 陶永才,海朝阳,石磊,等.中文词语搭配特征提取及文本校对研究

28、J.小型微型计算机系统,2018,39(11):2485-2490.18 朱晓亚.现代汉语句模研究 M.北京:北京大学出版社,2001.19 马玉慧,谭凯,尚晓晶.基于语义句模的语义理解方法研究 J.计算机技术与发展,2012,22(10):117-120.20 鲁川,缑瑞隆,董丽萍.现代汉语基本句模 J.世界汉语教学,2000(4):11-24.21 曹素青,曾伏虎,曹焕光.一个中文文本自动分类数学模型 J.情报学报,1999,18(1):27-32.【作者简介】余小鹏(1974),男,湖北武汉人,武汉工程大学管理学院副教授,研究方向:信息系统与电子商务、数据挖掘、教育信息技术。王振佩(1999),女,河南信阳人,武汉工程大学管理科学与工程 21 级硕士研究生,研究方向:信息系统与电子商务、教育信息技术。殷浩(1985),男,湖北武汉人,武汉经开外国语学校教师,研究方向:中小学“双减”课程体系改革。徐健儿(2000),女,广东广州人,武汉工程大学管理科学与工程 22 级硕士研究生,研究方向:信息系统与电子商务、教育信息技术。(收稿日期:2023-03-07 修回日期:2023-04-03)

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服