收藏 分销(赏)

文本分类特征选择卡方统计K-近邻支持向量机论文.doc

上传人:仙人****88 文档编号:9284617 上传时间:2025-03-19 格式:DOC 页数:5 大小:41KB 下载积分:10 金币
下载 相关 举报
文本分类特征选择卡方统计K-近邻支持向量机论文.doc_第1页
第1页 / 共5页
文本分类特征选择卡方统计K-近邻支持向量机论文.doc_第2页
第2页 / 共5页


点击查看更多>>
资源描述
中文文本分类中特征选择方法的应用与研究 【摘要】 文本分类技术可以用来帮助人们从海量的信息中获取有用信息,它已经得到了广泛地研究和应用。文本分类就是将一些未知的文本与预先定义好的文本类别相互比较,如果这个未知的文本与已知文本类别中的一些类别互相对应时,那么这个未知文本就属于所对应类别的文本。在文本分类中,影响分类效果的一个比较重要的因素是特征选择。特征选择就是在原始特征集中选出最有代表性的一些特征,它可以降低特征维数。在文本领域中,特征选择的必要性在于它可以使分类任务更加有效与准确。本文通过分析与比较,指出了传统的卡方统计法的缺点。一方面它仅仅只关心特征词在全部文本而不是一篇文本中所出现的次数,这就降低了最终分类的准确率;另一方面它只关心出现次数特别多的特征词,如果在研究的类别中,特征词出现比较少时,还选用这些特征词的话,分类的效果就会不准确。为了解决卡方统计法本身的缺点,本文通过频度思想对其进行了改进,并通过K-近邻算法与支持向量机算法,对改进的方法进行了验证。另外,本文还提出了一种比较新的特征选择方法,此方法在中文分类系统中还没有得到广泛地应用,可以作为今后研究的一个方向。最后本文构造了一个中文文本分类系统,它的各个模块之间是互不... 更多还原 【Abstract】 Text categorization technology can be used to help us obtain some useful information from numerous information, it has already been widely studied and been used. Text categorization is to compare some unknown text with some pre-defined classes. If the unknown text matches the one or more known classes, then we say the unknown text belongs to the corresponding classes.In text categorization, feature selection is one important factor which affects the effect of text categorization. Feature selecti... 更多还原 【关键词】 文本分类; 特征选择; 卡方统计; K-近邻; 支持向量机; 【Key words】 text categorization; feature selection; CHI statistic; KNN; SVM; 【索购全文】Q联系Q:138113721 Q联系Q: 139938848付费即发 目录 摘要 3-5 ABSTRACT 5-6 第一章 绪论 10-14 1.1 论文研究背景及意义 10-11 1.2 文本分类的研究现状 11-12 1.3 论文的主要工作 12 1.4 论文组织结构 12-14 第二章 文本分类技术及应用 14-28 2.1 文本分类问题的概述 14-15 2.2 文本分类的特性 15 2.3 文本分类的文本集 15 2.4 文本分类的方法 15-16 2.5 文本分类的过程 16-25 2.5.1 文本表示 17-18 2.5.2 文本预处理 18-19 2.5.3 特征提取 19-22 2.5.4 训练或构造分类器 22 2.5.5 测评 22-25 2.6 文本分类的应用 25 2.7 本章小结 25-28 第三章 文本分类算法 28-36 3.1 K-近邻算法 28-30 3.2 支持向量机算法 30-34 3.2.1 线性可分的支持向量机 30-31 3.2.2 线性不可分的支持向量机 31-32 3.2.3 非线性支持向量机 32-33 3.2.4 多类支持向量机 33-34 3.3 本章小结 34-36 第四章 特征选择及特征选择方法的研究 36-44 4.1 特征选择与特征抽取区别 36-38 4.1.1 特征选择 36-37 4.1.2 特征抽取 37-38 4.2 研究特征选择的作用 38 4.3 特征选择方法的定义 38 4.4 常用的特征选择方法 38-42 4.4.1 文档频率 39 4.4.2 信息增益 39-40 4.4.3 互信息 40 4.4.4 卡方统计法 40-42 4.4.5 特征强度 42 4.4.6 优势率 42 4.4.7 文本证据权重 42 4.5 特征选择方法的比较 42-43 4.6 本章小结 43-44 第五章 CHI统计法的改进及一种新的特征选择方法 44-48 5.1 CHI特征选择方法的缺点及改进 44-45 5.1.1 CHI统计法的缺点 44 5.1.2 CHI统计法的改进 44-45 5.2 二元正态分离的特征选择方法 45 5.3 文本分类系统设计 45-47 5.3.1 文本分类系统流程图 45-46 5.3.2 文本分类系统的模块 46-47 5.4 本章小结 47-48 第六章 实验及结果分析 48-62 6.1 文本分类实验 48-51 6.1.1 文本集选择 48 6.1.2 实验过程 48-51 6.2 分类性能评估 51 6.3 实验结果分析 51-60 6.3.1 KNN实验结果 51-56 6.3.2 SVM实验结果 56-60 6.4 实验结果总结 60 6.5 本章小结 60-62 第七章 总结与展望 62-64 参考文献
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 学术论文 > 其他

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4009-655-100  投诉/维权电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服