基于改进TFIDF算法的文本特征选择和聚类分析.pdf

资源描述

1、Microcomputer Applications Vol.39,No.10,2023文章编号：10 0 7-7 57 X（2 0 2 3)10-0 18 1-0 3基于改进TFIDF算法的文本特征选择和聚类分析开发应用微型电脑应用2 0 2 3年第39 卷第10 期赵军愉1，柴小亮，李士林，徐松晓1，王强1（1.国网河北省电力有限公司保定供电分公司，河北，石家庄0 50 0 2 1；2国网河北省电力有限公司，河北，石家庄0 50 0 2 1）摘要：为了提高大量文本数据的特征选择能力，采用全覆盖粒计算方法对特征选择算法的数据高维性与稀疏性进行分析。针对TFIDF算法存在的缺陷，设计了一种经过

2、改进后的TFIDF_SP算法，以区分文档内处于不同部位的特征词重要性，并根据不同特征选择方法对比结果判断算法有效性。研究结果表明，采用bLDA主题模型提取细主题粒度的时候也无法获得理想聚类效果，此时会对相同主题特征词造成弱化，将其判断为不同主题类型的特征词。在取值等于0.8 时可以获得最优聚类效果，此时改进TFIDF算法能促进权重的进一步提升。所提出的改进TFIDF算法可以获得比TFIDF和bLDA主题模型更好的结果结合高1.6 2%的聚类准确率，表明当特征词方式词性与位置变化时会引起文档表达效果的显著影响。关键词：文本特征选择；改进TFIDF算法；聚类效果；主题模型中图分类号：TP39文献标

3、志码：AText Feature Selection and Clustering AnalysisBased on Improved TFIDF AlgorithmZHAO Junyu,CHAI Xiaoliang,LI Shilin,XU Songxiao,WANG Qiang(1.Baoding Power Supply Branch of State Grid Hebei Electric Power Co.,Ltd.,Shijiazhuang 050021,China;2.State Grid Hebei Electric Power Co.,Ltd.,Shijiazhuang 05

4、0021,China)Abstract:In order to improve the feature selection ability of a large number of text data,the full-coverage grain computingmethod is used to analyze the data high dimension and sparsity of feature selection algorithm.Aiming at the above defects ofTFIDF algorithm,an improved TFIDF_SP algor

5、ithm is designed to distinguish the importance of feature words in differentparts of the document,and judge the effectiveness of the algorithm by comparing the results of different feature selection meth-ods.The results show that when bLDA topic model is used to extract fine topic granularity,the id

6、eal clustering effect cannotbe obtained,and the same topic feature words are weakened,and they are judged as feature words of different topic types.When the value of is equal to 0.8,the optimal clustering effect can be obtained.In this case,the improved TFIDF algorithmproposed in this paper can prom

7、ote the further improvement of the weights.The improved TFIDF algorithm can increase theclustering accuracy by 1.62%compared with the combination of TFIDF and bLDA topic model,indicating that the change offeature word mode,part of speech and position can significantly affect the document expression

8、effect.Key words:feature selection;improved TFIDF algorithm;clustering effect;topic model等5通过多粒度粗糙决策的方式建立属性约简算法，能够满0引言足对多粒度条件进行属性约简的处理要求。杨田等6 在随着当前互联网通信技术的快速发展，促进了各类通信WANG等L7提出的属性约简算法基础上进行分析得到存在工具与软件的开发与推广，产生了微信、微博、知乎、头条等高复杂度的二元关系属性约简算法，经过特例分析大幅度减各类社交与资讯平台，并在上述系统平台中产生了大量文本小了时间复杂度。李兵洋等8 主要从降低约简穴余属性的数

9、据-3。T.Y.Lin设计了一种全覆盖模型并进行了粒计层面分析，选择合适的属性权值以或合适的阈值来达到上述算测试，属于一类特定的部分覆盖模型，苗夺谦等红利用上效果，最终构建了包含融合属性权重的优化约简方法。述模型对多粒度问题进行智能分析，极大降低了复杂问题的CHEN等9 主要对覆盖决策过程的一致性进行了分析，并根求解难度，实现信息处理效率的大幅度提升，同时也为推广据覆盖决策确定了知识约简。JING等10 1利用多粒度视图相关技术理论起到了一定的参考作用。国内学者李顺勇方法对增量属性进行了约简处理，结果发现能够满足大数据作者简介：赵军愉（198 9一），男，硕士，工程师，研究方向为电力系统及其自

10、动化；柴小亮（198 2 一），男，硕士，高级工程师，研究方向为电网规划；李士林（197 5一），男，硕士，教授级高级工程师，研究方向为电力信息通信技术；徐松晓（198 1一），男，硕士，高级工程师，研究方向为电网规划经营；王强（198 1一），男，硕士，高级工程师，研究方向为电力系统运行管理。.181.:Microcomputer Applications Vol.39,No.10,2023的快速约简。谢珺等11设计了全覆盖粒数学模型，可以同时实现知识约简并满足属性重要度分析要求，采用全覆盖粒知识约简的方式对文本特征实施降维，最后通过全覆盖粒属性特点实现文本的聚类分析。根据以上关于全覆盖粒的

11、文献，本文采用全覆盖粒计算方法对特征选择算法的数据高维性与稀疏性进行分析，显著改善了聚类结果；根据不同特征选择方法对比结果判断算法有效性。1改进TFIDF算法1.1传统TFIDF算法TFIDF算法属于向量空间模型中用于特征词分析的一个重要算法12-13。IDF属于文档频率，随着文档数量不断增加，该参数也发生了持续降低的趋势，采用该特征词无法实现文档类别进行准确区分的目标。TF为词频，随着特征词频率的提高，对应的权值也越大，可以判断此时该特征词达到了更强的文档区分性能。以下为TFIDF计算式：tXlog(+0,01)njWiN式中，t是第m篇文档出现词t的频率，N为所有文档的数量，n是含有词t的

12、文档数。利用TFIDF算法对均匀状态的词进行高效过滤，但也需注意此算法具有较大缺陷需要克服，进行贡献度计算时只分析特征词频率的影响，并未针对特征词位置与词性进行研究，处于不同的词性与位置条件下，特征词实际表达的含义也存在明显差异。其中，名词与动词可以获得比形容词更强的主题表现力，对文档达到更精确的表达效果，而当词语出现在标题区域时则可以获得比正文区域更重要的意义，对上述情况的各类词需将其与常规词区分处理。1.2TFIDF_SP 算法针对TFIDF算法存在的缺陷，本文设计了一种经过改进后的TFIDF_SP算法。通过权重系数综合分析词性与位置并建立复合权值，计算得到特征加权并将其与TFIDF方法进

13、行结合处理，由此区分文档内处于不同部位的特征词重要性。以下给出了对应的计算式：tfi.=(ait+uith,+ua trg)其中，t=th,+t2。1tf.log(+0.01)Wi.N2(f）*1o g(+0.0 1)式中，tfi,是对特征词进行权重调整得到的词频，入，属于词性权重系数。其中，名词在入=3时达到最优，动词在入2时最优，其他词在入=1时达到最优，是文档i中的词i频率，ul、u 2 依次为词在标题与正文区域下的权重系数，取值分别在4与1时获得最佳结果，t1、t s 2 代表词在标题与正文条件下形成的词频，l是第i篇文档内包含的各个词的数量总和。利用对特征词进行词性与位置加权归一化，

14、并将结果拓展，特征词除了频率较高以外，还可以更加高效体现出开发应用文本的结构特点。1.3bLDA主题模型LDA属于一种典型概率模型，对高维文档集合进行映射生成维度更低的潜在语义空间，从而将文档表示成不同主题的混合形式，本次选择词空间分布作为主题，对特征词进行软聚类分析，再通过抽象方法获取文本内容。在LDA主题模型基础上进行扩展得到bLDA主题模型，按照伯努利分布的形式确定各词的背景与先验主题。使用bLDA主题模型进行分析时，需通过GibbsSam-pling推理的过程对特征词w;进行主题测试。以下为各参数的采样计算式：(4)2m2+1-1p(zi=klzi,a)oc(nko,+,)(1-lam

15、ada)(nk),+x)(m2,+)(Ka+V-1-(m+t)(k=1,2,.,n)式中，zi对应词特征i的主题变量,n(t)为第 m篇文档内词t(1)出现的频率，n(k)为主题k词频，n(O)为第m篇文档形成的log（+0.0 1）入,tk+ui tk,+u2tkz(2)(3).182.微型电脑应用2 0 2 3年第39 卷第10 期(5)主题k(k=0)词频，n为主题数量，V为文档集包含的所有词数量，lamada为背景主题先验概率，与k依次对应词t与主题k狄利克雷先验分布结果。2文本流程2.1文本特征粒化按照全覆盖粒知识约简的方式对以上特征词集实施约简，从中选择可以有效表达文档并且包含有用

16、信息的特征词集，从而同时实现减小复杂度以及增加精度的效果。文本特征算法的具体处理过程如下。从文档集N中选择特征词集D作为输人，以经过约简得到的特征词集core作为输出。第一步：对特征词集进行数据处理确定中心center(D)，之后再计算得到粒度熵ID）。第二步：以 core（D)表示经过约简处理得到的特征词集，同时计算文档集Di重要度SigD。第三步：判断I(core(D)）=I(D)是否满足条件，当符合判断条件时则处理过程结束，由此得到的core(D)属于最小粒约简；反之，重新跳转到第四步。第四步：以P表示core(D），再把文档集结算结果加入P中。第五步：判断是否满足I(P)=I(D),当

17、结果满足时则停止处理过程，由此得到的P属于特征词集D约简；反之继续执行第四步。2.2算法流程对特征词进行加权处理后虽可以达到优异文档表达能力，能够有效克服特征稀疏性的问题，但优异该处理方法具有明显的高维特征，导致计算量大幅度增加，整个处理过程非常复杂，最终引起聚类精度的降低。选择全覆盖粒知识约简方法进行处理时可以控制约简前后处于同样的特征表达状态下，实现计算复杂度的显著减小。按照以下步骤对文本特征进行全覆盖粒计算。其中，特征词集通过TFIDF_SP算法进行计算作为输人，以经过约简的特征词集加权作为输出。Microcomputer Applications Vol.39,No.10,2023第一

18、步：以TFIDF_SP算法获得特征词集内概率在O以上的词置1，生成取值等于0 或1的特征词集。第二步：粒化取值等于0 或1的特征词集，再对特征粒进行约简处理。模型计算特征词权重新闻语料库预处理算法计算特征词权重图1算法流程词造成弱化，将其判断为不同主题类型的特征词。3实验结果分析在特征选择时，将k设定在3，参数因子依次设定在3.1实验语料0.500.9 5，在不同值下经对比得到K-medoids聚类F通过搜狐网站信息爬取的方式得到12 50 篇新闻语料，值，由此获得最优特征词集权重，测试所得结果见图3。对这些新闻进行分类统计，属于“健康”类的新闻总共18 00.8F篇，“财经”类共6 6 0

19、篇，“IT”类共410 篇，分别从各篇新闻中提取标题与正文内容进行测试，文本规模基本在38 KB之间。3.2实验方案评价指标通过实验语料获得相关的实验数据集，按照2.2 节的算法流程计算各评价指标，并验证算法有效性。通过爬取获得的搜狐新闻都是以人工分类得到的文本集，由此实现聚类A和人工类别B的相互对应，此时A的文本基本都属于B的文本。综合考虑准确率（Precision）、召回率（Recall)、F参数对实际聚类性能进行评价。3.3主题数参数设置采用以上语料库作为测试数据，建立bLDA主题模型时，将参数设定为=50/k、=0.0 1，总共送代10 0 0 次。测试时主题数k属于一个不确定参数，当

20、取值变化时会引起特征选择有效性也存在显著差异，将n值依次设定在110,设定主题模型包含的主题数，再以K-medoids聚类得到的F值进行评价，从而获得根据语义建立的“文档一词语”矩阵，经测试得到结果如图2 所示。0.740.72F.0.700.680图2 bLDA主题个数设置其中，横坐标代表实际设定的主题数量，纵坐标代表评价指标，根据以上测试数据判断特征选择算法有效性与bL-DA主题模型主题数之间的关系。通过分析可知,在主题数k=3的情况下，获得了最大聚类F，表明此时达到了最优处理效果，与人工标注主题数相符。同时还可以看到，主题数接近人工标注主题数的情况下，形成了基本一致的评价指标，通过bLD

21、A主题模型可以获得较优主题粒度，从而更接近文档表达含义；以bLDA主题模型进行粗主题粒度提取时无法获得良好的聚类性能，并无法对各类主题特征词进行明显分类，导致区分度偏差；当采用bLDA主题模型提取细主题粒度时也无法获得理想聚类效果，此时会对相同主题特征开发应用第三步：对特征集进行加权处理，同时保留约简部分，再对其按照 min-max方式实施归一化，由此获得约简特征词集。各流程见图1。bLDA主题全覆盖粒计约简后的K-medoids算的知识约特征词集合简TFIDF_SP值介于0.50.8 之间时，当值提高时获得了更优文本聚类性能，而在值达到0.8 以上，继续增加值则会降低文本聚类性能，由此判断值

22、取0.8 时可以获得最优聚类效果。因此可以从侧面推断出，与采用bLDA主题模型处理获得的“文档一词语”概率相比，通过TFIDF算法获得的“文档一词语”概率可以更加准确地表达文本含义，促进权重的进一步提升。3.4方法比较据以上搜狐新闻语料，为验证特征词权重分析方式有效性，分别以TFIDF算法与bLDA主题模型作为Baseline、Baseline2,再以上述2 种方法相结合的形式组成Baseline3，之后利用同一语料库测试上述各项算法相对 TFIDF_SP算法及bLDA主题模型方法的综合处理性能，再根据K-me-doids聚类算法准确率、召回率、F值进行综合评估，测试得1到结果如表1所示。24

23、6810主题数目微型电脑应用2 0 2 3年第39 卷第10 期评价聚类0.70.6F0.50.412实验方法改进TFIDF算法TFIDF算法bLDA主题模型通过比较发现，采用TFIDF_SP和bLDA主题模型或采（下转第18 7 页）.1830.5图3的最优设置表1不同方法对比结果聚类类别准确率/%召回率/%F值/%健康79.26财经73.01IT79.62健康63.22财经65.15IT69.35健康62.42财经63.96IT64.680.6值0.70.80.978.2681.3682.6466.2567.8266.4866.2466.9365.721.078.4975.6278.346

24、3.4666.7562.6465.5767.4962.85Microcomputer Applications Vol.39,No.10,2023光伏发电站实际运行了基于BP神经网络的光伏电站运营方法，其运行结果验证本文所提方法的可行性和有效性。下一步，将结合新能源聚合商对光伏电站集群发电做进一步研究。参考文献1唐冬来，郝建维，刘荣刚，等，基于动态规划的配电台区三相负荷不平衡治理方法J.电力系统保护与控制,2 0 2 0,48(2 1):58-6 6.2蒋迪，莫熙，邵其专.基于VoIP技术的多网融合电网调度指挥系统研究J.自动化与仪器仪表，2 0 2 0（2)：114-116.3周毅，宋柄兵，

25、王臻，等.基于多特征融合的电网调度员工作负荷综合评价方法J.微型电脑应用，2 0 19，35(11):71-75.4陈郑平，米为民，林静怀，等.电网调控操作智能助手方案探讨J.电力系统自动化，2 0 19，43（2 2）：173-178.5吴嘉豪，曾成碧，苗虹.计及子区域间能量交换的多区域综合能源系统协调经济调度J.电力建设，2 0 19，40(11):39-47.开发应用6 马溪原，郭晓斌，周长城，等.电网公司投资分布式光伏发电系统的典型运营模式分析J.南方电网技术，2018,12(3):52-59.7 孙建梅，陈璐.基于LCOE的分布式光伏发电并网效益分析J.中国电力，2 0 18，51（

26、3）：8 8-93.8田鑫，张健，李雪亮，等。基于时序运行模拟的山东电网光伏发电消纳能力评估J.电力系统保护与控制，2020,48(8)34-43.9 孙曼，张大，曾伟，等.计及光伏消纳率的分布式光伏电源双层多场景规划J.现代电力，2 0 19，36（2）：17-24.10唐冬来，秦耀文，付世峻，等.基于台区功率共济的屋顶光伏功率消纳方法J.供用电，2 0 2 2，39（2）：9-14.11李正明，梁彩霞，王满商.基于PSO-DBN神经网络的光伏短期发电出力预测J.电力系统保护与控制，2020,48(8):149-154.12郝刚，金涛，基于隐马尔科夫模型的滚动轴承性能衰退评估J.重庆交通大学

27、学报（自然科学版），2 0 2 1，40(2):123-128.微型电脑应用2 0 2 3年第39 卷第10 期（收稿日期：2 0 2 1-10-2 6）(上接第18 3页）用TFIDF和bLDA主题模型进行结合处理时比单一使用bLDA主题模型处理方式和TFIDF算法获得更优的性能，因此需要对TFIDF算法与bLDA主题模型进行结合分析，从而为特征词分配合适的权重。以TFIDF_SP和bLDA主题模型进行结合分析时，可以获得比TFIDF和bLDA主题模型结合高1.6 2%的聚类准确率，表明当特征词方式词性与位置变化时会引起文档表达效果的显著影响。4总结采用bLDA主题模型提取细主题粒度的时候也

28、无法获得理想聚类效果，此时会对相同主题特征词造成弱化，将其判断为不同主题类型的特征词。值取0.8 时可以获得最优聚类效果，此时本文改进TFIDF算法能促进权重的进一步提升。本文改进TFIDF算法可以获得比TFIDF和bLDA主题模型结合高1.6 2%的聚类准确率，表明当特征词方式词性与位置变化时会引起文档表达效果的显著影响。1朱立东，张勇，贾高一，卫星互联网路由技术现状及展望J.通信学报，2 0 2 1，42（8）：33-42.2 龙勇，杨国军一种基于软件定义网络的通信网络保护方法J.电子器件，2 0 19，42（6）：156 4-156 8.3常青.恶劣环境下互联网通信接口自适应转换系统设计

29、.现代电子技术，2 0 18，41(1）：2 8-31.4苗夺谦，张清华，钱宇华，等.从人类智能到机器实现模型：粒计算理论与方法J.智能系统学报，2 0 16，11(6):743-757.5李顺勇，钱宇华.基于多粒度粗糙决策下的属性约简算法J.中北大学学报（自然科学版），2 0 13，34（5）：589-592.6 杨田，伍秀华，王玉芳.覆盖粗糙集属性约简的新算法J.模糊系统与数学，2 0 13,2 7（2：18 3-190.7WANGC Z,WU C X,CHEN D G.A SystematicStudy on Attribute Reduction with Rough Sets Bas

30、edon General Binary Relations J.Information Sci-ences,2008,178(9):2237-2261.8 李兵洋，肖健梅，王锡淮.多半径邻域粗糙集改进约简算法J.计算机工程与应用,2 0 17,53(11)：7-12.9 CHEN D G,WANG C Z,HU Q H.A New Ap-proach to Attribute Reduction of Consistent and In-consistent Covering Decision Systems with CoveringRough SetsJ.Information Scien

31、ces,2007,177(17):3500-3518.10JING YG,LI T R,FUJITA H,et al.An Incremen-tal Attribute Reduction Approach Based on Knowl-参考文献edge Granularity with a Multi-granulation ViewJ.Information Sciences,2017,41l:23-38.11谢珺，秦琴，续欣莹.全覆盖粒计算模型的粒化、知识逼近及其算子性质研究J.南京大学学报（自然科学）,2 0 15,51(1):10 5-110.12金燕，黄杰.基于信息炳与词长信息改进的TFIDF算法J.浙江工业大学学报，2 0 2 1，49（2）：2 0 3-2 0 9.13赵金楼，朱辉，刘馨.基于改进TFIDF的图书馆知识群体特征提取研究J.系统科学与数学，2 0 19，39(9):1450-1461.（收稿日期：2 0 2 1-10-30）.187.

展开阅读全文