ImageVerifierCode 换一换
格式:PDF , 页数:3 ,大小:1.63MB ,
资源ID:636930      下载积分:10 金币
验证码下载
登录下载
邮箱/手机:
验证码: 获取验证码
温馨提示:
支付成功后,系统会自动生成账号(用户名为邮箱或者手机号,密码是验证码),方便下次登录下载和查询订单;
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/636930.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  
声明  |  会员权益     获赠5币     写作写作

1、填表:    下载求助     留言反馈    退款申请
2、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
3、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
4、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
5、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
6、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
7、本文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。

注意事项

本文(基于多特征选择的电力档案自动分类方法.pdf)为本站上传会员【自信****多点】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4008-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

基于多特征选择的电力档案自动分类方法.pdf

1、信息与电脑2023年第10 期Information&Computer计算机工程应用技术基于多特征选择的电力档案自动分类方法马宁李瑞环(国网浙江省电力有限公司嵊州市供电公司,浙江嵊州摘要:针对电力档案自动分类中应用效果不佳的问题,提出基于多特征选择的电力档案自动分类方法。首先,对电力档案文本内容进行提取、分词、去停词处理,并利用向量空间模型表示电力档案本文;其次,利用多特征选择技术提取文档频率、卡方检验、归一化差异、基尼指数及信息增益多项特征;最后,根据特征确定电力档案文档与类别的相似度,通过与分类阈值对比确定电力档案类别。实验结果表明,设计方法的档案错误分类数量较少,优于传统方法,在电力档案

2、自动分类方面拥有广阔的应用前景。关键词:多特征选择;电力档案;自动分类中图分类号:TP391Automatic Classification Method of Power Archives Based on Multiple Feature312400)文献标识码:A文章编号:10 0 3-9 7 6 7(2 0 2 3)10-0 19-0 3SelectionMA Ning,LI Ruihuan(Shengzhou Power Supply Company of State Grid Zhejiang Electric Power Co.,Ltd.,Shengzhou Zhejiang 3

3、12400,China)Abstract:A multi feature selection based automatic classification method for power archives is proposed to address the issueof poor application performance in automatic classification of power archives.First,the text content of power archives is extracted,word segmentation,stop word remo

4、val,and vector space model is used to represent the power archives text.Secondly,multiple featureselection techniques are used to extract multiple features such as document frequency,chi square test,normalized difference,Giniindex,and information gain.Finally,the similarity between power archive doc

5、uments and categories is determined based on theircharacteristics,and the power archive categories are determined by comparing them with classification thresholds.The experimentalresults show that the design method has a smaller number of file misclassification errors,which is superior to traditiona

6、l methods andhas broad application prospects in automatic classification of power files.Keywords:multi-feature selection;power file;automatic classification0引言随着电力行业的不断发展,电力档案数量逐渐增多,划分的档案类别不断增多,电力档案精细化分类要求不断提高。国内关于这方面的研究起步比较晚,档案自动化分类理论还不够成熟,虽然近几年相关学者针对档案自动化分类开展了一系列研究,并提出了一些分类方法,但是该方面的研究尚处于初步探索阶段,现行方

7、法的分类效果与预期存在较大的差距,已经无法满足实际需求。因此,提出基于多特征选择的电力档案自动分类方法。收稿日期:2 0 2 3-0 4-0 5作者简介:马宁(1995一),男,浙江嵊州人,本科,助理工程师。研究方向:行政、档案等管理工作。1电力档案信息预处理及文本表示为了保证分类精度,在对档案文本信息特征进行提取及分类前,对其进行内容提取、分词、去停词处理。假设待分类档案为r,将档案r输入到ApachePOI软件中,以编码的形式提取档案文档格式对应字段的信息,再将其输人到光学字符识别(OpticalCharacterRecognition,OCR)软件中,以像素的方式提取图像文档信息-。假设

8、电力档案文本中的短语、词语和字作为文本特征项,利用特征集合S表示电力档案文本。每个特征项在电力19信息与电脑计算机工程应用技术Information&Computer档案文本中的重要度不同,用集合W表示各个特征项对应的权值,故用于描述电力档案文本的向量空间模型为D=(s,.),(s2,w2),(s,w,)(1)式中:n为档案文本特征项数量 4。利用多特征选2基于多特征选择的档案特征提取择技术在电力档案文本信息的向量空间模型中对其特征根据提取的特征,使用K最邻近(K-Nearest进行选择,此次选择的特征对象为文档频率、卡方检验、Neighbor,K N N)算法计算出电力档案文本与类别文本归一

9、化差异、基尼指数及信息增益。其中,文档频率可集合的相似度 9-10 ,其计算公式为以反映电力档案中含有特征词的文本数量,频率越高表示文本中的特征词含量越少。电力档案文档频率的计算公式为r=TUD+YUD式中:TU为含有特征词的文本在类别中的数量;YU为含有特征词的文本不在类别中的数量 5。卡方检验可以反映出文档分布和预期分布的差异性,检验值用CHI表示,其计算公式为Nx(TUD.THD-YUD.YND)CHI=(TUD+YUD)(THD+YND)式中:N表示电力档案总的文本数量;TH表示不含有特征词并且也不在类别中的文本数量;YNP表示不含有特征词但是在类别中的文本数量 。归一化差异可以反映出

10、类别中特征词的相对文档频率,其计算公式为ler-cylpC=min(er,cv)式中:c为电力档案中词语的相对文档频率;er为电力档案中词语的真正率;CV为电力档案中词语的假正率。相对文档频率值最大的词语为电力档案文本信息特征词。基尼指数可以反映档案样本的不确定性,其计算公式为G=ZAPpD-1式中:G为电力档案的基尼指数;i为类别数量;AP为给定特征词存在时属于第i个类别的条件概率;p为条件文档内存在特征词的条件概率 7。增益系数可以反映出电力档案文本中特征词可以使文本分类获得的信息量,增益值越大,则特征词包含的信息量越大,其计算公式为IG=Zmlog m+q logq+xlog x+alo

11、g a式中:IG为电力档案文本信息增益系数;m为文档出现在数据集中的概率;q为文本中包含特征条件下属于某一类别的概率;x为电力档案文本中特征出现的概率;为文本中不包含特征条件下属于某一类别的概2023年第10 期率8。通过以上计算,提取电力档案文本特征,用公式表示为VB=r+CHI+c+G+IG式中:VB为电力档案文本特征。HL=VB/VB,+ZH-1式中:L为电力档案文本信息与类别文本集合的相(2)似度;VB为类别文本集合的特征值;H为类别集合中包含的文本数与分类的电力档案文本数的比值。在此设定一个阈值,将其与利用式(8)得到的计算结果进行对比,如果相似度L大于阈值,则表示该电力档案属于该类

12、别,如果相似度L小于值,则表示该电力档案不(3)属于该类别,继续按照上述公式计算出电力档案文档与其他类别文本的相似度,其用公式表示为1 if LKM=o if LK式中:M为电力档案分类结果,包括1”和“0”两种;1为电力档案属于计算类别;0 为电力档案不属于计算类别;K为电力档案分类阈值。利用式(9)即可得到分(4)类结果,以此完成基于多特征选择的电力档案自动分类。3实验分析3.1实验准备与设计选择某电力企业档案作为实验对象,利用基于卷积神经网络模型的分类方法、基于数据融合的分类方法、本文设计方法对该电力企业档案进行自动分类,前两种方法分别用传统方法1与传统方法2 表示。实验共准备(5)了8

13、 0 0 个电力设备档案、人力资源档案、电力材料档案及电力用户档案等电力档案,按照上述流程对电力档案文本信息进行预处理、特征提取以及自动分类,并检验具体分类效果。3.2实验结果与讨论实验将错误分类档案数量作为3种方法的分类精度评价指标,每完成10 0 个档案自动分类后,对错误分类(6)数量进行统计,使用电子表格记录3种方法的档案错误分类数量,如表1所示。从表1可以看出:设计方法的档案错误分类数量相对比较少,当分类档案数量达到8 0 0 个时,错误分类数量仅占总量的0.8 6%,错分率可以控制在1%以内;(7)(8)(9)20信息与电脑2023年第10 期Information&Computer

14、计算机工程应用技术表13种方法的档案错误分类数量档案数量设计方法的档案错误分类数量10002001300240045005600570068007两种传统方法的档案错误分类数量相对比较高,当分类档案数量达到8 0 0 个时,设计方法1的错误分类数量占总量的10.8 9%,传统方法2 的错误分类数量占总量的10.2 4%,均高于设计方法。为了进一步验证设计方法的适用性,对3种方法的档案分类时间进行对比,实验以分类的档案信息量为变量,档案文本信息量为10008 0 0 0 By t e,3种方法的分类时间如表2 所示。表2 3种方法的分类时间档案信息量设计方法的传统方法1的传统方法2 的/Byte

15、分类时间/s分类时间/s分类时间/s10000.1220000.2630000.3440000.4150000.4860000.5170000.5280000.58从表2 可以看出,虽然3种方法分的类时间均随着样本信息量的增加而不断延长,但是设计方法的时间延长比例比较小,当对8 0 0 0 Byte档案进行分类时,设计方法的分类时间仅为0.58 s,比传统方法1快将近10 s,比传统方法2 快将近11S,表明设计方法对电力档案的自动分类速度较快。实验结果表明,无论在分类精度方面还是在分类速度方面,设计方法均表现出明显的优势,相比较两种传统方法更适用于电力档案自动分类。4结语档案分类作为电力企业

16、档案管理工作中的一个重要项目,分类质量将直接关系到档案管理工作质量。文章将多特征选择技术应用到电力档案自动分类中,形成了单位:个传统方法1的档案错误分类数量传统方法2 的档案错误分类数量12112425363645415659686874748681一个全新的分类思路,有效降低了电力档案的错分率,缩短了电力档案分类时间,实现了对当前档案自动分类理论的完善。参考文献1焦懿,王贵姝,司冬宁,等.大数据深度挖掘的离退休人员电子档案分类 J.信息技术,2 0 2 2(5):135-139.2杨晶晶.企业档案数据自动分类管理实践探究 .北京档案,2 0 2 2(3):32-34.3孟盘继.煤化工企业档案

17、分类管理和检索方法:3.153.564.564.585.476.126.357.417.458.528.529.369.1210.2410.2511.24以鼎旺化工有限公司为例 .煤炭加工与综合利用,2 0 2 2(2):7 2-7 7.4王雨.医院综合档案自动分类系统设计 .自动化技术与应用,2 0 2 1,40(11):56-59.5孟祥喜.信息化转型背景下机关档案分类研究:以机关档案管理规定中一级类目划分方法为分析对象 .档案管理,2 0 2 1(3):8 3-8 5.6李婷婷.基于OAIS模型的水利基层单位档案分类系统设计 J.数字通信世界,2 0 2 1(3):110-111.7田丰,杨洋.基于模糊聚类算法的智能电子档案自动分类方法 J.微型电脑应用,2 0 2 1,37(2):8 7-90.8王长城,范叶.媒资系统中民族影音档案分类设计 .卫星电视与宽带多媒体,2 0 2 0(8):2 42-2 44.9应毅,任凯,刘亚军.基于GIS技术和加权kNN算法的实时揽件调度方法 .计算机工程与应用,2 0 2 0,56(2 1):248-252.10黄欣,莫海淼,赵志刚,等.离散型增强烟花算法和kNN在特征选择中的研究 J.计算机工程与应用,2 0 2 0,56(16):112-117.21一

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服