1、信息与电脑2023年第10 期Information&Computer计算机工程应用技术基于多特征选择的电力档案自动分类方法马宁李瑞环(国网浙江省电力有限公司嵊州市供电公司,浙江嵊州摘要:针对电力档案自动分类中应用效果不佳的问题,提出基于多特征选择的电力档案自动分类方法。首先,对电力档案文本内容进行提取、分词、去停词处理,并利用向量空间模型表示电力档案本文;其次,利用多特征选择技术提取文档频率、卡方检验、归一化差异、基尼指数及信息增益多项特征;最后,根据特征确定电力档案文档与类别的相似度,通过与分类阈值对比确定电力档案类别。实验结果表明,设计方法的档案错误分类数量较少,优于传统方法,在电力档案
2、自动分类方面拥有广阔的应用前景。关键词:多特征选择;电力档案;自动分类中图分类号:TP391Automatic Classification Method of Power Archives Based on Multiple Feature312400)文献标识码:A文章编号:10 0 3-9 7 6 7(2 0 2 3)10-0 19-0 3SelectionMA Ning,LI Ruihuan(Shengzhou Power Supply Company of State Grid Zhejiang Electric Power Co.,Ltd.,Shengzhou Zhejiang 3
3、12400,China)Abstract:A multi feature selection based automatic classification method for power archives is proposed to address the issueof poor application performance in automatic classification of power archives.First,the text content of power archives is extracted,word segmentation,stop word remo
4、val,and vector space model is used to represent the power archives text.Secondly,multiple featureselection techniques are used to extract multiple features such as document frequency,chi square test,normalized difference,Giniindex,and information gain.Finally,the similarity between power archive doc
5、uments and categories is determined based on theircharacteristics,and the power archive categories are determined by comparing them with classification thresholds.The experimentalresults show that the design method has a smaller number of file misclassification errors,which is superior to traditiona
6、l methods andhas broad application prospects in automatic classification of power files.Keywords:multi-feature selection;power file;automatic classification0引言随着电力行业的不断发展,电力档案数量逐渐增多,划分的档案类别不断增多,电力档案精细化分类要求不断提高。国内关于这方面的研究起步比较晚,档案自动化分类理论还不够成熟,虽然近几年相关学者针对档案自动化分类开展了一系列研究,并提出了一些分类方法,但是该方面的研究尚处于初步探索阶段,现行方
7、法的分类效果与预期存在较大的差距,已经无法满足实际需求。因此,提出基于多特征选择的电力档案自动分类方法。收稿日期:2 0 2 3-0 4-0 5作者简介:马宁(1995一),男,浙江嵊州人,本科,助理工程师。研究方向:行政、档案等管理工作。1电力档案信息预处理及文本表示为了保证分类精度,在对档案文本信息特征进行提取及分类前,对其进行内容提取、分词、去停词处理。假设待分类档案为r,将档案r输入到ApachePOI软件中,以编码的形式提取档案文档格式对应字段的信息,再将其输人到光学字符识别(OpticalCharacterRecognition,OCR)软件中,以像素的方式提取图像文档信息-。假设
8、电力档案文本中的短语、词语和字作为文本特征项,利用特征集合S表示电力档案文本。每个特征项在电力19信息与电脑计算机工程应用技术Information&Computer档案文本中的重要度不同,用集合W表示各个特征项对应的权值,故用于描述电力档案文本的向量空间模型为D=(s,.),(s2,w2),(s,w,)(1)式中:n为档案文本特征项数量 4。利用多特征选2基于多特征选择的档案特征提取择技术在电力档案文本信息的向量空间模型中对其特征根据提取的特征,使用K最邻近(K-Nearest进行选择,此次选择的特征对象为文档频率、卡方检验、Neighbor,K N N)算法计算出电力档案文本与类别文本归一
9、化差异、基尼指数及信息增益。其中,文档频率可集合的相似度 9-10 ,其计算公式为以反映电力档案中含有特征词的文本数量,频率越高表示文本中的特征词含量越少。电力档案文档频率的计算公式为r=TUD+YUD式中:TU为含有特征词的文本在类别中的数量;YU为含有特征词的文本不在类别中的数量 5。卡方检验可以反映出文档分布和预期分布的差异性,检验值用CHI表示,其计算公式为Nx(TUD.THD-YUD.YND)CHI=(TUD+YUD)(THD+YND)式中:N表示电力档案总的文本数量;TH表示不含有特征词并且也不在类别中的文本数量;YNP表示不含有特征词但是在类别中的文本数量 。归一化差异可以反映出
10、类别中特征词的相对文档频率,其计算公式为ler-cylpC=min(er,cv)式中:c为电力档案中词语的相对文档频率;er为电力档案中词语的真正率;CV为电力档案中词语的假正率。相对文档频率值最大的词语为电力档案文本信息特征词。基尼指数可以反映档案样本的不确定性,其计算公式为G=ZAPpD-1式中:G为电力档案的基尼指数;i为类别数量;AP为给定特征词存在时属于第i个类别的条件概率;p为条件文档内存在特征词的条件概率 7。增益系数可以反映出电力档案文本中特征词可以使文本分类获得的信息量,增益值越大,则特征词包含的信息量越大,其计算公式为IG=Zmlog m+q logq+xlog x+alo
11、g a式中:IG为电力档案文本信息增益系数;m为文档出现在数据集中的概率;q为文本中包含特征条件下属于某一类别的概率;x为电力档案文本中特征出现的概率;为文本中不包含特征条件下属于某一类别的概2023年第10 期率8。通过以上计算,提取电力档案文本特征,用公式表示为VB=r+CHI+c+G+IG式中:VB为电力档案文本特征。HL=VB/VB,+ZH-1式中:L为电力档案文本信息与类别文本集合的相(2)似度;VB为类别文本集合的特征值;H为类别集合中包含的文本数与分类的电力档案文本数的比值。在此设定一个阈值,将其与利用式(8)得到的计算结果进行对比,如果相似度L大于阈值,则表示该电力档案属于该类
12、别,如果相似度L小于值,则表示该电力档案不(3)属于该类别,继续按照上述公式计算出电力档案文档与其他类别文本的相似度,其用公式表示为1 if LKM=o if LK式中:M为电力档案分类结果,包括1”和“0”两种;1为电力档案属于计算类别;0 为电力档案不属于计算类别;K为电力档案分类阈值。利用式(9)即可得到分(4)类结果,以此完成基于多特征选择的电力档案自动分类。3实验分析3.1实验准备与设计选择某电力企业档案作为实验对象,利用基于卷积神经网络模型的分类方法、基于数据融合的分类方法、本文设计方法对该电力企业档案进行自动分类,前两种方法分别用传统方法1与传统方法2 表示。实验共准备(5)了8
13、 0 0 个电力设备档案、人力资源档案、电力材料档案及电力用户档案等电力档案,按照上述流程对电力档案文本信息进行预处理、特征提取以及自动分类,并检验具体分类效果。3.2实验结果与讨论实验将错误分类档案数量作为3种方法的分类精度评价指标,每完成10 0 个档案自动分类后,对错误分类(6)数量进行统计,使用电子表格记录3种方法的档案错误分类数量,如表1所示。从表1可以看出:设计方法的档案错误分类数量相对比较少,当分类档案数量达到8 0 0 个时,错误分类数量仅占总量的0.8 6%,错分率可以控制在1%以内;(7)(8)(9)20信息与电脑2023年第10 期Information&Computer
14、计算机工程应用技术表13种方法的档案错误分类数量档案数量设计方法的档案错误分类数量10002001300240045005600570068007两种传统方法的档案错误分类数量相对比较高,当分类档案数量达到8 0 0 个时,设计方法1的错误分类数量占总量的10.8 9%,传统方法2 的错误分类数量占总量的10.2 4%,均高于设计方法。为了进一步验证设计方法的适用性,对3种方法的档案分类时间进行对比,实验以分类的档案信息量为变量,档案文本信息量为10008 0 0 0 By t e,3种方法的分类时间如表2 所示。表2 3种方法的分类时间档案信息量设计方法的传统方法1的传统方法2 的/Byte
15、分类时间/s分类时间/s分类时间/s10000.1220000.2630000.3440000.4150000.4860000.5170000.5280000.58从表2 可以看出,虽然3种方法分的类时间均随着样本信息量的增加而不断延长,但是设计方法的时间延长比例比较小,当对8 0 0 0 Byte档案进行分类时,设计方法的分类时间仅为0.58 s,比传统方法1快将近10 s,比传统方法2 快将近11S,表明设计方法对电力档案的自动分类速度较快。实验结果表明,无论在分类精度方面还是在分类速度方面,设计方法均表现出明显的优势,相比较两种传统方法更适用于电力档案自动分类。4结语档案分类作为电力企业
16、档案管理工作中的一个重要项目,分类质量将直接关系到档案管理工作质量。文章将多特征选择技术应用到电力档案自动分类中,形成了单位:个传统方法1的档案错误分类数量传统方法2 的档案错误分类数量12112425363645415659686874748681一个全新的分类思路,有效降低了电力档案的错分率,缩短了电力档案分类时间,实现了对当前档案自动分类理论的完善。参考文献1焦懿,王贵姝,司冬宁,等.大数据深度挖掘的离退休人员电子档案分类 J.信息技术,2 0 2 2(5):135-139.2杨晶晶.企业档案数据自动分类管理实践探究 .北京档案,2 0 2 2(3):32-34.3孟盘继.煤化工企业档案
17、分类管理和检索方法:3.153.564.564.585.476.126.357.417.458.528.529.369.1210.2410.2511.24以鼎旺化工有限公司为例 .煤炭加工与综合利用,2 0 2 2(2):7 2-7 7.4王雨.医院综合档案自动分类系统设计 .自动化技术与应用,2 0 2 1,40(11):56-59.5孟祥喜.信息化转型背景下机关档案分类研究:以机关档案管理规定中一级类目划分方法为分析对象 .档案管理,2 0 2 1(3):8 3-8 5.6李婷婷.基于OAIS模型的水利基层单位档案分类系统设计 J.数字通信世界,2 0 2 1(3):110-111.7田丰,杨洋.基于模糊聚类算法的智能电子档案自动分类方法 J.微型电脑应用,2 0 2 1,37(2):8 7-90.8王长城,范叶.媒资系统中民族影音档案分类设计 .卫星电视与宽带多媒体,2 0 2 0(8):2 42-2 44.9应毅,任凯,刘亚军.基于GIS技术和加权kNN算法的实时揽件调度方法 .计算机工程与应用,2 0 2 0,56(2 1):248-252.10黄欣,莫海淼,赵志刚,等.离散型增强烟花算法和kNN在特征选择中的研究 J.计算机工程与应用,2 0 2 0,56(16):112-117.21一