ImageVerifierCode 换一换
格式:PDF , 页数:4 ,大小:1.70MB ,
资源ID:3132973      下载积分:10 金币
验证码下载
登录下载
邮箱/手机:
验证码: 获取验证码
温馨提示:
支付成功后,系统会自动生成账号(用户名为邮箱或者手机号,密码是验证码),方便下次登录下载和查询订单;
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/3132973.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  
声明  |  会员权益     获赠5币     写作写作

1、填表:    下载求助     索取发票    退款申请
2、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
3、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
4、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
5、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
6、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
7、本文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。

注意事项

本文(局部加权稀疏表示的文本分类算法研究.pdf)为本站上传会员【自信****多点】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4008-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

局部加权稀疏表示的文本分类算法研究.pdf

1、2023 年第 8 期24计算机应用信息技术与信息化局部加权稀疏表示的文本分类算法研究祝利杰1 罗迪凡2 史彦丽3ZHU Lijie LUO Difan SHI Yanli 摘要 基于稀疏表示方法的文本分类强调使用训练样本特征的全局结构对测试样本进行稀疏表示,而对文本特征的局部邻域结构和文档之间相似性缺乏考虑,导致文本分类准确率低和高耗时。为了解决上述问题,本研究以最近邻和最近特征子空间为基础,并建立局部邻域结构和距离加权机制,提出一种局部加权稀疏表示的文本分类算法,使文本语义信息表达更丰富、稀疏表示更具判别力。实验结果表明本文算法准确率高于基线算法 2.4%5%,运行速度提高 1.352.8

2、 倍。关键词 文本分类;稀疏表示;局部邻域结构;距离加权doi:10.3969/j.issn.1672-9528.2023.08.0061.暨南大学信息科学技术/网络空间安全学院 广东广州 5114362.暨南大学伯明翰大学联合学院 广东广州 5114363.吉林化工学院理学院 吉林吉林 132022 0 引言文本分类(text categorization,TC)是自然语言处理的重要技术之一,根据主题自动将(非)结构化文档分类为一个或多个预定义类别,对包含大数据信息进行组织和管理,降低搜索信息成本,在情感分析1和垃圾邮件过滤2等方面具有广泛应用。随着文本数据量迅速增长,文本数据特征维度越来越

3、大,数据结构变得更加复杂。经典分类方法,如决策树、K 近邻分类器及其变体,依赖数据统计算法和特征选择算法,使用奇异值分解和词频-逆文本频率方法生成的词向量存在高维度和高稀疏问题,不能很好地表征文本特征信息。与此不同,稀疏表示分类方法不关注任何特征选择技术,而使用单词标识来表示特征,从训练样本中自适应地选择一些相关样本对文本文档进行分类,解决文本数据高维性问题。Sainath 等人3研究稀疏表示如何用于文本分类,以及分类性能随文档词汇量大小的变化。随后,高等人4引入结构化稀疏表示分类器,提高短文本分类效率和性能。该方案虽考虑结构化稀疏表示,但忽略高维数据中被聚类对象不是针对整个空间且子空间重要程

4、度不同。因此,脱婷等人5针对短文本在某些潜在子空间比较相似,提出一种熵权约束稀疏表示分类方法,缓解短文本特征稀疏问题。以上这些算法在构建稀疏字典矩阵时未考虑训练样本到所属类别中心的相似度,忽略样本在不同类别中的重要程度及样本之间距离加权因素,分类效果仍不佳。本文提出一种局部加权稀疏表示的文本分类(local weighted-sparse representation classifi cation,LW-SRC)算 法。该算法从文本特征局部结构以及文本在不同类别的重要程度这两个重要因素分析,寻找与待分类样本最相似距离最近的样本,使模型更加关注对分类有积极影响的文本特征,提升了文本分类准确度并

5、降低计算复杂度。1 基于局部加权稀疏表示分类方法1.1 模型设计本文考虑样本特征在特定类别的属性上具有相似性,把样本之间的相关性作为一个重要的决策因素。通过结合线性回归模型,以平方误差为损失函数,将分类问题转化为损失最小化问题。其中,建立训练样本的局部邻域结构,学习一个复杂度较小且携带更多分类信息的字典矩阵。同时,构造基于 l2范数稀疏正则化目标函数避免过拟合问题,使模型更加关注对分类有积极影响的文本特征。正则化常用方法是极小化加权范数平方,通过增加与范数相关的惩罚项或附加项使iiyD和i都很小。它量化了分类器预测值与类字典矩阵 Di相关联的真实类标签 y 之间损失。本文目标函数定义为:(1)

6、式中:是待求解稀疏系数向量。0 为正则化参数,用于平衡及调整重建误差和稀疏性,其值越大越稀疏。方程(1)第一项是惩罚项,通过在目标函数引入 l2范数正则项保证目标函数求得最优解,确保模型泛化能力。局部加权 W 是块对 2023 年第 8 期25计算机应用信息技术与信息化角矩阵,用来惩罚测试样本 y 与每个训练样本之间关系,说明测试样本和训练样本相似度之间的相对度量。第二项是损失函数,保证拟合效果。1.2 局部加权稀疏表示分类算法本文利用文档之间潜在、丰富的文本特征探索文本分类,提出一种局部加权稀疏表示的文本分类算法。首先,利用预处理方法对数据初步清洗,并借助词频-逆文档频率算法6提取文本关键词

7、,计算词权重并生成初始化字典2,icDD DD=。全局字典 D 每个基向量可以看作是一个或多个语义概念,Di为 D 对应的第类样本的子字典矩阵。接着,利用文本局部邻域结构表示全局特征,为每个类字典子空间选择最能代表数据的特征。本文计算待分类样本和训练样本之间的相似度,从训练样本选择个最近邻作为缩减后字典矩阵,具体为:(2)式中:sort()是一个降序函数。表示测试样本与基于类别的字典原子内积,等价于二者余弦相似度。sim(y,Di)为排序后测试样本与字典原子相似度大小,值越大说明样本之间越相似。值得注意,k 个最近邻样本特征通过上述相似度计算方式被选择。文本特征类别相似度由 c 种类别样本相似

8、度求和再平均得到。该过程将不相关数据作为目标样本“噪声”数据,从模型中剔除。Dik由与测试样本 y 最相似的前 k 个训练样本组成。考虑到样本之间距离加权对分类产生积极影响,加权对角矩阵为:()()()22:,1,:,ikikikWdiagDyDny=(3)式 中:Dik(:,j)是 第 i 类 字 典 矩 阵 Dik第 j 列,nik(nik k 或nik m)是其列数。W 是加权范数矩阵,表示测试样本和字典原子(训练样本)之间相似性。稀疏系数求解:(1)字典矩阵TTikikikikikTTikikikikikUD DW WVD DW W=+=+(4)(2)稀疏系数(5)式中:Uik 和 V

9、ik 是计算的中间矩阵。Wik是新定义的局部加权矩阵,但对其求逆计算稀疏系数要考虑两种情况:当局部类邻域字典样本个数小于等于样本维度时,即k m,数由1ikU求解;反之,由1ikV求解。此外,本文构造基于局部加权的2范数稀疏约束目标函数,求得稀疏系数最优值。LW-SRC 算法的伪代码如下:在求解过程中,LW-SRC 算法在计算稀疏系数之前确定文本特征空间的局部邻域结构。具体而言,该算法计算测试样本与每种类别对应的训练样本之间的相似度,并选择与测试样本相似度最大的个最近邻样本进行噪声数据过滤,从而确定测试样本的局部邻域结构;其次,考虑目标样本和训练样本之间的距离,结合距离加权机制构建基于距离加权

10、的目标函数。本文利用岭回归方法求解目标函数,将测试样本分类为重构残差最小的类别。2 实验2.1 数据集本节描述四种文本数据集和实验设置。表 1 中关键词反映每个数据集的关键特征。本文将 Macro-F1、Micro-F1 和准确率作为评价指标,在锐龙3600CPU,运行内存 24 GB 的环境下进行实验。表 1 四种数据集统计数据集类别关键词训练集测试集R88150054852189TREC630005452500WebKB4150028031396SST225000779218212.2 性能和效率评估2.2.1 性能分析本文将非基于文本类别和距离加权稀疏表示算法局部稀疏表示分类(local

11、 sparse representation classifi cation,LSRC)7、类邻域字典的线性回归分类(class neighborhood dictionary-linear regression classifi cation,CND-LRC)8作为基线方法。具体结果如表 2 所示。2023 年第 8 期26计算机应用信息技术与信息化表 2 LW-SRC 与基线算法在最佳 k 值下性能比较数据集评价方法LSRCCND-LRCLW-SRCWebKBMacro-F1(k)Micro-F1(k)0.609(200)0.793(200)0.635(200)0.807(100)0.65

12、9(150)0.836(150)R80.759(100)0.898(100)0.720(250)0.896(50)0.766(100)0.923(100)TREC0.758(50)0.878(50)0.768(100)0.874(100)0.742(20)0.886(20)SST20.527(250)0.791(300)0.386(10)0.485(10)0.448(200)0.574(200)其中,括号内数值为 k 的最佳取值,粗体数值为准确率最佳结果。经过对比,三种算法均是 Micro-F1 值高于Macro-F1 值,且 LW-SRC 算法 Micro-F1 值相对于基线算法提升幅度为

13、2.5%4.3%,Macro-F1 值提升幅度为 2.4%5%。由于 LSRC 和 CND-LRC 算法未考虑类别局部邻域结构和距离加权信息对分类积极影响,性能不稳定结果不佳。相比而言,LW-SRC 算法在寻求稀疏线性表示的同时,保留与分类最相关的文本特征从而更准确地求解稀疏系数,减少预测值和真实值之间误差,使分类性能稳定且结果更优。同时,LW-SRC算法在三个数据集上的准确度最佳,但在 SST2 数据集上表现稍差。这是由于基于类别的局部加权机制只保留相似度最大的样本,相当于进行类别剔除,对仅有两种类别数据产生干扰。因此,这种情况下的结果正常,本文方法仍然有效可靠。2.2.2 最近邻个数的分析

14、四种数据集下最近邻个数分析如图 1 和图 2 所示。图 1 LW-SRC 算法在不同 k 取值下 Macro-F1 值图 2 LW-SRC 算法在不同 k 取值下 Micro-F1 值四种数据集中 Micro-F1 比 Macro-F1 高 0.1 左右,说明Macro-F1 受到数据不平衡影响。当最近邻个数 k 较小时,二者数值均稍低,但整体均随着 k 增大而上升。特别地,当15 k30 时,Macro-F1 整体趋势平稳。当 10 k 30 时,Micro-F1 不随 k 的变化而变化。这表明 k 较小时,LW-SRC 算法准确率较高。这主要由于 LW-SRC 算法使用局部加权稀疏表示,考

15、虑到文本特征在某个特定的子空间比较相似,通过选择与测试样本最相关的个训练样本计算保留与分类识别最相关、携带文本分类信息量最大的文本特征,使分类准确度高。2.2.3 效率分析LW-SRC 算法计算开销主要是利用加权最小二乘法求解目标函数,计算复杂度由求解 Uik或 Vik的逆矩阵决定。因此,考虑到局部邻域样本选择,本文需要比较最近邻个数 k和样本维度 m 的大小综合决定计算复杂度。此外,本文仅用k 个最相似的训练数据表示测试样本,在基于类别的局部加权稀疏表示分类情况下,考虑到每个待分类的数据语料库包含 c 个类别。所以,当 km 时最终复杂度为 O(ck3),否则为O(cm3)。具体结果如图 3

16、 所示。图 3 三种算法在 R8 数据集上运行时间随 k 的变化三种算法运行时间均随着 k 的增加而增大,平均运行时间分别是 2403 s、1156 s 和 858 s,LSRC 和 CDN-LRC 算法平均运行时间分别是 LW-SRC 算法 2.8 倍和 1.35 倍。这与上述复杂度分析一致,LW-SRC 算法在 k 较小时性能最佳速度最快,实际计算复杂度小且运行效率高。因此,本文方法在保证准确度同时有效降低计算稀疏表示计算成本。3 结论本文以最近邻和最近特征子空间分类方法为基础,提出一种局部加权稀疏表示的文本分类算法。该算法通过不断地迭代寻找对分类贡献较大的样本,选择与测试样本最邻近的训练

17、样本进行稀疏表示,提高了文本分类性能并降低计算复杂度。最后,实验验证并分析了该算法的有效性和可靠性。2023 年第 8 期27计算机应用信息技术与信息化参考文献:1 MEDHAT W,HASSAN A,KORASHY H.Sentiment analysis algorithms and applications:A surveyJ.Ain shams engineering journal,2014,5(4):1093-1113.2 GUZELLA T S,CAMINHAS W M.A review of machine learning approaches to spam fi lter

18、ingJ.Expert systems with applications,2009,36(7):10206-10222.3 SAINATH T N,MASKEY S R,KANEVSKY D,et al.Sparse representations for text categorizationC/Eleventh Annual Conference of the International Speech Communication Association,New York:IEEE,2010:2266-2269.4 GAO L,ZHOU S,GUAN J.Effectively class

19、ifying short texts by structured sparse representation with dictionary fi lteringJ.Information sciences,2015,323:130-142.5 脱婷,马慧芳,李志欣,等.熵权约束稀疏表示的短文本分类算法 J.电子学报,2020,48(11):2131-2137.6 ZHANG W,YOSHIDA T,TANG X.A comparative study of TF-IDF,LSI and multi-words for text classifi cationJ.Expert systems

20、with applications,2011,38(3):2758-2765.7 GOU J,QIU W,YI Z,et al.Locality constrained representation-based K-nearest neighbor classificationJ.Knowledge-based systems,2019,167:38-52.8 武娇,洪彩凤,顾永春,等.基于类邻域字典的线性回归文本分类 J.计算机工程,2021,47(8):93-99+108.(收稿日期:2023-02-14 修回日期:2023-04-16)提高传感器数据质量的辅助信息管理软件设计宋美蓉1 谢

21、 伟1 梁高丽1 关 浩1SONG Meirong XEI Wei LIANG Gaoli GUAN Hao 摘要 传感器种类多且不断更换使得数据管理相对复杂,且测报软件需要人为设置极易容易出错,本软件为保障传感器数据质量的辅助软件,其对设备信息管理方法做出改进,采用 OLEDB 技术把信息转换成 XML 文件的形式对设备信息进行分层管理与限定并建立与之对应的用户界面控件相联系的数据字典,使得数据管理起来思路清晰软件可复用性强,在用户界面处理当中巧妙运用 Control.Tag 减少文件查询或是入库出库频率,能够同步刷新界面,同时多级目录备份、日志记录各种动态操作,可以根据时间节点进行恢复再次

22、运用,确保系统运行的安全性与灵活性。关键词 传感器;数据质量;OLEDB;XML 文件;数据字典;Control.Tagdoi:10.3969/j.issn.1672-9528.2023.08.0070 引言随着气象业的不断发展,智能化水平不断提高,气象探测设备的日新月异,地区的不同,季节的变换,各个设备组对其挂接的传感器做出动态调整以减少人员工作量、节约损耗提高设备工作效率,但是这对于管理与维护和整理设备上传过来的信息并且需要与其他运行软件及时保持一致且不出错就相当复杂和困难,因此设计一个能能识别某个设备组的设备信息,并且有一个友好易操作的显示界面来查看与设置的软件对传感器数据质量起到重要的保障作用。有了这样一个软件系统对了解采集元素、准确传输采集数据以及检查各种要素文件是否无误和气象测报业务软件起到一定的辅助作用。本文就介绍了该软件的设计实现方法,结合数据协议建立数据对象字典,根据接收的数据元素不同能够智能的识别某个设备组增加或减少的传感器并在界面显示出来,也能够人为的改动屏蔽掉某个传感器信息以便不同类型文件的生成。对每一次数据的更改或是其它处理都能够记录下来,并能够根据更改时间找回原来的数据格式,在界面上能够清楚的显示、方便快速的查询。1.四川信息职业技术学院 四川广元 628000 基金项目 2021 年科研项目“提高智能传感器数据质量方法研究”(2021C51)

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服