局部加权稀疏表示的文本分类算法研究.pdf

资源描述

1、2023 年第 8 期24计算机应用信息技术与信息化局部加权稀疏表示的文本分类算法研究祝利杰1 罗迪凡2 史彦丽3ZHU Lijie LUO Difan SHI Yanli 摘要基于稀疏表示方法的文本分类强调使用训练样本特征的全局结构对测试样本进行稀疏表示，而对文本特征的局部邻域结构和文档之间相似性缺乏考虑，导致文本分类准确率低和高耗时。为了解决上述问题，本研究以最近邻和最近特征子空间为基础，并建立局部邻域结构和距离加权机制，提出一种局部加权稀疏表示的文本分类算法，使文本语义信息表达更丰富、稀疏表示更具判别力。实验结果表明本文算法准确率高于基线算法 2.4%5%，运行速度提高 1.352.8

2、倍。关键词文本分类；稀疏表示；局部邻域结构；距离加权doi：10.3969/j.issn.1672-9528.2023.08.0061.暨南大学信息科学技术/网络空间安全学院广东广州 5114362.暨南大学伯明翰大学联合学院广东广州 5114363.吉林化工学院理学院吉林吉林 132022 0 引言文本分类（text categorization,TC）是自然语言处理的重要技术之一，根据主题自动将（非）结构化文档分类为一个或多个预定义类别，对包含大数据信息进行组织和管理，降低搜索信息成本，在情感分析1和垃圾邮件过滤2等方面具有广泛应用。随着文本数据量迅速增长，文本数据特征维度越来越

3、大，数据结构变得更加复杂。经典分类方法，如决策树、K 近邻分类器及其变体，依赖数据统计算法和特征选择算法，使用奇异值分解和词频-逆文本频率方法生成的词向量存在高维度和高稀疏问题，不能很好地表征文本特征信息。与此不同，稀疏表示分类方法不关注任何特征选择技术，而使用单词标识来表示特征，从训练样本中自适应地选择一些相关样本对文本文档进行分类，解决文本数据高维性问题。Sainath 等人3研究稀疏表示如何用于文本分类，以及分类性能随文档词汇量大小的变化。随后，高等人4引入结构化稀疏表示分类器，提高短文本分类效率和性能。该方案虽考虑结构化稀疏表示，但忽略高维数据中被聚类对象不是针对整个空间且子空间重要程

4、度不同。因此，脱婷等人5针对短文本在某些潜在子空间比较相似，提出一种熵权约束稀疏表示分类方法，缓解短文本特征稀疏问题。以上这些算法在构建稀疏字典矩阵时未考虑训练样本到所属类别中心的相似度，忽略样本在不同类别中的重要程度及样本之间距离加权因素，分类效果仍不佳。本文提出一种局部加权稀疏表示的文本分类(local weighted-sparse representation classifi cation,LW-SRC)算法。该算法从文本特征局部结构以及文本在不同类别的重要程度这两个重要因素分析，寻找与待分类样本最相似距离最近的样本，使模型更加关注对分类有积极影响的文本特征，提升了文本分类准确度并

5、降低计算复杂度。1 基于局部加权稀疏表示分类方法1.1 模型设计本文考虑样本特征在特定类别的属性上具有相似性，把样本之间的相关性作为一个重要的决策因素。通过结合线性回归模型，以平方误差为损失函数，将分类问题转化为损失最小化问题。其中，建立训练样本的局部邻域结构，学习一个复杂度较小且携带更多分类信息的字典矩阵。同时，构造基于 l2范数稀疏正则化目标函数避免过拟合问题，使模型更加关注对分类有积极影响的文本特征。正则化常用方法是极小化加权范数平方，通过增加与范数相关的惩罚项或附加项使iiyD和i都很小。它量化了分类器预测值与类字典矩阵 Di相关联的真实类标签 y 之间损失。本文目标函数定义为：（1）

6、式中：是待求解稀疏系数向量。0 为正则化参数，用于平衡及调整重建误差和稀疏性，其值越大越稀疏。方程（1）第一项是惩罚项，通过在目标函数引入 l2范数正则项保证目标函数求得最优解，确保模型泛化能力。局部加权 W 是块对 2023 年第 8 期25计算机应用信息技术与信息化角矩阵，用来惩罚测试样本 y 与每个训练样本之间关系，说明测试样本和训练样本相似度之间的相对度量。第二项是损失函数，保证拟合效果。1.2 局部加权稀疏表示分类算法本文利用文档之间潜在、丰富的文本特征探索文本分类，提出一种局部加权稀疏表示的文本分类算法。首先，利用预处理方法对数据初步清洗，并借助词频-逆文档频率算法6提取文本关键词

7、，计算词权重并生成初始化字典2,icDD DD=。全局字典 D 每个基向量可以看作是一个或多个语义概念，Di为 D 对应的第类样本的子字典矩阵。接着，利用文本局部邻域结构表示全局特征，为每个类字典子空间选择最能代表数据的特征。本文计算待分类样本和训练样本之间的相似度，从训练样本选择个最近邻作为缩减后字典矩阵，具体为：（2）式中：sort()是一个降序函数。表示测试样本与基于类别的字典原子内积，等价于二者余弦相似度。sim(y,Di)为排序后测试样本与字典原子相似度大小，值越大说明样本之间越相似。值得注意，k 个最近邻样本特征通过上述相似度计算方式被选择。文本特征类别相似度由 c 种类别样本相似

8、度求和再平均得到。该过程将不相关数据作为目标样本“噪声”数据，从模型中剔除。Dik由与测试样本 y 最相似的前 k 个训练样本组成。考虑到样本之间距离加权对分类产生积极影响，加权对角矩阵为：()()()22:,1,:,ikikikWdiagDyDny=（3）式中：Dik(:,j)是第 i 类字典矩阵 Dik第 j 列，nik（nik k 或nik m）是其列数。W 是加权范数矩阵，表示测试样本和字典原子（训练样本）之间相似性。稀疏系数求解：（1）字典矩阵TTikikikikikTTikikikikikUD DW WVD DW W=+=+（4）（2）稀疏系数（5）式中：Uik 和 V

9、ik 是计算的中间矩阵。Wik是新定义的局部加权矩阵，但对其求逆计算稀疏系数要考虑两种情况：当局部类邻域字典样本个数小于等于样本维度时，即k m，数由1ikU求解；反之，由1ikV求解。此外，本文构造基于局部加权的2范数稀疏约束目标函数，求得稀疏系数最优值。LW-SRC 算法的伪代码如下：在求解过程中，LW-SRC 算法在计算稀疏系数之前确定文本特征空间的局部邻域结构。具体而言，该算法计算测试样本与每种类别对应的训练样本之间的相似度，并选择与测试样本相似度最大的个最近邻样本进行噪声数据过滤，从而确定测试样本的局部邻域结构；其次，考虑目标样本和训练样本之间的距离，结合距离加权机制构建基于距离加权

10、的目标函数。本文利用岭回归方法求解目标函数，将测试样本分类为重构残差最小的类别。2 实验2.1 数据集本节描述四种文本数据集和实验设置。表 1 中关键词反映每个数据集的关键特征。本文将 Macro-F1、Micro-F1 和准确率作为评价指标，在锐龙3600CPU，运行内存 24 GB 的环境下进行实验。表 1 四种数据集统计数据集类别关键词训练集测试集R88150054852189TREC630005452500WebKB4150028031396SST225000779218212.2 性能和效率评估2.2.1 性能分析本文将非基于文本类别和距离加权稀疏表示算法局部稀疏表示分类（local

11、 sparse representation classifi cation,LSRC）7、类邻域字典的线性回归分类（class neighborhood dictionary-linear regression classifi cation,CND-LRC）8作为基线方法。具体结果如表 2 所示。2023 年第 8 期26计算机应用信息技术与信息化表 2 LW-SRC 与基线算法在最佳 k 值下性能比较数据集评价方法LSRCCND-LRCLW-SRCWebKBMacro-F1(k)Micro-F1(k)0.609(200)0.793(200)0.635(200)0.807(100)0.65

12、9(150)0.836(150)R80.759(100)0.898(100)0.720(250)0.896(50)0.766(100)0.923(100)TREC0.758(50)0.878(50)0.768(100)0.874(100)0.742(20)0.886(20)SST20.527(250)0.791(300)0.386(10)0.485(10)0.448(200)0.574(200)其中，括号内数值为 k 的最佳取值，粗体数值为准确率最佳结果。经过对比，三种算法均是 Micro-F1 值高于Macro-F1 值，且 LW-SRC 算法 Micro-F1 值相对于基线算法提升幅度为

13、2.5%4.3%，Macro-F1 值提升幅度为 2.4%5%。由于 LSRC 和 CND-LRC 算法未考虑类别局部邻域结构和距离加权信息对分类积极影响，性能不稳定结果不佳。相比而言，LW-SRC 算法在寻求稀疏线性表示的同时，保留与分类最相关的文本特征从而更准确地求解稀疏系数，减少预测值和真实值之间误差，使分类性能稳定且结果更优。同时，LW-SRC算法在三个数据集上的准确度最佳，但在 SST2 数据集上表现稍差。这是由于基于类别的局部加权机制只保留相似度最大的样本，相当于进行类别剔除，对仅有两种类别数据产生干扰。因此，这种情况下的结果正常，本文方法仍然有效可靠。2.2.2 最近邻个数的分析

14、四种数据集下最近邻个数分析如图 1 和图 2 所示。图 1 LW-SRC 算法在不同 k 取值下 Macro-F1 值图 2 LW-SRC 算法在不同 k 取值下 Micro-F1 值四种数据集中 Micro-F1 比 Macro-F1 高 0.1 左右，说明Macro-F1 受到数据不平衡影响。当最近邻个数 k 较小时，二者数值均稍低，但整体均随着 k 增大而上升。特别地，当15 k30 时，Macro-F1 整体趋势平稳。当 10 k 30 时，Micro-F1 不随 k 的变化而变化。这表明 k 较小时，LW-SRC 算法准确率较高。这主要由于 LW-SRC 算法使用局部加权稀疏表示，考

15、虑到文本特征在某个特定的子空间比较相似，通过选择与测试样本最相关的个训练样本计算保留与分类识别最相关、携带文本分类信息量最大的文本特征，使分类准确度高。2.2.3 效率分析LW-SRC 算法计算开销主要是利用加权最小二乘法求解目标函数，计算复杂度由求解 Uik或 Vik的逆矩阵决定。因此，考虑到局部邻域样本选择，本文需要比较最近邻个数 k和样本维度 m 的大小综合决定计算复杂度。此外，本文仅用k 个最相似的训练数据表示测试样本，在基于类别的局部加权稀疏表示分类情况下，考虑到每个待分类的数据语料库包含 c 个类别。所以，当 km 时最终复杂度为 O(ck3)，否则为O(cm3)。具体结果如图 3

16、所示。图 3 三种算法在 R8 数据集上运行时间随 k 的变化三种算法运行时间均随着 k 的增加而增大，平均运行时间分别是 2403 s、1156 s 和 858 s，LSRC 和 CDN-LRC 算法平均运行时间分别是 LW-SRC 算法 2.8 倍和 1.35 倍。这与上述复杂度分析一致，LW-SRC 算法在 k 较小时性能最佳速度最快，实际计算复杂度小且运行效率高。因此，本文方法在保证准确度同时有效降低计算稀疏表示计算成本。3 结论本文以最近邻和最近特征子空间分类方法为基础，提出一种局部加权稀疏表示的文本分类算法。该算法通过不断地迭代寻找对分类贡献较大的样本，选择与测试样本最邻近的训练

17、样本进行稀疏表示，提高了文本分类性能并降低计算复杂度。最后，实验验证并分析了该算法的有效性和可靠性。2023 年第 8 期27计算机应用信息技术与信息化参考文献：1 MEDHAT W,HASSAN A,KORASHY H.Sentiment analysis algorithms and applications:A surveyJ.Ain shams engineering journal,2014,5(4):1093-1113.2 GUZELLA T S,CAMINHAS W M.A review of machine learning approaches to spam fi lter

18、ingJ.Expert systems with applications,2009,36(7):10206-10222.3 SAINATH T N,MASKEY S R,KANEVSKY D,et al.Sparse representations for text categorizationC/Eleventh Annual Conference of the International Speech Communication Association,New York:IEEE,2010:2266-2269.4 GAO L,ZHOU S,GUAN J.Effectively class

19、ifying short texts by structured sparse representation with dictionary fi lteringJ.Information sciences,2015,323:130-142.5 脱婷,马慧芳,李志欣,等.熵权约束稀疏表示的短文本分类算法 J.电子学报,2020,48(11):2131-2137.6 ZHANG W,YOSHIDA T,TANG X.A comparative study of TF-IDF,LSI and multi-words for text classifi cationJ.Expert systems

20、with applications,2011,38(3):2758-2765.7 GOU J,QIU W,YI Z,et al.Locality constrained representation-based K-nearest neighbor classificationJ.Knowledge-based systems,2019,167:38-52.8 武娇,洪彩凤,顾永春,等.基于类邻域字典的线性回归文本分类 J.计算机工程,2021,47(8):93-99+108.（收稿日期：2023-02-14 修回日期：2023-04-16）提高传感器数据质量的辅助信息管理软件设计宋美蓉1 谢

21、伟1 梁高丽1 关浩1SONG Meirong XEI Wei LIANG Gaoli GUAN Hao 摘要传感器种类多且不断更换使得数据管理相对复杂，且测报软件需要人为设置极易容易出错，本软件为保障传感器数据质量的辅助软件，其对设备信息管理方法做出改进，采用 OLEDB 技术把信息转换成 XML 文件的形式对设备信息进行分层管理与限定并建立与之对应的用户界面控件相联系的数据字典，使得数据管理起来思路清晰软件可复用性强，在用户界面处理当中巧妙运用 Control.Tag 减少文件查询或是入库出库频率，能够同步刷新界面，同时多级目录备份、日志记录各种动态操作，可以根据时间节点进行恢复再次

22、运用，确保系统运行的安全性与灵活性。关键词传感器；数据质量；OLEDB；XML 文件；数据字典；Control.Tagdoi：10.3969/j.issn.1672-9528.2023.08.0070 引言随着气象业的不断发展，智能化水平不断提高，气象探测设备的日新月异，地区的不同，季节的变换，各个设备组对其挂接的传感器做出动态调整以减少人员工作量、节约损耗提高设备工作效率，但是这对于管理与维护和整理设备上传过来的信息并且需要与其他运行软件及时保持一致且不出错就相当复杂和困难,因此设计一个能能识别某个设备组的设备信息，并且有一个友好易操作的显示界面来查看与设置的软件对传感器数据质量起到重要的保障作用。有了这样一个软件系统对了解采集元素、准确传输采集数据以及检查各种要素文件是否无误和气象测报业务软件起到一定的辅助作用。本文就介绍了该软件的设计实现方法，结合数据协议建立数据对象字典，根据接收的数据元素不同能够智能的识别某个设备组增加或减少的传感器并在界面显示出来，也能够人为的改动屏蔽掉某个传感器信息以便不同类型文件的生成。对每一次数据的更改或是其它处理都能够记录下来，并能够根据更改时间找回原来的数据格式，在界面上能够清楚的显示、方便快速的查询。1.四川信息职业技术学院四川广元 628000 基金项目 2021 年科研项目“提高智能传感器数据质量方法研究”(2021C51)

展开阅读全文