基于局部敏感哈希的K邻近算法识别垃圾短信.pdf

资源描述

1、第37 卷第6 期2023年11月文章编号：16 7 1-3559(2 0 2 3)0 6-0 7 46-0 6济南大学学报（自然科学版）Journal of University of Jinan(Science and Technology)Vol.37 No.6Nov.2023D0I:10.13349/ki.jdxbn.20230816.002基于局部敏感哈希的K邻近算法识别垃圾短信樊继慧1.2，滕少华3（1菲律宾圣保罗大学研究生院，土格加劳350 0，菲律宾；2.广州理工学院计算机科学与工程学院，广东广州510 540，中国；3.广东工业大学计算机学院，广东广州510 0 0 6，中国

2、）摘要：针对目前垃圾短信的识别算法存在的关键字及频次的规则死板，易于被不法分子探测和规避等问题，提出将局部敏感哈希的K邻近算法应用于垃圾短信分类识别；首先定义特征，然后采用局部敏感哈希算法计算向量距离，通过得到的距离衡量矩阵的相似性，量化矩阵相似程度，对本文中提出的优化模型进行实现和训练；基于短信文本内容，运用词频-逆向文本频率算法生成矩阵，利用局部敏感哈希算法求解最相似样本，记录样本类别，将训练结果导入K邻近算法分类器得到最优近邻，在测试集或验证集上对优化模型垃圾短信分类识别准确率进行评测。结果表明，经过K邻近算法分类器后，优化模型垃圾短信分类识别准确率达到9 8.7%。关键词：垃圾短信识别

3、；K邻近算法；局部敏感哈希；矩阵相似性中图分类号：TP391文献标志码：A开放科学识别码（OSID码）：台Recognition of Spam Text Messages Based onLocal Sensitive Hash K Nearest Neighbor AlgorithmFAN Jihuil2,TENG Shaohua(1.Department of Graduate School,Saint Paul University,Tuguegarao 3500,Philippines;2.School of Computer Science and Engineering,Guan

4、gzhou Institute of Science and Technology,Guangzhou 510540,Guangdong,China;3.School of Computer Science and Technology,Guangdong University of Technology,Guangzhou 510006,Guangdong,China)Abstract:Aiming at the problems of the curent junk message recognition algorithm,such as the inflexible rules ofk

5、eywords and frequency,and easy to be detected and evaded by criminals,a K nearest neighbor algorithm based on localsensitive hash was proposed for the classification and recognition of spam text messages.First,the feature was defined,and then the local sensitive hash algorithm was used to calculate

6、the vector distance.The distance obtained measured thesimilarity of the matrix,quantizes the similarity of the matrix,and implemented and trained the optimization modelproposed in this paper.Based on the text content of short messages,the word frequency reverse text frequency algorithmwas used to ge

7、nerate the matrix,the local sensitive hash algorithm was used to solve the most similar samples,record thesample categories,and import the training results into the K nearest neighbor algorithm classifier to obtain the best nearestneighbor,and the classification and recognition accuracy of spam shor

8、t messages was eveluated in the test set or verifi-cation set.The results show that after K nearest neighbor classifier,the improved model achieves 98.7%accuracy ofspam short message classification.Keywords:recognition of spam text message;K nearest neighbor algorithm;local sensitive hash;matrix sim

9、ilarity收稿日期：2 0 2 2-10-0 9基金项目：国家自然科学基金项目（6 19 7 2 10 2）；广东省教育厅重大专项（粤教2 0 2 1ZDZX1070）；教育部协同育人项目（GZLGHT2021324）；广东省高等教育协会研究项目（2 2 GQN37）；广州理工学院校本研究项目（2 0 2 1XBZ03）第一作者简介：樊继慧（19 9 0 一），女，山东兰陵人。讲师，博士研究生，研究方向为大数据分析、人工智能。E-mail：2 519 6 39 9 8 9 q q.c o m。网络首发地址：https:/ 0 2 3-0 8-17 T09:14:28第6 期随着信息时代通信

10、服务业的迅速发展，垃圾短信日益成为困扰运营商、用户的难题，严重影响人们的正常生活，侵害运营商的社会形象，对社会稳定造成危害。由于人们每天浪费大量的时间阅读、处理垃圾短信，因此用户信息很容易被大数据监控，隐私泄露问题频发，各种推销、促销短信爆发式推送，人们的日常生活受到干扰。目前垃圾短信的识别过滤主要采取黑白名单识别技术、发送频率限制识别技术、关键词匹配识别技术以及基于机器学习识别垃圾短信技术等。这些常用的垃圾短信识别技术都有一定的局限性，例如，黑白名单技术仅对已知的号码有效，发送频率限制识别技术的发送频率规则易被相对应的方法所规避，基于机器学习识别垃圾短信技术相对较复杂，识别成本较高，识别效率

11、不高。由于短信息具有方便、成本低等特点，因此垃圾短信已经形成了黑色利益链，严重危害社会公众安全。目前，垃圾短信的形式、内容千变万化，投放方式不断改变，导致对其识别与处理越发困难。由于垃圾短信通过变更内容欺骗过滤系统，导致系统识别准确率降低，因此学者们提出很多不同的算法进行识别。李根等1首先以最小编辑距离的方式构建垃圾短信关系链，使用MeanShift算法进行聚类，实现自分簇功能，取得了较好的效果。吴思慧等2 1提出一种结合词频-逆向文本频率(TF-IDF)算法的基于自注意力的双向长短期记忆网络（SA-Bi-LSTM）的神经网络模型，与传统分类模型相比，短信文本识别准确率提高了2.1%4.6%。

12、李琼阳等3利用主成分分析对数据进行处理，从而达到降维和属性独立的双重目的。熊健等4首先采取TF-IDF算法进行特征提取，把文本数据转化成向量的形式，然后应用欠采样技术获得若干个类别平衡的训练样本，分别采取朴素贝叶斯、决策树和支持向量机等分类模型对每个样本进行训练，也取得了较好效果。赖文辉等5提出一种基于词向量和卷积神经网络（CNN）的垃圾短信识别方法，识别准确率比传统的机器学习模型提高了 2.4%5.1%。在垃圾短信识别过程中，如何利用有限的样本采取合适的算法实现较高的准确率，同时训练时间进一步减少是本领域的研究方向。有学者研究大幅度分类用于对抗垃圾邮件过滤器的伪装攻击。Guol7等提出了一种

13、改进的基于KNN 的异构无线网络垂直切换决策算法。杨彬8 等提出一种基于樊继慧，等：基于局部敏感哈希的K邻近算法识别垃圾短信1研究方法1.1数据分析本文中基于短信文本内容，建立垃圾短信识别模型,解决垃圾短信过滤效率不高的问题。GitHub是一个面向开源及私有软件项目的代码托管平台，本文中所用的数据集从GitHub平台下载获得，共计8 0 万条中文短信息，内容涉及广告、推销、生活等，从其中抽取2 万条文本进行处理。垃圾短信是指未经用户同意向用户发送的用户不愿意收到的短信息，或用户不能根据自己的意愿拒绝接收的短信息，主要包含以下特点：1)未经用户同意向用户发送的商业类、广告类等短信息；2）其他违反

14、行业自律性规范的短信息。根据上述特点将所有短信息进行分类，非垃圾短信用0 表示，垃圾短信用1表示。通过对数据进行处理，包括数据抽取、数据清洗、分词获得前期的训练集数据样本，然后对数据进行训练和建模，具体流程如图1所示。数据抽取数据清洗分词建模数据准备训练与建模图1数据分析流程对原始数据进行数据探索，发现数据中并不存在空值，进一步查看垃圾短信和非垃圾短信的分布情况。随机抽取上述2 万条文本处理后的数据的80%作为测试样本,其余作为测试集样本,对数据集进行训练。1.2数据预处理1.2.1数据清洗数据清洗（data cleaning）1l 的主要任务是将数747改进的TF-IDF权重的短文本分类算法

15、，通过同义词对分类器的关键词库进行扩展和基于特征长度对短文本权值进行加权，使得文本集的权值方差增大。KNN分类算法在脉冲信号甄别仿真领取也有很好的适用性,在非侵人式负荷识别方法研究中，根据样本数量和对应算法K值计算得到表决权重,增加少数类的分类准确性10 本文中基于短信文本内容，运用TF-IDF算法生成矩阵，利用局部敏感哈希函数(（LSH)算法求解最相似样本，记录样本所属类别，将训练结果导人K邻近算法(KNN)分类器,通过不断实验得出最优近邻。LSH算法的实质是把哈希函数(Hash)之上的数据再一次降维，实现再降维与局部寻找匹配对，,在测试集或验证集上对垃圾短信分类识别准确率进行测评，经过KN

16、N分类器后，实现对分类准确率的提高。748据中的非法数据、不在给定的范围内或对于实际业务毫无意义、或是数据格式非法，以及在源系统中存在不规范的编码和含糊的业务逻辑的这一类数据进行处理，把数据检测出来并进行修正，提高数据质量，减小数据质量问题给数据应用带来的影响。数据清洗是对数据进行重新审查和校验的过程，目的在于删除重复信息，纠正存在的错误,并提供数据一致性。直接删除有缺失值的行记录或列字段，以减少趋势数据记录对整体数据的影响，从而提高数据的准确性。将数据缺失作为数据分布规律的一部分，将变量的实际值和缺失作为输入维度参与后续数据处理和模型计算。1.2.2分词自然语言处理（NLP）概率图12 利用

17、隐马尔可夫模型（HMM），针对中文分词应用Viterbi算法寻找一条概率最大路径。Python结巴分词（Jieba）支持3种分词模式：1)精确模式。试图将句子最精确地切开,适用于文本分析。2)全模式。把句子中所有的可以成词的词语都扫描出来，速度非常快，但是不能解决歧义问题。3)搜索引擎模式。在精确模式的基础上，对长词进行再次切分，提高召回率，适用于搜索引擎分词。1.2.3添词典去停用词中文表达中最常用的功能性词语是限定词,如“的”“一个”“这”“那”等。使用这些词语的主要目的仅仅是协助文本的名词描述和概念表达，并没有太多的实际含义,但是停用词通常都是非自动生产、人工筛选录入的,原因是人们需要根

18、据不同的研究主题判断和选择合适的停用词语。停用词主要包括英文字符、数字、数学字符、标点符号及使用频率非常高的单汉字等。常见的停用词包括语气助词、副词、介词、连接词等，这类词通常没有明确的意义，只有将其放人一个完整的句子中才有一定作用,如常见的“的”“在”之类。中文分词是指以词作为基本单元，使用计算机对中文文本自动进行词语的切分。有学者将加权朴素贝叶斯算法用于复合语言文本分类，采用量子遗传算法对权重参数进行优化，取得了较好的效果13。施寒瑜等14基于组合深度模型进行现代汉语数词、量词、名词（数量名）短语识别，并采用深度学习算法解决现代汉语数量名短语边界识别问题。1.2.4 绘制词云图词云图是文本

19、结果展示的有利工具，通过词云济南大学学报（自然科学版）图可以对短信文本数据分词后的高频词给予强调、突出的视觉效果，使阅读者看一眼就可获取主旨信息。词云就是通过形成关键词“云层”或关键词染，对网络文本中出现频率较高的关键词进行视觉上的突出。词云图可以过滤掉大量的文本信息，使浏览网页者一眼扫过就可以领略文本的主旨。本文中通过对已获取的垃圾短信数据进行预处理、文本分词、词频统计、词云展示。1.3文本的向量表示文字是人类认知过程中产生的高层认知抽象实体，本文中将文字转换为数字向量或矩阵作为机器学习算法模型以及神经网络模型的标准输人、输出。信息检索领域常用的文档表示方法是词袋(Bag-of-words）

20、模型。在分析文本特征时,把一个文档看成若干个词汇的集合，忽略单词顺序和语法、句法等要素，文档中出现的每个单词都是独立的,任意位置出现的任何单词都不受该文档语意影响。目前主流的算法包括 TF-IDF、一点有效（One-hot)编码15。本文中采用TF-IDF算法进行分析。TF-IDF是一种用于信息检索与文本挖掘的常用加权算法,用来评估某个字词对于一个文件集或一个语料库中其中一份文件的重要程度。如果某个单词或短语在一篇文档中出现的频率高,并且在其他文章中很少出现，则认为此词或短语适合用来分类，且具备很好的分辨能力。分词技术的发展使得分类的准确率不断提高16。Liu等17 基于挖掘社交网络的垃圾邮件

21、短信检测,取得了较好的效果。在实际的工程中,还需要结合具体的场景以及大量的实验，不断调整策略，权衡垃圾短信判定的准确率（是否会把非垃圾短信错判为垃圾短信）和召回率（是否能把所有的垃圾短信都找到）。1)利用TF-IDF算法权重策略,增加词频信息。例如：文本 1:“His pet ate his homework.。文本 2:“His cat ate the cake.。文本3:“A dolphin ate the homework.。算法从文本1开始检索，先将“H(h)is”“pet”“ate”依次放人词袋。当检索到文本1的第二个“his时候,不将其放人词袋中,是因为词袋中已经存在“H(h)is

22、这个词。继续检索到“homework”,将其放人词袋中。检索完文本1以后，此时词袋中已有的单词为 H(h)is“petatehomework。按照同样的方法，依此检索文本2、3。将词袋中的词按照首字母的字典顺序升序排列得（括号中第37 卷第6 期的数表示其在文本中出现的次数），将获得的单词按照顺序编号，将上述相应的文本转换为对应的出现次数序列，例如文本1包含“His”“pet”“ate”“his“homework这几个单词。“A这个单词并没有出现,所以在文本1中第一个位置标记为0，“ate这个单词出现了1次,所以标记为1,以此类推，获得文本1、2、3的单词出现次数的信息，展示如下：文本1:0

23、10 0 112 0 0,“H(h)is在句子中出现了2 次。文本2:0 110 0 0 111。文本3:110 10 10 0 1。2)归一化。避免出现句子长度不一致问题,即文档TF信息。文本 1:0 1/5 0 0 1/5 1/5 2/5 0 0 ,“H(h)is在句子中出现了2 次。文本 2:0 1/5 1/5 0 0 0 1/5 1/5 1/5。文本3:1/51/5 0 1/5 0 1/5 0 0 1/5。因为词袋收集了所有文档中的词,所以词袋的统计基数是总文档数。3)词条的文档频率，即出现某个词的文档数除以总文档数,文档数为3，“A”出现了1次,所以词条的文档频率是1/3。以此类推,

24、获得所有单词的文档频率，展示如下：“A(1/3),ate（3/3),c a t (1/3)，d o l-phin（1/3），“p e t （1/3），“h o me w o r k”（2/3）,“H(h)is(2/3),“cake(1/3),the(2/3)。词袋的IDF权重如下：Alog(3/1),atelog(3/3),cat log(3/1),“dolphinlog（3/1)，“p e t l o g（3/1)，“h o me w o r k”log(3/2)，“H(h)i s l o g(3/2)，“c a k e l o g(3/1),“thelog(3/2)。权重策略文档中的高频词

25、应具有表征此文档较大的权重,除非该词也是高文档频率词。相关表达式如下：fi=n/N,式中：f为关键词词频,是一篇文档中关键词出现的频率；n为单词在某文档中出现的次数；N为该文档的单词数。fia=log(D/Dw),fi-fia=f.fia,式中：fia为逆向文本频率，是用于衡量关键词权重樊继慧，等：基于局部敏感哈希的K邻近算法识别垃圾短信结果与讨论2.1基于 LSH的 KNN 算法2.1.1LSH 敏感哈希（SimHash）算法和最小哈希（MinHash）算法可以做到2 个文档经过Hash处理后仍然相似，但是SimHash算法计算的相似距离是Hamming 距离，而MinHash算法计算的相似

26、距离是Jaccard 距离。LSH可以在这2 种算法的基础上更快地找到相似、可匹配的对象,而且继承了两者的优点。相似文档经LSH计算之后仍然能够保持相似。LSH是一个用于计算Jaccard 距离的算法,它的输人特征是自然数的集合。2 个自然数的集合A、B的Jaccard距离的d(A，B）由它们的交集和并集的基数定义。将随机哈希函数g应用于集合中的每个元素,并取得所有哈希值中的最小值。在获得权重矩阵之后,通过计算矩阵相似性来识别样本。LSH可以从海量的高维数据集中查找近似近邻数据，需要注意的是,LSH并不能保证一定能查找到最相邻的数据,需要在模型的出口把结果进行K最近邻检验。2.1.2KNNKN

27、N是一种基本的分类与回归算法,K值的选择在很大程度上影响KNN的分类结果。度量距离是需要考察的重要因素。在样本空间中,任意2 个点之间的距离都可以看作是2 个样本点之间相似性的度量，它们之间的距离越近就意味着这2 个样本点越相似。虽然在聚类算法中同样也会用到样本点相似性的度量，但是，不同的距离度量方式会产生不同的距离，其中最常见的是欧氏距离。设训练样本X=（x(1)，x(2)，),其中=x，x，e R,i 是指n个样本中的样本i,即ien）,即每个样本包含 m个特征维度，则L，距离定义如下：L(x(,x)=(x-10),p1,(1)mh=1式中i，j En,表示属于集合X的某一个样本。749的

28、指数；D为总文档数；D为出现该单词的文档数。通过以上的分析，总结出文本分类步骤如下：1)分词，去除停用词;2)转换成词频向量;3)转换成权重矩阵；4)特征提取，构建模型。2丝750当p=1时称为曼哈顿距离，即L(,x)=当p=2时称为欧氏距离，即L(x,x0)=(x(-xm(）=1当p=时,它是各个坐标距离中的最大值,即L(x(),x)=max;x()-x(。(4)当然，P同样能取其他任意正整数，然后按照式（1）进行计算即可。现有二维空间的3个样本点,x(1)=（0,0)，(2)=(4,0)，x(3)=（3，3),则在p取不同值下，距离样本点(）最近邻的点为L(),x(2)=1 0-4|+0-

29、0|=4,L(x(),x(3)=|0-3|+0-3|=6,L;(x(),x(2)=/(0-4)2+(0-0)=4,L(),x(2)=/(0-3)2+(0-3)4.2,L。(x(),x(2)=ma x 1|10-4,|0 0 =4,L(x(1),x(2)=max/10-3,|0-31)=3。由此可知,当p为1、2、时,离样本点x(1)最近的样本点分别是()、x(2)、()。2.1.3基于 LSH的 KNN基于LSH 的KNN算法流程如图2 所示。步骤1数据预处理；步骤2TF-IDF算法生成矩阵;开始数据预处理TF-IDF算法生成矩阵LSH求解最相似样本所属类别IF-IDF一词频-逆向文本频率；L

30、SH一局部敏感哈希函数；KNN一K邻近算法。图2 基于局部敏感哈希的K邻近算法整体架构流程图济南大学学报（自然科学版）类别；m(i)一X13);(3)最优近邻KNN分类器测试集验证结束第37 卷步骤3LSH求解最相似样本,记录样本所属(2)步骤4将训练结果导人KNN分类器，通过实验得出最优近邻；步骤5在测试集或验证集上对准确率进行评测。2.2模型训练与评价实验环境和配置为Python-PySpark,PySpark是Spark为Python开发者提供的API,Windows64位操作系统步骤1读人DataFrame;步骤2特征向量预处理；步骤3计算相似度；步骤4计算垃圾短信识别准确率（忽略自相

31、似，最远距离限制0.8）。利用本文中提出的基于LSH 的 KNN算法进行实验建模，表1所示为不同K值时对垃圾短信识别准确率的计算结果。表1基于局部敏感哈希的K邻近算法不同K值时对垃圾短信识别准确率K值准确率/%195.2397.4598.7通过实验对比可以看出：在没有添加KNN之前,垃圾短信识别准确率为9 5.2%,相对较低；加入KNN分类器后的分类识别效果提升,识别准确率最大值达到9 8.7%,即K=5时垃圾短信分类识别效果最好。将算法在数据集进行实验，垃圾短信识别准确率均在9 5%左右。在输出层引入KNN,经交叉验证得到的垃圾短信识别准确率为9 8.7%。为了验证本文中提出的基于LSH 的

32、KNN算法的识别性能,与目前常用的3种垃圾短信识别算法SA-Bi-LSTM、结合 TF-IDF 的 SA-Bi-LSTM(TSA-Bi-LSTM)和基于云计算的垃圾短信语义识别系统（Cl o u d-c o mp u t i n g）算法进行对比,对比实验均采用相同的软、硬件环境,词向量矩阵和数据集，在数据集上执行一次迭代的运行，结果如图3所示。从图中可以看出，基于LSH的KNN算法的垃圾短信识别的准确率最高,为9 8.7%,Cloud-computing算法的识别准确率为9 7%,TSA-Bi-LSTM算法的识别准确率仅为9 0.1%2，本文中提出的改进算法具有一定K值7911准确率/%96

33、.095.793.2第6 期100989694%/率业工929087.9%88868482SA-Bi-LSTMSA-Bi-LSTM一基于自注意力的双向长短期记忆网络；TSA-Bi-LSTM一结合词频-逆向文本频率算法的 SA-Bi-LSTM;Cloud-computing一基于云计算的垃圾短信语义识别系统；LSH-KNN一基于局部敏感哈希的K近邻算法。图3不同算法的垃圾短信识别准确率的参考价值,在垃圾识别领域提供了一种思路和解决问题的方法。不同算法的垃圾短信分类识别时间,由于减少了机器学习的过程,因此基于LSH的KNN算法垃圾短信识别的分类识别时间比几种常用算法的减少2.1 4.1s,取得了较

34、好的效果。本文中提出的基于LSH算法的KNN垃圾短信识别算法,将数据从原空间映射到一个新的空间中，使得在原空间相似（距离近）的数据，在新的空间中也相似的概率很大，而在原空间不相似（距离远）的数据,在新的空间中相似的概率很小,矩阵的运算效率通常比循环的运算效率要高。3结语本文中提出一种基于LSH的KNN算法用于垃圾短信识别，本文的数据处理也采用矩阵形式，提升了训练效率，分类识别所用时间比几种常用算法减少 2.1 4.1 s,基于LSH的 KNN算法的垃圾短信识别准确率最高，为9 8.7%，证实该算法具有更好的垃圾短信识别性能，对垃圾短信识别领域的应用具有一定的参考价值。通过实验发现，当K取不同值

35、时，分类算法给出的结果不尽相同,但是整体的识别率都有所提高，经过大量数据训练算法和训练设计，找出对应最适合系统的K值，以求算法在精度方面达到系统的要求。未来可以将注意力机制应用到KNN中以求取最优K值,探究样本数量和K值的相关性。由于K均值聚类在教学质量评估模型中也取得较好的应用效果18，因此利用具有平衡全局和局部搜索能力的烟花算法对K均值聚类算法进行优化，解决K均值樊继慧，等：基于局部敏感哈希的K邻近算法识别垃圾短信98.7%97.0%90.1%TSA-Bi-LSTM算法名称751聚类算法容易陷人局部最优问题，也是下一步的研究内容。参考文献：【1李根，王科峰，卫国，等基于自分簇自学习算法的垃

36、圾短信识别J吉林大学学报（信息科学版），2 0 2 1，39（5）：58 3.2吴思慧，陈世平.结合TFIDF的Self-Attention-BasedBi-LSTM的垃圾短信识别J计算机系统应用，2 0 2 0，2 9（9）：17 1.3李琼阳，田萍基于主成分分析的朴素贝叶斯算法在垃圾短Cloud-.LSH-KNNcomputing信用户识别中的应用J数学的实践与认识，2 0 19，49（1)：134.4熊健，邹东兴集成学习在样本不平衡垃圾短信识别上的应用J广州大学学报（自然科学版），2 0 18，17（5）：1.5赖文辉，乔宇鹏基于词向量和卷积神经网络的垃圾短信识别方法计算机应用，2 0

37、18，38（9）：2 46 9.6ZHOU X C,SHEN H B,HUANG Z Y,et al.Large margin classi-fication for combatingdisguise attacks on spam filters J.Journal ofZhejiang University:Science C,2012,13(3):187.7 GUO S W.An improved KNN based decision algorithm for verticalhandover in heterogeneous wireless networks C/2021 40t

38、hChinese Control Conference（CCC),Ju l y 2 6-2 8,2 0 2 1,Sh a n g h a i,China:Vol.6.New York:IEEE,2021:86.8杨彬，韩庆文，雷敏，等。基于改进的TF-IDF权重的短文本分类算法J重庆理工大学学报（自然科学版），2 0 16，30（12)：108.9汪炫羲，唐清岭，蒋小菲基于KNN分类算法的n-脉冲信号甄别仿真研究J电子测量技术，2 0 2 2，45（13）：16 4.10朱浩，曹宁，鹿浩，等。基于特征加权KNN的非侵人式负荷识别方法J电子测量技术，2 0 2 2，45（8）：7 0.11郝爽，

39、李国良，冯建华，等。结构化数据清洗技术综述J.清华大学学报（自然科学版），2 0 18，58（12）：10 37.12蒋萍，王子民.基于NLP与Retinex的视频帧间FIF分析研究J计算机仿真，2 0 2 2，39（7）：19 7.13 隆峻，神显豪，丁小军，等量子遗传算法优化加权朴素贝叶斯复合语言文本分类J.济南大学学报（自然科学版），2022,36(2):136.14施寒瑜，曲维光，魏庭新，等。基于组合深度模型的现代汉语数量名短语识别J.南京师大学报（自然科学版），2 0 2 2，45(1):127.15 傅依娴，芦天亮，马泽良，基于One-Hot的CNN恶意代码检测技术J.计算机应用与

40、软件，2 0 2 0，37（1)：30 4.16张军，赖志鹏，李学，等。基于新词发现的跨领域中文分词方法J电子与信息学报，2 0 2 2，44（9）：32 4117LIU J Y,ZHAO Y H,ZHANG A X,et al.Spam short messagesdetection via mining social networks J.Journal of ComputerScience and Technology,2012,27:506.18巨金香，张福泉，黄锐，基于烟花算法优化k均值聚类的教学质量评估模型J济南大学学报（自然科学版），2 0 2 2，36(6):755.(责任编辑：刘飚)

展开阅读全文