基于知识和改进深度学习的网络主题文本快速过滤方法.pdf

资源描述

1、 TECHNOLOGY AND INFORMATIONIT技术科学与信息化2023年10月上 79基于知识和改进深度学习的网络主题文本快速过滤方法刘丽娟国家计算机网络应急技术处理协调中心上海分中心上海 201315摘要现阶段，网络主题文本过滤主要存在知识重用率较低、识别不准不全等问题。为此，本文提出基于知识和改进深度学习的网络主题文本快速过滤方法。该方法借助图谱嵌入内部知识，联系上下文嵌入外部知识，并建立一个改进深度学习模型，改进处是将内、外部知识作为词向量输入，增强语义潜在关联性。结果表明，该方法不仅提升了主题识别准确率F1值，且相比关键词法、互信息法、深度学习法，处理时间大大缩短，提

2、升了文本过滤效率。关键词深度学习；知识嵌入；语义分析；数据挖掘；人工智能A Fast Filtering Method for Web Topic Text Based on Knowledge and Improved Deep LearningLiu Li-juan Shanghai Branch of National Computer Network Emergency Response Technical Team/Coordination Center of China,Shanghai 201315,ChinaAbstract At the present stage,the

3、main problems of network topic text filtering are low knowledge reuse rate,inaccurate and incomplete recognition.Therefore,this paper proposes a fast filtering method for network topic text based on knowledge and improved deep learning.This method embeds internal knowledge with the help of knowledge

4、 graph,embeds external knowledge with the context,and establishes an improved deep learning model,which improves by using internal and external knowledge as word vector input to enhance the potential correlation of semantics.The result shows that this method not only improves the F1 value of topic r

5、ecognition accuracy,but also greatly shortens the processing time compared with the key word method,mutual information method and deep learning method,in this way,it improves the text filtering efficiency.Key words deep learning;knowledge embedding;semantic analysis;data mining;artificial intelligen

6、ce引言网络主题文本过滤是一个复杂的课题，目前存在手段单一、效率低下等问题。现阶段研究大部分依赖人工手段，效率低下，并且鉴于不同人思维存在局限性，评判标准不同1，导致主题文本的过滤结果有差异。此外，自动化手段不能充分利用已有的经验知识2，容易造成遗漏、误判的现象。常用方法有用推荐系统3进行过滤，通过word2vec4进行内容识别，用决策树5识别敏感词变体，但上述方法适用领域有限。因此，亟须一种智能方法将“被动”查找主题文本转变为“主动”关联知识、经验，提高网络主题文本的过滤效率。目前知识图谱6理论为过滤文本主题信息提供良好方法，深度学习理论7为模型训练提供了良好途径，二者结合能智能化地实现网络

7、主题文本过滤。本文提出一种基于知识和改进深度学习的网络主题文本快速过滤方法。首先对主题文本进行理解，融合知识图谱作为内部知识嵌入；其次联系上下文，对待查找主题文本进行语义扩展，作为外部知识嵌入；最后用改进深度学习模型处理主题词向量，依据目标定位主题文本。实验表明，该方法鉴别网络主题文本的准确率较高，缩短运算处理时间。创新点在于：在融合内部知识基础上，知识图谱使理解的角度更为全面；嵌入上下文外部知识扩展语义，使主题过滤过程更为准确；融合上述内、外部层次知识作为深度学习模型训练向量，使模型识别更为高效。1 基于知识嵌入的主题文本分析网络主题文本鉴别是一个反复迭代的过程，主题文本知识是一个不断丰富完

8、善的过程，需用知识嵌入方法解决。知识嵌入是知识产生者与知识接受者之间交互的重要手段。知识嵌入分为内部知识嵌入和外部知识嵌入。1.1 内部知识嵌入（嵌入知识图谱）内部知识嵌入指知识图谱的实体关系嵌入。传统的主题文本识别方法难以综合实体间关系，嵌入实体关系能完整语义表 TECHNOLOGY AND INFORMATIONIT技术80 科学与信息化2023年10月上示知识单元，准确识别主题文本。实体关系以知识图谱形式进行嵌入。知识图谱旨在描述真实世界存在的各种实体或概念及其关系，构成语义网络图，节点表示实体或概念，边由属性或关系构成。主题信息在知识图谱中直观表示为KG=，其中head、tail分别是

9、三元组的头实体、尾实体，是KG的实体集合，relation=r1,r2,r|R|是KG的关系集合，包含R种不同关系。使用Neo4j图数据库构建知识图谱，经过规范化存储能清晰地描述知识。核心步骤是整合结构化数据、实体抽取和关系抽取非结构化数据，经过初步层次知识表示，将实体关系转化为连续的向量空间，经过知识推理，发现知识，在保留知识图谱的原有结构基础上完整嵌入实体关系。对文本进行分词、词性标注及主题实体识别，去除停用词和无意义的单字，得到一组包含n个描述主题特征的关键词。一条由n个特征词构成的主题特征为x=，其中是完整主题文本中第i个位置上的词汇，将特征关键词转换为词向量，映射为对应的d维表示向量

10、 Rd。1.2 外部知识嵌入（嵌入上下文）外部知识嵌入指嵌入上下文。由于文本在不同语境下含义不同，故需研究上下文，以便更准确地定位主题信息。结合主题文本过滤的范围、对象，借助关联关系，嵌入上下文进行语义扩展。主要过程是，定义主题文本上下文实体e，对上下文进行数据预处理，包括分词处理、去停用词、词频统计等，加入约束条件，获得提取主题特征结果的上下文向量。实体e的上下文向量context(e)=ei|TopicInfoKG，是主题知识图谱TopicInfoKG相邻一跳的结点集合，实体关系r为上下文实体提供补充知识，扩展主题语义，提升主题的识别效率。2 改进深度学习网络主题文本过滤模型在知识嵌入基础

11、上，建立改进深度学习网络主题文本过滤模型，如图1，共有四阶段，第一阶段是数据预处理，主要生成神经元网络输入数据和嵌入矩阵；第二阶段是神经元网络训练；第三阶段是特征组合；第四阶段用多重过滤机Multilayer Perceptron（MLP）实现分类。图1 模型处理阶段网络输出层用Sigmoid函数进行二分类，定义域为0到1开区间，根据0.5进行分界，若结果大于等于0.5，说明为正样本，否则为负样本，从而实现分类，过滤主题文本信息。计算公式如下：知识操作具体过程是，从知识提取中得到每个词语对应的实体向量、实体上下文向量，k是实体嵌入的维数。对主题描述文本x=，输入包括主题特征向量=，词语-实体对

12、齐后的实体向量g()，实体上下文向量g()，词语-实体对齐转换函数g(e)=tanh(Me+b)，通过上述操作，将特征连接在一起，输入到词向量空间，保持原有空间关系。主题文本x用e(x)表示。Softmax分类器输入是主题描述文本e(x)，经过归一化得到主题文本在第k种主题的输出概率，不断训练直到模型符合拟合要求为止。TECHNOLOGY AND INFORMATIONIT技术科学与信息化2023年10月上 813 实验分析用准确度Accuracy、精度Precision、召回率Recall和F1值指标分别评价主题文本检测方法性能，比较关键词法、互信息法、深度学习法、基于知识嵌入的改进深度学习

13、方法。TP表示正确分类下正样本数，TN表示正确分类下负样本数，FP表示负样本误分类为正样本数量，FN表示正样本误分类为负样本数量，公式分别如下：针对“进口博览会”主题，对比上述方法，比较F1值，可知本文的知识嵌入改进深度学习法的F1值最佳，如图2。0%20%40%60%80%100%C1C2C3C4C5关键词法互信息法深度学习法知识嵌入改进深度法图2 不同方法的F1值比较00.511.522.53020040060080010001200知识嵌入改进深度法关键词法互信息法深度学习法图3 不同方法的耗时响应时间以响应耗时为检验指标，比较用不同方法处理100个、200个、400个个节点的应用性能，

14、如图3所示。可看出随着主题信息节点数量不断增加，不同算法响应耗时不断减少。关键词法、互信息法、深度学习法三种算法响应耗时均在2s以上。而知识嵌入改进深度学习法的处理耗时始终在1s内，平均处理耗时在0.9s左右。综上可看出，本文提出的方法能节省运算处理时间，实现网络主题文本准确、快速过滤。4 结语本文提出一种基于知识和改进深度学习的网络主题文本快速过滤方法。贡献有：利用图谱嵌入实体关系，获得主题内部知识；通过嵌入上下文外部知识，丰富并扩展语义范围；一个智能的改进深度学习网络主题文本快速过滤模型。下一步工作重点将关注知识图谱嵌入的效率，重点考虑如何使知识描述更为丰富完整，并在此基础上加强扩展能

15、力，增强处理能力。参考文献1 ZhengWenbo,YanLan,GouChao,etal.Pay attention to doctorpatient dialogues:Multi-modal knowledge graph attention image-text embedding for COVID-19 diagnosisJ.Information Fusion,2021(75):168-185.2 汪少敏,王铮,任华,等.利用深度学习融合模型提升文本内容安全的研究J.信息科技,2020,36(5):25-30.3 徐兵,弋沛玉,王金策.知识图谱嵌入的高阶协同过滤推荐系统J.计算机科学,2021,48(S2):244-250.4 金贵涛,石元兵,魏忠,等.一种基于Word2vec的敏感内容识别技术J.信息科技,2019,52(11):2750-2756.5 余敦辉,张笑笑,付聪,等.基于决策树的敏感词变形体识别算法研究及应用J.计算机应用研究,2020,37(5):1395-1399,1405.6 路士兵.基于K近邻分类算法的敏感信息过滤方法研究J.科学技术创新,2020(28):134-135.7 李伟.网页敏感词过滤与敏感文本分类系统设计J.电脑知识与技术,2020,16(8):245-247.

展开阅读全文