基于TextCNN-Bert融合模型的不良信息识别技术.pdf

资源描述

1、年第期(第卷总第期)基于融合模型的不良信息识别技术裴卓雄杨敏杨婧(国家计算机网络应急技术处理协调中心北京国家计算机网络应急技术处理协调中心山西分中心山西太原)摘要:敏感领域的不良信息具有极强的迷惑性和欺骗性腐蚀人们的思想影响人们的价值观和判断能力危害社会安全研究敏感领域不良信息的识别技术具有深远意义通用的识别技术忽略了背景知识和隐喻问题直接应用于敏感领域不良信息识别效果较差提出一种基于的融合模型通过敏感领域主题识别和情感隐喻识别实现对敏感领域不良信息的文本识别实验结果表明该模型在准确率、评分等指标方面取得了良好的结果相较于现有模型有显著提高关

2、键词:敏感领域融合模型中图分类号:文献标识码:/引用格式:裴卓雄杨敏杨婧.基于融合模型的不良信息识别技术.网络安全与数据治理():.(/(/)/():.:引言随着互联网行业蓬勃发展网络上不良信息的泛滥引发了诸多社会问题特别是历史、时政新闻等敏感领域的不良信息通过编排、篡改、杜撰、伪造的方式具有极强的迷惑性和欺骗性腐蚀人们的思想影响人们的价值观和判断能力危害社会安全文本作为主要传播方式研究敏感领域不良信息的识别技术具有深远意义自然语言处理技术()能够对文本进行深入分析和理解从而实现文本的分类和识别提出一种用于文本分类的卷积神经网络模型可以在一定程度上避免梯度消失的问

3、题而且在处理短文本和固定长度文本时表现良好提出了文本分类模型同时结合了卷积神经网络和循环神经网络的优点比较不同循环神经网络模型在文本分类任务中的性能表明了模型在文本分类的优势提出了模型该模型是一种基于网络的预训练模型可用于自然语言处理任务如文本分类、语言推断等提出了一种基于双向情感表情符号嵌入和基于注意力的的投稿网址:年第期(第卷总第期)情感分析方法该方法使用双向来学习句子中的上下文信息使用注意力机制来加强对重要信息的关注使用情感表情符号来增强情感分类的精度李志杰提出一种基于和的联合模型捕捉文本中的上下文关系和局部特征提高短文本分类的准确性提

4、出和人工神经网络组成的混合模型通过上下位词的概念获取新闻的语义并映射到模型上提升对新闻文章分类的准确性提出了一种基于的混合模型用于提高电影评论情感分析的准确性该模型利用提取局部特征则用于学习序列信息从而结合了两种模型的优点敏感领域属于专业领域不良信息的识别技术研究十分有限通用的识别技术可以直接应用于识别但存在以下问题:一是领域特定语言和术语问题敏感领域具有丰富的领域特定语言和术语这些语言和术语可能对于通用模型不易理解从而导致文本识别准确率下降二是背景知识问题敏感领域涉及敏感事件、人物和背景等方面的知识这些知识对于模型来说可能是未知的需要进行特殊的处理才能进

5、行识别和理解三是文本复杂性的问题敏感领域文本非常复杂包含大量的隐喻、比喻和引申意义这些都需要模型具备识别和理解的能力因此本文将敏感领域不良信息的识别问题转化为敏感领域主题识别任务和情感隐喻识别任务提出一种基于融合模型既利用对关键词和局部特征更加敏感的优势准确识别敏感领域的特定语言和术语又能利用的预训练能力和自注意力机制提升对隐喻、比喻和引申意的识别实验结果表明本模型在准确率、召回率、精确率等方面识别效果良好词向量词向量技术是一种将文本中的单词或短语表示为向量的技术基于技术实现文本分类的第一步就是利用词向量表示文本传统的方法是基于离散符号表示的即将每个单词

6、表示为一个唯一的标识符或索引这种方法没有考虑到单词之间的语义关系因此无法捕捉到单词之间的相似性和相关性而词向量技术通过将每个单词表示为一个向量使得语义上相似的单词在向量空间中距离较近从而可以更好地捕捉到单词之间的语义关系如、等模型核心思想是将每个词表示为一个向量通过计算词向量之间的余弦相似度来衡量词之间的相似度是一种基于全局词频统计的词向量学习方法将单词的共现信息转化为向量空间中的距离关系的核心思想是通过训练深度双向语言模型来生成上下文相关的词向量表示优点在于能够捕捉单词在不同上下文中的语义和语法信息从而提高自然语言处理任务的性能敏感领域识别模型本文提出的融合模型

7、如图所示模型输入为经过预处理的文本序列 ()预处理过程包括分词、词性标注和去除停用词输出为敏感领域的判定结果识别模型包含敏感领域主题识别和情感隐喻识别两个模块若敏感领域识别为假则判定与敏感领域无关为非敏感文本若识别为真则作为情感隐喻识别的输入进行判定若情感隐喻识别为真则判定为不良信息若判定为假则判定为一般信息图敏感文本识别模型敏感领域主题识别模型词向量微调特征领域词库微调是指在特定领域的词库上对已经训练好的模型进行微调以得到更适合该领域的词向量如图所示首先准备敏感领域语料和公开的大规模语料其次使用大规模的语料库训练通用的模型得到通用的词向量表示

8、然后获得敏感领域的专业术语和常用词汇构建领域词库最后对领域相关的词向量进行微调更新图词向量微调本文结合敏感领域词汇特点提出基于算法的敏感领域词库构建算法通过统计词频和词性分析的方式获取领域词汇一个词汇在敏感领域文本中出现的频率是判断其与该敏感领域相关性的重要特征统计词频的公式如下:人工智能年第期(第卷总第期)()领域词性其中表示人名表示地名表示机构团体名称表示其他专有名词表示缩略语人物、机构、事件、时间、地点等信息在敏感领域具有特殊意义卷积神经网络如图所示第一层为输入层用于接收输入的文本序列将其转化为词嵌入向量每个单词对应一个向量并将这些向量

9、按序列顺序组成一个矩阵第二层为卷积层通过多个不同大小的卷积核对输入的文本矩阵进行卷积操作从而提取文本的局部特征第三层为池化层用于压缩特征图的维度和提取重要的特征第四层为全连接层将池化层的输出连接到一个或多个全连接层用于学习特征之间的关系和进行最终的分类最后一层为输出层输出结果为敏感领域和非敏感领域两个类别图卷积神经网络情感隐喻识别模型敏感领域不良信息表达内容隐晦具有隐蔽性和迷惑性外套的包装与正常内容具有极强的混淆性因此准确识别出敏感领域不良信息的关键在于能否识别语义的隐喻 ()是一种预训练的自然语言处理模型适用于语义隐喻的识别和理解如图所示本模型的输入为敏感领

10、域的预处理文本 ()输出为判定结果第一步是将输入的文本序列进行词向量处理第二步是经过编码层提取文本中的语义信息该层由多个组成每个由多头自注意力机制和前馈神经网络组成第三步经过预训练任务层提取深层次的语义信息最后经过函数实现文本的分类输出不良信息和一般信息两种标签本文提出的情感隐喻识别模型需经过预训练和模型微调两个步骤得到预训练语言模型的预训练过程分为两个阶段分别是掩码语言建模()和下一句预测()阶段中输入一段文本并将其中的部分单词替换为或其他随机图情感隐喻识别模型单词模型的目标是预测这些被替换的单词阶段中输入两个句子并预测这两个句子

11、是否是连续的该任务的目的是让模型理解两个句子之间的关系本文采用发布的开源预训练模型这是基于数据集训练的模型包含层、个隐藏单元和个注意力头适用于中文文本分类等任务模型微调模型微调是指在预训练阶段基础上将模型进投稿网址:年第期(第卷总第期)一步训练以适应具体任务的过程本文将敏感领域的一般信息和不良信息作为训练集和测试集进行输入根据损失函数和评价指标来对模型进行训练和调优模型微调时需要用到交叉熵损失函数:()()()()其中表示样本的标签正类为负类为表示样本预测为正类的概率实验及分析实验数据本文数据集分为三个部分:第一部分实验数据是非敏感领域数据数

12、据来源于搜狗实验室的全网新闻数据本文从中筛选出汽车、科技、健康、体育、房产、教育、旅游、文化、时尚共个类别每个类别约包含篇文本第二部分实验数据是敏感领域一般信息数据第三部分是敏感领域不良信息数据经过人工处理和标注数据集分布情况为非敏感领域数据万条语句敏感领域一般信息数据万条语句敏感领域不良信息数据万条语句同时按的比例将标注数据集划分为训练集、验证集和测试集实验设计基线模型为了验证基于融合模型的不良信息识别方法的有效性选取、作为基线模型实验环境与模型参数设置本文应用的深度学习框架为服务器操作系统为使用深度学习框架开发且其底层支持为模型参数设置如表、

13、表所示表模型参数参数值词向量维度 (丢弃率)表模型参数参数值词向量维度 (丢弃率)评估方法实验采用的评价指标为准确率()、精确率()召回率()和值混淆矩阵如表所示表混淆矩阵实际值预测值正类负类正类负类准确率是指所有预测为正类占总数的比例 ()召回率是指所有正确预测为正类占全部实际为正类的比例 ()精确率是指预测为正类的样本中实际为正类的样本所占的比例 ()值综合了精确率和召回率把和的权重看作是一样的是基于两者的调和平均通常作为一个综合性的评价指标值越高代表模型的性能越好 ()实验结果如表所示本文提出的融合模型在评价指标方面优于、等分类模型、的明显低于其他指

14、标原因在于模型无法理解深层次语义导致将敏感领域一般信息判定为不良信息模型指标低于本文提出模型原因在于其对敏感领域专有词汇不敏感导致将网友吐槽等不相关内容判定为不良信息表各模型识别效果对比人工智能年第期(第卷总第期)结论本文提出一种基于融合模型的识别方法相比传统方法能够更准确地识别敏感领域的术语和隐喻内容大幅提升识别效果未来的研究可以探索如何引入更强大的大语言模型例如或等这些模型在文本生成和理解任务上表现出了卓越的性能通过引入这些最新的大语言模型可以为敏感领域不良信息识别效果带来更大的提升和改进参考文献郑博熙程达王.网络空间意识形态斗争的特征分析.网络安全技术与应用 ():.:./:./:.:.:./:.李志杰耿朝阳宋鹏.联合模型的短文本分类研究.西安工业大学学报 ():./().:.():.:.:/():./:.(收稿日期:)作者简介:裴卓雄()男硕士工程师主要研究方向:信息安全、自然语言处理杨敏()男工程师主要研究方向:信息安全杨婧()女硕士工程师主要研究方向:信息安全投稿网址:

展开阅读全文