收藏 分销(赏)

基于原型网络的中文分类模型对抗样本生成.pdf

上传人:自信****多点 文档编号:649777 上传时间:2024-01-23 格式:PDF 页数:9 大小:1.57MB
下载 相关 举报
基于原型网络的中文分类模型对抗样本生成.pdf_第1页
第1页 / 共9页
基于原型网络的中文分类模型对抗样本生成.pdf_第2页
第2页 / 共9页
亲,该文档总共9页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第 49卷 第 8期2023年 8月Computer Engineering 计算机工程基于原型网络的中文分类模型对抗样本生成杨燕燕1,谢明轩2,曹江峡2,3,王学宾2,柳厅文2,3,杜彦辉1(1.中国人民公安大学 信息网络安全学院,北京 100038;2.中国科学院信息工程研究所,北京 100084;3.中国科学院大学 网络空间安全学院,北京 100049)摘要:对抗样本生成通过在原文本中添加不易察觉的扰动使深度学习模型产生错误输出,常用于检测文本分类模型的鲁棒性。现有对抗样本生成方法多数采用黑盒或白盒攻击,在生成对抗样本的过程中需要和受害模型交互,且攻击效果依赖于受害模型的结构和性能,通用

2、性较差。面向中文文本的对抗样本生成方法使用的变换策略过于单一,无法生成多样化的中文对抗样本。针对这些问题,提出一种基于原型网络的对抗样本生成(AEGP)方法。在全面分析汉字结构特点和人类阅读习惯的基础上,设计 8种可保持语义一致的中文文本变换策略。将卷积神经网络作为编码器,构建原型网络,利用同一类别下的其他文本辅助发现所需变换的文本片段。针对选择的文本片段应用文本变换策略,生成对抗样本。实验结果表明,AEGP方法具有较好的通用性,能生成多样化的对抗样本,且相比于基线方法,分类模型在 AEGP方法生成的对抗样本上的准确率下降了 9.2132.64个百分点。关键词:对抗样本生成;分类模型;原型网络

3、;文本表示;变换策略开放科学(资源服务)标志码(OSID):中文引用格式:杨燕燕,谢明轩,曹江峡,等.基于原型网络的中文分类模型对抗样本生成 J.计算机工程,2023,49(8):54-62.英文引用格式:YANG Y Y,XIE M X,CAO J X,et al.Adversarial sample generation for Chinese classification model based on prototypical network J.Computer Engineering,2023,49(8):54-62.Adversarial Sample Generation for

4、 Chinese Classification Model Based on Prototypical NetworkYANG Yanyan1,XIE Mingxuan2,CAO Jiangxia2,3,WANG Xuebin2,LIU Tingwen2,3,DU Yanhui1(1.College of Information and Cyber Security,Peoples Public Security University of China,Beijing 100038,China;2.Institute of Information Engineering,Chinese Aca

5、demy of Sciences,Beijing 100084,China;3.School of Cyber Security,University of Chinese Academy of Sciences,Beijing 100049,China)【Abstract】In adversarial sample generation,the deep learning model is triggered to add imperceptible perturbations to the original text,thereby producing an incorrect outpu

6、t which can subsequently be used to test the robustness of the text classification model against malicious attacks.Existing adversarial sample generation methods must interact with the victim model in launching mostly black-or white-box attacks.The effect of the attack depends on the attributes of t

7、he victim model,such as structure and performance,and thus the process is not sufficiently versatile.In addition,the transformation strategy used in the adversarial sample generation method for Chinese text is too simple to generate diverse adversarial examples.To address these issues,in this study,

8、an adversarial sample generation method called AEGP is proposed for a Chinese text classification model.First,based on a comprehensive analysis of the structural characteristics of Chinese characters and human reading habits,eight Chinese text transformation strategies are designed to maintain consi

9、stent semantics.Subsequently,using convolutional neural networks as the encoder,a prototypical network is built,whereby other texts in the same category are used to determine the text fragments that need to be transformed.Finally,text transformation strategies are applied to the selected text fragme

10、nts to generate adversarial samples.The experimental results demonstrate that AEGP has good generality in generating diverse adversarial samples.Compared with the baseline method,the accuracy of the classification model on the adversarial samples generated by AEGP dropped by 9.21-32.64 percentage po

11、ints,基金项目:国家重点研发计划(2021YFB3100600);中国科学院战略性先导科技专项(XDC02040400);中国科学院青年创新促进会项目(2021153)。作者简介:杨燕燕(1986),女,硕士研究生,主研方向为网络安全;谢明轩,硕士;曹江峡,博士研究生;王学宾,博士;柳厅文,研究员、博士、博士生导师;杜彦辉,教授、博士、博士生导师。收稿日期:2022-12-01 修回日期:2023-03-17 Email:人工智能与模式识别文章编号:1000-3428(2023)08-0054-09 文献标志码:A 中图分类号:TP391第 49卷 第 8期杨燕燕,谢明轩,曹江峡,等:基于

12、原型网络的中文分类模型对抗样本生成demonstrating the sensitivity of the model to imperceptible perturbations.【Key words】adversarial sample generation;classification model;prototypical network;text representation;transformation strategyDOI:10.19678/j.issn.1000-3428.00664160概述随着互联网技术的不断发展,社交网络越来越深入人们的生活,任何人都可以在互联网上自由发表

13、言论,使得互联网上存在各式各样的复杂信息,然而这些信息并不全是无害的,很多信息属于干扰人们生活的有害信息,如诈骗信息、暴力信息、虚假广告信息、黄色信息以及垃圾邮件等,这些信息会不同程度地影响政治舆论导向、损害国家及人民的利益,从精神和物质上残害互联网网民。基于深度学习的自然语言处理模型目前广泛应用,针对检测和安全系统,国内有很多公司均有应用和部署,包括网易易盾、百度大脑和华为云等。在众多信息安全防控的应用场景下,自然语言处理模型的性能就显得尤为重要。准确度长期以来都是评价模型性能的核心甚至唯一标准,但是存在一些数据包含有意或者无意的改动,导致模型产生错误的输出,也就降低了模型在准确度上的表现,

14、这些有相同含义但形式不同的文本被称为对抗样本,对抗样本通过对文本添加细微的扰动来改变文本形式,从而诱导模型产生错误的输出。通过和模型交互来生成对抗样本的过程称为对抗攻击。对抗攻击按照和模型的交互情况分成白盒攻击和黑盒攻击。在白盒攻击中,攻击者可以获得目标模型的全部信息,包括模型架构、模型参数、模型设计的损失函数和激活函数、模型的输入和输出数据。白盒攻击通常是结合了一组对模型而言最敏感的扰动进行对抗样本生成,近似于对特定模型和输入的最坏情况进行攻击。黑盒攻击并不需要目标模型的全部细节,但需要知道模型的输入和输出,这种攻击方法通常依靠一种启发式算法来生成对抗样本,相对白盒攻击而言更加实用,因为在许

15、多的实际应用中,深度神经网络的具体结构和参数等细节对于攻击者而言是一个黑匣子,攻击者往往面对的是一个未知的模型,所能获得的仅有模型在实际应用中的输出,所以黑盒攻击更加符合实际场景的设定。白盒攻击和黑盒攻击都或多或少需要和模型进行交互,通过模型的参数和输出中的部分内容来生成对抗样本,其效果虽然比较优异,但生成的对抗样本由于依赖原始目标模型的表现,因此通过和目标模型的交互生成的对抗样本通用性较差。在实际应用场景中还有一种情况,攻击者希望针对一批数据集生成一批对任何模型都有效的对抗样本,这批对抗样本的生成不依赖于某一个特定模型,生成的对抗样本是面向该任务下所有模型的。在该场景下生成的攻击方法称为盲盒

16、攻击。在中文领域,由于中文的文本特性,面向中文分类模型的对抗攻击与英文中的对抗攻击不同。首先,中文文本需要在输入模型之前进行分词,并不像英文文本一样单词和单词之间有空格作为分割。其次,中文文本分词后的每个单元都可能是一个字符、单词或短语,类似于字符级交换和单词级短语的简单替换等操作不适用于中文。本文提出基于原型网络的中文分类模型对抗样本生成方法,通过关注同一标签下文本数据的共有特征来确定文本中和类别标签相关的信息,进而确定文本中可以用于修改的重要位置,同时提出了面向中文的文本变换策略,可在满足对抗的要求下生成对于读者而言更容易理解的文本。1相关研究1.1对抗样本生成场景早期利用快速梯度符号法(

17、Fast Gradient Sign Method,FGSM)对图像进行攻击为后续利用文本对深度神经网络模型进行攻击奠定了基础。文献 1对 FGSM 进行深入研究,通过考虑成本梯度的大小来确定对抗样本生成方案,使用反向传播计算每个训练样本x的成本梯度xJ(fxc)(其中,f是模型函数,x是原始数据样本,c是目标输出类别),然后识别出梯度变化最大的维度的字符,并将它们命名为热字符,通过对热字符的修改来生成对抗样本。文献 2 对 FGSM 原有的文本修改策略做了优化,所表现的效果更好。目 前,有 很 多 研 究 都 是 针 对 黑 盒 攻 击 的,文献 3 通过在文本段落的尾部增加没有意义的句子,

18、分散模型理解文本的注意力,进而影响模型的输出。在分类任务上,DeepWordBug4首先通过获取模型输出的方式确定了文本中的重要标记,即主要通过模型输出的置信度来计算影响模型最终预测结果的重要单词或字符,然后通过一系列修改文本的策略来生成对抗样本,并在多种自然语言处理的分类任务上进行实验,例如文本分类、情感分析以及垃圾邮件检测,证明了该方法的有效性。对于盲盒攻击,目前仅有针对某一目标模型生成的对抗样本在另一模型上的表现效果的研究。文献 5 从对抗样本可迁移性的角度,验证了输入形式对样本可迁移性影响最大,其利用多个模型生成对抗样本,使用遗传算法找到最优的对抗样本。文552023年 8月 15日C

19、omputer Engineering 计算机工程献 6 使用 Actor-Critic 的强化学习模型训练了一个针对黑盒模型生成对抗样本的策略,其理论基础为数据集的样本和样本之间的对抗文本生成具有相关性,因此在应用每一个变换策略时都是针对数据集中的全部样本,最后将学习到的策略应用于不可见的模型。1.2对抗样本生成方法1.2.1 按最小粒度划分的对抗样本生成方法按对抗样本生成的最小粒度可将对抗样本生成方法划分为字符级、单词级、句子级和多维度。1)字符级。在字符级的对抗样本生成方法中,攻击者通过修改单词中的几个字符以生成可以欺骗目标模型的对抗样本,在以往的研究4,7中,这种修改通常是拼写错误,其

20、操作包括插入、交换、删除和翻转,虽然这种攻击方法可以达到很高的成功率,但拼写错误很容易被检测和防御。2)单词级。单词级的对抗样本生成方法修改的是整个单词,而不是单词中的几个字符。因此,与字符级的修改策略相比,这些修改对读者而言更不容易被察觉。根据被修改词的选择方法来看,单词级的对抗攻击可以分成基于梯度的攻击8-9、基于重要度的攻击10-12和其他攻击13-14。3)句子级。与字符级和单词级攻击相比,句子级攻击更加灵活。在语义和语法正确的情况下,可以将修改后的句子插入文本的开头、中间或结尾。句子级攻击也可以在某种程度上看作是一种特殊的词级攻击,通过添加一些有序的词来控制生成对抗样本15-17。4

21、)多维度。多维度的攻击至少包含上述 3 种生成方法中的 2 种,以创建更不易察觉且成功率更高的对抗样本,例如文献 18-19。因此,相比单一的攻击方法,它的计算成本更高,也更复杂。1.2.2 中文领域的对抗样本生成方法由于中文的文本特性,面向中文分类模型的对抗攻击与英文中的对抗攻击不同。首先,中文文本需要在输入模型之前进行分词,不像英文文本一样单词和单词之间有空格作为分割。其次,中文文本分词后的每个单元都可能是一个字符、单词或短语,字符级交换和单词级短语的简单替换等操作不适用于中文。为了应对中文形式对对抗样本生成产生的挑战,国内研究人员研究并设计了许多生成中文对抗文本的方法。WANG等20通过

22、基于重要度的方法来衡量分词后每个词的重要度,并预先为每个分词单元构建候选词汇表,这些单元包含字符、单词和短语,生成的中文对抗样本比 LI等21的更自然且语义更相似,不足之处在于对中文变换策略仅考虑使用语义相近的词汇,没有考虑汉字形式和读音的特点。王文琦等22提出 WordHandling,设计使用同音字替换原文本的策略,因为中文文本形式复杂,除了同音字外还有许多可以改变文本形式但不影响读者理解语义的策略没有被提出,所以变换策略过少成为现有中文对抗文本生成方法的主要问题。TextFlint23是由复旦大学自然语言处理实验室发布的面向自然语言处理模型的鲁棒性测试平台,提供了通过数据变换完成模型鲁棒

23、性评测的完整流程,并且作为一个系统性的鲁棒性评测工具集合,提供了多种数据变形的方法,在中文领域支持通过规则地修改策略为分词等任务生成对抗样本,但针对分类模型的效果不太理想。2中文文本变换策略由于中文文本和英文文本在形式上的差别,许多应用于英文的变换策略并不适用于中文,因此针对中文文本的变换策略,本文进行了更多样化的探索。为了生成在视觉或形式上不影响读者理解的对抗文本,针对中文的文本修改提出一些策略,这些策略均基于汉字的形式和读者的阅读习惯定制,来解决面向中文的对抗样本生成方法的文本变换策略单一问题,具体如下:1)拼音化。指使用文本的汉语拼音来代替汉字,例如将“讨厌”替换成“taoyan”。该方

24、法也是互联网上敏感文本变换的常用方式,根据人们的阅读习惯和阅读能力,即使原文本替换为拼音,读者也可以通过上下文和拼音来还原原文本并理解拼音所表达的含义,例如“对于这家酒店的服务态度,我十分讨厌”,改 为“对 于 这 家 酒 店 的 服 务 态 度,我 十 分taoyan”,读者可以很轻易地通过上下文的情境判断“taoyan”是个带有情感倾向的词汇,并通过发音还原原文本“讨厌”。2)拆分替换。指将汉字中具有左右结构的汉字进行拆分,例如“讨厌”替换为“讠寸厌”。在中文汉字中,具有结构化的汉字通常可以拆分成两个或两个以上的由偏旁和部首组成的其他汉字。这种变换策略是基于汉字形式的特殊性,由于人们从左到

25、右的阅读习惯,将左右结构的汉字拆分并替换原文本后,对于读者而言仅是文本的形式发生了变化,与原始文本相比有很小的差别,按照读者的阅读习惯可以自动将文本重新结合还原,并不会影响读者的理解。3)偏旁替换。指将汉字的偏旁进行替换,分为左右结构和上下结构,例如“邢台”替换成“形台”。基于拆分替换中拆分的思想,选择具有相同结构但偏旁不同的汉字作为替换词,这种方式对文本产生的变化类似于错别字,虽然改变了文本形式,但少量的改动不会影响读者对语义的理解。4)形状替换。指将英文、数字进行形状上的改56第 49卷 第 8期杨燕燕,谢明轩,曹江峡,等:基于原型网络的中文分类模型对抗样本生成变,例如数字“1”和字母“l

26、”相互替代,数字“0”和字母“o”相互替代,或者使用其他形式的数字,例如数字“1”替换成“”。这种替换的方法是基于 2 个文字在形状上的相似性,读者对这种方式的变化并不敏感,但可能会影响中文的分词,进而对模型输出产生影响。5)谐音替换。谐音替换指的是通过口音相似来进行替换。针对普通话,使用拼音相同的汉字进行替换,例如“我”替换成“窝”,针对带有方言的普通话,构建一个相似库用于替换,例如将“这”替换成“介”,“呢”替换成“捏”。这种变换方式相对之前几种较为难理解,需要读者对此类变换方式有过接触,或在阅读时稍加思考才能理解,但现如今互联网无孔不入,多数人都接触过这种变换方式。由拆分替换、偏旁替换、

27、形状替换、谐音替换所构成的修改方法所生成的汉字可以被统一称为火星文,火星文是前几年年轻网民为了追求个性,使用大量的同音字、形近字、特殊符号或汉字拆分来表达读音的文字,大部分由符号和冷僻字构成,例如“我喜欢瓜”火星文化后的文本是“莪禧歡呱”,本文提出的变换方法等于间接实现了对原文本的火星化。6)插入无意义噪声。指在文本中插入不常见的特殊符号,例如“”、“”、标点符号、罗马字符等无意义符号,在待替换文本是单个汉字时,在汉字左侧或右侧插入字符,例如:将“讨”替换为“讨”或“讨”;在待替换文本是两字或两字以上的单词时,在单词中间任意位置插入字符,例如将“讨厌”替换为“讨厌”。插入无意义噪声的用意是,在

28、文本输入前的预处理阶段会先对文本进行分词,通过插入无意义噪声进而影响分词效果,同时由于文本中存在无意义词汇,会影响最终编码生成的文本表示。7)文字交换。指和文本中其他位置的汉字进行交换,例如“我喜欢吃西瓜”,交换“欢”和“吃”的位置,生成的文本为“我喜吃欢西瓜”。在理论上对文字位置的交换会影响到文本的连贯性和语义表达,但根据有关认知心理学、语言学的研究24表明,人类对被打乱字顺序的文本语句有较强的包容性,可以阅读和理解,这和阅读的惯性思维理论有关。例如:“研表究明,汉字的序顺并不定一能影阅响读,比如当你看完这句话后,才发这现里的字全是都乱的”,在正常的阅读速度下人类往往一次性观察多个汉字,所以

29、一定距离内的位置交换不会影响理解文本,通过多次的尝试,将这个距离控制为 2个单位,即和原汉字前后 2个单位内的文字进行位置交换。8)同义词替换。指针对单词,使用同义词替换原文本。使用同义词的替换方法也是英文对抗样本生成中常用的策略,采用开源工具 Synonyms对中文词汇生成同义词,然后使用同义词替换原单词。表 1对中文对抗文本变换策略进行了总结。3原型网络原型网络25是一个元学习网络,近年来被广泛应用于小样本的研究。原型网络的定义为:向量空间中的点都围绕在各自类别的原型表示的周围,研究目标是在嵌入空间中基于样本表示均值来学习每个类别的原型。在原型网络中将训练数据集分为支持集和查询集,抽样过程

30、如图 1所示。支持集是数据集中用于构建原型的样本,通过在全部样本中随机采样得到,将支持集中样本嵌入的均值作为每次迭代中的原型表示。在图 1 中,NC表示从数据集中抽取样本的类别数,NC K,K表示所有类别数。查询集是数据集中用于评价原型表示准确性的样本,通过在全部样本中随机采样得到。根据计算查询集中每个样本的嵌入和其所属类别原型表示的距离来检验学习的效果。如图 2 所示,通过支持集样本嵌入的均值计算得到每个类别的原型表示c1、c2和c3,针对查询集中的样本x,计算x的向量表示x和 3 个原型表示的距离,若距离越近,则其分类到该类别的概率越大。通过不断随机选择支持集和查询集执行迭代学习的过程,原

31、型网络尽可能使同一个簇内的点聚集、不同簇之间的点远离,进而使每一个簇都能学习到更好的表示。表 1中文对抗文本变换策略 Table 1Chinese adversarial text transformation strategies策略拼音化拆分替换偏旁替换形状替换谐音替换插入无意义噪声文字交换同义词替换基本思想中文字符转换成对应拼音或者首字母偏旁拆分拆分文字,修改文字偏旁形成新的汉字英文、数字形状替换中文口音替换添加标点、符号等无意义字符临近字符随机交换替换同义词示例你ni你亻尔形邢0O这介讨讨顺序序顺很好不错图 1支持和查询集抽样过程Fig.1Sampling process of sup

32、port and query sets572023年 8月 15日Computer Engineering 计算机工程4基于原型网络的对抗样本生成方法对于数据集中同一类别下的文本数据,每条文本数据都应包含该类别的相关特征,每条文本都和该类别下其他样本有一定的相关性。由此可见,对其中一条文本进行对抗样本生成时,可以使用该类别下其他文本作为辅助信息,通过该类别下所有样本的共有特征可以间接地表示该类别的特征。基于上述思想,将一个类别下的文本数据看作向量空间中的点,这些点都围绕着一个中心聚集,中心点的向量表示可以当作该类别的表示,在找到可以表示类别中心点的向量后,当给定一条文本时,通过衡量该文本在该向

33、量空间中的向量表示离中心向量的距离,可以获知该文本包含的类别特征信息数量,向量表示离中心向量越接近,该文本就越有可能属于该类别。本文提出一种基于原型网络的对抗样本生成(Adversarial Example Generation with Prototypical network,AEGP)方法,使用原型网络为数据集中的每个类别构建原型。基于原型网络的对抗样本生成方法架构如图 3 所示(彩色效果见 计算机工程 官网 HTML版)。原型网络构建过程如下:给 定 一 个 包 含N个 有 标 注 样 本 的 数 据 集S=x1x2xn,xi是 一 个D维 的 样 本 特 征 向 量,yi12K是数据

34、集中样本对应的标签,Sk代表标签为k的样本集合。首先原型网络通过一个具有可学习参数的嵌入函数f:RD RM来计算每个类的M维向量表示ck RM,ck是原型,每个原型的表示是通过属于其类别的支持集样本的嵌入向量的均值来计算得到的,如式(1)所示:ck=1|Sk()xiyi Skf()xi(1)接着给定一个距离函数d:RM RM0+),原型网络根据和嵌入空间中原型的距离的 Softmax来计算查询集中样本x的类别分布,如式(2)所示:p(y=kx)=exp()-d()f()x ckkexp()-d()f()x ck(2)然后通过从训练集全部样本中随机选择NC个类的子集得到每次迭代过程的训练集,在每

35、个类的样本集合中选择NS个样本作为支持集,并在剩余样本集合中随机选择NQ个样本组成查询集。最后通过式(3)计算样本x的真实类别k的负对数概率作为每轮迭代的损失,并通过随机梯度下降法(Stochastic Gradient Descent,SGD)最小化该目标函数来进行原型网络的学习。J()=-logap()y=kx(3)算法 1给出了每次迭代中计算训练集损失J()的算法伪代码,其中,N是训练集中的样本数,K是训练集中的类别数,NC是每次迭代参与训练的类别数,NC K,NS是每个类别的支持集样本数,NQ是每个类别的查询集样本数,RandomSample(SN)表示从集合S中无放回采样N个元素构成

36、的集合。算法 1 原型网络每次迭代的损失计算算法输入 训练集D=(x1,y1),(x2,y2),(xN,yN),yi 1,2,K,Dk表示D中yi=k的所有(xi,yi)子集输出 原型网络单次迭代的损失J1.for k 遍历 1,2,NC do2.Sk RandomSample(DVk,NS)/随机抽样支持集样本3.Sk RandomSample(DVkSk,NQ)/随机抽样查询集样本4.ck1NC()xi,yi Skf()xi/使用支持集计算原型5.end for6.J0/初始化损失7.for k 遍历 1,2,NC do图 2原型网络Fig 2Prototypical network图 3

37、基于原型网络的对抗样本生成方法架构Fig.3Architecture of adversarial example generation method based on prototypical network58第 49卷 第 8期杨燕燕,谢明轩,曹江峡,等:基于原型网络的中文分类模型对抗样本生成8.for(x,y)遍历 Qk do9.JJ+1NCNQ d(f(x),ck)+logak exp(-d(f(x),ck)/更新损失10.end for11.end for对于构建原型网络过程中使用到的嵌入模型f,使用 TextCNN26的卷积神经网络(Convolutional Neural Ne

38、twork,CNN)模型架构,原型网络训练过程如 图 4 所 示(彩 色 效 果 见计 算 机 工 程官 网HTML版)。卷积神经网络的核心思想是通过使用滑动窗口中的卷积操作来捕获输入数据中的局部特征,滑动窗口的大小即为卷积核的大小,在文本中的局部特征是由邻近的若干单词组成的,类似于 N-gram。在TextCNN 的结构中,由于单个卷积核仅能提取出1 种类型的特征,为了可以提取更多丰富的语义特征,它使用了 3 种尺寸的卷积核,将提取得到的 3 组特征图并列组合后,用最大池化的方法生成文本最终的表示,在本文中表示为f。通过不断地迭代学习,最小化原型网络的损失函数,编码模型f的参数会达到优化,最

39、后得到一个可将数据集内同类数据的嵌入表示尽量聚集、不同类数据的嵌入表示尽量远离的编码器。根据以往的对抗样本生成过程,首先需要明确原文本中需要变换的重要片段,在能够和目标模型交互的前提下,删除该位置的单词后目标模型通过在正确类别上置信度的变化来衡量文本中片段的重要度,变化越大表示该单词越重要。在和模型不交互的场景下,利用构建原型网络过程中学习好的编码器f,通过文本的嵌入表示可以解决该问题。给定一个文本向量t=t1t2tn,其中,ti代表t中每个词的词向量,yt是t的类别标签,Nyt表示yt类别下的样本数量,d是距离函数。使用数据集中yt类别下所有样本嵌入向量的均值来计算yt类别的原型表示cyt和

40、重要度Iti,如式(4)和式(5)所示:cyt=i=1Nytf()xiNyt(4)Iti=|d(f(t)cyt)-d(f(tti)cyt)|(5)其中:tti表示删除第 i 个单词后所形成文本的文本向量。通过计算删除该位置单词后所生成文本的文本表示和类别原型表示的距离变化来衡量该位置的重要度。在确定文本中每个位置的重要度后,通过设定一个扰动率,即文本中可以修改的单词数量在总单词数量中的占比,可以根据文本长度来计算需要变换的单词数量。按照重要度由高到低的顺序依次替换文本,对于替换词的选择是随机的。5实验结果与分析5.1实验设置使 用 由 GitHub 开 源 的 中 文 词 向 量 Chines

41、e-Word-Vectors项目提供的词向量,每个词的词向量大小为 300 维。在重要度计算方法中,文本分割方式的不同会影响单词重要度,例如按词分割,“很好”被分割成一个词,则“很”和“好”具有相同的重要度,在修改时会同时做修改,但是如果文本按字分割,“很”和“好”可能会有不同的重要度,按重要度排序时两个字的位置就会有所不同,甚至中间会存在其他汉字,在这种情况下就不会同时修改两个字。因此,对按字分割和按词分割的情况做了对比实验。在原型网络的设置上,在卷积编码模型部分,使用的卷积核的尺寸分别是 3、4和 5,每个尺寸的卷积核数量为 128。在支持集和查询集的选择上,每次迭代过程中随机选择的类别数

42、量NC为总类别数的 1/3向上取整,支持集中的样本数量NS为 128,查询集中的样本数量NQ为 64。针对计算样本嵌入和原型表示的距离函数d,本文和原型网络论文25中使用的距离计算函数相同,均为欧氏距离,虽然理论上可以使用各种计算距离的方法,但使用欧氏距离可以使原型网络取得更好的效果。针对M维空间的样本x的嵌入向量f(x)和其所属类别的原型表示c,欧氏距离的计算公式如下:d(xc)=i=1M()f()xi-ci2(6)在所用的数据集上,使用情感分类和新闻分类的数据集分别对应二分类和多分类的场景。情感分类使用外卖评价数据集,由从外卖平台收集的用户评价所构成,包含 4 000 条正向数据和 8 0

43、00 条负向图 4原型网络训练过程Fig.4Training process of the prototypical network592023年 8月 15日Computer Engineering 计算机工程数据;新闻分类使用 THUCNews 数据集,根据新浪新闻 RSS 订阅频道 2005 年2011 年的历史数据经过筛选和过滤生成,包含 10 个类别的新闻标题数据。2 个数据集所处场景均适用于对抗文本的产生场景,因此选择该数据集生成对抗样本更便于衡量模型在业务场景中的鲁棒性。在验证对抗样本有效性时,选择结果较为简单的TextCNN 和结构较为复杂的 BERT,使用 2 个模型分别在2

44、个数据集上训练并得到可被攻击的分类模型。使用模型在对抗样本上的分类准确率(ACC)如式(7)所示 和对抗样本在其类别标签上置信度的变化率(CR)如式(8)所示 来评价攻击效果。通过对比模型在原始数据集上的准确率及在对抗样本上的准确率来总体评价所生成对抗样本的攻击效果,其中指标越低代表攻击效果越好。通过对抗样本在类别标签上置信度的变化率来评价攻击性的强弱,其中指标越高代表攻击性越强。AACC=1ni=1nI(f(xiadv)=yi)(7)CCR=1ni=1n|Pyi()xiadv-Pyi()xioriPyi()xiori(8)其中:n表示文本数量;xiadv和xiori分别代表原文本向量和生成的

45、对抗样本向量;yi表示文本的真实类别;Py(x)表示模型计算的文本x在标签y上的置信度。选择以下基线方法:1)随机替换,随机选择文本中的位置修改;2)TF-IDF,通过 TF-IDF 计算单词重要 度;3)Attention,使 用 数 据 集 微 调 BERT,使 用BERT 对文本的 Self-Attention 的最后一层计算单词重要度;4)TextFlint,使用 TextFlint生成的对抗样本。在前 3种方法中对于替换词的选择都是随机的。为了衡量所提变换策略和生成对抗样本的质量,使用词移距离(Word Mover s Distance,WMD)来度量对抗样本和原文本的相似度。在计算

46、过程中,使用 Word2Vec分别将两段文本转换成词向量的形式,其中,di表示第i个词语在文本中出现的频率如式(9)所示,wi表示第i个词语出现的次数。通过目标函数 如式(10)所示 迭代优化得到最终的词移距离,其中,Tij表示d中的词语i转换为d中的词语j的数量,c(ij)表示词语i和词语j之间的距离,ij=1nTijc()ij代表一条文本转换成另一条文本所需的最小代价。di=wij=1nwj(9)minT 0ij=1nTijc()ijs.t.j=1nTij=dii 12n i=1nTij=djj 12n(10)WMD 计算的值越小,两段文本转换的代价越小,即两段文本的相似度越高。在 THU

47、CNews数据集中随机抽取 2 000条文本用于生成对抗样本,并与WordHandling对比中文对抗样本生成质量。5.2结果分析以 CNN 作为编码器的原型网络在训练时得到了较高的准确率,如表 2所示,即编码器对训练集可以生成较好的样本表示,通过计算样本嵌入和原型表示的欧氏距离也可以准确地将测试集中的样本进行分类。由于 CNN 的结构特性,其对词更加敏感,因 此 在 按 词 分 割 的 训 练 方 式 下 取 得 了 更 高 的 准确率。利用所提对抗样本生成方法对 2 个数据集中文本生成的对抗样本示例如表 3、表 4 所示,其中原始文本的括号中为文本类别,在重要词和字排序中越靠前的部分重要度

48、越高。由生成的对抗样本结果可以看出,由于词和字分割方式的不同,会导致词和字重要度的不同和修改顺序的不同。同时,本文设计的修改策略对文本的形式产生了多样化的影响,但没有过多影响文本的可读性,也没有影响读者理解其语义。表 2原型网络训练准确率 Table 2Training accuracy of the prototype network%THUCNews数据集词分割89.27字分割85.63外卖评价数据集词分割86.24字分割85.34表 3THUCNews数据集上的对抗样本生成示例 Table 3Examples of adversarial sample generation on the

49、 THUCNews dataset过程原始文本重要词排序(词分割)重要字排序(字分割)对抗样本内容新闻传播学专业考研策略之答题方法概述(教育)期钢有调整需求 前期空单可继续持有(金融)暴雪占据收费网游近半 2014将达 20亿(游戏)两名驻伊拉克美军士兵遇袭身亡(政治)考研 专业 策略 答题 方法 概述持有 空单 需求 调整 前期网游 收费 暴雪 占据 亿美军 士兵 遇袭 身亡 伊拉克考 研 略 策 学 播 专持 钢 期 空 有 调游 费 网 暴 雪 收 亿军 兵 美 亡 袭 克 驻新闻传播学 zhuanye拷岩憡田各之答题方法概述新闻传播學专业栲妍 celue之答题方法概述期钢有调整 xu球

50、,前期单空可继续持囿期刚有调整需求,前其月 kong单可继续持 you爆鳕占据收费 wang遊近半 2014将达 20亿Bao艝占据费收蛧 you近半 2014将达 20亿两名驻伊拉克军美仕娦遇$袭两名驻伊拉克 mei&兵袭遇身忙60第 49卷 第 8期杨燕燕,谢明轩,曹江峡,等:基于原型网络的中文分类模型对抗样本生成在 THUCNews 和外卖评价数据集上,与基线方法的实验结果对比如表 5、表 6 所示,其中,ACCori和ACCadv分别代表目标模型在原始文本和生成的对抗样本上的分类准确率,两者相差越大代表生成的对抗样本对目标模型的分类效果影响越强,加粗字体表示 AEGP 的实验结果,Ch

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服