收藏 分销(赏)

融入结构先验知识的隐私信息抽取算法.pdf

上传人:自信****多点 文档编号:3030195 上传时间:2024-06-13 格式:PDF 页数:9 大小:4.36MB
下载 相关 举报
融入结构先验知识的隐私信息抽取算法.pdf_第1页
第1页 / 共9页
融入结构先验知识的隐私信息抽取算法.pdf_第2页
第2页 / 共9页
融入结构先验知识的隐私信息抽取算法.pdf_第3页
第3页 / 共9页
亲,该文档总共9页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、人工智能安全专题DOl:10.12379/j.issn.2096-1057.2024.02.07IssueonArtificial Intelligence Security融入结构先验知识的隐私信息抽取算法赵玉媛王斌”张泽丹”李青山”胡建斌“1(北京大学软件与微电子学院北京10 2 6 2 7)2(中国中医科学院中医药数据中心北京10 0 7 0 0)3(博雅正链(北京)科技有限公司北京4(北京大学计算机学院北京10 0 8 7 1)()Private Information Extraction Algorithm Incorporating PriorStructural Knowled

2、geZhao Yuyuan,Wang Bin?,Zhang Zedan,Li Qingshan,and Hu Jianbin41(School of Software and Microelectronics,Peking University,Beijing 102627)2(Chinese Medicine Data Center,China Academy of Chinese Medical Sciences,Beijing 100700)3(Boya RegChain Beijing Inc.,Beijing 100037)4(School of Com puter Science,

3、Peking University,Beijing 100871)AbstractWith the continuous advancement of data anonymization technology,accuratelyidentifying private data has become a key challenge.Currently,privacy information extractionalgorithms are primarily based on traditional natural language processing techniques,such as

4、bidirectional recurrent neural networks and attention mechanism-based pretrained language models(like BERT and its variants).These models leverage their powerful ability to represent contextualfeatures,overcoming the limitations of traditional methods in representing polysemous words.However,there i

5、s still room for improvement in their ability to accurately determine entityboundaries.This study proposes a novel privacy information extraction algorithm that integratesstructural prior knowledge and a unique privacy data structural knowledge enhancement mechanism,enhancing the models understandin

6、g of sentence semantic structures,thereby improving theaccuracy of privacy information boundary determination.Moreover,we have evaluated the modelon multiple public datasets and provided a detailed analysis of the experimental results,demonstrating its effectiveness.Key words structural prior knowle

7、dge;structural enhancement mechanism;privacy informationextraction algorithm;entity boundary determination;data desensitization;natural languageprocessing摘要随着数据脱敏技术的持续进步,精确识别隐私数据已成为关键挑战.目前,隐私信息抽取算法主要基于传统自然语言处理技术,如双向循环神经网络和基于注意力机制的预训练语言模型(如收稿日期:2 0 2 3-10-13基金项目:国家自然科学基金面上项目(8 2 2 7 46 8 5)引用格式:赵玉媛,王

8、斌,张泽丹,等.融入结构先验知识的隐私信息抽取算法 J.信息安全研究,2 0 2 4,10(2):139-147100037)网址http:/ 1139信息安全研究第10 卷第2 期2 0 2 4年2 月lournalot lnformation Security ResearchVol.10No.2Feb.2024BERT).这些模型利用其强大的上下文特征表示能力,克服了传统方法在多义词表示方面的限制.然而,它们在精确判断实体边界方面仍有改进空间.提出了一种新颖的隐私信息抽取算法,该算法融合结构先验知识,通过一种隐私数据结构知识增强机制,提高模型对句子语义结构的理解,从而提高了隐私信息边界判

9、断的准确性.此外,还在多个公开数据集上对模型进行评估,详细的实验结果展示了其有效性,关键词结构先验知识;结构增强机制;隐私信息抽取算法;实体边界判断;数据脱敏;自然语言处理中图法分类号TP309.2数据脱敏(data masking 或 data desensiti-zation),指通过预设规范或变换算法对隐私或个人信息进行处理,使得数据中个人身份不可识别 2 1.通常分为4个步骤:定义隐私信息、抽取隐私信息、选择隐私保护算法、完成数据脱敏.随着数据脱敏技术的快速发展,隐私保护算法逐渐成熟,隐私信息定义通常依据相关规范,数据脱敏的准确率主要依赖于隐私信息抽取算法的效果.近年来,隐私信息抽取算

10、法从规则化阶段过渡到模型自动抽取阶段,主要采用自然语言处理技术中的命名实体识别算法,自动标记文本中的隐私信息。基于深度学习的隐私信息抽取算法分为2 个阶段:第1阶段以循环神经网络(recurrentneuralnetworks,R N N)3 为主,例如 Dernoncourt 等人 4建立的长短期记忆(long short-term memory,LSTM)51网络模型,结合条件随机场(conditionalrandomfield,CR F)6 1进行优化.之后,如Liu等人 7 提出的 CharCNN-BiLSTM-CRF 模型,将BiLSTM-CRFL8I模型与CNN模型结合,提取字符级

11、特征.第2 阶段,以Transformers9,BERT101等模型为代表,例如Khin等人 提出的ELMo-BiLSTM-CRF模型,增加了ELMo动态表征和CNN提取的字符特性,显著提升了隐私信息识别效果。尽管基于深度学习的算法在上下文表征能力方面取得突破,特别是Transformer类预训练模型利用多头注意力机制充分考虑全局上下文信息,但在实体结构感知方面存在不足,影响了隐私信息实体边界的准确判断.为了引入结构感知信息,Strubell 等人 12 、Zhang 等人 13、Bugliarello 等人 14尝试利用结构信息优化注意力机制,但这些尝试仅限于特定任务,未应用于隐私信息抽取任

12、务.因此,本文提出一种融人结构先验知识的隐私信息抽取算法,以提升隐私实体边界判断的准确1401性和抽取效率。本文算法利用结构先验知识增强机制,将结构感知信息融入预训练模型(PLM)的输人和注意力机制中,提升对句子整体结构和实体边界的感知能力,从而提高隐私信息边界判断的准确率和实体抽取效率.具体而言,本文工作的主要贡献包括:1)提出文本语义编码和文本结构编码2 个概念,区分传统文本嵌人和依赖解析树解析出的结构感知信息;2)在结构先验知识增强机制中,分别提出嵌人层面和注意力层面的特征空间融合机制,充分引人结构感知信息到PLM中;3)结合以上概念和机制,提出融人结构先验知识的隐私信息抽取算法,以解决

13、隐私信息边界判断问题,提升实体抽取准确率。1任务描述融入结构先验知识的隐私信息抽取算法中,“结构先验知识”指的是通过依存句法解析算法获取词语间的依存关系.这种“依存关系”表示了句子在句法层面的搭配结构.该抽取任务的核心在于将“依存结构”这一非欧几里得空间数据特征映射到传统隐私信息抽取的数据特征空间,以此增强模型对句子整体结构的感知能力,并提升对实体边界与类型的感知能力.f(D text,D structure)y,其中Dtext是隐私信息抽取算法中抽取的文本特征,主要由大规模预训练模型处理而来,包含丰富的上下文语义信息.D structure特指通过自然语言处理(natural languag

14、e processing,N L P)技术,从依存解析特征中挖掘并得出的以句子为单位的结构性数据.本文通过设计的算法,将上述2 类特征空间进行对齐与融合,以提高隐私信息抽取的准确率。人工智能安全专题IssueonArtificial intelligenceSecurity特征进行编码.2融入结构先验知识的隐私信息抽取算法模型2.1整体框架为了提高以句子为单位的“结构”信息在隐私信息抽取模型中的融合效果,从而提升抽取准确率,本文基于大规模预训练模型,提出了一种融入结构先验知识的隐私信息抽取算法(integratingstructural knowledge network,I SK N).如图

15、 1 所示,ISKN主要包含3个部分:特征编码器、特征空间融合机制和隐私信息抽取网络.1)特征编码器首先抽取原始数据中的每条文本的“结构”信息,然后将这一结构信息和原文本信息转化为嵌入表示矩阵,通过特征编码器编码对应的结构向量和文本语义向量.本文选用图注意力网络对结构2)特征空间融合机制.为了有效对齐“结构”特征空间和文本特征并进行特征融合,本文提出了2 种特征空间融合机制:一种将图注意力网络编码的“结构”特征视为文本特征的补充,将其特征向量补充输人到BERT模型的文本嵌人部分(下文称为ISKN-EMB);另一种则将图注意力网络所编码的结构特征视为独立的结构语义空间,除了将其特征向量补充到BE

16、RT模型的文本嵌人部分外,还将其注意力矩阵融合到BERT的注意力矩阵中(下文称为ISKN-ATTENTION).3)隐私信息抽取网络.将隐私信息抽取任务视为命名实体识别任务,提前定义隐私信息特征类别,并在训练集上标注相应类别的位置.隐私信息抽取网络负责将获取的特征映射到预测概率最大的类别.0TransformerEncoderQuery-Key ScaledDot-ProductB-PATIENTB-HOSPITALsoftmaxSyntax AttentionI-HOSPITALO隐私信息抽取网络特征空间融合机制value口口GATeolere2ee4es初始化eoeie2e3e4ese6e

17、eege10oeue12依赖解析树Thepatientwasseenandexamineddepdepdepprepnsubjrooteoeieeeeseeeseeoenenz编码CLSThe2.2模型详细说明2.2.1特征编码器特征编码器由文本语义编码和文本结构编码2部分组成.首先,对应给定的文本样例=(eo,e 1,,e,分别进行文本语义编码和文本结构编码:1)文本语义编码.该部分具体使用大规模预e6e7esegeioene12imtheemergencydetpobjprunct解析器patientwas特征编码器Departmentseenand图1融人结构先验知识的隐私信息抽取算法训

18、练模型(例如BERT)进行嵌入编码,最终获得1组向量w=(wo,w1,w,),w,ER,d为文本语义嵌入维度,一般为7 6 8.2)文本结构编码.针对输人文本样例进行结构层面编码,主要处理文本的句法结构,通过以依赖解析树形式进行解析.如图2 所示,依赖解析树网址http:/ 1 141examinedintheemergencyDepartmentSEP信息安全研究第10 卷第2 期2 0 2 4年2 月lournalot lnformation Security ResearchVol.10No.2Feb.2024ansubj-nmod:prephkdet-icaseDTNNThetalen

19、tofsuccess is nothingmorethan可视化展示了句子的句法结构,拼接的边的类型表示为依赖关系类型.这一解析过程对理解文本上下文意义重大,并且,由于它将文本中的实体按常用词典分词,有助于提高隐私信息边界划分的准确度.该部分具体采用图注意力网络(graph attentionnetworks,G A T)15 进行编码获取文本结构特征:graphh=GAT(w,dep,adj),其中w即为文本语义编码所获取的初始化文本语义嵌人向量,dep即为对应的token的依赖关系向量,adj即为对应的token的连接向量,通常设定为存在依赖关系则连接向量值为1,否则值为0.最终获得1组向

20、量graphn=(g r a p h h o g r a p h h,,graphn),其中graphn,ER,d为文本语义嵌人维度,与W,的维度一致2.2.2特征空间融合机制该机制一共分为2 部分:嵌人层面的特征空间融合机制以及注意力层面的特征空间融合机制。1)嵌人层面的特征空间融合机制(ISKN-EMB)嵌入层面的特征空间融合机制,即在模型嵌人表示阶段进行特征融合,考虑到本文所需利用的特征空间包含2 种:文本语义空间和文本结构空间,所以模型所采用的骨干模型为大规模预训练模型的代表(BERT)以及表格模型的代表(TAPAS).模型整体融人思想均为将上文所取得的文本语义编码和文本结构编码并行输

21、人到模型中,从而帮助模型通过不同层面理解所输人的文本.对于以下不同模型而言:BER T:Wfinal,=W,+graphh,h final=BERT(W final,poS fial,Seg final),T A PA S:借鉴TAPAS的附加嵌人(additional embed-dings),这里将上文所获得的结构编码视为 TAPAS模型输入中的Rank ID,即将依赖类型映射到TAPAS模型预设的Rank ID的空间中,进而达到1421punctyAcop-nmod:preprdep-depradvmod-advmoaNNPNnmodtprepradvmod-case-advmodwwn

22、subjADWdoing图2 依赖解析树解析出的依赖关系表示将依赖关系这一特征并行输人到模型中的目的,即hfinal,=w+pos,+seg.+graphh,最后,总结这一嵌人层面的特征空间融合机制为T inal=embedding fusiong(wfinal,pos final,seg final,graph final),即为网络对应的所需要训练的参数.2)注意力层面的特征空间融合机制(ISKN-ATTENTION).为了更有效地融合结构特征,本文不仅在嵌入层面加入了结构特征,还设定了注意力矩阵层面的特征空间融合机制.该机制在注意力矩阵中引人了“结构”概念.如图3所示,在文本结构编码过程

23、中,除了获取上述的结构嵌人编码外,还保留了模型中的注意力矩阵,即attentiongraph=GAT(w,dep,adj),从而获得attention graph,其中attention grath=(attention graph(o.o),.,attention gaph t.).接下来细化到注意力机制:Attention-Graph(Q,K,V)=/QKTsoftmax(+attentiongraph)V,dk其中Q=K=V,均为大规模预训练模型输人的嵌人表示,V=(Vo,Vi,,V,),n 为输人的句子数目,Vo=(0o.0,0o.1,Uo.2,0.t),Uo.ER,t 为每句话的长度

24、,d为输人嵌人维度,通常为7 6 8,注意,本文所采用的骨干attention机制为 self-attention机制,在此基础上,本文通过加和机制将结构空间的注意力矩阵与文本空间的注意力矩阵进行融合,同时作用在融人“结构”嵌入的整体嵌入,得到最终的隐藏层表示.综上,注意力矩阵层面的特征空间融合机制为Y final=Atten tion-Graph(C final,C final,C final).2.2.3隐私信息抽取网络隐私信息抽取网络,即将上文最后一层编码层所获得的隐藏层表示yrinal经过非线性层g。映wdet-ADADwellwhateveryouPNWdo withoutaCDth

25、oughtofNNcaseNNPUtime.人工智能安全专题IssueonArtificial Intelligence SecurityTransformers EncoderAdd&NormFeedForwardNxAdd&NormMulti-HeadAttentionPositionalEmbeddingeoeeeeeseeeeeoen射到标签空间所得到的logits:logits=g(y f i n a l),最后,模型整体的目标函数为1loss=Zy,ln(logits)0其中yt为第t个token的真实标签.3实验本节将阐述融人结构先验知识的隐私信息抽取算法在不同公开数据集上的实验

26、结果.这些数据集包括中文和英文数据集:中文数据集为微软发布的命名实体数据集MSRA-NER16,英文数据集为2 0 14年I2B2De-identification赛道公开的数据集17.具体的测试结果如下所述。3.1数据集说明微软命名实体识别公开数据集MSRA-NER是专门用来测试隐私信息抽取算法准确率的中文数据集,因为该数据集需要识别的实体均是带有个人隐私性质的,包括人名、地名、机构名称、年龄、电话、邮编等在内的2 4种命名实体.该数据集主要由训练集、验证集和测试集构成,而本文所涉及的测试数据为训练集和验证集:训练集包含46 40 0条文本,字符数为2 16 990 0,所涉及的实体数量为7

27、4800;验证集包含了440 0 条文本,字符数为172600,实体数量为6 2 0 0.I2B2De-identification 2014数据集是专门用于测试隐私信息抽取算法准确率的英文数据集,attentiongraph+GATeoeee1oeg图3注意力层面的“结构”融合所谓De-identification即去识别化操作(去除英文所定义的属于隐私信息类别的实体),具体而言,该数据集中所包含的类别有PHI定义的7 大类以及赛事中对这7 大类所细分的31小类,整体数据集所涉及的数据为训练集50 8 8 0 条文本、验证集32586条文本。3.2基线模型传统的隐私信息抽取算法种类繁多,如:

28、采用大量人工特征的纯CRF模型;采用词向量或字向量的 LSTM-CRF及其变种(如 Lattice-LSTM)18,基于 BERT,BERT-CRF 及其变种(如 CharCNN-BERT,CharCNN-BERT-CRF 等).3.2.1中文数据集基线模型1)Word Baseline based on LSTM-CRF.LSTM-CRF应用在中文数据集上的模型,区别于英文版在于模型字典不同和输入采用词为单位.2)Char Baseline based on LSTM-CRF.LSTM-CRF应用在中文数据集上的模型又一变种,其将模型输入改为以字为单位.3)L a t t ic e-L ST

29、 M.以字为单位的 BiLSTM-CRF模型,其与传统的BiLSTM-CRF模型相比,融人了词的特征,具有更准确的预测能力.4)BER T.大规模预训练模型,其依赖在大规模数据集上自监督训练所获取的强大表征能力,在下游任务中均表现不俗.5)BER T-CR F.将BERT作为编码层获取字符表征后,通过条件随机场CRF得到受约束后各个位置联合概率最大值的解码路径,从而达到效网址http:/1143e3softmaxe4ese:ee6信息安全研究第10 卷第2 期2 0 2 4年2 月lournalot lnformation Security ResearchVol.10No.2Feb.2024

30、果提升的目的。3.2.2英英文数据集基线模型1)C h a r C N N-BiL ST M-C R F.即 charCNN 的模型架构,charCNN模型参考了ELMO模型处理字符嵌人的思想,将字符嵌入目前的浅层表征转化为高维表征,再与单词形态特征向量进行拼接,从而缓解了英文中因为不规则的单词构词法所引起的表征不准确问题.2)EL M O-Ch a r CN N-Bi L ST M-CR F.该模型为CharCNN-BiLSTM-CRF模型的又一变种,即用ELMO模型初始化CharCNN的输人,从而提升模型整体的表征能力.3)C h a r C N N-BER T.该模型将 CharCNN-

31、BiLSTM-CRF模型的BiLSTM-CRF整体的编码层替换为BERT,从而利用了BERT强大的上下文表征能力提升模型预测的准确率。4)C h a r C N N-BER T-C R F.该模型在 CharCNN-BERT的基础上增加条件随机场模型,从而缓解了CharCNN-BERT模型计算联合概率分布时的不准确性问题.3.3楼模型具体实现说明3.3.1实现设置1张V100显卡;运行环境为Linux;16 G B内3.3.3参数设置中文数据集采用BERT(110 M)为骨干模型,英文数据集采用BERT(110M)和TAPAS为骨干模型。在提取依赖解析树的过程中,针对不同语言的数据集选用了相应

32、的解析器.在英文数据集i2b2上,采用BiaffineParser191作为解析句子依赖关系的模型,使用Allennlp201作为提取工具包.而在中文数据集MSRA-NER上,则选用哈工大提供的pyltp工具及其内置的“parser解析模型进行解析.在提取结构特征的过程中采用了图注意力网络(graph attention network,G A T).依赖关系的嵌人维度设定为6 4,图注意力网络的层数选择为1,2,3,4.实验表明,网络层数为3时,解析的嵌入表征效果最佳.模型优化器选用Adam21,模型学习率设为3E一5,条件随机场(conditional randomfield,CR F)模

33、型的学习率为1E一3,训练轮数为3.3.3.4评估方法由于实验中涉及多类别实体,所以引入多类别下的评估方法MicroF122:kPm=2TP:/(2TP;+2FP.),i=1i-1Rm=TP./(2TP.+FN.),Rki=1存;CPU型号为Intel?Xeon?Platinum8163CPUi12.50GHz;模型搭建采用python3.6,p y t o r c hF1mi=2XPmiXRmi/(Pmi+Rmi),1.7.0实现.其中TPi为其中一个类别的正阳性样本数目,3.3.2楼数据预处理标注策略当句子处理为token列表后,数据集所采用的标记方法为“BIO”B代表实体的开始位置,I代

34、表实体的内部位置,O代表不属于实体的位置),例如 Patient presented to Massachusetts GeneralHospital on.”则被标记为“O O O B-Loc I-LocI-Loc O.需要注意的是,因为将句子进行tokeni-zer的过程中采用的是WordPiece策略,有些词也会被拆成一些词典里常见的词根或词缀,这时,除了拆下来的第1个词根(缀)外,这个词其余所拆出来的词缀都需要标注为“X”,例如,“Mr.Ville-gas将会被切分成 MrVille“#gas,它所对应的标注结果为“O O B-PAITENT X”此外,tokenizer的文本需要在句

35、首和句尾加人开始标识符“CLS”和结尾标识符“SEP”14411FP;为对应类别的伪阳性样本数目,,FN;为对应类别的伪负性样本数目.3.4模型结果本节展示融人结构先验知识的隐私信息抽取算法在不同语言公开数据集上的测试结果,并通过可视化注意力机制观察模型的注意力分布.此外,通过样例分析的方法,解释了本文算法在数据集上的效果。3.4.1模型整体效果分析本文实验将ISKN模型中的ISKN-EMB,ISKN-ATTENTION 分别与 benchmark 模型(CRF,Word Baseline based on LSTM-CRF)在数据集上进行整体对比.从表1和表2 可知,ISKN模型在中文和英文

36、数据集上均有助于提升结果,但ISKN-EMB模型在测试集上的表现与BERT-CRF相近.i-1人工智能安全专题IssueonArtificial intelligenceSecurity这表明,仅将图神经网络学习到的“结构”嵌入表示融人模型是不足的,还需将图神经网络中的“attention-graph也整合进网络架构,以实现完整“结构 框架的融合.究其原因,结构嵌人作为模型输人,只在结构建模的初期阶段发挥作用.而当前使用的大规模预训练模型,如BERT,由于其庞大的参数量,训练过程中易出现梯度消散现象.因此,初始传入的“结构”知识在训练过程中易被削弱,对模型效果提升的影响有限.同时将“结构”嵌人

37、和“结构 知识同时输人模型则可以防止训练过程中的知识消散,对隐私信息识别准确率有较大的提升.表1在中文数据集MSRA-NER上整体效果%模型F1miCRF91.22Word Baseline based on LSTM-CRF90.57Char Baseline based on LSTM-CRF90.74Lattice-LSTM93.80BERT90.85BERT-CRF94.85ISKN-EMB95.67ISKN-ATTENTION95.89表2 在英文数据集I2B2上整体效果模型RmiCharCNN-BiLSTM-CRF96.46ELMO-CharCNN-BiLSTM-CRF98.30B

38、ERT98.40BERT-CRF98.55ISKN-EMB98.17ISKN-ATTENTION98.61ISKN-EMB(TAPAS)97.19ISKN-ATTENTION(TAPAS)97.26表3在中文数据集MSRA-NER上单独实体效果%模型隐私实体PmiLOC96.71BERT-CRFORGPERLOCISKN-EMBORGPERLOCISKN-ATTENTIONORGPER3.4.3数据分布分析本节通过TSNE23工具展示BERT-CRF与PmiRmi81.7183.0686.9892.3190.8595.5495.5195.71Pmi93.8097.3798.1798.3598.

39、5198.6896.2497.38Rmi95.4290.2294.7095.5696.5097.2295.4692.3394.2195.7196.7197.0795.5792.6294.1396.5397.34ISKN-ATTENTION训练过程中模型输出表示的86.20数据分布情况.如图4和图5所示,将模型最终获86.65取的嵌人向量用于降维,得到这些特征的2 维空间88.8193.0590.8595.2095.5995.8%F1mi95.1197.8398.1498.3398.3498.6496.7197.31F1mi96.0692.4196.0396.3393.2696.2196.319

40、3.3796.9311dev41044图4BERT-CRF模型在中文数据集MSRA-NER上的数据分布dev11444000103.4.2模型局部效果分析下面将分析本文模型对不同隐私类型提取的效果.从表3可以看出,对于经常出现在训练集中的隐私实体如LOC,模型的帮助有限,表明对这类实体的学习已经较为充分,难以进一步提升.然而,对于ORG和PER这类在训练集中不常出现的隐私实体,模型在MicroF1评估标准中实现了近1%的提升,说明模型在这些较少出现的隐私实体提取中起到了增强效果.这表明模型通过缓解长尾问题,提升了整体的识别效果。图5ISKN-ATTENTION模型在中文数据集MSRA-NER上

41、的数据分布网址http:/1145信息安全研究第10 卷第2 期2 0 2 4年2 月Journalot lntormationSecurity ResearchVol.10No.2Feb.2024可视化数据分布,从而观察融人结构先验知识的隐私信息抽取算法在数据特征分布上的显著贡献.结果显示,BERT-CRF模型训练得到的数据输出表示较为分散,而ISKN-ATTENTION模型训练得到的数据表示则表现出同一类别的数据更集中,不同类别数据间距离更大.这表明融入的“结构”知识影响了模型训练数据之间的分布,使得同类别数据表示更为相似,不同类别数据表示更分散.3.4.4模型注意力可视化本文通过热力图的

42、方式展示了不同模型最终热力图的效果.图6 和图7 示出了attention矩阵中dev0123456789012345678921280123456789012345678921token索引注:此处忽略token与自身的结构关联程度.图6 在中文数据集MSRA-NER上的 attention 可视化dev_graphY23456789012B4567B92u230012345678901234567892223token索引注:此处忽略token与自身的结构关联程度.图7 在中文数据集MSRA-NER上的“结构”attention可视化146“结构 知识的显著特征.这一特征在2 张图中均有出

43、现,表明在attention层面的“结构”表示已经成功融人到以BERT为代表的大规模预训练模型的attention参数中,辅助进行隐私信息抽取.4结语隐私实体识别任务中经常忽视句子整体的结构感知信息对抽取隐私实体的影响.针对这一问题,本文提出了一种融人结构先验知识的隐私信息抽取算法,设计了隐私数据结构知识增强机制。这一机制赋予模型对句子语义结构的判断能力,增强其判定实体边界的能力,并在一定程度上缓0.12解了隐私实体识别过程中的长尾问题,从而提高了隐私命名实体抽取的准确率。0.100.080.060.04-0.0212220.0050.0040.0030.002-0.001-0参考文献1Ada

44、m N R,Worthmann J C.Security-control methods forstatistical databases:A comparative study JJ.ACMComputing Surveys(CSUR),1989,21(4):515-5562Peters M E,Neumann M,Iyer M,et al.Deepcontextualized word representations C/Proc of the 2018Conf of the North American Chapter of the Association forComputationa

45、l Linguistics:Human Language Technologies.New Orleans,Louisiana:NAACL,2018:2227-22373Elman J L.Finding structure in time JJ.CognitiveScience,1990,14(2):179-2114Dernoncourt F,Lee J Y,Uzuner O,et al.De-identificationof patient notes with recurrent neural networks J.Journal of the American Medical Info

46、rmatics Association,2017,24(3):596-6065Memory L S T.Long short-term memory J.NeuralComputation,2010,9(8):1735-17806Lafferty J,McCallum A,Pereira F C N.Conditionalrandom fields:Probabilistic models for segmenting andlabeling sequence data C/Proc of the 18th Int Conf onMachine Learning(ICML-2001).New

47、York:ACM,2001:282-2897Liu Z,Yang M,Wang X,et al.Entity recognition fromclinical texts via recurrent neural network J.BMCMedical Informatics and Decision Making,2017,17:53-618Huang Z,Xu W,Yu K.Bidirectional LSTM-CRF modelsfor sequence tagging JJ.arXiv preprint,arXiv:1508.01991,2015L9Vaswani A,Shazeer

48、 N,Parmar N,et al.Attention is allyou need C/OL/Proc of NIPS.2017 2024-01-22.https:/proceedings.neurips.cc/paper/2017/hash/3f5ee243547dee91fbd053clc4a845aa-Abstract.html人工智能安全专题IssueonArtificial Intelligence Security1o Devlin J,Chang M W,Lee K,et al.BERT:Pre-trainingof deep bidirectional transformer

49、s for language understandingC/Proc of the 2019 Conf of the North AmericanChapter of the Association for Computational Linguistics:Human Language Technologies.Piscataway,Minneapolis,Minnesota:NAACL,2019:4171-418611 Khin K,Burckhardt P,Padman R.A deep learningarchitecture for de-identification of pati

50、ent notes:Implementation and evaluation J.arXiv preprint,arXiv:1810.01570,201812 Strubell E,Verga P,Andor D,et al.Linguistically-informed self-attention for semantic role labeling C IlProc of the 2018 Conf on Empirical Methods in NaturalLanguage Processing.Brussels,Belgium:ACL,2018:5027-503813 Zhang

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服