基于CoSENT的航空装备领域问句相似度匹配算法.pdf

资源描述

1、舰船电子工程2023 年第 9 期1引言随着军事装备信息化的高速发展，装备配套相关技术保障文档大量增加，战场形势瞬息万变，如何高效地利用这些非结构化文本，快速检索到需要的信息，对提升装备使用和维护效率、掌握战场主动权具有重要意义。传统的信息检索通常采取基于关键词匹配的方式，这种方式没有考虑到用户语义表述的多样性，常常无法准确地理解用户意图1。近年来，基于深度学习的自然语言处理技术快速发展，通过使用深度学习模型考虑文字的上下文信息，产生向量化的语义表示，可以更加准确地表示文本语义。基于文本语义表示的文本匹配技术是实现智能问答的关键技术2，这类方法通常使用文本对作为知识来源，通过文本相似

2、度匹配将用户输入的检索项与知识库中存储的文本进行匹配，是目前工业界实现智能问答系统的主要方式之一34。随着深度学习的发展，使用深度学习模型进行文本相似度匹配是当前的主流研究方向，主要分为特征式和交收稿日期：2023年3月23日，修回日期：2023年4月20日作者简介：翟一琛，男，硕士研究生，研究方向：自然语言处理。顾佼佼，男，博士，讲师，研究方向：深度学习技术。刘涛，男，硕士，讲师，研究方向：兵种战术。姜文志，男，博士，教授，研究方向：武器装备与作战指挥一体化。基于CoSENT的航空装备领域问句相似度匹配算法翟一琛顾佼佼刘涛姜文志（海军航空大学烟台264001）摘要针对航空装备使用和保障人员获

3、取信息效率低的问题，将文本相似度匹配技术引入航空装备维修保障问答领域，结合规则模板、生成模型等方法生成相似问句，提出一个航空装备维修保障领域问句相似度数据集；融入外部信息知识，通过领域词典识别问句对中的关键词，对CoSENT（Cosine Sentence）模型引入关键词注意力机制和特征交互机制提升模型性能。在自建数据集和讯飞文本相似度数据集上进行验证，与基准模型CoSENT相比，论文方法的Spearman相关系数分别提升了2.3%和1.7%。关键词航空装备维修文本；深度学习；文本相似度；CoSENT；注意力机制中图分类号TP391.3DOI：10.3969/j.issn.1672-9730.

4、2023.09.030Similarity Matching Algorithm of Equipment MaintenanceQuestions Based on CoSENTZHAI YichenGU JiaojiaoLIU TaoJIANG Wenzhi（Naval Aviation University，Yantai264001）AbstractAiming at the problem of low efficiency in obtaining information for aviation equipment users and support personnel，the t

5、ext similarity matching technology is introduced into the field of aviation equipment maintenance support question answering.Combining with the rule template and generation model to generate similar questions，a similarity data set of questions in aviation equipment maintenance field is proposed.Exte

6、rnal information knowledge is integrated into model，keywords in sentence pairsare identified through domain dictionaries.In addition，keyword attention mechanism and feature interaction mechanism are introduced into the model to improve the performance of CoSENT（Cosine Sentence）.It is verified on the

7、 self-built data set and IFLYTEK text similarity data set.Compared with the benchmark model CoSENT，the Spearman correlation coefficient of this method is increased by 2.3%and 1.7%respectively.Key Wordsaviation equipment maintenance text，deep learning，text similarity，CoSENT，attention mechanismClass N

8、umberTP391.3总第 351 期2023 年第 9 期舰船电子工程Ship Electronic EngineeringVol.43 No.9145总第351期互式两类方式56。特征式指输入的两个句子分别通过编码器获得句向量表示再进行相似度匹配，文献 7 提出的InferSent模型是典型的特征式模型，文中验证了将两路句向量进行拼接等操作后作为输入分类器的特征可以有效提升文本匹配模型的性能。文献 8 提出 Sentence-BERT模型，验证了使用 BERT（Bidirectional Encoder Representationfrom Transformers）9预训练

9、模型作为特征抽取器可以有效提升模型性能。交互式指将两个句子进行拼接后再输入模型，这种方式使得文本在模型内可以进行更多的交互，模型性能一般较特征式更好，缺点是无法提前存储计算好的缓存向量，在检索场景下的效率较差。文献 10 提出交互式文本匹配模型ESIM，表明了通过构建匹配矩阵进行句子间交互的有效性。文献 11 借鉴卷积神经网络（Convolutional Neural Networks，CNN）处理图像的原理，提出 MatchPyramid 模型，通过 CNN 提取句子间的相似度矩阵特征，达到融合特征表示，提升模型性能的目的。将知识库问答技术应用到垂直领域面临诸多困难，在数据集构建方面，现有研

10、究大多基于社区问答数据自动构建1214。对于垂直领域下非结构化文本内容的问句对构建，通常需要组织行业专家针对文档内容人工提出问题，在问答系统启动初期，人工标注工作量大。为此，本文提出一种面向航空装备领域技术文档的问句对构建方法。首先，针对文档行文特点，对文档内各级标题采取规则模板和SimBERT15生成模型进行问句生成，然后使用语义相似的关键词替换方法扩充数据集，调整数据集正负比例，减轻人工标注工作量。考虑特征式模型在检索场景下的优点和数据集规模小的问题，使用基于预训练BERT的特征式文本相似度匹配模型 CoSENT作为基准模型。通过关键词注意力机制引入外部领域词典知识指导模型训练；同时针对特

11、征式模型缺乏句对间交互的问题，加入交互机制进一步提升模型性能。2命名实体识别模型2.1CoSENT模型BERT 是一种基于多层双向 Transformer 编码器的预训练语言模型，可以生成融合上下文信息的句子表征。通常采取预训练加微调的训练方式，首先在大量无监督数据上进行掩码语言模型（Masked Language Model，MLM）和下一句预测（Next Sentence Prediction，NSP）训练，之后结合具体的任务在少量标注数据上进行微调，这种训练方式使得BERT具有较强的泛化能力，即使在小数据集上进行训练也能取得良好的性能。SBER

12、T（Sentence-BERT）模型将BERT引入到孪生网络结构中，利用BERT生成更有效的句子嵌入用于文本相似性度量任务，模型结构如图 1 所示。基于SBERT模型改进的CoSENT模型16主要针对原模型训练与预测不一致的问题，对模型的损失优化部分进行了改进，由原来先特征拼接再连接Softmax分类器输出类别，优化分类损失的方式，改为直接优化句子对间的余弦距离，模型结构如图2所示，损失计算公式为log(1+(ijpos(kl)neg)e(cos(ukul)-cos(uiuj)（1）其中(ij)pos，(kl)neg，pos为正样本集合，neg为负样本集合，uk、ul、ui、uj分别为正样本对

13、和负样本对的句向量表示，为超参数。图1Sentence-BERT模型结构图图2CoSENT模型结构图2.2SimBERT模型Seq2Seq17指的是给模型输入一段文本后，模型会输出另一段文本，Seq2Seq模型一般采用编码器-解码器结构，编码器将输入文本编码为固定大小的向量，解码器将这个向量以自回归的方式进行解码，生成对应的文本。BERT模型在提出时用于进行自然语言理解任务，其核心Transformer18编码器采用双向自注意力机制，对于输入的句子，句子中每个词之间都是可见的，无法用于自然语言生成任务。微软提出通过构建如图3所示的特殊的注意力掩码矩阵，将BERT模型改造为可以进行自然语言生成任

14、务的统一预训练语言模型（Unified Lan翟一琛等：基于CoSENT的航空装备领域问句相似度匹配算法146舰船电子工程2023 年第 9 期guage Model，UniLM）19。SimBERT 是一种以 BERT 模型为基础的融合检索与生成于一体的模型，与BERT模型相比，其具有文本生成能力的核心就是使用了UniLM中的Seq2Seq 训练方式。训练 SimBERT 生成相似问句首先需要收集大量的相似问句对，同一相似问句对在输入模型时通过 SEP 进行分割，之后对输入语句使用特殊的注意力掩码矩阵，这种形式的注意力掩码矩阵使得 SEP 之前的字符之间实现了双向注意力，SEP 之

15、后的字符之间实现了单向注意力，从而使得模型具有递归的预测后半句的能力。图3UniLM模型的注意力掩码矩阵2.3关键词注意力机制与交互式模型相比，特征式模型由于缺乏对句子间的特征融合，模型无法更加有效地关注文本中的关键信息，本文借鉴文献 20 提出的关键词自注意力机制，利用外部领域关键词知识指导模型训练。自注意力机制可以计算句子内部字符之间的相关性，本文首先通过对文本输入X=x1.xn使用领域词典W进行关键词识别，之后构建关键词掩码矩阵作用在关键词掩码自注意力层上，强制模型关注句子中的关键词。其表达形式如下：u=MASK(u)=0u1m1.unmn（2）SelfAttention(u)=Soft

16、max(Wqu()WkuTdkWvu)（3）其中u=uclsu1un为 BERT 层的输出向量，MASK=0m1.mn，mi=1 xiW0 xiW为关键词掩码矩阵，WQ、WK、WV都是可学习的参数矩阵，dk为输入向量的维度。改进后的模型整体结构如图4所示，句子1、2通过的网络均共享权重。首先，句子按字符粒度输入到BERT模型中，BERT模型输出包含上下文信息的语义表示，其中 CLS 向量作为句子原始的整体信息直接送入特征拼接层，其余每个字符的输出向量送入关键词掩码自注意力层。在关键词掩码矩阵的作用下，句子内的关键词进行注意力交互，之后输出向量至池化层进行特征的进一步提取，两路池化层的输出向量之

17、间进行特征拼接与交互，与Sentence-BERT、InferSent等特征式模型不同，CoSENT模型直接对句子表示的余弦相似度进行优化，所以在进行特征拼接和交互后，特征向量仍应保持句子表示的相对独立性，即拼接后的特征向量仍然可以表示该输入语句的语义信息。图4融合关键词注意力机制的CoSENT模型147总第351期3实验验证3.1数据集构建自建数据集来源于航空行业IETM相关技术手册中的PDF文档，根据文档文本的行文特点，首先使用PDF文本抽取技术和正则表达式匹配的方法提取文档内所有的标题，根据标题的层级关系，建立常见问句模板将标题关键词扩充成句，然后使用在2200万个问句对数据集上预训练的

18、SimBERT模型自动生成大量相似问句，生成示例如表1所示。人工挑选出表达通顺的句子并判断相似或不相似，根据此方法标注数据集共2463条。利用SimBERT生成的相似问句多数与原句语义相似，数据集会出现正负比例不均衡的现象。通过随机替换、随机删除等方法生成的负例与真实标注相差较大，使得数据集噪声过大，训练效果差。本文使用领域词典对句子中的关键词进行识别，并在与关键词同类型的词语中选择字面不同但语义相关的词语进行替换，通过此方法生成的负样例更难区分，更接近真实负例，有助于模型训练。语义相似度使用在所有语料上训练的Word2Vec21模型进行计算，本文选取相似度大于0.8但小于0.9的词语进行相似

19、词替换，生成负样本示例如表1所示。表1文本生成示例源文本SimBert生成文本负样例生成轮胎的使用维护如何进行？轮胎的维护方法有哪些？轮胎怎样维护？轮胎有哪些维护方式？使用维护轮胎的步骤是什么？如何进行轮胎的使用维护？轮胎检查器的使用维护如何进行？机轮轮毂的使用维护如何进行？轮毂的使用维护如何进行？机轮的使用维护如何进行？轮胎的检查与检验如何进行？在非结构化文本数据上，通过这种方式生成数据集不需要人工生成问句，只需要进行选择，减轻了人工标注的工作量。最终得到4000对相似问句对数据集，数据集平均文本长度为17，最大文本长度为42，问句对正负比例为1.25 1，按6 2 2划分为训练集、验证集和

20、测试集。讯飞文本相似度数据集来自讯飞中文问题相似度挑战赛，为通用领域下的相似问句对数据集。本文使用可供下载的5000对问句对进行实验，数据集平均文本长度为21，最大文本长度为83，问句对正负比例为1.37 1，在数据集规模、文本长度和正负比例上与本文自建数据集相近，按6 2 2划分为训练集，验证集和测试集。3.2实验配置1）实验设置实验环境为处理器 Inter（R）Xeon（R）Gold5218R、操作系统 Ubuntu 18.04.2LTS、显卡 RTX3090，开发环境为 Python3.7，使用 Pytorch1.8.0 框架。模型参数设置如下：BERT输入的最大序列长度为64，

21、批处理大小为128，向量维度为768，使用AdamW优化器，学习率设置为2e-5，超参数=5。2）评价指标在检索场景下，更关注预测分数的顺序，Spearman 相关系数定义为两个变量的秩统计量间的Pearson相关系数，其值与两组变量的具体值无关，仅与值之间的大小关系有关。首先将模型输出的相似度与真实标签值分别进行排序（同时为升序或降序），得到集合x和y后其计算公式如下：=i=1N(xi-x)(yi-y)i=1N(xi-x)2(yi-y)2（4）其中两个集合的元素个数均为N，x、y 分别表示两集合平均位次的值。3.3实验结果及分析本文选取了 ESIM，InferSent，Sentence-BE

22、RT，BERT，CoSENT共五种主流的文本匹配模型进行对比实验，其中InferSent和ESIM模型均采用CNN进行特征抽取，表2展示了选取的几种基准模型在自建数据集和讯飞文本相似度数据集上的实验结果。实验结果表明，不论是交互式模型还是特征式模型，在使用预训练BERT模型后，模型性能均得到较大提升。选择同样的特征抽取模型时，交互式模型的表现明显优于特征式模型。由于交互式模型不能离线获得文本的向量表示，检索场景下效率较低，本文选取特征式模型中表现最优的CoSENT作为基准模型。表2模型对比实验模型Infersent(CNN)ESIM(CNN)Sentence-BERTCoSENTBERT自建数

23、据集0.5620.6340.7550.7910.882讯飞文本相似度数据集0.3820.4120.7450.7490.770翟一琛等：基于CoSENT的航空装备领域问句相似度匹配算法148舰船电子工程2023 年第 9 期为加强文本中关键信息在模型训练过程中的重要性，使用词典识别输入文本中的名词、动词和动名词，构建关键词掩码矩阵，并作用在 CoSENT模型向量输出部分的关键词自注意力层上，对该层的输出向量进行三种池化策略的实验，实验结果如表3所示，在自建数据集上，直接取关键词自注意力层的CLS向量与CoSENT模型的CLS输出向量进行拼接时，Spearman 相关系数由 0.791

24、提升到了0.806；在讯飞文本相似度数据集上对关键词自注意力层使用平均池化策略输出的向量与 CoSENT模型的CLS输出向量进行拼接时，Spearman相关系数由0.749提升到了0.763。同时注意到，不论使用何种形式的关键词注意力机制，模型性能都会稳定提升，验证了本文提出方法的有效性。表3关键词注意力机制实验模型CoSENTCoSENT+关键词注意力机制CLSMEANMAX自建数据集0.7910.8060.7990.795讯飞文本相似度数据集0.7490.75907630.757图5为CoSENT模型加入关键词自注意力层前后的损失函数曲线图，从图中可以看出加入关键词注意力机制可以有效帮助模

25、型收敛，使得模型性能更加稳定。02004006008001000训练步数/次（a）86420损失函数值CoSENTCoSENT+关键词注意力76543210损失函数值02004006008001000训练步数/次（b）图5损失函数曲线图在使用关键词注意力机制的基础上，对特征交互阶段的向量拼接策略进行实验，表4中列出了特征拼接时选择三种池化策略时各自最好的实验结果。对于本文使用的两个数据集而言，选择平均池化策略和最大池化策略的效果都要优于直接使用CLS向量，两个数据集的Spearman相关系数分别达到了0.814和0.766。另外，在表4中还分别展示了在自建数据集和讯飞文本相似度数据集下分别使用

26、平均池化策略和最大池化策略进行特征拼接的实验结果，ucls表示当前输入句子 BERT层的 CLS输出向量，u，v分别表示两句子的输出向量。实验结果显示，在自建数据集和讯飞文本相似度数据集上，特征交互阶段分别使用(uclsuu-v)和(uclsu|u-v)拼接策略时模型性能最好，代表在CoSENT模型中，表示两句子间差异信息的u-v和|u-v向量可以为相似性度量提供更多的特征信息。同时，使用u*v向量作为交互特征均会降低模型性能。表4特征向量拼接实验池化策略MEANMAXCLS拼接策略(uclsu-v)(uclsuu-v)(uclsu|u-v)(uclsu|u-vu-v)(uclsuu*v)(u

27、clsuu-vu*v)(uclsu|u-vu*v)自建数据集0.8140.8090.8010.7700.8140.8050.8060.7600.7720.746讯飞文本相似度数据集0.7580.7660.7570.7060.7620.7660.7440.7510.7040.7454结语首先针对航空维修领域技术手册中非结构化文本问句对数据集构建困难的问题，提出一种面向该领域技术手册的数据集构建方法，结合文本行文特点，利用规则模板、Word2Vec模型、深度学习生成模型等手段自动生成有实际意义的问句对，减轻人工标注的工作量，构建了一个数据量大小为4000对的航空维修领域问句相似对数据集。对主流的文

28、本相似度匹配模型进行实验，选取检索场景下效率更高的特征式模型 CoSENT作为149总第351期基准模型，使用外部词典知识通过关键词注意力机制指导模型训练，同时针对特征式模型文本交互不够充分的特点加入特征交互机制，并对关键词注意力机制和特征融合方式在自建数据集和讯飞文本相似度数据集上进行实验，结果表明本文提出的方法可以有效提升CoSENT模型的文本匹配性能。参考文献1李皓祺.基于知识库的问答技术研究与实现 D.西安：西安电子科技大学，2021：1-2.2杨睿，刘瑞军，师于茜，等.面向智能交互的视觉问答研究综述J.电子测量与仪器学报，2019，33（02）：117-124.3Xie S Y

29、，Chang C H，Zhang Z，et al.A Hybrid Approachof Deep Semantic Matching and Deep Rank for ContextAware Question Answer SystemA.In：Proceedings ofthe 31st Conference on Computational Linguistics andSpeech Processing C.Taiwan，2019：72-81.4Zhou L，Gao J，Li D，et al.The design and implementation of XiaoIce，an e

30、mpathetic social chatbot J.Computational Linguistics，2020，46（1）：53-93.5Wang J，Dong Y.Measurement of text similarity：a surveyJ.Information，2020，11（9）：421.6Zad S，Heidari M，Hajibabaee P，et al.A survey of deeplearning methods on semantic similarity and sentence modeling A.In：2021 IEEE 12th Annual Inform

31、ation Technology，Electronics and Mobile Communication Conference C.Columbia，2021：0466-0472.7Conneau A，Kiela D，Schwenk H，et al.Supervised learning of universal sentence representations from natural language inference data A.Proceedings of the 2017 Conference on Empirical Methods in Natural Language P

32、rocessing C.Copenhagen，2017：670：680.8Reimers，Nils，and Iryna G.Sentence-BERT：SentenceEmbeddings using Siamese BERT-Networks A.In：Proceedings of the 2019 Conference on Empirical Methods inNatural Language Processing and the 9th InternationalJoint Conference on Natural Language ProcessingC.Hong Kong，20

33、19：3982-3992.9LEE J D M C K，TOUTANOVA K.Pre-training of deepbidirectional transformers for language understanding J.The North American Chapter of the Association for Computational Linguistics，2019：4171-4186.10Chen Q，Zhu X，Ling Z，et al.Enhanced LSTM for natural language inference A.In：Proceedings of

34、the 55thAnnual Meeting of the Association for Computational Linguistics C.Vancouver，2017：1657-1668.11Pang，L.，Lan，Y.，Guo，J.，et al.Text matching as image recognition A.In Proceedings of the AAAI Conference on Artificial IntelligenceC.California 2016：2793-2799.12Liu X，Chen Q，Deng C，et al.Lcqmc：A large-

35、scalechinese question matching corpusA.In：Proceedingsof the 27th International Conference on ComputationalLinguistics C.New Mexico，2018：1952-1962.13孙博，赵韡，张飞.基于自然语言处理的医学智能问答系统设计与实现 J.中国卫生信息管理杂志，2021，18（06）：738-742.14金宁，赵春江，吴华瑞，等.基于多语义特征的农业短文本匹配技术J.农业机械学报，2022，53（05）：325-331.15苏剑林.鱼与熊掌兼得：融合检索

36、和生成的SimBERT模型 EB/OL .https：/ 量方案 EB/OL.https：/kexue.fm/archives/8847，2020-01-16.17Sutskever I，Vinyals O，Le Q V.Sequence to sequencelearning with neural networksA.In：Proceedings ofthe 27th International Conference on Neural InformationProcessing Systems C.Montreal，2014：3104-3112.18Vaswani A，Shazeer

37、 N，Parmar N，et al.Attention is allyou need A.In：Proceedings of the 31st InternationalConference on Neural Information Processing SystemsC.California，2017：6000-6010.19Dong L，Yang N，Wang W，et al.Unified language model pre-training for natural language understanding andgeneration A.In：33rd Conference o

38、n Neural Information Processing Systems C.Vancouver，2019：13063-13075.20Miao C，Cao Z，Tam Y C.Keyword-attentive deep semantic matching J.ArXiv Preprint ArXiv：2003.11516，2020.21Mikolov，Tomas，et al.Efficient estimation of word representations in vector spaceJ.ArXiv Preprint ArXiv：1301.3781.翟一琛等：基于CoSENT的航空装备领域问句相似度匹配算法150

展开阅读全文