基于ConceptNet语义的伪相关反馈信息检索方法.pdf

资源描述

1、第卷湖北师范大学学报(自然科学版)第期 ()基于语义的伪相关反馈信息检索方法潘敏刘宇裴全力李腾(湖北师范大学计算机与信息工程学院湖北黄石约克大学信息技术学院安大略多伦多)摘要:伪相关性反馈技术在信息检索领域应用广泛在考虑词频和逆文档频率等重要特征时传统的信息检索方法容易忽略查询词本身的语义信息提出了一种基于语义的伪相关性反馈信息检索方法()充分利用获取语义信息不仅考虑了查询词在文档中的词频重要性还将查询词的语义信息整合到伪相关反馈框架中以改善查询扩展词的选择在个数据集上实验结果表明:方法对比较强基线模型和几种基于神经网络的方法在和两个指标上具有显著提升关键词:

2、伪相关反馈查询扩展信息检索中图分类号:文献标志码:文章编号:():./.引言在信息检索的过程中用户为了方便用作检索的查询词通常很简短这增加了系统理解用户的真实意图的难度伪相关反馈()技术针对上述问题提供了一种可行的解决方法大量基于技术的检索模型已被证明能帮助检索系统更好地去理解用户的查询意图因为自然语言的多样性会导致一词多义和多词同义的问题考虑查询词的解释词、同义词和属性词能够获得更多信息去帮助选择查询扩展词进而提高检索结果的精准度因此本文考虑了将知识图谱的信息引入到伪相关反馈的查询扩展词的选择中具体来说在的基础上将作为查询的外部知识库将的语义信息融入到查询词中来提升伪相

3、关反馈模型的检索性能相关工作一般从第一轮检索的伪相关文档中选择查询扩展词并通过对扩展后的查询词进行二次检索来提高检索系统性能年等人在检索系统中的实验发现了伪相关反馈的有效性算法使用首次检索返回的文档作为反馈信息通过最大化查询向量与相关反馈文档的相似度最小化查询向量与不相关反馈文档的相似度计算出最优的查询向量.在过去的几十年中许多学者继续改进和加强模型的适用性等人考虑到候选词与反馈文档中相应查询之间的邻近关系提出了基于滑动窗口的方法、基于核函数的方法和超空间模拟语言的方法分别为、和这些方法表明邻近度信息能够有效提高模型性能和收稿日期:基金项目:年湖北省教育厅科研计划项目重点

4、项目()国家留学基金委博士后基金项目()年研究生创新科研项目()作者简介:潘敏()男湖北荆门人博士副教授研究方向为信息检索.使用了三种词频变换技术来捕捉反馈文档中候选词的词频重要性由于在各种数据集上的良好表现和近年来被认为是相关工作中的强基线因此在本文中将用它们与我们提出的模型进行比较以测试我们提出的框架的有效性近年来神经网络模型在机器翻译、语音识别等领域中展现出良好的效果信息检索领域也开始对于神经网络模型进行尝试年等人提出了一种自适应深度关联匹配模型()其基本思路是:在查询词级别使用联合深层体系结构进行关联匹配实验结果表明该模型明显优于一些先进的深度匹配模型年等人将 ()用

5、于文档检索任务中通过对句子进行单独的计算聚合句子得分生成文档得分在微博和数据集上的实验结果证明了该方法的有效性至此在信息检索中使用深度学习方法改进的新模型不断出现年等人将词的共现信息整合到模型和模型中使用高斯核函数来测量候选词与查询词的共现关系分别提出了和模型能有效提高检索性能此外查询主题的语义信息也能很好地帮助检索系统理解用户的查询意图等人发现选择适当的语义集合资源尤其是外部语义资源能够有效改善查询扩展词的选择等人将维基百科的知识引入查询扩展的环节提取维基百科文章内的查询改善了查询扩展词的选择等人利用知识图谱嵌入表示建立语义连接更有效地发掘查询和文本之间的语义信

6、息优化查询效果等人将词袋和知识图谱链接到的实体相结合克服了仅使用词袋表示时语义信息不丰富和仅使用实体表示时造成信息损失的缺点优化了知识图谱增强信息检索模型的结构通过分析不同的外部语义资源我们发现的描述更接近自然语言与链接数据和谷歌知识图谱相比比较侧重于词与词之间的关系从这个角度看更加接近于但是又比包含的关系类型多所以我们选择作为我们的外部知识库它提供的语义信息是基于 ()语料库中的近万个英语句子具有稳定的知识结构即实体、关系和实体可以进行知识挖掘更容易计算、理解和评估信息资源目前已被成功应用于信息检索的模型中等人使用和的语义信息扩展查询词的实验结果表明该方法对中

7、难度查询的改进效果更好也验证了在引入语义信息方面的独特优势为信息检索查询扩展词的选择带来了新的启发但是关于将的语义优势整合到框架中的研究较少因此本文研究在检索系统中的具体作用并尝试将其引入至经典的模型中并评估其对检索性能的改进效果基于的伪相关反馈信息检索方法本节主要提出了一个改进的信息检索模型将概念知识图谱提供的语义信息整合到中首先从中获取查询词的语义信息计算语义信息与伪相关文档内词项的相似性接着对框架下的查询词项的权重重新赋值将通过产生的带有语义信息的扩展词与通过算法产生的查询扩展词进行结合重构一个新查询并进行二次检索来提升检索性能具体步骤如下:)针

8、对首次查询选择合理的信息检索模型在实验数据集上进行检索返回第一次检索文档集合并选取前篇文档作为伪相关文档集合)集成概念知识网络获取查询词的语义信息经过处理从伪文档中选择若干词作为查询扩展词并为查询扩展词重新分配权重)通过算法框架将原查询向量和扩展词向量进行合并计算出新查询向量)利用新的查询向量在数据集上完成第二次检索得到最终结果集合上述伪相关反馈的检索流程如图所示:图查询扩展过程的流程图.语义信息增强在中用三元组()的形式表示词项其中表示头部实体表示尾部实体表示和之间的关系提供了个替代关系中的节点是自然语言的单词或者短语对于给定的查询首先使用从和其他输入构建的词嵌入来

9、查找相关词项作为初始候选语义词项如公式()所示:()()其中表示第个查询词表示选取概念词数量()表示与查询本身相关的语义词是通过向输入查询而获得的表示语义词的数量然而在获取语义词项时也会引入很多噪音这意味着有些语义词并不能完全匹配用户的查询意图甚至会影响系统的性能为了缓解这个问题本文考虑消除语义项的噪点优化语义去噪去噪后得到的语义词可以表示如公式()所示:()()其中表示伪相关文档中的词为初始候选语义词项表示原始查询()表示去噪后的语义相关词通过此操作可以快速过滤掉许多噪声项另外发现在中获得的语义词可以同时获得到的语义相关性分数因此选择只保留分数排名最靠前的一部分语义词并将数量

10、预设为.在实验部分将深入探讨值的合理选择如果去噪后的语义词数量小于将保留所有语义词如果超过个将按顺序获取前个语义词计算伪相关文档中的词与去噪后所有语义词之间的余弦相似性具体表示为()和()通过这种方式得到伪相关文档中每个语义关系()如公式()所示:()()()()()()其中()()表示计算()和()的内积将()的计算结果从大到小进行排序并采用前项作为候选词重要性向量组合.本文采用经典方法法来计算伪相关文档中词的重要性权重()计算如公式():()(.)()()()其中表示数据集中伪相关文档的总数()是包含词的文档数而()表示文档中词的词频同样以相同的方式对计算结果进行排序并采用前项

11、作为候选语义相关性向量组合.采用线性融合来协调语义匹配信息和重要性匹配信息之间的关系并得到查询扩展词的向量组合如公式()所示:()()其中和表示对和的归一化处理以便更公平地进行线性融合计算为和分配合理权重的参数.改进的模型在模型中假设某个查询、相关文档和不相关文档是已知的使用得到一个完整的扩展查询如公式()所示:()不相关文档对最终扩展查询影响较小因此本文忽略了不相关文档的复杂计算即公式简化如公式()所示:()本文提出了一个基于语义增强的模型将查询词的概念语义信息集成到传统的模型中表示原始查询表示由第一次检索反馈文档中基于构造的语义扩展词以及基于词频或词分布的扩

12、展词集合根据来自伪文档的扩展查询以及原始查询可以得到如下基于语义信息的新查询如公式()所示:()其中和是取值范围为到的调整参数具体来说参数用于调整原始查询和反馈信息的相对贡献由于扩展项以两种方式提取和加权还引入了一个参数来平衡相应模型分量的贡献:第一次检索反馈文档中基于构造的语义扩展词以及基于词频或词分布的扩展词集合伪相关文档对于扩展查询词的选择非常重要本文选择完成第一轮信息检索并选定排名前个文档作为伪相关文档.使用对优化后的扩展查询进行第二轮信息检索从而公平地比较优化方案的可行性实验与分析本节主要对所提出的伪相关反馈信息检索方法在数据集上开展实验首先将介绍数

13、据集和实验过程除此之外还将与基线模型、先进模型和神经模型在和两个指标上进行结果分析并进行参数敏感性分析.数据集在实验中使用了文本检索会议提供的国际标准数据集为了便于客观评估模型的效果本文选取了一些具有代表性的数据集:、和.数据集为年美联社发表的文集数据集为年到年美联社所出版的刊物文章数据集包含多元新闻专线文章如美联社()、华尔街日报()和金融时报()集合包含来自专线 ()的新闻为华尔街日报()新闻数据集是在互联网上爬取的小规模网页表为六个数据集的具体信息含名称、数据集文档数、查询编号范围以及查询个数:表数据集信息数据集大小/查询查询数量文档数量.实验流程实验过程分

14、为以下六大部分:)语料预处理与索引建立事实证明语料集通常伴随多种影响检索结果的噪音如无意义的网页标签、符号、网址以及邮箱地址等这些与查询主题无关的信息通常在实验前研究人员常会采取数据集预处理来减轻噪音影响除此之外一般还会进行去停用词和词干化的操作在检索过程中词频和逆文档词频尤为重要而数据预处理有助于系统快速获得这些信息实验中本文使用来建立数据集索引预处理的清除噪音操作在索引前处理而去停用词和词干化是由分析器完成)第一次检索通常在伪相关反馈检索过程中研究人员使用模型进行查询第一轮的检索进而获得伪相关反馈文档具体来说本文在使用检索模型对原始查询进行首次检索的过程中参数设置与相同

15、随后对所获的结果文档按照与查询的相关度得分排序选取得分高的前篇作为相关反馈文档)查询扩展值为伪相关反馈文档的文档数量在选取的伪文档的基础上研究人员对查询扩展项进行操作具体来说常依据的权重分数对扩展词进行排名且最终选取排名靠前的词项作为查询扩展词项在本文方法中通过对伪相关反馈文档进行建模获取语义级别的查询扩展词并设置了语义增强的候选扩展词数量设置为经过预设实验见下一小节本文发现通过获得的语义增强的候选扩展词数量在时效果最好最终在所有实验中将确定为.)构建新查询向量得到扩展词后利用框架将原始查询和扩展词计算得出新查询向量对于原始查询检索系统往往不知道各词条的重要程度且在表

16、示查询意图时极其重要故而构建原始查询向量时每个词权重常被设置为.对于扩展词:根据公式计算得出扩展词重要分数并将所得分数进行之间的归一化完成赋值在算法下利用参数和对原始查询向量和扩展词向量进行线性融合计算出新查询向量)第二次检索根据伪相关反馈文档通过一系列的方法计算达到对查询词进行扩展的操作最终得到一个新的查询向量利用这个新的查询向量在系统中进行又一次检索这个过程称为伪相关反馈中的第二次检索在第二次检索中本文还是在使用与第一轮检索相同的模型与此同时其相关参数设置与第一次检索相同将第二轮检索的结果文档按照得分降序排列该文档集合是检索过程最终得到的反馈文档即检索结果)参数设置及程序

17、运行本文的伪相关反馈检索实验中和被设置为构造原始查询和新查询的线性组合参数取值为步长为.参数为伪相关反馈文档数量参数为从伪相关反馈文档中选取扩展词项数量取值区间为步长为语义扩展词数量的参数本文取.预设实验当反馈的语义词数量较大时可以使用的语义信息增多的同时可能会引入一些不符合用户查询意图的信息因此本文设计预设实验:在中获取查询的语义项时将每个查询词的反馈词数设置为、或更多探索反馈词数量与检索性能之间的关系从而确定最佳反馈词数对个标准数据集进行预设实验可以发现当反馈项数量过大时性能会降低分析发现可能是由于大量反馈项会引入噪声从而对检索造成干扰在反复调整反馈词的数量后最终

18、决定将每个查询词的语义词数设置为当获取的语义词数大于时取相关性最高的前个当获取的词数小于时取全部反馈词最优化查询相关的所有语义信息带来的效果.与基线模型对比在本节中我们将给出所提出的模型结果表和表分别展示了与各个对比模型在个数据集上的实验结果包括在平均正确率()和返回前个结果的精确率()两个指标上的实验结果如表和表所示括号中的值表示相对于和的改进数据右上角的“”和“”分别表示和在统计学上的显著改善实验结果表明在各实验数据集上本文所提出的基于的伪相关反馈信息检索方法在效果上均优于基线模型具体来说在评价指标上本文的方法在各实验数据集上的性能均有提升例

19、如在数据集上基于的伪相关反馈信息检索方法较之和方法分别提高了.和.在数据集上分别提高了.和.在数据集上提高了.和.在数据集上提高的百分比达到了.和.在数据集上为.和.在数据集分别提高了.和.对于评测指标来说在各数据集上相比较于基线模型本文方法在各个数据集上均有提升表、和模型在个数据集上的值结果 .(.).(.).(.).(.).(.).(.)表、和模型在个数据集上的值结果 .(.).(.).(.).(.).(.).(.)实验结果表明本文方法在新闻性质的数据集表现较好如新闻数据集、以及.分析造成这种结果的可能原因认为对于新闻性质的语料集提取得更加有效另外一个

20、可能的潜在原因是新闻数据集质量普遍较好除此之外本文还发现相比较和等时事新闻数据集在(金融新闻)数据集表现略差可能的原因是金融领域专业术语和概念较为复杂在进行概念知识匹配时难度较大.与先进模型对比为了进一步验证本文所提出方法的有效性将本文方法与基于邻近感应的模型()和词项频率变换模型()进行了比较结果如表和表所示其中括号中的值表示相对于和的改进数据右上角的“”和“”分别表示和在统计学上的显著改善在结果上本文方法在数据集上性能较弱但在其他个数据集上优于和 .在指标上本文方法优于和进一步验证了本文方法在前个结果的精度方面也表现良好我们分析表现优于的原

21、因是因为和只考虑了词项频率对查询扩展词选取的影响没有考虑语义信息一般来说本文所提出的模型与其他模型相当表、和模型在个数据集上的值结果 .(.).(.).(.).(.).(.).(.)表、和模型在个数据集上的值结果 .(.).(.).(.).(.).(.).(.).与神经模型对比为了进一步验证模型的有效性将本文方法与神经模型进行了比较如表所示数据右上角的“”和“”表示与和相比(标记测试 .)在统计意义上显著的改进在上本文所提出的方法性能在数据集和数据集上优于和.和使用的是语义匹配方法和通过计算查询和文档之间的语义向量之间的余弦相似度来进行检索考虑了一

22、词多义和多词同义等语义问题对检索的影响考虑了文本上下文的语义信息但是没有充分利用语义信息来帮助原始查询进行查询扩展我们分析带有属性关系和语义信息的查询扩展环节才是帮助检索系统结果提升的原因实验结果表明结合语义匹配的模型是有效的表、和模型在和数据集上的值结果.(.).(.).参数敏感度在本文方法中调整参数和反馈词项数量可能是影响鲁棒性的重要因素如图所示为外部查询扩展的权重的增加意味着外部语义信息的增强为二轮检索前查询扩展词的数量在个数据集上的实验发现最佳范围为.此时指标具有最佳性能过高的值可能会导致噪声增多根据参数的变化对个数据集的影响发现在区间时上具有

23、最佳值模型效果更好图模型的参数和不同值在六个数据集上的敏感度分析结论以及展望本文围绕信息检索中的伪相关反馈和语义信息展开研究提出了一种增强语义信息重要性的伪相关反馈模型具体来说在利用提供语义信息时不仅考虑语义信息还考虑了反馈项引入的噪声对检索性能的影响能更精准的捕获查询意图将上述语义信息集成到伪相关反馈方法中能够有效改善查询扩展词的选择在个数据集中的实验结果表明本文提出的方法是可行的在和方面可与强基线、最先进的模型和几种基于神经网络的模型相媲美在未来的工作中计划在更多更大的数据集(如金融数据集、医学数据集)上进行实验以评估本文方法的实用性拟采用深度学习方法来进一步优化

24、查询扩展项的权重分布改善模型的性能此外对于引入外部语义信息引起的语义噪声问题后续将探寻更合适的解决方案参考文献:./.:():./.:.():./:./:.():.:./.王雪彦何婷婷黄翔等.基于文档内位置关系的伪相关反馈方法.山东大学学报(理学版)():.():.():.:./.潘敏.基于潜在语义关系的伪相关反馈查询扩展技术研究.武汉:华中师范大学国家数字化学习工程技术研究中心.:./:./:./.:.:./.:/:():.:/.:./.():.():.:./.:/.:./:.():.():./:./:.():.:/:./:.:/:.:/:./:./.:./:.:.():.().()().:

展开阅读全文