信息检索16神经网络方法.ppt

资源描述

单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,现代信息检索,第,16,讲,Neural IR,基于深度神经网络的,IR,模型,2017/10/09,1,提纲,上一讲回顾,深度神经网络,(DNN),基础,词向量,Neural IR Model,2,提纲,上一讲回顾,深度神经网络,(DNN),基础,词向量,Neural IR Model,3,4,上一讲回顾（待）,4,提纲,上一讲回顾,深度神经网络,(DNN),基础,词向量,Neural IR Model,5,神经元,6,激活函数,7,激活函数,上述激活函数特点,Sigmoid,：两端饱和区梯度极小；输出不以,0,为中心；指数函数计算代价大。,Tanh,：两端饱和区梯度极小；输出以,0,为中心；指数函数计算代价大。,ReLU,：在激活值大于,0,时不存在梯度极小的情况；输出不以,0,为中心；计算代价小；收敛速度快。,除了上述三种激活函数，还有其它一些激活函数，如,Maxout,，,Leaky ReLU,，,ELU,等。,激活函数对参数的学习过程影响较大，需要根据情况适当选择。,8,大家有疑问的，可以询问和交流,可以互相讨论下，但要小声点,9,神经元组合成为神经网络,最简单的多层神经网络,多层感知机,(Multi-Layer Perceptron,简称,MLP),由多个神经元组成，一些神经元的输出作为另一些神经元的输入。,10,Softmax,归一化,11,参数的学习,12,参数的学习,目标：,学习一组网络参数，使得预测,y,与实际标签,y,的误差,(,损失,),最小。,BP,算法：,即反向传播算法，是学习神经网络参数的一个重要方法，给定一个样本,(x,y),，包含如下两个过程：,前向计算,(forward),：根据输入,x,，计算网络的输出,y,；,反向计算,(backward),：计算网络预测,y,与标签,y,之间的误差,(,损失,),关于,网络各参数的梯度；主要应用求导的链式法则。,梯度下降算法：,BP,算法只是得到了误差,(,损失,),关于网络参数的梯度，而梯度下降算法定义了网络参数的更新方式，如,SGD,：,其它常见的参数更新方式：,Momentum,，,Adam,，,Adagrad,，,RMSprop,等,在实际应用中，一般是同时使用一组样本,(,一个,batch),来对网络参数进行更新。,另外还有一些二阶的方法：牛顿法，共轭梯度，,BFGS,13,正则化,为什么需要正则化？,一般的学习算法都是通过最小化训练集上损失函数来得到的，若训练数据的数据量较小或者分布不均，对于容量较大的模型而言，则学习到的模型会过度拟合训练数据分布而与真实分布有一定的差距，所以需要正则化来防止学习到的模型过度拟合训练数据分布，从而增强模型的泛化能力。,若想要进一步了解，请参考偏差,-,方差分解理论。,L1,与,L2,正则,机器学习中常用的正则方法，通过在损失函数中增加模型参数的,1-,范数或,2,范数项来约束模型参数的范围：,一般认为,L1,正则会使得模型参数的某些维度变为,0,，因此具有特征选择的作用；,14,正则化,L1,与,L2,正则图解：,L1,正则（右），,L2,正则（左）,图中同一个蓝色环上的损失相同，中心点损失最小；红色环上模相等，原点处模最小，为,0,；黑色点为解，在黑色点处损失的减小与模的增加达到临界点，即损失的继续减小不能弥补模增加的部分，导致它们的和反而增加了。,15,正则化,DNN,中常用的正则化方法,数据集增强：通过对已有的数据样本做特定的变换来构造新的样本。,噪声鲁棒性：通过往输入、权重或者标签中注入噪声来达到正则化的效果。,提前终止：通过引入验证集，训练到验证集上误差达到最小时，则停止训练。,参数共享：通过使网络的不同部分共享参数达到正则化效果，参数共享减小了模型的假设空间。,Bagging,集成方法：训练若干模型，然后由这些模型对输出进行表决，以此来减小泛化误差。,Dropout,：通过对神经元以一定概率进行丢弃达到正则化效果，通常认为是,Bagging,的一种近似。,16,卷积神经网络,(CNN),17,卷积神经网络,(CNN),卷积图解,输入：,32x32x3,；卷积核：,5x5x3,，,1,个；输出：,28x28x1,，步长：,1,18,卷积神经网络,(CNN),池化,(Pooling),：,池化的总体思想是使用某一位置的相邻输出的总体统计特征来代替网络在该位置的输出。,常见池化方式,:max-pooling,min-pooling,average-pooling,sum-pooling,。,以下用,max-pooling,举例,19,卷积神经网络,(CNN),Max-pooling,图解,卷积层的三个过程：,卷积：卷积核对输入的线性变换,激活：激活函数对卷积核输出的非线性变换,池化：对激活输出进行进一步调整,两个参数：,filter,的大小，,stride,：,filter,移动的步长,20,池化的特点,近似不变性：当输入做少量平移时，输出不会发生变化；,近似不变性使得网络更多地关注某些特征是否出现而不关心其具体的位置,;,由于近似不变性，网络能够容忍一些微小的噪声或者扰动。,卷积和池化带来的好处主要有：减少参数，减少噪声,21,循环神经网络,(RNN),循环神经网络,(RNN),：,一种用来专门处理序列数据的神经网络。,一个序列当前的输出与前面的输出有关,网络会对前面的信息进行记忆并应用于当前输出的计算中，即隐藏层之间的节点不再无连接而是有连接的，并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出,在实践中，为了降低复杂性往往假设当前的状态只与前面的几个状态相关,22,循环神经网络,(RNN),23,循环神经网络,(RNN),24,循环神经网络,(RNN),一些常见的,RNN,结构：,25,循环神经网络,(RNN),26,循环神经网络,(RNN),27,循环神经网络,(RNN),28,循环神经网络,(RNN),若忽略遗忘门控信号，普通,RNN,与,LSTM,信息流如下：,可以看到，若,f,对输入的梯度很小，则经过几个单元的反向传播后，梯度就消失了；,LSTM,通过将当前状态通过相加的方式直接传递到下一个单元，减轻了梯度消失的问题。,而遗忘门的作用则是让网络自行学习是否需要记住很早以前的状态信息；除了,LSTM,结构，还有一些其它门控结构来处理,RNN,中的梯度消失问题，如,GRU,，请同学们自行查询相关资料。,29,DNN,基础：总结,DNN,（深度神经网络）：一种多层的神经网络，采用一个或多个隐藏层学习数据暗含的特征，从而得到更好的数据表示,两种常见的,DNN,结构,CNN,（卷积神经网络）：应用于类似网络结构数据，例如图像矩阵,使用卷积和池化减少参数，减少噪声,RNN,（循环神经网络）：应用于序列数据,隐藏层之间的节点有连接,梯度爆炸（特征值,1,）与消失,(,特征值,1),：引入,LSTM,后面介绍如何应用于信息检索,30,参考资料,UFLDL,教程：,Goodfellow I,Bengio Y,Courville A.Deep learningM.MIT press,2016.,cs231n slides:,Jozefowicz R,Zaremba W,Sutskever I.An empirical exploration of recurrent network architecturesC/Proceedings of the 32nd International Conference on Machine Learning(ICML-15).2015:2342-2350.,Lipton Z C,Berkowitz J,Elkan C.A critical review of recurrent neural networks for sequence learningJ.arXiv preprint arXiv:1506.00019,2015.,Bishop C.Bishop,C.M.:Pattern Recognition and Machine Learning.SpringerM/Stat Sci.2006:140-155.,注：本小节所有图均来自上述材料，为了简洁未一一注明，特此说明。,31,提纲,上一讲回顾,深度神经网络,(DNN),基础,词向量,Neural IR Model,32,Word2Vec,基于神经网络的一种用于训练词向量的模型,Mikolov etc.,arXiv 2013,两种模型,CBOW,和,Skip-Gram,衍生出句向量训练模型,Para2Vec,Word2Vec,在,NLP,和,IR,领域具有广泛应用,33,CBOW,模型,Continuous Bag-of-Words,（,CBOW,）模型,基本思想为根据上下文信息来预测词项,三层网络结构,输入层（,Input,）：词项的上下文信息,投影层（,Projection,）：整合上下文信息,输出层（,Output,）：预测词项,目标函数,训练算法,梯度下降法,34,Skip-gram,模型,Continuous Skip-Gram,（,Skip-Gram,）模型,基本思想为根据词项来预测上下文信息,三层网络结构,输入层（,Input,）：词项的信息,投影层（,Projection,）：恒等变换,输出层（,Output,）：预测词项的上下文信息,目标函数,训练算法,梯度下降法,35,Para2Vec,用于训练句向量的模型,Le etc.,ICML 2014,基本思想与,Word2Vec,相同，,Para2Vec,利用特殊词项,Paragraph id,标记每一篇文档，训练词向量时，,Paragraph id,作为该文档中每一个词的上下文的一部分参与词向量的训练，最后,Paragraph id,的向量用于表示整个文档。,36,词嵌入,词,/,句嵌入的生成,初始时模型为每一个词项分配一个随机参数向量，然后利用随机梯度下降法对,CBOW,或,Skip-Gram,模型的目标函数进行优化，不断地对每一个词项的参数向量进行调整，模型训练结束时最终的参数向量即作为词项的嵌入（,Word Embedding,）。,重要特性,度量词项间的相似性,SummerWinter,，,StrongPowerful,，,ChinaTaiwan,词嵌入在向量运算中保持语义关联,Word2Vec/Para2Vec vs LDA,Word2Vec/Para2Vec,训练时考虑了词项的上下文信息,LDA,训练时仅基于词项的统计信息,IR,中的应用：文档的相关性取决于文档上下文内容,37,词嵌入：总结,建立词的上下文网络模型，训练得到权重参数,权重参数向量即为所谓词嵌入,向量的维度,k,：一个重要的参数,权重参数：表示每一维的重要性,语料中每一个单词最终由一个,k,维（语义）向量表示,38,参考资料,T.Mikolov,et al.Efficient Estimation of Word Representations in Vector Space.,arXiv preprint arXiv:1301.3781,(2013).,Q.Le,and T.Mikolov.Distributed Representations of Sentences and Documents.,ICML,.Vol.14.2014.,Mikolov T,Sutskever I,Chen K,et al.Distributed representations of words and phrases and their compositionalityC/Advances in neural information processing systems.2013:3111-3119.,39,提纲,上一讲回顾,深度神经网络,(DNN),基础,词向量,Neural IR Model,开源工具及代码,40,相关背景,信息检索,(IR),：给定用户查询，返回相关文档，满足用户信息需求,传统,IR,模型如,TFIDF,基于查询词项的分布进行文档相关度评分,词频分布：,Log,词频,全局分布：,IDF,近年来，深度神经网络,(DNN),在自然语言处理,(NLP),领域得到了广泛应用,已有一些研究人员对,DNN,在,IR,领域的应用进行了一定的探索，涌现了一批基于,DNN,的检索模型,这一类模型通常称为,Neural IR Model,41,现有,NIR,模型的常用架构,基本思想：基于,Word2Vec,产生单词和文档的向量表示，基于,DNN,提取文档,-,查询特征,/,匹配信号，然后输入一个前馈网络或,Learning to Rank,算法产生最终的文档相关度评分,现有,NIR,模型之间的区别主要在于怎样利用,DNN,得到可以用于文档排序的特征,/,匹配信号,IR,相对于其它机器学习任务的难点在于相关性的主观性,对于不同查询、不同任务，文档的相关性是不同的,使用部分查询训练得到的排序模型，难以应用到其它查询,Pointwise Learning to rank,算法也有类似的问题，因而产生了,Pairwise,算法,因此通常采用查询,文档之间,word pair,的相似度矩阵,抵消查询之间相关性定义的差异,转化为图，可以使用,CNN,、,RNN,也有一些早期的工作先用,DNN,学习得到查询和文档的表示，再计算相似度，即,representation-based,方法，不过效果不好，最近的工作都是基于相似度矩阵，即,interaction-based,方法。,42,MatchPyramid,Pang etc.,Neu-IR 2016,背景与基本思想：,在文本匹配的过程中，需要考虑各种层次的匹配信号，包括单词层次、短语层次以及句子层次等等；,卷积神经网络,(CNN),结构在计算机视觉,(CV),领域的成功表明其能够很好地胜任这种复杂多层次信号的提取；,对于给定两段待匹配文本，可以构建一个单词,-,单词相似度矩阵，把该矩阵视为一张伪图像，则,CNN,可以直接应用于文本匹配过程中的不同层次匹配信号的提取。,43,MatchPyramid,模型结构,给定两段文本，首先计算一个基于单词,-,单词相似度的匹配矩阵,(matching matrix),，之后一些级联卷积神经网络,(CNN),层作用于该匹配矩阵逐步获取更高层次的匹配信号,(,短语层次、句子层次等,),，最后一个,MLP,网络结构作用于最后一个,CNN,层的输出，得到给定文本最终的匹配分数。,MatchPyramid,模型结构,来源：,Pang etc.,Neu-IR 2016,44,MatchPyramid,实验设置,Pooling size,对模型的影响,45,MatchPyramid,实验设置,与,baseline,的比较：,QL,，,BM25,，,DSSM,，,CDSSM,，,ARC-I,，,ARC-II,Pooling size,对模型的影响,Similarity function,对模型的影响：指示函数,(Ind),，点积,(Dot),，余弦相似度,(Cos),，高斯核,(Gau),Kernel size,对模型的影响,实验结果,46,MatchPyramid,实验结果,实验结论,相比所有其它基于,DNN,的检索模型，,MatchPyramid,具有更好的效果，且能够取得与传统检索模型接近的结果。,Pooling size,太大或大小均不好，对于查询，近似取查询长度的中位数，对于文档，近似取平均段长度比较合适。,对于,Similarity function,，使用高斯核能得到最好效果，指示函数能够得到与高斯核相近的结果，余弦相似度稍微差点，点积与前三者差距较大。,对于指示函数相似度，,Kernel Size,对模型效果影响不大；对于高斯核相似度，一个合适大小的,Kernel Size,能取得更好的结果。,47,DRMM,(Deep Relevance Matching Model),Guo etc.,CIKM 2016,背景与基本思想：,现有的基于,DNN,的检索模型将检索任务视为两段文本的匹配任务，更多地关注语义匹配,(Semantic Matching),，即所谓软匹配,；,相比普通的文本匹配任务，检索任务更需要关注相关性匹配,(Relevance Matching);,通过显式地对精确匹配信号,(Exact Matching Signals),，查询词重要度,(Query Term Importance),，以及多样匹配要求,(Diverse Matching Requirement),进行建模，得到的模型更加适合于检索任务,48,基本算法步骤,构建查询,(q),文档,(d),相似度矩阵,对每一行（即每一个查询词）统计矩阵中相似度数值的分布区间计数（,Count,）,取,0,0.1,0.2,1.011,个点，对应不同强度的匹配信号,Count,取对数,(LCH),，然后输入到前馈网络,每个查询词对应一个前馈网络,Softmax(,前馈网络输出评分*,IDF),，线性加和得到文档最终评分,49,模型结构,给定查询,q,和文档,d,，对于,q,中的每一个词，计算其与,d,中每个词余弦相似度，统计落在给定各个区间的数目，将得到的向量输入到一个,MLP,网络，得到,d,关于该查询词的评分，最后将,d,关于,q,中各个词的评分线性加权得到,d,的相关性评分。各个查询词的权重由一个,Softmax,结构给出，输入为查询词的词向量或者逆文档频率。,DRMM,模型结构,来源：,Guo etc.,CIKM 2016,50,实验设置,与,baseline,比较：,QL,，,BM25,，,DSSM,，,CDSSM,，,ARC-I,，,ARC-II,，,MatchPyramid,余弦相似度计数变换方式与查询词权重计算方式对模型的影响：直接使用计数,(CH),，除以总数,(NH),，取对数,(LCH),；输入查询词向量,(TV),，输入查询词逆文档频率,(IDF),实验结果,51,实验设置,与,baseline,比较：,QL,，,BM25,，,DSSM,，,CDSSM,，,ARC-I,，,ARC-II,，,MatchPyramid,余弦相似度计数变换方式与查询词权重计算方式对模型的影响：直接使用计数,(CH),，除以总数,(NH),，取对数,(LCH),；输入查询词向量,(TV),，输入查询词逆文档频率,(IDF),实验结果,52,DRMM,实验结论,DRMM,的效果优于所有,baselines,，包括传统检索模型,QL,和,BM25,，是第一个能够取得比传统检索模型更好效果的基于,DNN,的检索模型,但是传统模型并未使用诸如,PRF,的重排策略,基于,LCH,和,IDF,的模型效果最好,LCH,：匹配信号的,Count,取,Log,IDF,：,Term Gating,线性加权权重,某种程度上借鉴了传统模型的,TFIDF,结构,53,Duet,Mitra etc.,背景与基本思想：,现有的许多模型学习文本的分布式表示,(Distributed Representation),，然后在潜在语义空间对查询和文档进行匹配；,传统检索模型中词通常离散的或者说局部的表示，对于给定查询，文档是否相关通常由查询词的精确匹配,(Exact Matching),来决定,;,本文假定以上两种方式是互补的，通过对这两种方式进行结合，期望能得更好的效果。,54,模型结构,模型由两部分组成：局部模型,(local model),以及分布式模型,(distributed model),。局部模型输入为查询与文档的单词,-,单词相似度矩阵，相似度由单词,one-hot,表示的余弦值衡量，经过,CNN,层、全连接层和,Dropout,层，最终输出一个标量评分；分布式模型输入为查询和文档的,n-graph,表示，它们的,n-graph,表示各自经过,CNN,层或全链接层，得到中间表示，然后对它们的中间表示求,Hadamard Product,得到一个矩阵，此矩阵经过全连接层和,Dropout,层，也输出一个标量评分。最终局部模型和分布式模型输出的评分求和得到最终的评分。,来源：,Mitra etc.,55,Duet,实验设置,与,baselines,的比较：,LSA,，,BM25,，,DM,，,QL,，,DRRM,，,DSSM,，,CDSSM,，,DESM,Duet,模型与,Local Model,与,Distributed Model,的比较,使用人工判定的不相关文档训练与使用随机采样作为不相关文档训练对比,实验结果,56,Duet,实验结果,实验结论,Duet,组合模型要比单独的,Local,模型以及,Distributed,模型的效果好，说明精确匹配与潜在空间的匹配的确是互补的。,使用人工判定的不相关文档训练要比使用随机采样不相关文档训练的效果好,57,K-NRM(Kernel-based Neural Relevance Model),Xiong etc.,SIGIR 2017,背景与基本思想：,现有的基于分布式表示,(distributed representations),的文档排序方法还很少取得成功；,查询词与文档词的精确匹配是一种强相关信号，然而软匹配,(soft-match),也是一种不可忽视的弱相关信号；,本文使用查询词与文档词的分布式表示相似度,(,如词向量余弦相似度,),来构建翻译矩阵,(translation matrix),，一种新的,kernel-pooling,技术用来提取多层次的软匹配,(soft-match),特征，这些软匹配特征可以输入,learning-to-rank,层获取最终排序评分。,58,模型结构,Embedding Layer,将单词映射为其分布式表示；查询词与文档词之间的相似度构成,Translation Matrix,；将,K,个核作用于每个查询词对应的,Translation Matrix,的一行，得到每个查询词对应的,K,维软匹配特征，求和得到最终的,Ranking Features,；一个,Learning-to-rank,层作用于最终的特征得到最终的排序评分。,使用,RBF,核函数将矩阵每一行转化为一个对数评分,Soft-TF,取,=0,0.1,0.2,1.011,个点，对应不同强度的匹配信号,59,实验设置,与,baselines,比较：,LM,，,BM25,，,RankSVM,，,Coor-Ascent,，,Trans,，,DRMM,，,CDSSM,3,中不同的,Test Labels,：与,Training Labels,使用相同的模型,(Testing-Same),；与,Training Labels,使用不同的模型,(Testing-DIFF),；直接使用用户点击,(Testing-RAW),Sougo,数据实验结果,60,实验设置,与,baselines,比较：,LM,，,BM25,，,RankSVM,，,Coor-Ascent,，,Trans,，,DRMM,，,CDSSM,3,中不同的,Test Labels,：与,Training Labels,使用相同的模型,(Testing-Same),；与,Training Labels,使用不同的模型,(Testing-DIFF),；直接使用用户点击,(Testing-RAW),实验结果,模型结构,61,实验设置,与,baselines,比较：,LM,，,BM25,，,RankSVM,，,Coor-Ascent,，,Trans,，,DRMM,，,CDSSM,3,中不同的,Test Labels,：与,Training Labels,使用相同的模型,(Testing-Same),；与,Training Labels,使用不同的模型,(Testing-DIFF),；直接使用用户点击,(Testing-RAW),实验结果,模型结构,62,实验设置,与,baselines,比较：,LM,，,BM25,，,RankSVM,，,Coor-Ascent,，,Trans,，,DRMM,，,CDSSM,3,中不同的,Test Labels,：与,Training Labels,使用相同的模型,(Testing-Same),；与,Training Labels,使用不同的模型,(Testing-DIFF),；直接使用用户点击,(Testing-RAW),实验结果,63,K-NRM,：,结论,是一个,End-to-end,的,NIR model,，没有使用,IDF/TF,等,handcraft,权重,/,特征,使用,3,种不同的,Test Labels,设置，相比所有,baselines,，,K-NRM,均能取得显著提高,Testing-DIFF,的结果表明了,K-NRM,模型的鲁棒性；,MRR,以及,NDCG1,的结果表明,K-NRM,擅长靠前位置的文档的排序,软匹配,(soft match),是模型有效的最基本条件；基于,kernel,的词向量能够得到更好的软匹配特征,64,PACRR,(Position Aware Convolutional Recurrent Relevance Model),Hui etc.,EMNLP 2017,背景与基本思想：,现有基于,DNN,的检索模型主要基于,unigram,单词匹配，对于位置相关的匹配信息,(,如,term proximity,和,term dependencies),的建模还没有充分的研究,；,本文通过将具有不同大小,(k=2,lg),卷积核的卷积层作用于查询与文档间的单词,-,单词相似度矩阵，来对,k-gram,匹配信息进行建模。,65,模型结构,首先，计算查询与文档之间的单词,-,单词相似度矩阵,sim,|q|x|d|,，并通过裁剪或者补齐等方式得到固定大小的矩阵,sim,lqxld,；对于核大小为,k x k(k=2,lg),的卷积层，用,n,f,个卷积核作用于矩阵,sim,lqxld,并对卷积核维度进行,max pooling,，得到与,sim,lqxld,形状相同的矩阵；之后，对文档维度进行,n,s,-max pooling,，并将不同的,k,值对应的结果以及查询词的,IDF,信息以查询词为基准连接起来；最后将查询词向量送入,RNN,得到最终评分。,PACRR,模型结构,来源：,Hui etc.,EMNLP 2017,作者后续研究表明使用,前馈网络结果更好,66,PACRR,实验设置,与,baselines,比较：,MatchPyramid,，,DRMM,，,DUETL,，,K-NRM,相似度矩阵,sim,|q|x|d|,调整方式对比：裁剪或补,0(PACRR-firstk),，选取与查询具有较高相似度的文本段,(PACRR-kwindow),3,组实验：重排,QL,检索结果,(RERANKSIMPLE),，重排,6,年所有的提交,TREC runs,(RERANKALL),，文档对相关性预测,(PAIRACCURACY),实验结果,67,PACRR,68,PACRR,实验结果,结论,实验结果优于已有的,NIR,模型,使用卷积核学习,k-gram,相关度匹配特征是一种有效的方法,未与传统的,n-gram,模型进行对比,69,总结与展望,基于,DNN,的检索模型的研究虽然目前取得了一定的成果，但还有许多问题没有解决,尚未得到明显优于传统模型的结果：,NIR,模型本质上是一个重排算法，而大多论文工作并未对,baseline,重排（例如利用伪相关反馈算法）,通过,CNN,等“学习”到的特征,Vs,基于信息理论进行概率估计得到的特征,是否有本质区别？,和传统模型主要区别来自于,Word2Vec,产生的词向量表示,使用,NIR,模型对初始检索结果重排可以得到更好的结果，单独使用难以得到可靠的理想的结果，且存在效率问题,目前,DNN,在信息检索上的应用已成为一个研究热点，在大数据的支持下，,DNN,可望大幅提高信息检索应用的效果,但是还有待一个“王炸”级别的,Neural IR Model,出现,70,参考,资料,MatchPyramid Liang Pang,Yanyan Lan,Jiafeng Guo,Jun Xu,Xueqi Cheng:A Study of MatchPyramid Models on Ad-hoc Retrieval.CoRR abs/1606.04648(2016),DRMM Jiafeng Guo,Yixing Fan,Qingyao Ai,W.Bruce Croft:A Deep Relevance Matching Model for Ad-hoc Retrieval.CIKM 2016:55-64,DUET Bhaskar Mitra,Fernando Diaz,Nick Craswell:Learning to Match using Local and Distributed Representations of Text for Web Search.:1291-1299,K-NRM Chenyan Xiong,Zhuyun Dai,Jamie Callan,Zhiyuan Liu,Russell Power:,End-to-End Neural Ad-hoc Ranking with Kernel Pooling.SIGIR 2017:55-64,PACRR Hui K,Yates A,Berberich K,et al.PACRR:A Position-Aware Neural IR Model for Relevance Matching.EMNLP 2017:1060-1069.,71,

展开阅读全文