1、信息检索检索 向量空间模型姓名陈严学号2220122685班级智能科学与技术1班一:算法描述 在文本挖掘、搜索引擎应用中,文本的特征表示是挖掘工作的基础,它对文本进行预处理,抽取代表其特征的元数据,这些特征可以用结构化的形式保存,作为文档的中间表示形式。向量空间模型(VectorSpaceModel)是近年来应用较多的文本特征表示方法之一,它是由GerardSlaton等人在1958年提出并发展起来的,是一个关于文献表示的统计模型,具有较强的可计算性和可操作性,已经被广泛地应用于文本检索、自动文摘、关键词自动提取、文本分类和搜索引擎等信息检索领域的各项应用中,并且取得了较好的效果。文献(doc
2、ument):泛指各种机器可读的记录,可指一篇文章或一个网页,也称为文档。项(term):亦称索引项,是用来标引被检索内容的关键词等。项的权重(termweight):对于有n个不同的项的系统,文献D=(t1,t2,tn),项tk(1kn)常常被赋予一个数值Wk,表示它在文献中的重要程度,称为项tk的权重。相似度(Similarity):指两个文档内容相关程度的大小。确定权重的方法是运用TF-IDF公式,即Wik=tfik/dfk=tfik*idfk,其中tf ik 为特征项Tk在文档Di中的出现频率,称为项频率; dfk则是文档集D中出现特征项Tk的文档的数量,称为文档频率; idfk为df
3、k的倒数,称为反转文档频率。相似度是一个函数,它给出两个向量之间的相似程度。常用的方法有:内积(Inner Product)、余弦(Cosine)。对于二值向量, 内积是查询式中的词项和文档中的词项相互匹配的数量;对于加权向量, 内积是查询式和文档中相互匹配的词项的权重乘积之和。余弦相似度计算两个向量的夹角,余弦相似度是利用向量长度对内积进行归一化的结果。二:数据描述建立10至15个文件,输入文档集,以供检索。三:算法参数文件、项的权重、tf ik、dfk、idfk、相似度四:实验流程1. 输入文档集;2. 计算词项的特征权重;3. 输入要查询的内容;4. 计算余弦相似度;5. 根据相似度排序,找出相似的文档。五:实验结果 实验生成result文件甲中的result.txt文件。六:实验总结向量模型是以假设向量空间的各维之间相互正交(即各关键字之间相互独立)为前提的,因而不可避免地存在由此带来的损失关键字间的相关性的缺点,可它把对文档内容和查询要求的处理简化为向量空间中向量的运算,克服了布尔模型的二值评价的缺点,可以计算出文档与查询式的相关程度,因而可以很容易地进行输出结果的排序,用户相关性反馈机制也很容易实现,尤其是具有对处理海量数据的适应性等种种优点使得它自诞生以来,至今都有很强的生命力。