收藏 分销(赏)

信息检索的模型.pptx

上传人:人****来 文档编号:4526330 上传时间:2024-09-26 格式:PPTX 页数:18 大小:900.08KB
下载 相关 举报
信息检索的模型.pptx_第1页
第1页 / 共18页
信息检索的模型.pptx_第2页
第2页 / 共18页
点击查看更多>>
资源描述
1一篇文档document简称 d包含好词term简称 t文档d与词汇t2文档和词汇的对应关系一篇文档d包含多个词汇t一个词汇t出现在多个文档d里。3456四个文档向量Vector:向量。D1(2,2,0,3,0,0,0)D2(0,4,6,8,0,0,0)D3(0,0,0,1,2,3,0)D4(0,0,0,0,0,0,2)7在文档d中,词汇t的分量D1(2,2,0,3,0,0,0)?一个词对一篇文档来说,它的重要程度如何评判?8词t在文档d的重要性类比:一篮子水果。词t:水果文档d:篮子词对文档的重要性某类水果对篮子的重要性9 5个草莓1个草莓单价:1元草莓 对 这个篮子的重要性为:5x1=5只考虑个数合适吗?草莓的价值怎么评判?10词t在d中出现的次数:水果的个数词的单价:水果的单价词频:term frequency tf词的单价怎么计算?物以稀为贵词越稀有,词价格越高。词蕴含的信息量越大。词t对文档d的重要性?11给定信息x,如果它能命中1/2的文档就说X 的信息量为 1信息量12词的单价如何计算?13W=词频x词的单价 =词频x词的信息量 =词频x词的权重就可以计算了14原始最终15Q:(1,2,0)D1 (1,1,0)D2 (3,1,0)D3 (0,3,1)举例-如何计算:Q和D的相似度sim()16Sim(D,Q)=cos=1.权重W=17 2.计算Q与各个D的夹角的余弦值。3.按余弦值由大到小排序。这个模型叫:VSM向量空间模型 salton发明的Vector Space ModelLucene 一个实现了VSM的开源软件工具包Java语言.net 版本搭建【文档、网页、资料】信息检索系统。
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传
相似文档                                   自信AI助手自信AI助手

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4009-655-100  投诉/维权电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服