ImageVerifierCode 换一换
格式:DOC , 页数:4 ,大小:37.50KB ,
资源ID:6514225      下载积分:10 金币
快捷注册下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/6514225.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

开通VIP折扣优惠下载文档

            查看会员权益                  [ 下载后找不到文档?]

填表反馈(24小时):  下载求助     关注领币    退款申请

开具发票请登录PC端进行申请

   平台协调中心        【在线客服】        免费申请共赢上传

权利声明

1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:0574-28810668;投诉电话:18658249818。

注意事项

本文(Web搜索技术.doc)为本站上传会员【xrp****65】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4009-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

Web搜索技术.doc

1、 Web搜索引擎简述 ——多媒体技术教程 XXX 数媒1002 201026810713 2012年5月23日 Web搜索引擎简述 一. web搜索引擎简介 随着Internet的蓬勃发展,建立在Web超媒体上的各类应用层出不穷,但最为成功的也是应用最为广泛的莫过于搜索应用了。Web搜索技术起源于对Web信息的标引。早期并没有搜索引擎的概念,对信息的检索主要通过人工发现,然后由专门的编辑人员对这些信息进行标引分类,并建立目录,供用户使用。Web搜索引擎已经成为人们从海量Web信息中快

2、速找到所需信息的重要工具,随着Web数据量的爆炸性增长,传统的集中式搜索引擎已经越来越不能满足人们不断增长的信息获取需求。Google的产生大大提升了Web搜索的地位,使搜索引擎成为了十分成功的产业。在中国则是百度。这些搜索引擎的产生,不仅改善了Internet的应用环境,更重要的是,它们创造了一个新的技术时代,即网络搜索的时代。 二. web搜索引擎的组成、原理和实现 搜索引擎有4大基本模块,其功能可概括为:采集模块(Web Crawlers)主要完成访问的Web服务器上Web页面的抓取;存储模块(Cache or Localstore)完成数据的本地存储,提供网页快照(snap—sh

3、ot)功能;索引模块(Indexer)分析页面并对页面建立可供检索模块引用的索引;检索模块(Searcher)是用户接I=I模块,负责接收用户的查询请求并提交给索引模块,对索引模块的输出结果进行排序等计算处理后提交给用户。各个模块设计的优劣都会对搜索引擎功能实现造成不同程度的影响,尤其是Web Crawlers模块和检索模块对搜索引擎资源覆盖率、查全率、更新率和查询速度、精确度有着更直接的影响。 web搜索引擎的原理通常为:首先是用蜘蛛(Spider)进行全网搜索,自动抓取网页;然后将抓取的网页进行索引,同时也会记录与检索有关的属性,中文搜索引擎中还需要首先对中文进行分词;最后,接受用户查询

4、请求,检索索引文件并按照各种参数进行复杂的计算,产生结果并返回给用户。 基于上面的原理,下面将简要介绍Web搜索引擎实现。 1. 利用网络蜘蛛获取网络资源。 这是一种半自动化的资源获取方式。所谓半自动化,是指搜索器需要人工指定起始网络资源url(Uniform Resource Locator),然后获取该url所指向的网络资源,并分析该资源所指向的其他资源并获取。 网络蜘蛛访问资源的过程,是对互联网上信息遍历的过程。在实际的蜘蛛程序中,为了保证信息收集的全面性,及时性,还有多个蜘蛛程序的分工和合作问题,往往有复杂的控制机制。如google的在利用蜘蛛程序获取网络资源时,是由一个认为管

5、理程序负责任务的分配和结果的处理,多个分布式的蜘蛛程序从管理程序活动任务,然后将获取的资源作为结果返回,并从新获得任务。 2. 利用索引器从搜索器获取的资源中抽取信息,并建立利于检索的索引表: 当用网络蜘蛛获取资源后,需要对这些进行加工过滤,去掉网控制代码及无用信息,提取出有用的信息,并把信息用一定的模型表示,使查询结果更为准确。Web上的信息一般表现为网页,对每个网页,须生成一个摘要,此摘要将显示在查询结果的页面中,告诉查询用户各网页的内容概要。模型化的信息将存放在临时数据库中,由于web数据的数据量极为庞大,为了提高检索效率,须按照一定规则建立索引。不同搜索引擎在建立索引时会考虑不同的

6、选项,如是否建立全文索引,是否过滤无用词汇,是否使用meta信息等。索引的建立包括:分析过程,处理文档中可能的错误;文档索引,完成分析的文档被编码进存储桶,有些搜索引擎还会使用并行索引;排序,将存储桶按照一定的规则排序,生产全文存储桶。最终形成的索引一般按照倒排文件的格式存放。 3. 检索及用户交互: 前面两部分属于搜索引擎的后台支持。本部分在前面信息索引库的基础上,接受用户查询请求,并到索引库检索相关内容,返回给用户。这部分的主要内容包括:用户查询(query)理解,即最大可能贴近的理解用户通过查询串想要表达的查询目的,并将用户查询转换化为后台检索使用的信息模型;根据用户查询的检索模型,

7、在索引库中检索出结果集;结果排序:通过特定的排序算法,对检索结果集进行排序。现在用的的排序因素一般有查询相关度,google发明的pagerank计术,baidu的竞价技术等。由于web数据的海量性和用户初始查询的模糊性,检索结果集一般很大,而用户一边不会有足够的耐性逐个查看所有的结果,所以怎样设计结果集的排序算法,把用户感兴趣的结果排在前面就十分重要。 三. Web搜索技术评估指标 传统的搜索引擎评估主要是针对3个方面:Speed(查询速度)即对用户查询到提交结果所用的时间;Precision(查准率)即首页中提交结果的精确度;Recall(查全率)即提交结果中包含权威页面(author

8、ity pages)或者分集页面(hub pages)的多少。 1 针对检索技术的评估 默认检索方式,即搜索引擎对关键词的组织方式;概念检索还是关键词检索;排除能力,即除去一些包含特殊词条的页面,在这些词条前面加一负号或者NOT逻辑符等;限定检索能力,即针对特定页面或范围检索的能力:检索范围,即是全文检索,还是特定范围或仅对检索词条在页面中某部分出现的检索;日期限定能力,即可对更新的或者新建立的页面的查询能力;针对短语的检索能力;嵌套检索能力,即支持圆括号对变量查询的重新拆分组合;多级检索能力,即在检索结果范围的子集内再检索的能力;敏感语义理解能力;语言种类检索能力;自然语言查询的支持,即

9、能不能用自然语言的方式提交查询。 2 针对搜索技术的评估 内容多少,即数据库的大小,包含链接数目或索引的数量;多种数据的搜索能力;特定搜索能力,可否针对特定主题信息搜索,或者针对特定类型信息搜索;搜索策略,即针对Web有向图的遍历方式,是广度优先还是深度优先,对优先序列的处理、权威页面和分集页面的处理、页面的分级排序等。 3 针对查询提交结果的评估 Web页面的排序方法,即Web页面的属性分析都考虑哪些因素;可否排序浏览,即提交的结果,用户可否针对某一属性如站点、日期等选项自定义的排序浏览;是否支持建议搜索,如除了本搜索引擎的结果,能否建议对其它不同的、专题的数据库的搜索;相似性的搜索

10、能不能针对与搜索条目相关性强的页面进行再搜索能力;语种切换功能,能不能在不同语言之间进行转换后再提交结果。 四. web搜索引擎的最新动态 当前,搜索引擎技术已经趋于成数,用户满意度也保持在一个可以接受的水平。在信息搜集技术,索引建立技术,检索技术和结果集排序技术方面,最近几年,除了google创造性的提出pagerank技术,并把他用于结果排序外,基本没有什么突破性的进展。而搜索引擎的研究与信息集成逐渐融合,在这方面的研究主要集中在两个方面:查询扩展(query expansion)和结果集的动态分类。 1. 查询扩展: 由于用户使用搜索引擎查找信息时,往往不能用搜索引擎提供的标准

11、准确的表述想要查找的东西,从而在基于用户查询请求到索引库检索前,需要进行查询扩展(query expansion)。查询扩展包括两个步骤:用新的关键词扩展初始查询串;对扩展后查询串里的关键词从新进行权重分配。查询扩展的方法分为三类:基于用户注册兴趣的方式;基于用户对结果集操作反馈信息的方式;基于搜索结果文档集全局信息的方式。这些方法分别通过不同的途径扩展用户初始查询,以期提高查询结果的用户贴近度。 2. 搜身结果的动态分类: 由于结果集通常十分庞大,因而如何组织结果集展现形式,方便用户快速的找到需要的信息就成为一个十分关键的问题。虽然通过改进页面排序算法,可以尽量使“重要”的页面出现在返回

12、结果的前面,但由于用户职业,兴趣,年龄等各方面的差异,很难让所有的用户都接受服务商给出的重要性顺序。另外,统计显示,用户一般不会在结果集中向后翻超过五页。所以将查询结果以一定的类别层次组织,让用户能方便的选择查看类别,可以很好的缩小结果集,从而使用户能更快的查找信息。 五. 小结 在搜索技术日益流行的今天,搜索引擎的发展速度越来越快,百度、谷歌已成为众所周知同时也是不可或缺的搜索引擎,这篇报告只是简略的介绍了一些Web搜索引擎的基础内容,例如它的原理和评估指标之类的,由于篇幅有限,所以诸如基于P2P的Web搜索技术等并没有进行介绍。通过这次报告让我了解了很多搜索引擎的内容,也让我了解到这项技术有很大的发展前景,所以对搜索技术的未来也充满了憧憬和期望。 参考文献: 1、《多媒体技术教程》,胡晓峰,人民邮电出版社。 2、《搜索引擎与信息获取技术》,徐宝文,张卫风;清华大学出版社。 3、Web搜索引擎评估技术研究,2008。 4、Web搜索引擎技术综述,2004。 5、Conceptual retrieval based on feature clustering of documents,Youjin Chang, Ikkyu Cho。 6、Modern information retrieval,Addison Wesley,1999。

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2026 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服