资源描述
3.2因特网信息资源检索因特网信息资源检索一、因特网信息检索方法一、因特网信息检索方法v基于超文本/超媒体的信息浏览 通过一个网站中的链接去访问另外一个信息资源通过一个网站中的链接去访问另外一个信息资源v基于目录服务的信息查询(目录式搜索)v基于搜索引擎的信息检索(全文搜索)(全文搜索)因特网上的信息检索方法因特网上的信息检索方法基于超文本基于超文本/超媒体的信息浏览超媒体的信息浏览基于目录服务的信息查询基于目录服务的信息查询基于搜索引擎的信息检索基于搜索引擎的信息检索搜索引擎是什么搜索引擎是什么?vA.网页 B.网站 C.一组程序一组程序 D.access二、搜索引擎的发展与分类1、产生为了解决信息分散存储、数量多、冗余度大等问题,产生了专业信息搜索的公司和搜索网站最早的搜索引擎出现于1994年4月,美籍华人杨致远和一个美国人共同创办了超级目录索引雅虎1994年起搜索引擎发展举例年起搜索引擎发展举例产生时间产生时间搜索工具搜索工具开发组或公司开发组或公司网站特点网站特点1994.4Yahoo斯坦福大学斯坦福大学早期早期Yahoo数据是手工输入数据是手工输入1995.12AltavistaDEC公司公司第一个支持自然语言关键词和第一个支持自然语言关键词和高级检索的引擎高级检索的引擎1997.10北大天网北大天网北大计算机研究室北大计算机研究室收录网页约收录网页约6000万万,有强大的有强大的FTP搜索功能搜索功能1998.9Google斯坦福大学斯坦福大学提供网页评级动态摘要、网页提供网页评级动态摘要、网页快照,每天更新、多文档格式快照,每天更新、多文档格式支持支持2001.8Baidu百度公司百度公司快照、预览、相关词搜索、快照、预览、相关词搜索、mp3、flash搜索功能搜索功能2、搜索引擎的分类、搜索引擎的分类类型定义举例目录搜索通过人工整理分类,网络信息资源按照主题分类,并以层次树状形式进行组织,形成分类目录树。Eg:雅虎、新浪选择选择“教教育育”类目类目 按目录类别查找搜索按目录类别查找搜索:比如比如:查高考资料查高考资料没找到没找到“高考高考”,就找比,就找比“教育教育”跟接近跟接近“高考高考”的的“中小学教中小学教育育”找到啦找到啦!优点:实实在在找到用户所关心内容分类,网站实实在在找到用户所关心内容分类,网站导航质量高。导航质量高。缺点:分类不够细,需要人工介入,目录的维护分类不够细,需要人工介入,目录的维护量大,量大,更新可能不够及时。更新可能不够及时。目录式搜索引擎的特点2、搜索引擎的分类、搜索引擎的分类类型定义举例全文搜索使用关键词到预先建好的或租用其它索引数据库查询信息的一类搜索引擎.Eg:goole、百度全文搜索引擎全文搜索引擎输入关键字输入关键字查询信息排序查询信息排序索引索引 数据库数据库用户查询用户查询查询结果查询结果检索检索搜索搜索 按关键词语查找搜索按关键词语查找搜索:注意啦,要先注意啦,要先在这里输入关在这里输入关键字!键字!现在可以按现在可以按“搜索搜索”按钮了按钮了点击我就可以点击我就可以进入进入“高考高考”有关内容了!有关内容了!全文搜索引擎的特点全文搜索引擎的特点优点:信息量大、更新较及时、不需人工干预。信息量大、更新较及时、不需人工干预。缺点:返回信息过多,有很多无关信息。返回信息过多,有很多无关信息。类型定义举例元搜索引擎元搜索引擎就是通过一个统一的用户界面向多个搜索引擎同时递交用户查询,返回结果去重合并,综合结果返回给用户.优点:结果精确、全面,汇聚各大搜索引擎的结果。结果精确、全面,汇聚各大搜索引擎的结果。缺点:检索速度较慢、牺牲个别搜索引擎性能,并非检索速度较慢、牺牲个别搜索引擎性能,并非1+1=2注意的问题注意的问题v搜索引擎是因特网上信息检索的软件系统。搜索引擎是因特网上信息检索的软件系统。v搜索引擎并不真正搜索互联网,它搜索的实际上搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。是预先整理好的网页索引数据库。v 搜索引擎,也不能真正理解网页上的内容,它只搜索引擎,也不能真正理解网页上的内容,它只能机械的匹配网页上的文字。能机械的匹配网页上的文字。元搜索引擎示意图元搜索引擎示意图特色信息检索工具特色信息检索工具v这类检索工具专门收集某一类的信息资源。v例:MIDI文件检索工具特色信息检索工具特色信息检索工具v地图检索其他信息检索工具其他信息检索工具v以FTP、Telnet、Usenet等资源为检索对象。搜索引擎搜索引擎分类分类检索方检索方法法 优点优点缺点缺点举例举例全文全文搜索引擎搜索引擎目录式目录式搜索引擎搜索引擎元元搜索引擎搜索引擎其他非主其他非主流类型搜流类型搜索引擎举索引擎举例例 需要关键需要关键词查询词查询信息量大(面向具体信息量大(面向具体网页内容)、更新及网页内容)、更新及时,不需要人工干预时,不需要人工干预返回信息量过多,返回信息量过多,包含许多无关信包含许多无关信息息按目录浏按目录浏览主题和览主题和主题相关主题相关的内容的内容实实在在找到用户实实在在找到用户关心的内容分类关心的内容分类(面向网站分类),(面向网站分类),网站导航质量高,网站导航质量高,分类不够细,分类不够细,分类目录的建立分类目录的建立需要人工介入,需要人工介入,目录维护量大,目录维护量大,信息更新不及时信息更新不及时需要关键需要关键词查询词查询向多个搜索引擎提向多个搜索引擎提交查询,返回经过交查询,返回经过去重并重新排序的去重并重新排序的综合结果综合结果时间稍长(实际时间稍长(实际效果不太理想)效果不太理想)GoogleGoogle、百度、百度雅虎雅虎Meta-FisherMeta-Fisher信息检索代理、特种搜索引擎信息检索代理、特种搜索引擎 分别用目录式搜索引擎、全文搜索引擎、元搜索引擎搜索,并分别用目录式搜索引擎、全文搜索引擎、元搜索引擎搜索,并填写下表中的信息进行比较填写下表中的信息进行比较搜索内容搜索内容搜索引擎名称搜索引擎名称搜索时间搜索时间搜索数量搜索数量环境保护环境保护上海世上海世博会博会动动手动动手目录式搜索引擎目录式搜索引擎:http:/http:/全文搜索引擎全文搜索引擎:http:/http:/元搜索引擎元搜索引擎:http:/http:/参参考考资资源源3、搜索引擎技术的发展(1)提高搜索引擎对用户检索提问的理解(2)对检索结果做进一步的处理(3)确定搜索引擎信息搜索范围,提高搜索引擎的针对性v全文搜索引擎的工作过程是什么?三、搜索引擎的工作过程三、搜索引擎的工作过程 从互联网上从互联网上“抓取抓取”网页网页建立索引数据库建立索引数据库 在索引数据库中搜索排序在索引数据库中搜索排序用户接口:查询和响应用户接口:查询和响应四、网上信息检索技巧v1 1、使用空格、使用空格输入更多的关键词,只要在关键词中间留空格,这相当于多个关键词之间的关系是逻辑“与”.练习1,查找“出门在外”的歌曲 2、使用减号、使用减号.要避免搜索某个词语,可以在这个词前面加上一个减号(“-”,英文字符).但在减号之前必须留一空格.如要了解搜索引擎历史,可以这样输入关键字:搜索引擎宗教-佛教-基督教v3、添加英文双引号、添加英文双引号.双引号中的词语在查询到的文档中将作为一个整体出现.这一方法在查找名言警句或专有名词时显得格外有用.练习2,请你比较应用下面两组关键词的搜索结果有什么不同1、理科的学习方法2、“理科的学习方法”v4、查找特定格式的文件、查找特定格式的文件.Google可以直接搜索13种非HTML文件.其中包括Flash的swf文档,MicrosoftOffice的(doc,ppt,xls,rtf),pdf和其它类型文档.格式是:关键词filetype:类型名.(梅花三弄filetype:swf)v5、标题搜索、标题搜索.当我们需要搜索一篇关于某个主题的文章时,可以用以下的关键字:“intitle:关键字”.如“intitle:南瓜饼”对比“intitle:南瓜饼”和“南瓜饼”的查找结果6、网页快照、网页快照.Google在访问网站时,会将看过的网页复制一份网页快照,以备在找不到原来的网页时使用.课堂总结课堂总结v这节课我们学习了两大知识点:一是信息检索的方法;二是三大搜索引擎特点及工作原理,这一部分是我们这节课的重点,也是难点,只有你真正理解了它们工作的原理,我们才会真正能够根据不同查询要求,综合并灵活使用各种检索工具,准确、高效地获取我们所需要的信息,这也是我们课标所要求的。
展开阅读全文