1、(二)Internet信息检索工具常用中文搜索引擎1.目标与任务了解搜索引擎概念与分类。熟悉搜索引擎语法规则,能快速准确查找所需内容。了解常用中文搜索引擎特性。2.1 搜索引擎概念与分类目标与任务 了解搜索引擎概念与分类。搜索引擎概念 搜索引擎分类 3.2 搜索引擎语法规则目标与任务熟悉搜索引擎语法规则,能快速准确查找所需内容。关键字用法使用逻辑操作符通配符和“+“+、-”-”连接号使用逗号、括号或引号进行词组查找 空格的使用特殊搜索 4.3 中文搜索引擎介绍 目标与任务 了解常用中文搜索引擎特性。雅虎中文 新浪网搜 狐百 度 GoogleGoogle 网 易 5.搜索引擎概念返回 简单地说,
2、搜索引擎是Internet上的一个网站,它的主要任务是在Internet上主动搜索Web服务器信息并将其自动索引,其索引内容存储于可供查询的大型数据库中。从而能够对用户提出的各种查询作出响应,为用户的检索起到信息导航的作用,并提供通向相干的网站的链接。为了满足大众信息检索的需要,各种搜索网站便应运而生了。随着互联网规模的急剧膨胀,搜索引擎提供的导航服务已成为Internet上非常重要的网络服务,搜索引擎站点被誉为“网络门户”,成为人们获取Internet信息资源的主要工具和手段,也几乎成了网络信息检索工具的代名词。6.网络资源的特点(与传统数据库相比)内容丰富,应有尽有。更新变化太快,不确定性
3、高。有待于规范化、标准化。(能规范化吗?)检索没有定式,没有标准答案。7.搜索引擎分类 搜索引擎如何分类呢?对于普通用户来说,Yahoo、搜狐是搜索引擎,Google、百度也是搜索引擎,没什么大的区别。其实从严格分类上说他们属于不同的种类,下面我们来了解一下。搜索引擎按照其工作方式主要可分为三种,分别是全文搜索引擎(Full Text Search Engine)、目录索引类搜索引擎(Search Index/Directory)和元搜索引擎(Meta Search Engine)。通俗的讲即分为:关键词搜索引擎 如百度、北大天网等。主题分类指南 如Yahoo!、国内的搜狐、新浪、网易国内的搜
4、狐、新浪、网易 搜索搜索等。等。元搜索引擎 中文元搜索引擎中具代表性的有中文元搜索引擎中具代表性的有搜星搜索搜星搜索返回8.合理应用检索技巧可实现缩小检索范围或扩大检索范围的目的,从而提高检索速度、查准率和查全率。网络信息资源检索技巧9.关键字用法 选择搜索关键词的原则是,首先确定你要达到的目标,在脑子里要形成一个比较清晰的概念,即我想要找的到底是什么?是资料性的文档?还是某种产品或服务?然后再分析这些信息都有些什么共性,以及区别于其他信息的特性,最后从这些方向性的概念中提炼出此类信息最具代表性的关键词。如果这一步做好了,往往就能迅速地定位你要找的信息,而且多数时候你根本不需要用到其他更复杂的
5、搜索技巧。另外搜索条件越具体,搜索引擎返回的结果就越精确,有时多输入一两个关键词效果就完全不同,这是搜索的基本技巧之一。比如你想找一首乐曲“孤独的牧羊人”,关键词应该是什么呢?是直接输入曲名吗?下面我们以不同的关键词为例,来看一下结果。10.(1)关键词为曲名:进入百度网站,在搜索栏输入“孤独的牧羊人”,单击“搜索”按钮。返回(2)关键词设为“乐曲孤独的牧羊人”:在百度网站的搜索栏输入“乐曲孤独的牧羊人”,单击“搜索”按钮。显然后者的结果更符合我们的需要。11.使用逻辑操作符 逻辑操作符通常是指布尔命令“AND”、“OR”、“NOT”等逻辑符号命令。搜索引擎基本上都支持附加逻辑命令查询,用好这
6、些命令符号可以大幅提高搜索精度,使我们日常搜索应用达到事半功倍的效果。12.采用逻辑操作符需要考虑优先级,查询的顺序将取决于优先级的高低。另外目前搜索引擎的趋势是默认匹配全部关键词搜索,即仅返回包含所有关键词的记录,即OROR相当于ANDAND,当然有时也有例外。返回13.使用逗号、括号或引号进行词组查找 在搜索引擎中还可以利用逗号、括号、引号进行词组查找。逗号的作用类似于OR,也是寻找那些至少包含一个指定关键词的文档。不同的是“越多越好”是它的原则。因此查询时找到的关键词越多,文档排列的位置越靠前。例如查询关键字是:“计算机,多媒体,Windows 2000”则查询时同时包含“计算机”、“多
7、媒体”和“Windows 2000”的文档将出现在前面。括号的作用和数学中的括号相似,可以用来使括在其中的操作符先起作用。例如:“(网址or网站)and(搜索or查询)”则实际查询时,关键词就是“网址搜索”,“网址查询”,或者是“网站搜索”,“网站查询”。引号的作用类似精确匹配,查询不仅要求网页中必须同时包含三个关键字,关键字的顺序也要求完全相同,并且它们必须还是连在一起的,所以带引号的查询范围更小一点。精确匹配搜索也是缩小搜索结果范围的有力工具,此外它还可用来达到某些其他方式无法完成的搜索任务。(注意:虽然现在一些搜索引擎已支持中文标点符号,但顾及到其他引擎,最好养成使用英文字符的习惯)14
8、.举例(1)在关键词中加入逗号,在雅虎网站的搜索栏输入“计算机,多媒体,windows2000”,单击“搜索”按钮,结果如图所示。含有三个关键词的最靠前。15.(2)在关键词中加入括号:在雅虎网站的搜索栏输入“(网址or网站)and(搜索or查询)”,单击“搜索”按钮,结果如图所示。16.返回(3)在关键词中加入引号:在雅虎网站的搜索栏输入“who am i”,单击“搜索”按钮,结果如图所示。17.空格的使用 在输入汉字作关键词的时候,空格将被认作特殊操作符,其作用与ANDAND一样。如:如果你输入关键词:“飞 机”去查询,由于中间有空格,会被认为是需要查出所有同时包含“飞”、“机”两个字的文
9、档,这个范围就要比“飞机”作关键词的查询结果大多了,更重要的是它偏离了本来的含义。所以关键词输入应为“飞机”。18.特殊搜索 除一般搜索功能外,各搜索引擎都提供一些特殊搜索命令及功能,以满足用户的一些特殊需求。比如:指定文档搜索、专业网站搜索、标题搜索、图形搜索等等。了解这些命令和功能,就可以大大的提高你的检索效率。这些特殊搜索命令及功能下面将结合不同搜索引擎简单介绍。19.Yahoo!(http:/)Yahoo!搜索引擎之王,最早的目录索引之一,也是目前最重要的搜索服务网站,在全部互联网搜索应用中所占份额高达35%左右。除主站(Mother Yahoo)外,还设有美国都会城市分站(Yahoo
10、 Cities,如芝加哥分站)、国别分站(如雅虎中国)和国际地区分站(如Yahoo Asia)。其数据库中的注册网站无论是在形式上还是内容上质量都非常高。Yahoo属于目录索引类搜索引擎,可以通过两种方式在上面查找信息,一是通常的关键词搜索,一是按分类目录逐层查找。以关键词搜索时,网站排列基于分类目录及网站信息与关键字串的相关程度。包含关键词的目录及该目录下的匹配网站排在最前面。以目录检索时,网站排列则按字母顺序。Yahoo现与Google合作,默认采用Google搜索引擎提供网页搜索。使用中文Yahoo!检索的方法是:如果你很清楚你要找的网站主题,你可以在检索栏内键入你想要找的关键字串,并按
11、 Search 键开始查找;或者按照Yahoo!的分类目录一级一级向下查找。另外,利用双引号可以查询完全符合关键字串的网站;在关键字前加 t:,搜寻引擎仅会查询网站名称;在关键字前加u:,搜寻引擎仅会查询网址(URLs);利用 可以限定关键字串一定要出现在结果中;利用 可以限定关键字串一定不要出现在结果中。返回返回返回返回20.新浪(http:/)新浪是全球范围内最大的华语门户网站之一。根据北京赛迪网信息技术有限公司和盖洛普咨询有限公司联合发布的中国互联网用户行为和态度研究(CIUA 2000)报告,新浪是国内网民最常访问的网站。新浪自己有独立的目录索引。共设15大类目录,10,000多个子目
12、录,收录网站达20余万,是规模最大的中文搜索引擎。采用百度搜索引擎技术,提供网站、中文网页、英文网页、新闻、软件、游戏等查询项目,并且支持中文域名。新浪的搜索规则是:默认综合搜索,涉及网站、网页、新闻等内容。网站搜索仅限于自身目录中的注册网站。网页搜索时,调用百度搜索引擎进行查询。具备相关搜索功能,如检索有“清华大学”的信息,会自动列出“北京大学”等其他院校的链接供查询。网站排名根据目录及网站信息与搜索条件的关联程度确定。返回返回返回返回21.22.搜狐(http:/)搜狐我国最著名的门户网站,也是我国最早提供搜索服务的站点。“出门靠地图,上网找搜狐”是国内很多网民熟悉的一句口头禅。搜狐站点的
13、全部内容采用人工分类,适合人们的思维习惯。互联网概念在国内的普及,搜狐功不可没。在2001年年初由CNAZ(中文网站评估认证网)举办的搜索引擎网络专项功能排名调查中,搜狐名列第一。搜狐设有独立的目录索引,并采用百度搜索引擎技术,提供网站、网页、类目、新闻、黄页、中文网址、软件等多项搜索选择。搜狐搜索范围以中文网站为主,支持中文域名。搜狐的搜索规则:网站搜索(默认搜索设置)时,范围仅限于自身目录中的注册网站。但在目录中没有相应记录的情况下,自动转为网页搜索。网页搜索时则调用百度进行检索。此外,用户还可以选择“综合”搜索同时查找匹配的网站和网页,返回的结果中网站链接显示在页面上半部,而来自百度搜索
14、引擎的网页结果则列于页面下半部。返回返回返回返回23.24.百度公司(B,Inc)于1999年底成立于美国硅谷。2000年1月,百度公司在中国成立了它的全资子公司百度网络技术(北京)有限公司,随后于同年10月成立了深圳分公司,2001年6月又成立了上海办事处。百度是国内最大的商业化全文搜索引擎,占国内80%左右的市场份额。其功能完备,搜索精度高,除数据库的规模及部分特殊搜索功能外,其他方面可与当前的搜索引擎业界领军人物Google相媲美,在中文搜索支持方面有些地方甚至超过了Google,是目前国内技术水平最高的搜索引擎。为包括搜狐、雅虎中国、T、21CN、广州视窗等搜索引擎,以及中央电视台、外
15、经贸部等机构提供后台数据搜索支持。百度目前主要提供中文(简/繁体)网页搜索服务。如无限定,默认以关键词精确匹配方式搜索。此外还提供关键词分类搜索,即将常用关键词进行组合分类,方便用户直接查找有关资料。在搜索结果页面,百度还设置了关联搜索功能,方便访问者查询与输入关键词有关的其他方面的信息。提供“百度快照”查询。其他搜索功能包括新闻搜索、MP3搜索、Flash搜索等。返回返回返回返回“百度”(http:/ 基本搜索百度搜索引擎简单方便。仅需输入查询内容并敲一下回车键(Enter),即可得到相关资料。或者输入查询内容后,用鼠标点击“百度搜索”按钮,也可得到相关资料。输入的查询内容可以是一个词语、多
16、个词语、一句话。例如:可以输入李白、mp3下载、蓦然回首,那人却在,灯火阑珊处。百度搜索引擎严谨认真,要求“一字不差”。例如:分别搜索舒淇和舒琪,会得到不同的结果。输入多个词语搜索 输入多个词语搜索(不同字词之间用一个空格隔开),可以获得更精确的搜索结果。例如:想了解北京暂住证相关信息,在搜索框中输入:北京暂住证,获得的搜索效果会比输入北京暂住证得到的结果更好。在百度查询时不需要使用符号AND或+,百度会在多个以空格隔开的词语之间自动添加+。百度提供符合您全部查询条件的资料,并把最相关的网页排在前列。26.减除无关资料 有时候,排除含有某些词语的资料有利于缩小查询范围。百度支持“-”功能,用于
17、有目的地删除某些无关网页,但减号之前必须留一空格。例如,要搜寻关于“武侠小说”,但不含“古龙”的资料,可使用如下查询:武侠小说 古龙。并行搜索 使用“A|B”来搜索“或者包含词语A,或者包含词语B”的网页。例如:要查询“图片”或“写真”相关资料,无须分两次查询,只要输入 图片|写真 搜索即可。百度会提供跟“|”前后任何字词相关的资料,并把最相关的网页排在前列。相关检索 如果无法确定输入什么词语才能找到满意的资料,可以试用百度相关检索。用户可以先输入一个简单词语搜索,然后,百度搜索引擎会提供“其它用户搜索过的相关搜索词语”作参考,点击其中一个相关搜索词,都能得到那个相关搜索词的搜索结果。百度快照
18、 百度搜索引擎已先预览各网站,拍下网页的快照,为用户贮存大量的应急网页。点击每条搜索结果后的“百度快照”,可查看该网页的快照内容。百度快照不仅下载速度极快,而且您搜索用的词语均已用不同颜色在网页中标明。原网页随时可能更新,跟百度快照内容不同,请注意查看新版。百度和网页作者无关,不对网页的内容负责。27.特殊搜索在指定网站内搜索在一个网址前加“site:”,可以限制只搜索某个具体网站、网站频道、或某域名内的网页。例如,在著名的软件下载站找软件由于网站质量参差不齐,下载速度也快慢不一。如果我们积累了一些好用的下载站(如天空网,华军网,电脑之家等),就可以用site语法把搜索范围局限在这些网站内,以
19、提高搜索效率。例:网际快车site:在标题中搜索在一个或几个关键词前加“intitle:”,可以限制只搜索网页标题中含有这些关键词的网页。例如,市场消费需求intitle:调查报告专业文档搜索:在普通的查询词后面,加一个“filetype:”实现对文档类型限定。如:DOC、XLS、PPT、PDF、RTF、ALL。也可以通过百度文档搜索界面(http:/),直接使用专业文档搜索功能。例:28.Google(www.G)Google(www.G)Google成立于1997年,在短短几年间迅速发展成为目前规模最大的搜索引擎,并向Yahoo、AOL等其他目录索引和搜索引擎提供后台网页查询服务。目前Go
20、ogle每天处理的搜索请求已达2.2亿次!而且这一数字还在不断增长。Google数据库存有30亿个Web文件。GoogleGoogle支支持持中中文文搜搜索索,其其中中文文搜搜索索引引擎擎是是收收集集亚亚洲洲网网站站最最多多的的搜搜索索引引擎擎之之一一,并并成成为为它它藉藉此此拓拓展展全全球球信信息息市市场场的的重重要要基基础础。虽虽然然GoogleGoogle非非中中国国本本土土公公司司,但但在在国国内内,使使用用它它的的独独立立搜搜索索引引擎擎的的人人数数正正迅迅猛猛增增长长,其其搜搜索索引引擎擎技技术术还还受受到到了了中中文文雅雅虎虎、网易等知名门户网站的亲睐,采用了其中文互联网服务。网
21、易等知名门户网站的亲睐,采用了其中文互联网服务。下下图图是是GoogleGoogle(http:/http:/)的的主主页页,它它非非常常简简洁洁,GoogleGoogle标标示示下下面面排排列列了了四四大大功功能能模模块块:网网站站、图图像像、新新闻闻群群组组和和网网页页目目录录服服务务。主主页页默默认认是是网网站站搜搜索索。功功能能模模块块以以下下为为检检索索输输入入框框,可可限限定定所所搜搜索索范范围围为为:搜搜索索所所有有网网站站、搜搜索索所所有有中中文文网页或搜索中文网页或搜索中文(简体简体)网页,并提供高级搜索、使用偏好、语言工具三种设定功能网页,并提供高级搜索、使用偏好、语言工具
22、三种设定功能 返回返回返回返回29.(1)Google(1)Google的搜索功能Google查询简洁方便,仅需输入查询内容并敲一下回车键(Enter),或单击“Google 搜索”按钮即可得到相关资料。Google提供如下一些搜索功能:自动使用“and”“and”进行查询 Google 只会返回那些符合您的全部查询条件的网页。不需要在关键词之间加上“and”或“+”。如果您想缩小搜索范围,只需输入更多的关键词,只要在关键词中间留空格就行。忽略词 Google 会忽略最常用的词和字符,这些词和字符称为忽略词。Google 自动忽略“http”,“.com”和“的”等字符以及数字和单字,这类字词
23、不仅无助于缩小查询范围,而且会大大降低搜索速度。使用英文双引号可将这些忽略词强加于搜索项,例如:输入“柳堡的故事”时,加上英文双引号会使“的”强加于搜索项中30.简繁转换 Google运用智能型汉字简繁自动转换系统,为您找到更多相关信息。这个系统不是简单的字符变换,而是简体和繁体文本之间的“翻译”转换。例如简体的“计算机”会对应于繁体的“电脑”。当您搜索所有中文网页时,Google会对搜索项进行简繁转换后,同时检索简体和繁体网页。并将搜索结果的标题和摘要转换成和搜索项的同一文本,便您阅读。不支持“通配”检索 为提供最准确的资料,Google 不使用“词干法”,也不支持“通配符”(*)搜索。也就
24、是说,Google 只搜索与输入的关键词完全一样的字词。例如:搜索“googl”或“googl*”,不会得到类似“googler”或“googlin”的结果。不区分英文字母大小写 Google 搜索不区分英文字母大小写。所有的字母均当做小写处理。例如:搜索“google”、“GOOGLE”或“GoOgLe”,得到的结果都一样。31.短语搜索 在Google中,可以通过添加英文双引号来搜索短语。双引号中的词语(比如“likethis”和“伊拉克战争爆发”)在查询到的文档中将作为一个整体出现。这一方法在查找名言警句或专有名词时显得格外有用。一些字符可以作为短语连接符。Google将“-”、“”、“
25、.”、“=”和“.”等标点符号识别为短语连接符。指定网域有一些词后面加上冒号对Google有特殊的含义。其中有一个词是“site:”。要在某个特定的域或站点中进行搜索,可以在Google搜索框中输入“site:”。例如,要在Google站点上查找新闻,可以输入:新闻site:32.按类别搜索利用Google目录可以根据主题来缩小搜索范围。如:要搜索某一期刊,不直接输入期刊关键词,而先搜索“期刊”在某个类别的网页中搜索可以快速找到所需的网页,google是查找期刊文献的最好的网络搜索引擎之一。高级搜索通常,只需在范围较广的查询中添加词语就可以缩小搜索范围。不过对于某些特定要求的搜索,还可以使用G
26、oogle的高级搜索功能。点击Google主页中的“高级搜索”链接,即可进入“高级搜索”页面。利用Google的“高级搜索”,可以做到:将搜索范围限制在某个特定的网站中 排除某个特定网站的网页 将搜索限制于某种指定的语言 查找链接到某个指定网页的所有网页 查找与指定网页相关的网页33.网易 网易是国内著名的门户站点,也是最受欢迎的几个中文搜索引擎之一。网易提供了两种搜索方式:分类目录与关键字搜索。网易的分类目录功能比较强,所有目录是专为中国用户设计的,分类比较符合中国人的思维方式。网易将精选的中文站点分为18个大类,包括工商产业、娱乐休闲、医疗保健、政治军事、电脑网络、文学艺术等;每个大类下又
27、分为不同的小类,可以通过它们找到自己要访问的站点。此外,网易还提供了热门查询功能,可将一段时期内查询次数较多的词汇列出。但是,网易的关键字搜索功能比较薄弱,它只支持最简单的布尔表达式,并且很多关键字的搜索都会返回空项。返回返回返回返回34.搜索引擎中常见的错误错误1:错别字经常发生的一种错误是,你输入的关键词含有错别字。笔者所做的统计表明,常有大量的错误搜索,光一个谢霆锋就有“谢霆锋”、“谢庭锋”、“谢霆峰”、“谢廷锋”、“谢庭峰”、“谢廷峰”6种查法,还有什么“星际争吧”、“以德制国”之类的,这样的关键词能搜索到什么有用资料吗?所以每当你觉得某种内容网上应该有不少、却搜索不到结果时,你应该先
28、查一下是否有错别字。35.S2:搜索引擎中常见的错误错误2:关键词太常见如,搜索“电话”,有无数网站提供跟“电话”相关的信息,从网上黄页到电话零售商到个人电话号码都有。所以当搜索结果太多太乱的时候,你应该尝试使用更多的关键词或者减号来搜索,不使用过于通用的词汇来搜索,设计一个类似“上海 常用电话”这样特殊的搜索关键词,会给你真正有用的结果。36.S2:搜索引擎中常见的错误错误3:多义词的使用要小心使用多义词,比如搜索“Java”,你要找的信息究竟是太平洋上的一个岛、一种著名的咖啡、还是一种计算机语言?搜索引擎是不能理解辨别多义词的。最好的解决办法是,在搜索之前先问自己这个问题,然后用短语、用多
29、个关键词或者用其他的词语来代替多义词作为搜索关键词。比如用“爪哇 印尼”、“爪哇 咖啡”、“Java 语言”分别搜索可以满足不同的需求。37.S2:搜索引擎中常见的错误错误4:在不支持自然语言查询的搜索引擎中使用自然语言查询搜索失败的另一个常见原因是类似这样的搜索:“现代爱情故事歌词”、“信息早报在济南发行情况”、“铃羊车的各种图案”、“上海到成都列车时刻表”。应该这样搜索:“现代爱情故事 歌词”、“信息早报 济南 发行”、“铃羊车 图案”“上海 成都 列车 时刻表”。38.S2:搜索引擎中常见的错误错误5:在错误的地方搜索2001年7月23日这一天,正逢高考发榜,各大搜索引擎竟有超过100万次以上的搜索跟高考查分有关。考生们不知道,搜索引擎从抓取网页、解析、索引到提供检索是有一个周期的,各搜索引擎的信息滞后周期从一周到一月不等,所以找最新内容应该去看新闻,用搜索引擎是找不到最新内容,只能找到一个星期或一个月以前的内容。另外,搜索引擎对动态内容,如:论坛、数据库内容,以及带frame结构的网页检索能力较弱,所以这类信息也不适合用搜索引擎搜索,而是应该去相关的网站寻找,当然,寻找相关网站的任务搜索引擎是当仁不让的。39.只要我们还在使用网络,就肯定离不开搜索引擎。40.