收藏 分销(赏)

文献检索与利用教案2市公开课一等奖百校联赛特等奖课件.pptx

上传人:w****g 文档编号:3165771 上传时间:2024-06-23 格式:PPTX 页数:103 大小:11.15MB
下载 相关 举报
文献检索与利用教案2市公开课一等奖百校联赛特等奖课件.pptx_第1页
第1页 / 共103页
文献检索与利用教案2市公开课一等奖百校联赛特等奖课件.pptx_第2页
第2页 / 共103页
文献检索与利用教案2市公开课一等奖百校联赛特等奖课件.pptx_第3页
第3页 / 共103页
文献检索与利用教案2市公开课一等奖百校联赛特等奖课件.pptx_第4页
第4页 / 共103页
文献检索与利用教案2市公开课一等奖百校联赛特等奖课件.pptx_第5页
第5页 / 共103页
点击查看更多>>
资源描述

1、2 网络信息检索基础知识网络信息检索基础知识2.1 Internet 基础知识基础知识2.2 Internet提供主要服务提供主要服务2.3 长大网上图书馆长大网上图书馆2.4 网络信息检索基本技术网络信息检索基本技术2.5 计算机检索基本原理计算机检索基本原理2.6 检索效果评价指标检索效果评价指标(在第八章中讲述)第1页2.1 Internet 基础知识基础知识Internet又称因特网,也称国际互联网,又称因特网,也称国际互联网,是全球计算机和计算机网络经过统一是全球计算机和计算机网络经过统一网络通讯协议(网络通讯协议(TCP/IP协议)连接在协议)连接在一起集合,计算机用户能够经过共享

2、一起集合,计算机用户能够经过共享信息资源并互通信息。信息资源并互通信息。信息高速公路,它是由无数计算机经信息高速公路,它是由无数计算机经过通信设备相互连接而成信息通信网。过通信设备相互连接而成信息通信网。第2页2.1.1 Internet 发展历史发展历史1、ARPAnet诞生ARPAnet即美国国防部计算机网络,是Internet先驱。20世纪60年代末期,美国兰德企业等开始试验基于离散控制和信息包交换技术计算机网络。1968年美国国防部高级研究计划署(ARPA)开始资助这个研究项目并于1969年秋建成含有四个节点计算机网络-ARPAnet。2、NSFnet出现美国国家科学基金会(NSF)在

3、1985年资助建立了连接五大超级计算机网络计算机网络-NSFnet3、当代Internet产生20世纪90年代。第3页2.1.2 Internet在中国在中国我国Internet技术发展大致可分为三个阶段:第一个阶段第一个阶段为19871993年,一些科研部门开展了一些和Internet联网国际科技合作连接,开通了Internet国际电子邮件服务。第二个阶段第二个阶段从1994年开始,我国实现了和InternetTCP/IP连接,开通了Internet全功效服务,从而使Internet在国内得到迅猛发展。第4页第三阶段是以Internet商业化为标志。到止,国内已形成五大互联网络。(1)中国公

4、用计算机互联网(ChinaNET).由邮电部门经营管理,是我国规模最大,用户最多ISP(即Internet服务提供商)。(2)中国科技技术网(CSTNET).(3)中国教育和科研计算机网(CERNET)由原国家教委主持建设(1994年开始建设)和管理,网络中心设在清华大学,并在北京、上海、沈阳、广州、武汉、成都、南京、西安等八大城市设置了CERNET地域网络中心。(4)中国金桥信息网(ChinaGBN)是中国公用经济信息通信网。(5)中国联通公用计算机互联网(CNUNINET)是经国务院同意直接进行国际联网经营网络,其拨号接入号码为“165”。第5页2.1.3 Internet几个基本概念几个

5、基本概念1万维网(万维网(WWW)WWW是英文词组WorldWideWeb缩写,简称3W或Web,汉字名字叫万维网(万维网正是WanWeiWang汉语拼音缩写,而且是一万个自由度庞大坐标,恰好影射无所不在互联网,真是音形意兼备,这一汉字叫法太完美了)。WWW如同一本巨大书一样,也是由许多“页”组成,只不过这些“页”分布在世界各地我们称之为网站服务器上,这种页面称之为网页,普通习惯把这些网站首页称为主页。WWW把遍布全球信息资源以网页形式联络起来,这种联络被称为“超级链接”(Hyperlink).我们正是经过点击这些“超级链接”来访问网站信息。第6页2TCP/IP 为了确保不一样类型计算机能协调

6、工作,程序设计人员要使用标准协议编写程序。所谓协议(Protocol)就是一组规划,其技术术语描述怎样完成某件事情。TCP/IP是指一个完整数据通信协议集,它是一族协议(100多个协议)代名词。TCP/IP包含两个主要协议-传输控制协议TCP(TransmissionControlProtocol)和网际互联协议IP(InternetProtocol),是维系Internet基础,用于组织网络中和通信设备上信息传输与交换。第7页3.IP地址与域名地址与域名在Internet中数以千万计计算机设备连在一个计算机网络上,这些计算机在提供信息服务和通信时,是靠Internet域名系统(DNS)和计算

7、机IP地址来相互识别。第8页(1)IP地址地址为了使加入Internet计算机在通信时能够相互识别,网际互连IP协议要求每台正式入网计算机都要有一个唯一网络IP地址,这个地址由四节数字组成,每节数字取值范围从0到255,数字之间用点号“.”号隔开,这四节数字又可细分为两个部分,一部分代表计算机网络地址,另一部分代表网络中设备地址。任何正式加入Internet计算机都必须有一个全世界唯一IP地址,就像电话局安装电话必须有唯一电话号码一样。http:/10.203.1.13(图书馆)第9页接入Internet网络依据其规模大小可分为A、B、C三类。A类网络是大型网络,IP地址中第一节表示网络地址,

8、后三节表示网内主机地址,每个A类网络可容纳1600多万台设备;B类网络可容纳6万多台设备,IP地址中前两节表示网络地址,后两节表示网络主机地址;C类(小型)网络可容纳256台设备(其中:0代表本机网,255保留作网络广播,实际可容纳254台设备),IP地址中前三节表示网络地址,最终一节表示主机地址。第10页类别IP地址第一组数A0127B128191C192223第11页(2)域名域名 用数字表示IP地址有一个缺点就是不好记。为了处理IP地址难记缺点,Internet采取了域名系统(DomainNameSystem,缩写为DNS)。依据DNS,加入Internet每台计算机还能够有一个用英文字

9、母表示域名。比如:国家自然科学基金委员会与Internet联网一台计算机域名为:http:/其含义是:Web服务器,nsfc国家自然科学基金委员会(三级域名),gov政府机构(二级域名),cn中国(顶层域名)。第12页当我们使用计算机域名与Internet上其它计算机建立通信联络时,Internet上一个称为域名服务器计算机,将自动完成从计算机域名到IP地址转换。在最高层域名下,我国也将计算机网络第二级域名分为两类:一类是按照网络全部者性质分类域名,如AC(科学院)、COM(商业机构)、GOV(政府机构)、ORG(社团组织)、EDU(教育机构)、INT(国际组织)、MIL(军事部门)和NET(

10、网络服务机构)等;另一类是包含直辖市和各省(自治区)名称缩写域名,如BJ(北京)、WH(武汉)、SH(上海)、AH(安徽)等。第13页4.统一资源定位符(统一资源定位符(URL)URL(UniformResourceLocator)是一个统一格式Internet信息资源地址表示方法,它将Internet提供各类服务统一编址,方便用户经过Web客户程序进行查询。URL在格式上能够分为以下三个基本部分:信息服务类型:/信息资源地址/文件路径比如URL地址:http:/WWW Internet接入方式接入方式1、拨号入网:要求有电话线、计算机、调制调解器(Modem)和对应软件。Modem工作原理就

11、是对计算机输入/输出信号进行调制/调解,便于信息在通信中传递。2、经过局域网入网:用户计算机经过光纤电缆连接到一个与Internet相连局域网(LAN)上。要求配置一块网络适配器以及安装对应驱动程序,而且必须安装TCP/IP通信协议。第17页2.2 Internet提供主要服务提供主要服务2.2.1 电子邮件服务电子邮件服务 Internet电子邮件(E-mail)服务是一个经过计算机网络与其它用户进行联络当代化通信伎俩。软件是OutlookExpress。第18页2.2.2 远程登录服务远程登录服务(Telnet)Internet用户远程登录是在网络通信协议Telnet支持下,使自己计算机暂

12、时成为远程计算机仿真终端过程。要在远程计算机上登录,首先应给出远程计算机域名或IP地址。另外还必须有对应账号和口令。一旦登录成功,用户便可实时使用远程计算机对外开放功效和资源。许多大学图书馆都经过Telnet对外提供联机检索服务。网上拷贝,则还需要FTP。FTP与Telnet类似,也是一个实时联机服务。在进行工作时,用户首先要登录到对方计算机上,与远程登录不一样是,登录后,用户只能进行与文件搜索和文件传送等相关操作。即网上拷贝和从当地机将文件复制传输到远程主机(上载upload)。ftp:/10.203.1.233:90/第19页2.2.3 网络新闻服务网络新闻服务(Network News)

13、网络新闻通常又称为NetNews,它是含有共同兴趣Internet用户相互交换意见一个无形交流系统,它相当于一个全球范围电子公告牌系统。志趣相同用户借助网络上一些被称为新闻服务器计算机展开各种类型专题讨论。第20页2.2.4 WWW信息服务信息服务WWW服务是一个基于超文本多媒体信息服务。它工作模式是:在Internet上一些称为Web服务器计算机上运行着Web服务程序,它们是信息提供者,经常被人们称为Web网站。同时在用户计算机上运行着各式各样Web客户端浏览器(Browser)程序,它们是信息读取者,帮助用户完成信息查询。第21页2.2.5 Gopher服务服务 “北美地鼠北美地鼠”Gop

14、her是一个基于多级菜单交互式检索工具和信息浏览方法。最初是美国明尼苏达大学为了引导未受过培训学生进行信息查询而开发。Gopher将Internet上信息组织成一个菜单式索引,可方便地经过分类方式查询到不一样类型信息资源。第22页网络信息资源类型:联机数据库联机馆藏目录电子图书电子期刊电子报纸软件与游戏教育培训信息动态性信息(如BBS、广告、网络新闻等)第23页电子商务介绍电子商务介绍电子商务就是经过电子信息技术,网络互联技术和当代通(信)讯技术,使得交易包括各当事人借助电子方式联络,而无需依靠纸面文件、单据传输,实现整个交易过程电子化。第24页2.3 长大网上图书馆长大网上图书馆第25页长大

15、图书馆主页网址是长大图书馆主页网址是 http:/第26页第27页登录网上图书馆输入读者证号和密码首次登录时要注册,初始密码为123初始密码:123第28页首次登录时进行注册,初始密码为123点击本馆读者注册第29页输入注册信息第30页点击确认增加,注册成功后返回登录第31页登录进入第32页登录进入第33页权限查询权限查询 在这里你能够查看你当前在图书馆所享受服务第34页借阅查询借阅查询在这里你能够查看你在图书馆当前借阅、预约情况第35页第36页借阅史查询借阅史查询在这里你能够查看你在图书馆以往借阅、预约情况第37页财经查询财经查询在这里你能够查看你在图书馆发生各类财经信息第38页感兴趣新书感

16、兴趣新书在这里你能够浏览到你感兴趣新书第39页第40页书目查询书目查询在这里你能够查询图书馆馆藏书目信息,并能够预约想要借阅书第41页第42页第43页第44页第45页中国:走向成功之路:建设有中国特色社会主义思想历程魏新生著郑州:河南人民出版社,1994360页CNY7.80D6-51/2:1详细信息第46页公共书目公共书目(OPAC)查询查询OPAC是OnlinePublicAccessCatalogue缩写,即联机公共查询目录。读者可经过OPAC检索利用我馆馆藏文件资源。OPAC也是网络上公共资源,读者利用OPAC也可检索国内外其它图书馆馆藏资源。一样,凡互联网用户利用OPAC也可检索我馆

17、文件资源。第47页第48页第49页第50页第51页长大图书馆数据库资源长大图书馆数据库资源 http:/第52页2.4 网络信息检索基本技术网络信息检索基本技术2.4.1 WWW信息检索信息检索WWW信息检索主要工具是搜索引擎,搜索引擎由以下三个部分组成:(1)搜索软件-网页搜索工具Spider(蜘蛛)或Worm(虫、蠕虫)或robot(机器人),在Internet网上搜索网页信息,并把它们带回搜索引擎。(2)索引软件-将信息进行分类索引建立网页数据库。(3)检索软件-经过Web服务器端软件,为用户提供浏览器界面下信息查询。搜索引擎按语种可分为汉字和西文两种。第53页汉字搜索引擎:搜狐http

18、:/新浪http:/网易http:/雅虎汉字http:/网典http:/http:/搜索客http:/baiduhttp:/天网http:/北极星http:/w常青藤http:/悠游http:/第54页西文搜索引擎:http:/www.谷歌.com(汉字)http:/http:/http:/http:/http:/http:/http:/第55页搜索引擎检索方式有分类浏览和关键词检索两种:分类浏览分类浏览是采取层层展开方式对www信息资源进行组织,用户从各级类目中选择适当类目。如在搜狐界面上可浏览到娱乐休闲,工商经济、旅游与交通等18大类信息。每大类下将给出若干子类.关键词检索关键词检索就是在

19、搜索引擎检索界面上有搜索输入框,用户直接输入关键词,可返回按相关性排序检索结果。第56页分类浏览分类浏览 搜狐http:/第57页第58页第59页第60页关键词检索关键词检索就是在搜索引擎检索界面上有搜索输入框,用户直接输入关键词第61页第62页2.4.2 搜索引擎检索技巧搜索引擎检索技巧1、布尔逻辑检索、布尔逻辑检索普通数据库检索中所提供布尔逻辑运算通常有三种,即AND(与)、OR(或)、NOT(非),而且大多采取命令驱动方式提供,但在搜索引擎中表现情形则大不相同:(1)受支持程度不一样,有“完全支持”;有“部分支持”;(2)提供运算方式不一样,部分采取命令方式驱动,部分采取菜单驱动方式。第

20、63页2、字符串检索、字符串检索(也叫短语检索或词组检索phrase)它是将一个字符串(通惯用双引号“”括起来)看成一个独立运算单元进行检索。实际上表达了邻近位置运算(Near运算)功效。第64页3、截词检索、截词检索在普通数据库检索中,截词法常有左截、右截、中间截断和中间屏蔽等几个形式;而在搜索引擎中,当前只提供右截法,其截词符通常采取星号(*),如educat*相当于education+educational+educator。第65页4、字段检索和限制检索、字段检索和限制检索字段检索是限制检索一个。限制检索往往是对字段限制。5、位置检索、位置检索如临近位置运算(near运算)6、自然语言

21、检索、自然语言检索直接采取自然语言中字、词甚至整个句子作提问式进行检索。7、概念检索、概念检索在用某一检索词进行检索时,能同时对该词同义、近义、广义和狭义词进行检索,以到达扩大检索范围、防止漏检目标。第66页8、区分大小写检索、区分大小写检索主要是针对检索词中含有些人名、地名等专有名词而言。当前,AltaVista和Infoseek提供有此项功效。Vista(远跳)、Info(情报)、seek(寻找)9、多语种检索、多语种检索有搜索引擎能提供30各种语言检索支持。第67页2.4.3 搜索引擎进行信息搜索步骤搜索引擎进行信息搜索步骤1、依据统一资源定位符(URL)地址,调用该搜索引擎主页。2、在

22、信息检索输入框中,键入关键词或查询短词。3、查询提交(Submit)。搜索引擎马上开始进行实时交互式信息查询。4、显示搜索结果。第68页2.5 计算机检索基本原理计算机检索基本原理2.5.1 计算机信息检索介绍计算机信息检索介绍计算机信息检索大致经历了四个发展阶段:脱机检索阶段(19541964)、联机检索阶段(1965-1972)、国际联机检索阶段(19721992)、网络信息检索阶段(1993年至今)。脱机检索系统是指利用单台计算机输入输出装置进行检索系统,用户不需要在计算机上操作,而是由操作人员将用户提问输入计算机,机器对提问进行处理和检索后输出检索结果,并以某种方式送交用户。第69页联

23、机检索系统是一台主机带多个终端计算机信息检索系统,它含有分时操作能力,能够使许多相互独立终端同时进行检索。脱机检索系统由三部分组成:计算机硬件、检索软件和数据库。联机检索系统包含检索系统主机、通讯网、检索软件、检索终端和数据库。第70页2.5.2 数据库(数据库(Database)数据库是计算机信息检索系统信息源和关键。它能够定义为:包含书目及与文件相关数据机读统计有组织集合。机读统计是文件代替物,一条统计对应一篇文件。统计包含两个方面内容:一是原文标题、内容及作者信息;二是相关原文获取路径信息。对于二次文件数据库来说,统计比原文简练,主要包含标题、作者及机构、摘要、主题词、文件起源等。对于全

24、文数据库来说,还应包含全文。第71页一、数据库类型一、数据库类型1文件数据库文件数据库存放文件型数据,如一次文件或二次文件,可分为:(1)书目数据库(二次文件)它包含各种文摘、索引、目录。组成统计字段普通有文件标题、作者、出处、文摘、主题词等。(2)全文数据库(一次文件)。第72页2源数据库源数据库是用来存放事实、数值、概念、图形等一系列非文件数据数据库。可分为以下四种类型:(1)数值数据库如产品价格等数值信息,物质物理化学性质、结构频谱等数据。(2)事实数据库如机构、人物、产品、资源等数据。(3)概念数据库如词典数据库、语料数据库等。(4)多媒体数据库是视频、音频、文字、图像、动画等集合体,

25、如一些互动性百科全书。第73页二、数据库组成(文档、统计和字段)二、数据库组成(文档、统计和字段)1文档文档(File)是由若干条逻辑统计组成信息集合。一个数据库最少包含一个顺排文档和一个倒排文档。(1)顺排文档)顺排文档 它是按文件统计输入次序(即文件序号)排列文档。顺排文档相当于印刷型检索工具正文部分,统计按次序一个接一个存放,一个存取号对应一条统计。检索时从头到尾进行扫描。(2)倒排文档)倒排文档 它是把顺排文档中标引词抽出,按标引词字母次序依次排列文档(如主题词倒排文档、作者倒排文档等)。倒排文档“倒排”两字涵义是相对于顺排文档而言。其实倒排文档在计算机存贮器中也是按顺排文档方式存取,

26、二者区分在于:倒排文档以统计中字段作为处理和检索单元。它相当于印刷型检索工具中辅助索引。第74页2统计统计(Record)是数据库基本单元,是对某一实体属性进行描述结果。一个文档由若干条统计组成,一条统计相当于检索刊物中一则文摘款目。3字段(字段(Field)是文件统计基本单元。一条统计有若干个字段,一个字段有时还可分为几个子字段(Subfield)。在书目数据库中,一条统计应包含原始文件篇名、作者、刊名、出版时间、分类号、文摘、主题词等字段。数据库字段可分为基本字段和辅助字段。基本字段主要是描述文件内容特征字段,如篇名、文摘、叙词、自由标引词等;辅助字段主要是描述文件外表特征字段,如著者、机

27、构名称、语种、文件起源等字段。第75页统计字段及名称说明以下:AN=:Dialog存取号(DialogAccessNumber)。在一个数据库中,每条统计只有一个存取号,二者一一对应。/TL:篇名字段(Title)。AU=:作者字段(Author)。CS=:作者所在单位字段(CorporateSource)。(Corporate:法人组织,团体)SO=:文件起源字段(SourcePublication)。包含期刊名称、年、巻、期页等,或包含会议事项。PY=:出版年份(PublicationYear)。CO=:期刊代码字段(CODEN)。即期刊号(ISSN号)。第76页LA=:语种字段(Lang

28、uage)。表示原文语种。DT=:文件类型字段(DocumentType)。TC=:处理码字段(TreatmentCode)。表示论文性质:A表示应用,X表示试验,T表示理论,等等。/AB:文摘字段(Abstract)。/DE:叙词字段(Descriptor),选自叙词表、主题词表中词。/ID:自由标引词字段(Identifier),非系统词表中词,由标引人员确定。CC=:分类代码字段(ClassificationCode)。*需要指出是,对于不一样检索系统、不一样数据库来说,其统计格式、字段代号、字段数目可能不完全相同。第77页2.5.3 检索原理及技术检索原理及技术一、检索原理计算机一方面

29、接收检索提问(即检索提问表达式),其次从数据库中读取文件记录,然后在两者之间进行匹配运算,即将检索提问与数据库中文件记录标识进行比较,如果比较结果一致,那么这篇文件就算命中,如果比较结果不一致,则这篇文件就不符合检索要求。第78页二、检索技术二、检索技术计算机信息检索过程实际上是检索词与标引词比较过程。单个检索词计算机检索比较简单,两个或两个以上检索词则需要依据检索课题要求对检索词进行组配。基本检索技术有逻辑检索、词表助检、截词检索、限定检索、全文检索等。第79页1、逻辑检索、逻辑检索 逻辑检索基础是布尔逻辑运算,布尔逻辑是二值逻辑,其运算结果只有“真”(相关)或“假”(不相关)两种状态。运算

30、符有“与”、“或”、“非”,另外还有大于、小于、等于、不等于等运算符。(1)逻辑“与”(AND或*)两个检索词以“AND”或“*”相连,表示被检中文件心须同时含有这两个词。第80页比如,我们要查找相关计算机在图书馆中应用文件,可用以下逻辑式表示:Computer*Library或者ComputerANDLibrary。AABB图中,A表示Computer命汉字献篇数,B表示图书馆Library命汉字献篇数,斜线部分就是逻辑式命汉字献篇数(computer*library)。第81页(2)逻辑“或”(OR或+)两个检索词以“OR”或“+”相连,表示被检中文件含有两语之一或同时包含两词。比如,要求

31、查找计算机或机器人方面文件,可用以下逻辑表示:Computer+Robot或者ComputerORrobot。AABB图中,A表示Computer命汉字献篇数,B表示Robot命汉字献篇数;全图为逻辑式命汉字献第82页(3)逻辑“非”(NOT或一)检索词A、B若用逻辑“NOT”或者“一”相连,表示被检索文件在含有检索词A而不含有检索词B时才被命中。比如,要求检索汽车方面文件,而不希望文件中出现拖拉机主题,应以以下逻辑式表示:CarNOTTractor或者CarTractor.AABB图中,A表示Car命汉字献篇数,B表示Tractor命汉字献篇数;图中斜线部分就是逻辑式命汉字献。第83页在一个

32、复杂逻辑提问中,不但能够有多个逻辑运算符,也能够使用括号(单层或者多层)来指定运算先后次序。比如,(AB)+C*(D+E)。第84页2、词表助检、词表助检 有些文件数据库有自己主题词表,词表不但用于标引文件,也可用于助检。有些联机检索系统,将词表存入计算机,帮助用户进行检索,它能将用户非标准检索词,自动转换为规范词,还能够自动扩检,如使用同义词检索。第85页3、截词检索它允许检索词有一定范围变化,检索时将截词符置于检索词允许变化部位,只要检索词和标引词词干相同即为命中文件。在Dialog中截词符为“?”。下面介绍三种截词检索基本方法。第86页(1)无限截词比如:检索“dye?”,能够检索到含有

33、以dye(染色、颜料)为词根全部检索词文件。Dyeing(染色业);dyer(染色工);dyestuff(染料)。(2)有限截词比如:检索“dye?”,表示词根dye后最多可带有两个字符。(3)中间截词比如:检索“andys?s”,实际上可检索出含有analysis(分析)和analyses文件。(嵌入字母等于问号数,惯用于英美不一样拼法)第87页4、限定检索、限定检索 在许多联机检索系统中,为提升查全率或查准率,需要一些缩小或约束检索结果方法,称之为限定检索。用这种方法可将检索过程限定在特定范围(或字段)中进行。比如检索“computer/TI,AB”,表示在TI(篇名)和AB(文摘)字段中

34、检索computer。第88页5、原文检索、原文检索 就是用一些特定位置算符来表示检索词与检索词之间关系,而且能够不依赖叙词表而直接使用自由词进行检索检索方法。第89页以Dialog系统为例,惯用位置算符有:1、相邻位置算符(1)(W)一“With”(W)表示此算符两侧检索词相邻,次序不能颠倒,且不允许在两词之间插入其它词或字母,但允许有一空格或连接符号(-)。(2)(nW)一“nWords”(nW)表示在此算符两侧检索词之间最多可插入n个词,但该算符两侧检索词词序不能颠倒。(3)(N)一“Near”(N)表示在此算符两侧检索词相邻,且次序能够颠倒,但二者之间不许插入任何词。(4)(nN)一“

35、nNear”(nN)表示在此算符两侧检索词次序能够颠倒,且最多可在其间插入n个词。第90页2、字段位置算符(F)一“Field”(F)表示在此算符两侧检索词心须同时出现在文件统计同一字段,如篇名字段、文摘字段、叙词字段、自由词字段等,但两个词词序不限,夹在两个检索词之间词个数也不限。3、其它位置算符(1)(L)一“Link”(L)表示两侧检索词有一定隶属关系。(Link意为:连接物、相互关系)比如:Rubber(L)natural,表示Rubber为标题,natural为副标题。(2)(X)当用两相邻而又完全相同词作为词组检索时,两个词之间用(X)算符连接。比如:Protein(蛋白质)(X)

36、Protein,表示检汉字献统计中含有Protein-protein.。第91页以上介绍几个惯用计算机信息检索技术,都属于提问式检索技术,普遍利用在联机检索系统和光盘检索系统中。而当前,Internet普通只有主题词(关键词)检索和分类检索单层次检索,支持简单逻辑检索,即“与”(AND)、“或”(OR)、“非”(NOT)和组合检索。第92页2.5.4 检索程序检索程序进行计算机信息检索首先要了解用户检索目标和要求,对用户提出检索课题进行全方面分析研究,为检索词选择、检索式编制作好必要准备;然后依据课题要求选择适当检索系统和数据库;选取检索词、编制检索提问式、并确定检索策略;开始检索后,要依据检

37、索详细情况及时调整检索策略,使检索结果符适用户要求。第93页检索词选择:检索词普通有规范词、规范化代码和自由词三种。规范词:是经过规范化处理词或词组;是从待检数据库叙词表或主题词表中选择。规范化代码:是经过规范化处理索引代码。如国际专利分类号、标准工业代码等。自由词:是未经规范化处理自然语言词汇。第94页选择检索词普通要考虑以下基本标准:(1)优先选取叙词或主题词作为检索词。(2)选取各学科内含有检索价值基本名词或术语。(3)自由词作检索词时,要注意从专业角度出发,使用国际上通用术语,尽可能不用一词多义词。检索提问式结构:检索提问式是指计算机信息检索中用来表述用户检索提问逻辑表示式,由检索词和

38、各种布尔逻辑算符、位置算符以及系统要求其它组配连接符号组成。第95页2.5.5 检索策略及其调整检索策略及其调整所谓检索策略,就是在分析信息需求实质基础上,确定检索路径与检索用词,并明确各词之间逻辑关系与查找步骤一个科学安排。第96页一、比较有影响五种联机检索策略:一、比较有影响五种联机检索策略:1.最专指面优先策略:是指在检索时,首先选择最专指概念组面进行检索,假如检索命中文件较多,就把其它组面用与运算“AND”加到检索提问式中,以提升查准率。如查“工业经济”“经济”*“工业”。2.最少统计面优先策略:即先从预计检中文件统计数量最少概念组面入手,假如检中文件统计相当多,则将其它概念组面加检索

39、提问式中去,以提升检索结果查准率。如查S农业科学S1农业基础科学S15土壤学。第97页3.积木型概念组面策略:是把检索课题分解成若干个概念组面,并分别先对这几个概念组面进行检索,在每个概念组面中尽可能全地列举同义词、相关词、近义词,并用布尔算符“OR”连接成子检索式,然后再用布尔算符“AND”把全部概念组面子检索式连接起来组成一个总检索式。如研究“某一地域土壤”,则最少应从土壤物理、土壤化学和土壤生物三个方面入手。土壤物理(土壤三相物质组成+土壤结构体组成+)AND土壤化学(土壤N+P+K+)AND土壤生物(土壤动物+土壤微生物)。第98页4.引文珠形增加策略:直接从检索课题中最专指概念组面开

40、始,方便最少检出一篇命汉字献。检索人员从这一条或数条统计中找到新规范词,补充到检索式中去,然后再检索就是重新查出更多文件。5.逐步分馏策略:先确定一个较大、范围较广初始文件集,然后逐步提升检索式专指度,从而逐步缩小命汉字献集,直到得到数量适宜、用户满意文件集合为止。如查“桥梁维护”,可先从“桥梁”入手,桥梁(“NOT”桥梁设计)(“NOT”桥梁施工)桥梁维护。第99页在实际课题检索中,有时检索人员首先得到检索结果不一定能符适用户要求,这时检索人员应及时采取办法调整检索策略。普通地,需要提升查全率课题,主要从扩检入手;需要提升查准率课题,主要从缩检入手。第100页二、扩检时,即提升查全率时,二、

41、扩检时,即提升查全率时,调整检索式主要方法有:调整检索式主要方法有:1.选全同义词并以“OR”方式与原词连接后加入到检索式中。2.降低检索词专指度,从词表或检出文件中选一些上位词或相关词。3.采取分类号进行检索。4.删除某个不甚主要概念组面,降低“AND”运算。5.取消一些过严限制符,如字段限制符等。6.调整位置算符。第101页三、缩检时,即提升查准率时,三、缩检时,即提升查准率时,调整检索式方法有:调整检索式方法有:1.提升检索词专指度,增加或换用下位词和专指性较强自由词。2.增加概念组面,用“AND”连接,深入限定主题概念相关检索项。3.限定检索词出现可检字段,如常限定在篇名字段和叙词字段中进行检索。4.利用文件外表特征限制,如文件类型、出版年代、语种、作者等。5.用逻辑非“NOT”来排除一些无关检索项。6.进行加权检索。7.调整位置算符。第102页复复 习习 思思 考考 题题1.简述IP地址、域名、统一资源定位符作用,并举例说明他们组成。2.搜索引擎检索功效有哪些?举例说明其使用方法。3.数据库主要基本字段和辅助字段有哪些?怎样了解顺排文档和倒排文档在检索中作用。4.简述计算机检索几个基本检索技术。第103页

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 教育专区 > 其他

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服