收藏 分销(赏)

第二章信息检索.pptx

上传人:a199****6536 文档编号:4223128 上传时间:2024-08-26 格式:PPTX 页数:53 大小:1.35MB
下载 相关 举报
第二章信息检索.pptx_第1页
第1页 / 共53页
第二章信息检索.pptx_第2页
第2页 / 共53页
第二章信息检索.pptx_第3页
第3页 / 共53页
第二章信息检索.pptx_第4页
第4页 / 共53页
第二章信息检索.pptx_第5页
第5页 / 共53页
点击查看更多>>
资源描述

1、第二章第二章 信息检索信息检索第一节第一节信息检索的基本原理信息检索的基本原理第二节第二节 信息检索方法信息检索方法第三节第三节信息检索途径信息检索途径第四节第四节 信息检索技术信息检索技术第五节第五节信息检索步骤信息检索步骤第六节第六节 检索效果评价检索效果评价第一节第一节 信息检索的基本原理信息检索的基本原理一、信息检索的概念一、信息检索的概念二、信息检索的基本原理二、信息检索的基本原理三、信息检索的类型三、信息检索的类型一、信息检索的含义一、信息检索的含义 广义的信息检索:是指将大量分散、无序的信息按一定的方式组织和存储起来,并根据用户的需要找出相关信息的过程,包括信息的存储与检索两个方

2、面。狭义的信息检索:是指依据一定的方法,从已经组织好的大量有关信息集合中,查找并获得特定相关信息的过程。二、信息检索的基本原理二、信息检索的基本原理 信息检索的实质就是将需要查找的信息特征转换为检信息检索的实质就是将需要查找的信息特征转换为检索系统能够识别的检索索系统能够识别的检索提问标识提问标识,然后通过与检索系统中,然后通过与检索系统中的信息的信息存储标识存储标识进行进行匹配比对匹配比对,将与提问标识一致的信息,将与提问标识一致的信息记录提取出来就是检索的命中信息。记录提取出来就是检索的命中信息。为了保证信息能存得进、取得出,就必须使信息存储所依为了保证信息能存得进、取得出,就必须使信息存

3、储所依据的规则与信息检索时所依据的规则尽量做到一致。据的规则与信息检索时所依据的规则尽量做到一致。提问提问(检检索索)语言语言信息标信息标识语言识语言匹配匹配信息处理人员信息处理人员用户用户信息分析、著录、标引信息分析、著录、标引信息需求分析信息需求分析检索语言检索语言信息的表示信息的表示检索提问检索提问数据库数据库匹配比对匹配比对输出检索结果输出检索结果信息检索的基本原理信息检索的基本原理三、信息检索的类型三、信息检索的类型按信息检索的内容,信息检索可分为:?数据检索?事实检索?文献检索信息检索的类型信息检索的类型1、数据检索 是以数值、图表等信息形式为检索对象,从所收藏的资料中查找出特定数

4、据的过程,又称“数值检索”。即检索系统中存贮的是大量的数据,其中包括各种数字数据和非数字数据。数字数据包括参数、电话号码、银行帐号、观测数据、统计数据;非数字数据包括图表、图谱、市场行情、化学分子式、物质的各种特性等,并提供一定的运算推导能力。数据检索是一种确定性的检索,信息用户检索到的各种数据是经过专家测试、评价、筛选过的,可直接用来进行定量分析。数据检索数据检索信息检索的类型信息检索的类型2 2、事实检索、事实检索 是指以直接提供可用的特定事实信息为目的的信息检索。是指以直接提供可用的特定事实信息为目的的信息检索。其检索对象包括事实、概念、思想、知识等非数值信息,同其检索对象包括事实、概念

5、、思想、知识等非数值信息,同时它也可能包括一些数据信息,但需要针对查询要求,由检时它也可能包括一些数据信息,但需要针对查询要求,由检索系统进行分析,推理后,再输出最终结果。索系统进行分析,推理后,再输出最终结果。事实检索事实检索信息检索的类型信息检索的类型3 3、文献检索、文献检索 是以文献为检索对象的信息检索是以文献为检索对象的信息检索,根据检索根据检索结果的不同,文献检索可细分为结果的不同,文献检索可细分为书目检索书目检索和和全文全文检索。检索。它是一种相关性检索。它是一种相关性检索。如查找如查找“张爱玲的作品张爱玲的作品”书目检索书目检索全文检索全文检索 信息检索(Information

6、 Retrieval)与文献检索(Document Retrieval)是两个不同的概念,文献检索是信息检索的一种最基本的、最主要的形式。三、信息检索的类型三、信息检索的类型按信息检索的手段划分按信息检索的手段划分1 1、手工信息检索、手工信息检索 指将分析检索课题确定的检索标识通过人工动手翻阅的方法去与书本式检索工具中的存储标识进行匹配,获取与标识相符的信息线索的信息检索方法。2 2、计算机信息检索、计算机信息检索 指通过计算机来处理检索者的检索提问,将检索者输入检索系统的检索提问(检索标识)按检索者预先制定的检索策略与数据库中的存储标识进行类比、匹配运算,从而检索出所需要信息的检索方法。第

7、二节第二节 信息检索方法信息检索方法 直查法:不依靠任何检索工具或系统,从本专业最新核心期刊或其他文献中直接阅读原文或浏览最新目次而获取文献的方法。第二节第二节 信息检索方法信息检索方法 顺查法:一种根据检索课题的起始年代,利用所选定的检索工具,按照从旧到新、由远及近、由过去到现在的时序逐年查找,直至满足课题要求为止的查检方法。顺查法由于是逐年查找,漏检较少,查全率高,在检索过程中不断筛选,剔除参考价值较小的文献。又由于对准需求口径,误检的可能性较小,查准率也较高。适用于那些主题较复杂,研究范围较大,研究时间较久的科研课题。因是逐年逐卷地查检,检索工作量大,费时、费力,多在缺少评述文献时采取。

8、第二节第二节 信息检索方法信息检索方法 逆查法:也叫倒查法,与顺查法相反,是利用所选定的检索工具,按照由新到旧、由近及远、由现在到过去的逆时序逐年前推查找,直至满足课题要求为止的查检方法。这种方法多用于新课题、新观点、新理论、新技术的检索,检索的重点在近期信息上,只需查到基本满足需要时为止。倒查法的目的是要获得某学科或研究课题最新或近一段时间内所发表的文献或研究进展状况。此方法省时,查得的信息有较高的新颖性,但查全率不高。第二节第二节 信息检索方法信息检索方法 抽查法:是利用检索工具进行重点抽查检索的方法。它是针对某学科的发展重点和发展阶段,抓住该学科发展较快,文献信息发表较多的年代,拟出一定

9、时间范围,进行逐年检索的一种方法。使用这种方法检索效果和检索效率较高,但漏检的可能性较大,因此使用此法时必须熟悉学科的发展特点。第二节第二节 信息检索方法信息检索方法 追溯法:以文献后面所附的参考文献为线索,逐一追溯查找相关文献的方法。这种方法在所检索的领域没有专门的检索工具,或需要查找某一课题的研究历史时比较常用。它对于了解特定研究方向的发展轨迹、代表人物和代表性成果具有独特的效果。第三节第三节 信息检索途径信息检索途径1 1、著者途径、著者途径 通过的文献著者(机构)的名称来查找。检索知名学者或核心机构时,该途径有较强的实用性。2 2、题名途径、题名途径 通过文献的题名来查找,包括文献的篇

10、名、书名、刊名等。第三节第三节 信息检索途径信息检索途径3 3、分类途径 按学科分类体系来检索文献。这一途径是以知识体系为中心分类排检的,较能体现学科系统性,反映学科与事物的隶属、派生与平行的关系。4 4、主题途径 通过反映文献资料内容的主题词来检索文献,便于用户对某一问题、某一事物和对象作全面系统的专题性研究。第三节第三节 信息检索途径信息检索途径5 5、代码途径 通过信息的某种代码来检索,如图书ISBN号、期刊ISSN号、专利号、报告号等。6 6、其他途径 利用检索工具的特殊索引,如事物的化学分子式、环系索引等。第四节第四节 信息检索技术信息检索技术 在信息检索中,为了构建信息检索的表达式

11、,常用四种运算:布尔逻辑运算 截词运算 位置运算 限制运算布尔逻辑运算布尔逻辑运算 利用布尔逻辑算符将一些具有简单的、表达某一主题概念的检索单元(或检索标识)组配成一个具有复杂概念的检索式,以满足课题检索的要求。布尔逻辑算符是用来表达概念之间关系的一类运算符。基本的布尔逻辑算符有三种:逻辑“与”、逻辑“或”、逻辑“非”。布尔逻辑组配是现行计算机检索的基本技术。布尔逻辑运算布尔逻辑运算逻辑“与”,具有概念交叉和限定关系的一种组配。其含义是检索出的记录必须同时含有所有的检索词。用符号“and”或“*”表示,其逻辑表达式为:A*B 或A and B如:山株萸的药用价值(山株萸*药用价值)逻辑“与”起

12、到缩小检索主题范围的作用,用逻辑“与”组构的检索词越多,检索范围越小,专指性越强,有助于提高查准率。布尔逻辑运算布尔逻辑运算逻辑“或”,用于两个或两个以上概念之间的并列关系运算,表示概念的相加,其含义是检出的结果中只需满足检索项中的任何一个或同时满足即可。用符号“or”或“+”表示,其逻辑表达式为:A or B或 A+B 如:数据挖掘在图书馆工作中的应用 图书馆*(数据挖掘+知识发现)逻辑“或”主要用来其组配表达相同概念的检索词,如同义词、近义词、相关词等,以提高查全率。布尔逻辑运算布尔逻辑运算逻辑“非”,是具有概念删除关系的一种组配,可从原检索范围中剔除一部分不需要的内容,即检出的记录中只能

13、含有NOT算符前的检索词,不能同是含有其后的检索词。用符号“not”或“-”,其逻辑表达式为:A not B或 A-B如:非儿童的心理测试 心理测试 -儿童 逻辑“非”缩小了检索范围,提高了检索的专指度。截词运算截词运算 截词运算就是用一个词的局部作为检索标识进行信息检索,只要信息存储系统中有信息的标识符能和这个“局部”匹配,那么这个信息就为命中信息。截词运算是通过在检索词的词干上加一个截词符号,以表示对该词的各种词性的完整词进行检索。使用截词符具有布尔逻辑运算符“OR”的功能,能扩大检索范围,同时还可以减少输入检索词的误差,它是提高查全率,防止漏检的有力手段。截词运算的基本形式截词运算的基本

14、形式后截断:或称右截断,也称前方一致。它是将截词符放在一串字符的后面,用以表示查找以相同字符串开头,而结尾不同的所有检索词。如:comput?表示computer、computers、computing、computation等。前截断:或称左截断,也称后方一致。它是将截词符放在一串字符的前面,用以表示查找以相同字符串结尾,而开头的前缀不同的所有检索词。如:?computer表示minicomputer、microcomputer等中截断:也称前后一致、中间屏蔽符,是一种用截词屏蔽词中不同字符的方法。如“woman”和“women”,可用“wom?n”代替;“defence”和“defense

15、”可用“defen?e”代替。截词运算截词运算包括有限截词和无限截词有限截词一个截词符只代表一个字符如:wom*n 可检索出:woman、women(中间截断)chip?可检索出:chips(右截断)无限截词一个符号可代表任意多个字符如:comput$可检出:Computer、computers、computering注:不同的数据库所用的截词符不一样,使用应先查一下各数据库的帮助加以确认 位置运算位置运算 位置运算符是指表示词与词之间位置关系的符号。位置运算符的作用是对复合检索词进行加工修饰,限制词与词之间位置关系,弥补了布尔逻辑算符只是定性规定检索词的范围,可提高检索结果的查准率。常用的位

16、置运算符主要有:(W),(nW),(N),(nN),(S),(F),(C),(L)等,其表达形式因检索系统而异。邻接检索:表明两或多个检索词之间关系的符号常用的位置算符有:W、nW、N、nN(W):with的缩写,表示该运算符两侧的检索词相邻,且两者之间仅允许有一下空格或标点符号,不能有任何其它字、词,且两词间顺序不能颠倒。如:CD(W)ROM,可检出“CDROM”,“CD_ROM”等(nW):n words的缩写,表示算符两侧的检索词之间允许插入0-n个实词或系统禁用词,两词词序不可变。如:智能机器人(3W)控制,可检出“智能机器人控制”,“智能机器人行为控制”等(N):near的缩写,表示

17、算符两侧的检索词必须紧密相连,两词词序可变,词间允许插入空格或标点符号,但不能插入其它字词 如:computer(N)network,可检出“computer network”,“network computer”(nN):表示算符两侧的检索词之间允许插入0-n个实词或系统禁用词,两词词序可变。如:智能机器人(3N)控制,可检出“智能机器人控制”,“.控制算法对智能机器人的影响”等位置运算位置运算同句检索:要求参加检索运算的两个检索词必须在同一自然句中出现。位置运算符:(S)sentence同字段检索:对同句检索条件进一步放宽,可以使用同字段检索。位置运算符为:(F)field限制运算限制运算

18、 限制运算是通过限制检索范围,达到优化检索结果的方法。检索方式主要有限定字段检索和限定范围检索两种。限制运算限制运算 1、字段限制也称检域限制,限定字段检索即是指定检索词只能在记录中某一具体的字段中出现,以达到缩小或约束检索结果的检索方法。数据库字段可分为表达文献内容特征的基本字段和表达文献外表特征的辅助字段两种。基本字段有:title(Ti)、Abstract(AB)、关键词(KW)、主题词(subject)等。辅助字段有:作者Author(AU)、作者单位(Affiliatin)、期刊名称Journal(JNSO)、出版年份Publication Year(PY)、出版国Country(C

19、O)、文献类型Document Type(DT)、语种 Language(LA)等。如:题名=文物 and 作者=戴逸 限制运算限制运算 2、限定范围限定范围检索是通过限制信息的检索范围,以达到检索是通过限制信息的检索范围,以达到优化检索的方法。通过使用限定符来限定检索范围。不同优化检索的方法。通过使用限定符来限定检索范围。不同的检索系统略有不同,常通过使用的有:的检索系统略有不同,常通过使用的有:“:或:或-”-”指包含范围,如出版年指包含范围,如出版年=2006=2006:20122012、邮政、邮政区号区号ZIP=0210002199 ZIP=0210002199 “、=、=”=”如:如

20、:PY=2008 PY=2008 即限定出版年份为即限定出版年份为20082008及以后的文献。及以后的文献。LA=Chinese LA=Chinese 即限定原文语种为中文。即限定原文语种为中文。文献类型限定:期刊论文、会议论文文献类型限定:期刊论文、会议论文 、学位论文、学位论文 、科、科技报告等。技报告等。第五节第五节 信息检索的步骤信息检索的步骤 为了实现检索目标,我们需要制定的全盘计划和方案,包括分析课题,选择检索系统(数据库)、确定检索途径和检索词,并科学安排各词之间的位置关系、逻辑关系和查找步骤等。信息检索的步骤信息检索的步骤1、分析待查课题2、选择检索工具(检索系统)3、确定检

21、索途径和检索标识4、构建并提交检索提问式5、调整检索式,优化策略分析待查课题分析待查课题通过对课题的分析,明确检索目的,从而确定检索需求。1.信息需求涉及的学科范围;2.课题所需信息的主题或主要内容,分解出具体明确的检索要点,明确哪些是主要概念,哪些是次要概念,并初步定出各要点的检索语逻辑组配关系;3.课题所需信息的类型,包括文献类型、载体类型、年限、地域、语种、著者、机构等;4.课题对查新、查准、查全的指标要求。分析待查课题分析待查课题 了解某一理论、方法、设备、过程等的具体的片断的信息,以解决研究中的具体问,要求“准”。申请发明,申报成果奖励、鉴定科研成果以及立项查新,往往需要全面地收集某

22、一主题范围的文献信息,这类课题具有普查追溯的特点,应着眼于“全”。了解某学科、理论、课题等最新进展和动态,则要检索最近的文献信息,强调“新”。如:对于大学生做学位论文来说,做课题前应充分了解一下本课题国内外的研究现状研究现状(即论文的综述部分),这时应对该课题进行较全面的检索,包括综述性的文章,要求全全面;对于该课题的核心部分核心部分,即该课题所要解决的具体问题,创新的地方,则需要准准,技术细节越细越好。选择检索工具(检索系统)选择检索工具(检索系统)选择合适检索工具的前提是对信息资源有一个较全面的、清晰的了解,具体地说要对检索工具的以下情况都要有一个大概的了解。1、检索工具收录的信息范围,包

23、括信息的学科范围、时间范围、地域范围、文种范围;2、检索工具收录的文献类型、数量以及更新(出版)周期等;3、检索工具所提供的检索途径、检索功能、服务方式及经济性等;4、检索出的信息与信息原文的关系 选择检索工具(检索系统)选择检索工具(检索系统)1、注重平时的积累 2、不要盲目检索,应养成检索前了解一下数据库的习惯 3、注重与他人的交流 4、重视图书馆主页的资源 确定检索途径和检索标识确定检索途径和检索标识 分析出课题涉及的主要概念,将检索概念转化为检索词。检索词一般指反映课题概念的名词或名词性词组 (1)先从字面上将检索课题切分,再去除无检索意义的词语;如:适用于渔船的小型海水淡化设备的研发

24、。可切分:渔船/小型/海水淡化设备/研发。去除重复与无意义的检索词后为“小型/海水淡化设备”或“渔船/海水淡化设备”。用切分法提取检索概念,可直接采用复合概念。如海水淡化设备;(2)将复合概念拆分为简单概念,再转化为检索词。如“海水淡化*设备”或“海水*淡化*设备”;(3)分析各概念之间的关系。如“网络资源的知识产权保护”可选“知识产权保护”和“网络资源”作为主题词。确定检索途径和检索标识确定检索途径和检索标识检索词选取时应注意的问题:检索词选取时应注意的问题:尽可能地考虑其同义词、近义词、相关的词等,以保证查全率。尽可能地考虑其同义词、近义词、相关的词等,以保证查全率。具体有以下几种情况:具

25、体有以下几种情况:同物异名:西红柿又称蕃茄同物异名:西红柿又称蕃茄,VC”VC”、“维生素维生素C”C”、“抗坏血酸;抗坏血酸;全称与简称:计算机辅助设计简称为全称与简称:计算机辅助设计简称为CAD(Computer Aided Design)CAD(Computer Aided Design);学名与俗名、植物和动物名的英文、拉丁名等;如:计算机与电脑、学名与俗名、植物和动物名的英文、拉丁名等;如:计算机与电脑、自行车与脚踏车,电力系统与电网;自行车与脚踏车,电力系统与电网;意译名与音译名:发动机与引擎,电动机与马达,激光器与镭射;意译名与音译名:发动机与引擎,电动机与马达,激光器与镭射;相

26、近词:设备与装置,低碳经济、绿色经济、循环经济,土地评价相近词:设备与装置,低碳经济、绿色经济、循环经济,土地评价(land evalution land evalution)与土地评价()与土地评价(land assessment)land assessment)蒸发与蒸腾,固蒸发与蒸腾,固氮菌与根瘤菌,土地评价(氮菌与根瘤菌,土地评价(land evalution land evalution)与土地评价()与土地评价(land land assessment)assessment),蒸发与蒸腾,气候与气温等。蒸发与蒸腾,气候与气温等。确定检索途径和检索标识确定检索途径和检索标识异地名:信

27、息与资讯,投资基金与单位信托;异地名:信息与资讯,投资基金与单位信托;一词多译:电网可译:一词多译:电网可译:power network electric network同一名词的单数、复数、动名词、过去分词等用截词解决。同一名词的单数、复数、动名词、过去分词等用截词解决。考虑上位概念与下位概念词:找不到课题对应的主题词时,考虑上位概念与下位概念词:找不到课题对应的主题词时,可采用最近一级的上位词标引,当找到的内容太多时可用可采用最近一级的上位词标引,当找到的内容太多时可用下位概念进行精确的定位。下位概念进行精确的定位。一词多义:如海绵一词多义:如海绵 一般不选用动词、形容词、禁用词,少用或不

28、用不能表达一般不选用动词、形容词、禁用词,少用或不用不能表达课题实质的高频词。如课题实质的高频词。如“分析分析”、“研究研究”、“应用应用”、“建立建立”、“方法方法”、“发展发展”、“设计设计”等。必须用时,等。必须用时,应与能表达主要检索特征的词一起组配,或增加一些限制应与能表达主要检索特征的词一起组配,或增加一些限制条件。条件。构建并提交检索表达式构建并提交检索表达式 检索表达式是信息检索中用来表达用户检索需求的逻辑表达式,由检索词和各种运算符以及系统规定的其他组配连接符号组成。检索表达式构建得是否合理,将直接影响查全率和查准率。调整检索式调整检索式,优化策略优化策略 检索结果内容较多,

29、则要利用二次检索,进行缩检;如果检索结果太少,则要进行扩检;如果检索失败或结果与课题的相关度很小,则需要修改、调整检索策略。调整检索式调整检索式,优化策略优化策略 缩检:缩检是指开始的检索范围太大,命中文献太多,缩检:缩检是指开始的检索范围太大,命中文献太多,或查准率太低,需要增加查准率的一个方法。或查准率太低,需要增加查准率的一个方法。?核心概念的限定,减少同义词与同族相关词,使用规范核心概念的限定,减少同义词与同族相关词,使用规范化或专指度高的检索词化或专指度高的检索词;?语种的限定语种的限定;?增加限制概念,采用逻辑增加限制概念,采用逻辑“与与”连接检索词;连接检索词;?使用字段限定,将

30、检索词限定在某个或某些字段范围;使用字段限定,将检索词限定在某个或某些字段范围;?使用逻辑使用逻辑“非非”算符,排除无关概念;算符,排除无关概念;?调整位置算符,由松变严。调整位置算符,由松变严。调整检索式调整检索式,优化策略优化策略 扩检:是指初始设定的检索范围太小,命中文献不多,扩检:是指初始设定的检索范围太小,命中文献不多,需要扩大检索范围的方法。需要扩大检索范围的方法。?概念的扩大,减少逻辑概念的扩大,减少逻辑“与与”的运算,丢掉一些次要的的运算,丢掉一些次要的或者太专指的概念或者太专指的概念;?范围的扩大,去除某些字段限制范围的扩大,去除某些字段限制;?增加同义词、近义词、相关词和缩

31、略词,并用逻辑增加同义词、近义词、相关词和缩略词,并用逻辑“或或”将它们连接起来将它们连接起来;?调整位置算符,由严变松,(调整位置算符,由严变松,(w w)(F);(F);?年代的扩大年代的扩大;?换另外的数据库或是另外的光盘继续进行检索。换另外的数据库或是另外的光盘继续进行检索。第六节 检索效果评价 查全率查全率:是指利用检索系统(工具)进行某一检索时,检出的相关信息记录量与信息检索系统数据库中实际相关信息总量的比率.查准率查准率:是指利用检索系统(工具)进行某一检索时,检出的相关信息记录量与检出文献总量的比率 查全率查全率=实际检出的相关信息记录量实际检出的相关信息记录量信息检索系统中应有相关信息总量信息检索系统中应有相关信息总量X 100%X 100%查准率查准率=实际检出的信息记录总量实际检出的信息记录总量检出的相关信息记录量检出的相关信息记录量X 100%X 100%

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服