资源描述
单击此处编辑母版标题样式,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,计算机信息检索,计算机信息检索的过程,结构化、半结,构化、非结构化,信息资源,检索系统,专题数据库、OPAC、一般和多元搜索引擎、,智能代理、国际联机系统,多媒体检索系统,第一章 信息概述,信息的特征,客观性:信息是客观事物运动与状态的反映。,动态性:客观事物的变化是永恒的,持续断的。,相对性:信息对于信息用户永远是相对的。,依存性:必须依附于一定的物质形式(声波、物质载体等)。,可传递可干扰:可跨越时空传递,但是传递过程中时刻被干扰。,可加工性:可以被分析、综合、扩充和浓缩。,共享性:信息可以被一个用户反复使用、或多个用户同时使用。,信息的类型(按信息表达形式划分),文字信息:用文字表达其内容的信息资料,如各种书刊读物;,声像信息:通过声频信号负载和传递的信息,如电影、广播等;,实物信息:通过实物来传递的信息,如样品等;,机读信息:通过计算机阅读的信息,如磁盘、光盘等;,信息的类型(按信息加工的层次划分),一次信息:以信息制作者的研究成果为依据创作(撰写)的,未,经信息加工的原始信息,如图书、期刊论文、学位论文等,二次信息:汇集大量的信息,用科学的方法整序,以简练的语言,揭示信息的内容和外部特征,并提供一定的检索途径的检索系统,,如目录、索引、文摘、数据库、搜索引擎等,三次信息:将大量的一次信息全面系统的再度选择、分析和综合,,编制成使用目的更明确,效果更理想的检索系统。如综述、百科全,书、年鉴。,零次信息:未经记录或未公开发表的最原始信息,其本身无法通,过载体在较大范围内传播的信息。如口头交流、会议文献、学位论,文、手稿等。,一次、零次信息是知识的创造,是信息检索的对象;,二次、三次信息是知识的重组,是信息检索的工具。,信息的价值和作用,信息是使人原有的知识结构发生变化的那一小部分知识:,K(S)+,I=K(S+,S),一个人原有的知识结构(KS)在受到某些信息增量(,I),的作用后,便可形成新的知识结构(KS+,S),信息动机的形成与转化,内在条件:在生活、学习和工作过程中遇到问题时感到缺乏信,息的状态,一旦达到较强的程度,被用户意识到,就会转化为信息,动机,外在条件:施加于个体之上的各种有形或无形的刺激,其中尤,以信息环境和信息意识的影响最为显著。,用户的信息行为,从用户的角度出发,人的信息行为主要表现为信息查询行为、信,息选择行为和信息使用行为。,穆尔斯定律:易用性和可近性。,信息的选择行为,信息选择是从某一信息集合中把符合用户需要的一部分(子集合),挑选出来。,“,符合用户需要,”,是信息选择的基本原则。其核心是:,1)相关性:(和查全率有关,),信息交流过程中来源与终点之间接触效率的量度,凡是论述同一,主题或属于同一领域的文献信息都可以认为是相关的,而不考虑其,水平高低;,2)适用性:(和查准率有关,),用户对查询结果的价值判定,它反映了特定时间查询结果满足用,户客观信息需要的程度,它受选择顺序和时间推移等多种因素作用,,其判断的有效范围是非常短暂的。,计算机信息检索的原理,广义的信息检索是指将大量信息进行人工、或机器的概念分析,,通过标引(分类、主题、题名、作者、代码、字段等),依据标引,组织成计算机信息系统;信息用户则利用计算机,依据标引在信息,系统中检索有关信息。所以它通常被称为,“,信息存贮与检索,”,。狭义,的信息检索指广义的信息检索的后半个过程。,如果用最简洁的文字表达,那么就是信息的,“,存,”,和,“,取,”,。,计算机信息检索的本质,就是用户的信息需求与存储在计算机检索系,统中的信息进行比较和选择,即匹配(Match),的过程。也就是对计算机信息集合体(系统),采用一定的技术手段,根据一定的线索与准确,找出(命中)相关信息。,计算机信息检索的必备条件,1 物质条件,从检索的过程来看,计算机信息检索的物质条件由数据库、通信,系统和检索终端三部分组成。,2 人员条件,1)对检索课题的了解的程度;,2)对检索系统(包括计算机和数据库)的掌握程度;,3)语言(检索语言、检索策略调整以及外语水平)的掌握程度。,计算机信息检索系统的构成,1)信息数据的选择、处理、录入、维护子系统,2)词表和标引子系统,3)检索子系统,4)系统用户接口子系统,计算机信息检索的类型,1 根据检索的内容可以划分为:,1)数据检索:其检索结果为数据,例如,从统计数据库中检索人口增长率,2),事实检索:其检索结果为事实。例如,从中国科技名人数据库中查询某一位科学家的生平与业绩。,3)文献检索:其检索结果是能够满足用户需求的文献线索或全文,例如,从中国学位论文数据库(CDDB)中检索学位论文。,检索类型的综合分析:,检索课题:循证医学信息管理系统的实践运用分析,关 键 词:循证医学 信息系统 循证医学(运用)实践,1)利用,“,中国大百科全书,”,数据库,查询,“,循证医学,”,的概念;,2)利用美国著名的医学数据库(Medline)检索,“,循证医学,”,和,传统医学在治愈率上的比较;,3)利用Springer Link数据库检索,“,循证医学,”,的论文情况。,手工检索和计算机检索的比较,信息检索的本质没有变化,变化的只是检索手段、检索对象、,信息表示的方式、存储信息的结构和匹配的方法,手工检索:检索点少、费时、效率低,但查准率高,经济等。,计算机检索:检索点多、省时、效率高,但查准率低,费用高等。,计算机信息系统的组织,定义:按计算机信息存储的方法建立起来的、供用户检索信息的,一种有层次的体系,是表征有序信息特征的集合体。在这个集合体,中,对所收录的信息的外部特征和内容特征都按需要有着详略不同,的描述,每条描述记录(即款目)都标明有可供检索用的标识,按,一定序列编排,科学地组织成一个有机的整体,同时应具有多种必,要的检索手段。,特征:信息集合、信息描述、概念标识科学编排、多检索途径,类型:OPAC、各类专题、网络数据库、搜索引擎、国际联机系统等,职能:报道信息、存储信息和检索信息,评估指标:信息的收录范围;信息特征标识的详略;,摘录及标引的质量;信息报道的时效;,检索功能的完善。,信息系统的组织方法,字顺组织:,音序:根据汉字的读音及读音的符号的顺序组织信息;,形序:根据汉字的形体结构的某些共同之处加以排序;,号码组织:,按照信息被赋予的号码次序或大小顺序排列的方法;如专利号;,自然组织:,时序组织:按信息发生的时间顺序组织信息;,地域组织:按信息发生的地域、区划等地理顺序组织信息,字段组织:由若干数据项组成的记录来构成数据库的文档,通常,可分为基本字段和辅助字段,每个字段都可以作为检索入口。,超文本组织:非线性的、联想的、跳跃式的、多角度多层次的,信息组织方法通过基本机构由结点的链组成,把信息中产生联,想的内容组合起来。,元数据组织:通过对网络信息(Web页面)外部特征和内容特征,的描述,并按照某一特征的规则组织信息的方法。,数据库的字段组织,数据库组成:符合某一目的需要的若干文档的集合,文档:若干个逻辑记录构成的信息组合,字段:用来描述实体的具体属性,记录:对某一实体的全部属性进行描述的结果,数据:对具体属性的表达,元数据信息组织实例:,元数据,页面体信息省略,元数据概述,即关于数据的数据,它是对数据内容的描述。,都柏林核心集(Dublin Core),通过电子资源提供者对WEB资源属性信息的描述,依据规范的款项对网络信息资源内容进行标引,依此提高网络资源的检索效率。,特点:,简易:只有15个元素且都具有一个能够普遍理解的语义。,通用:不针对某个特定的学科或领域,支持对任何内容的资源进行描述,增加了跨学科的语义互操作性的可能,兼容:通过内嵌在HTML语言中来实现其对Web资源的描述。,可扩展:提供能够扩展描述的方法,即限定词的使用。:模式体系(SCHEME)、语言种类(LANG)、类型(TYPE),即所谓的,“,堪培拉限定词,”,。,计算机信息检索语言,定义:,精选于自然语言并加以规范化的词汇符号,用以对信息内容进行,概括其内容或外在特征的概念及其相互关系的概念标识体系。在信息的存储和检索过程中,它起着重要的语言保障作用。它既是,沟通信息存储和检索过程信息标引和信息利用桥梁,又是检索系,统表达信息主题概念和检索课题概念的人工语言。,概念:,1)等同关系:,同义:自行车和脚踏车、单车;斯里兰卡和锡兰;,准同义(近义):实验和试验;法律制度和司法制度;,2)从属关系:经济和工业、农业经济;文学和中国文学;,3)相关关系:,交叉:概念的一部分外延相重合,如市场文化学;,矛盾:概念外延上的互相排斥,它们的外延之和等于其共同上位,概念外延的关系,如女性与男性;,对立:概念外延上的互相排斥,而它们的外延之和不 等于其上,位概念外延的关系,如法制和犯罪;,并列:是同一上位概念下的几个下位概念间的关系,检索语言在表达各种概念及相互关系时,普遍地应用了上述概念,逻辑的原理,并且利用了概念的划分与概括,概念的分析与综合这,两种逻辑方法来建立自身的结构体系。,检索语言的 类型:,分类语言(C912、F715),反映信息内容特征,主题语言(关键词、叙词等),题名、篇名,著者、团体著者,反映信息外部特征 出版事项(出版单位、时间等),代码、序号(ISBN、专利号等),其他(区域、时代、年代等),分类语言,定义:建立在科学分类的基础上,运用概念划分与概括的方法,将,概念进行层层划分,逐级划分就产生许多级别的下位类目,,层层隶属,形成一个严格有序、层次分明的知识门类等级体,系。每个类目分别以不同的符号作标志,每个分类号都是表,达特定知识概念的语词,即分类语言的语词,如:,C910 社会学理论 C913.1 家庭婚姻,C8 统计学 C912 社会关系 C913.2 老年问题,C社科总论 C91 社会学 C913 社会问题,C913.3 酗酒,C92 人口学 C915 社会工作 C913.4 性问题,C93 管理学 C917 社会保障 C013,5 青少年犯罪分,C913.9 其他社会问题,使用分类语言的检索步骤,1)分析研究所需要查找信息的内容主题。,2)判断该主题在分类法中属于哪一大类,然后再从大类一级一,级往下寻找,直到查到具体类目(或有关类目),记下类号为止。,3)根据检索到的类号在检索工具中检索,便可查得所需信息。,例如,欲查有关税收理论方面的信息。先进行分析得出主题是,“,税,收,”,。由于专业范围窄,概念内涵较深,可概括为财政,财政又可,概括为经济,然后再层层往下演绎。如:经济,财政金融 财政 财政理论,财政收入与支出 税收,分类号为,F810.42。按此号到检索系统中去查找即得。,主题语言,定义:用自然语言中的名词、名词性词组描述事物概念的中心语义。,也就是说,它以语言文字为基础,以反映特定事物为中心,,不论学科分野和科学技术的逻辑序列,直接借助于自然语言,的形式,作为信息内容的标识和检索依据的一种以主题字顺,体系为基本结构的检索语言。包括关键词语言、叙词语言和,标题词语言。例如:,网络资源利用中知识产权的法律思考,主题词:知识产权 资源利用 网络资源,监狱管理中心理学实践的理论分析,主题词:心理学实践(运用)监狱管理,主题语言包含两个内容:,1),指表达信息内容特征的、经过规范化的名词术语;,2),指把这些名词术语按字顺排列成主题记号表或标题词表,以,此作为规范语词标引和检索信息的工具。,使用主题语言的检索步骤,1),对检索课题进行主题分析。如,中国税收理论方面的信息,其,主题概念是中国税收理论,转换成主题词:税收、中国。,2)将所得出的主题概念转换成主题词;,3)再按查出的主题词字顺去翻检目录、索引或输入计算机数据库,4)注意选取最专指的主题词,再利用主题词找出相应的主题词。,因为选取上位类,范围过宽,缺乏查准率,反之选取下位类,范围,过窄,缺乏查全率。,5)应将主标题与副标题、说明语联系起来,如,“,社会主义空想,”,,,应逆读为,“,空想社会主义,”,,,“,资本论传播,”,,应顺读为,“,资本论,的传播,”,。,6)使用主题词检索信息时,还应充分考虑和选择该词的同义词、,近义词作为检索入口,这样才能保证查全率。,计算机信息检索的一般技术,1 布尔逻辑算符,指通过标准的布尔逻辑关系词来表达检索词与检索词之间逻辑关,系的检索方法,也是现代信息检索系统中最常用使用的一种方法。,常用的布尔逻辑算符有三种:,逻辑与:算符 AND *,示例:,刑事犯罪 *女性,computer,AND,law,释例:,同时含有*前后两者概念的信息,作用:,缩小检索范围,提高检索的查准率,逻辑或:算符 OR +,示例:,WTO+世贸组织+世界贸易组织,car,OR,automobile,释例:,符合+前后概念其中之一即可,作用:,扩大检索范围,提高检索的查全率,逻辑非:,算符 NOT,示 例:,知识产权,版权,automobile,NOT,truck,释 例:,满足前者概念,同时必须剔除后者,作 用:,缩小检索范围,提高检索的查准率,2 截词符,(truncation),截词是指检索者将检索词在合适的地方截断,局部进行检索的一,种方法,即凡满足这个词截断部分中的所有字符(串)的信息,都,为命中信息。在西文中,使用截词方法可以解决一个词的单复数问,题,词干相同而词尾不同的问题(例如,由同一词根派生出来的名,词、动名词、形容词和副词等)以及英美单词拼写差异等问题。,截词必须适可而止,,截去部分过多会大大增加误检率。绝大多数,的检索工具都支持截词功能。有的是自动截词(如Lycos),有的,是在一定条件下才能截词(如Alta vista)。使用最多的是右截词,(如comput*),部分支持中截词(如wom*n),左截词则少见(如,*physics)。,后截词:,edit*、computer*,可以检索到:edit、editing、edition、editor和 computerized、computerization等,前截词:,*market*physics,可以检索到:supermarket、internet-market等,*physics,可以检索到astrophysics、biophysics、,chemo-physics、geophysics等,中截词:,wom*n,可以检索到:woman、women等。,需要注意的是:,按截断的字符数量来分开分为有限截断和无限截断两种类型。在不同的检索系统中对截断符号的表示具有不同的规定,例如,Dialog系统使用,“,?,”,,而BRS系统使用,“,$,”,,Orbit系统使用,“,#,”,等。,使用布尔算符需要注意的是:,1)表达方式有异:,符号型:,“,+,”,、,“,*,”,、,“,-,”,;,字母型:,“and”、“or”、“and not(not)”;,菜单型:,“match all terms”、“match any term”;,文字型:,“MUST contain”、“MUST NOT contain”,2)部分支持布尔算符,如Yahoo!不支持逻辑非、如HotBot、Infoseek等不支持复合布尔算,符,却允许用户根据自己意愿组配布尔算符。,3)布尔算符的局限性显而易见。,匹配标准僵化、相关度难以描述、输出信息不排序、难以构建理,想的提问式等。尤其是公共检索系统更难以面对最终用户。所以各,类系统均出现一系列方法来部分弥补其不足。如英国的Okapi系统,采用词频加权模式,部分地弥补布尔算符的不足。,3 限制检索:,限定检索的条件多种多样,主要和常用的是字段限制,它是限,定检索词必须在数据库记录中规定的字段范围内出现。如,Computer/AB(后缀:基本字段使用)、,LA=English(前缀:辅助字段使用)等。,其余可以限定的有:,1),限定,范围,即限定关键词必须是处于页面中的某个字范围内的。如限定在标题、URL、链点文字、网页文字、特定站点等部分;,2),限定,网页深度(即网页层次);,3),限定,在某一专题内。如新闻组、黄页、电邮地址、股票等;,4),限定,在某一分类类目内;如经济、文学、艺术、军事等,5),限定,首先在5最优站点范围内检索;,6),限定,网络资源类型(网站类型)。如个人网页、商业、教育等;,7),限定,网络资源类型。如文件、声音、图像、HTML、编程语句等;,8),限定,日期。如特定日期前、后、最近某段时间内建立等等;,9),限定,地区或域名。,4 邻近检索,(nW):,要求所连接的两个检索词在结果中相互距离不超过n个词,(中文则不超过n个字),而且前后顺序不能颠倒。如:检索式,second(W)world(W)war,就只能检索出那些包含词组,“,second world,war,”,的结果,而不会检索到包含,“,second war in the world,”,(nN):,用途略逊一筹。作用相同,但前后顺序可以变换。如:,Environment(2N)protection就可检索出包含,“,environment protection,”,“,protection of forest environment,”,“,protection of the environment,”,“,protection of water environment,”,总的来说,(W)和(N)关系对提高检索的查准率有着不可低估的功用。如果SE能支持更多其他邻近检索关系,如DIALOG的(L)和(F)关系,查准率可进一步提高。,检索效果的分析和评估,检索效果:是指计算机信息系统检索信息的有效程度,反映了数据,库系统的检索能力。检索效果包括检索的技术效果和经济效果。,技术效果:信息系统完成其功能的能力,主要指性能和质量。,经济效果:信息系统完成其功能的价值确定,主要指成本和时间。,查全率:是衡量系统检索出与课题相关信息的能力;,查准率:是衡量系统拒绝非相关信息的能力。,两者结合起来,即表示信息系统的检索效率。,查全率,查准率,一系列实验表明:查全和查准之间存在互逆关系。同时提高查全率和查准率是有难度的,对任何一个检索系统,在两者间存在一个最佳的比例关系,即查全率在60-70%,查准率在40-50%。,关于检索步骤,检索课题,检索结果,分析研究课题,选择检索系统,确定检索途径,调整检索策略,选定检索方法,初步检索结果,获取原始文献,制定检索策略,N,Y,关于检索词和关键词,关键词:,就是从检索课题的题目、摘要和内容中抽取出来,能够充分表达,信息主题内容的具有检索意义的关键性词汇。例如:,检索课题:计算机领域犯罪心理的剖析,关 键 词:计算机犯罪 犯罪心理(学),computer crime;criminal psychology,检索课题:家庭破裂和社会问题的内在联系,关 键 词:离婚 社会问题,divorce social problem,检索课题:监狱管理中的社会学原理运用,关 键 词:社会学(原理)监狱管理,sociology;prison management,检索课题关键词的概念分析,1)一般关键词的分析,关键词分析就是分析出课题所涉及的主要概念,并选择能代表这,些概念的若干个词或词组,进而分析概念之间的上、下、左、右关,系。尤其值得注意的是对于新学科、交叉学科和边缘学科的课题,,清楚概念关系就显得尤为重要。概念分析的结果应以概念组为单元,的词或词组形式列出,以便制订检索策略。,例如,检索课题:网络资源的知识产权保护,关 键 词:知识产权保护 网络资源,2)隐含关键词的分析,有些课题的实质性内容往往很难从课题的名称上反映出来,课,题所隐含的概念和相关的内容需要从课题所属的专业角度作深入分,析,才能提炼出能够确切反映课题内容的关键词。例如,“,知识产,权保护,”,的概念中就隐含着,“,版权,”,、,“,著作权,”,等概念。,3)核心概念的选取,有些关键词已经含有的某些概念,在概念分析中应予以排除。例,如。,“,社会保障,”,包含,“,养老保险,”,、,“,失业保险,”,、,“,医疗保险,”,、和,“,社会救济,”,等下位概念及同位概念,“,社会保险,”,。所以,如果需要检,索,“,养老保险,”,方面的信息,应直接使用养老保险做关键词最确切。,如果有些检索概念已经体现在所使用数据库中,这些概念也应该,予以排除。例如,在使用法律文摘数据库(law abstracts)时,,“,法律(law),”,这一概念一般可以排除;而computer一词在计算机数,据库(The Computer Database)中一般也应予以排除。,另外有一些比较泛指、检索意义不大的概念,如,“,发展,”,、,“,趋势,”,、,“,现状,”,等在不是专门查找综述类信息时也予以排除。,关键词的判断和选择,关键词是表达用户信息需求和检索课题内容的基本元素,也是,计算机检索系统进行匹配基本单元。正确的主题分析是制定检索策,略的保证,它决定了检索策略的质量和检索效果的好坏。,1)使用通用性的术语,切忌使用国际上并不通用的术语,例如,,“,第三世界,”,、,“,下岗,”,等查,找国外数据库。要尽量使用本学科在国际上通用的、国外文献上出,现过的术语,避免使用冷僻词和自选词,2)选择概念表达最确切的词语,关键词的选择不仅从课题名称中分析,更要从学科专业和检索目,的的角度,概括出能够反映课题实质内容的检索词,以便提高检索,的切题程度。,3)从相应的规范词表中选定所需的关键词,很多数据库都有自己的主题词表,所以应该优先选用词表中的规,范词,以便能使检索获得最佳的效果。在计算,机检索系统中一般都,备有联机查询指令供检索者联机确定关键词使用。,关键词的扩展处理,在确定关键词时,除了要考虑到被选用关键词的缩写词及不同拼,法的词,还要考虑反映主题概念的同义词、近义词等相关词,以便,在编制检索式时考虑到这些因素,避免漏检有关的信息。,1)同义词的判断和选择,如:学名和俗名:激光(镭射)、马铃薯(土豆)、,简称和全称:TV(television)、澳州(澳大利亚)、WT,英美方式:,“,catalog,”,(catalogue)、,“,color,”,(colour)。,2)近义词的判断和选择,如:合同纠纷(合同争议)、国际矛盾(国际冲突),跨国公司(跨国企业)、法律监督(司法监督)等。,3)概念为单位,构成组面关键词,例如:,检索课题:经济领域犯罪的心理分析,关 键 词:经济犯罪 犯罪心理 心理分析,关键词的选取应该考虑一些其他因素:,例 如:关于经济领域的诈骗行为的心理剖析,关键词:经济诈骗 诈骗心理(分析),这里有个概念的重叠和拆分的问题,如果关键词为,“,经济领域,诈骗行为 心理剖析,”,,显然没有达到简洁、切题的要求。,例 如:家庭、婚姻裂变和青少年犯罪的内在联系,关键词:离婚(单亲家庭)青少年(未成年人)犯罪,这里有个常用概念、相近概念需要考虑,如果关键词标引为,“,婚姻裂变 青少年犯罪,”,,检索结果的查全率一定将大大降低。,检索点的确认,课题名称:1998-2000年度邓伟志先生在报刊上发表的有关社会学家庭婚姻的论文有多少?,检 索 点:,1998-2000 报刊论文 邓伟志 社会学 家庭婚姻,(时间)(范围)(人物)(学科)(主题),检索课题的分析和研究,这是指在着手查找信息前对课题进行分析,明确学科或专业的,范围,弄清检索的真正意图及实质。它包括了解课题的内涵概念范,围和外延概念范围,以便确定检索标识(检索词、分类等);明确,课题所需信息的内容、出版国别、语种和年限;,同时还要在分析的,基础上形成主题概念,包括所需信息的主题概念有几个?概念的专,指度是否合适?哪些是主要的?哪些是次要的等。,1),专业范围:,确定该课题涉及哪些专业及其相关的学科。,2),时间范围:,确定该课题需要检索信息的年代范围。,3),地理范围:,了解课题在哪个国家处于领先地位。,4),语种范围:,该课题在哪国占优势,选择该国母语的检索工具。,5),信息类型,:,选择与课题有关的、针对性强的检索工具。,检索策略的制定,检索策略,,即将课题的提问及其检索词与检索工具的收录内容、编,排特点相匹配而确定的检索方案或程序。制定检索策略的主要内容,是,在分析检索课题的基础上,确定要利用哪些检索工具,确定查,找年限和专业范围的选择,确定检索用词并判明各词之间的逻辑关,系与查找步骤等事项的科学安排。,如,C913.5*G=青少年犯罪*E=2001,制定检索策略的关键环节,1)对检索课题的标引要准确。,2),选择收录全面、年限长、地域广,学术权威性高,编排方法科,学,功能较多,易于使用的检索系统,这样才能提高检索效果。,3),全面、综合地考虑选择检索途径,取长补短;,综上所述,详尽分析检索课题,从而确定检索目标,是制定良好,检索策略的基础;选择适当的检索工具,是使合理的检索策略得以,实施的前提条件;检索途径的确定和检索词的调节,是检索过程的,关键环节。只有使这些环节达到最优化,才能优化检索策略。,选择检索系统,要根据课题要求,选择与所查课题相适应、质量较高、检索手,段比较完善的检索系统须了解和掌握其适用范围、收录特点,然后,可通过三次信息的选择和检索,如“,Subject Guide to Dialog,Database,”、,数据库目录等工具指引到二次信息检索工具。例,如,美国E,.,P,.,Sheehy编著的Guide to the Reference Books,,它介绍多种工具书,是目前世界上主要的指导使用工具,书的工具书。,在选择检索工具时,要考虑的主要问题如下:,1),内容和时间上,考虑数据库内容对课题内容的覆盖面和一致性,2),手段和技术上,机检具有较高的检索效率,但查准率低,缺乏,回溯性,,选择时需掌握其收录信息的年代范围,才能获得满意的,结果,;手检效率低,却具有良好的查准率。,3),考虑价格和可获得性,应选择就近容易获得的,检索系统,。,检索途径是进入检索的入口。1)反映信息内容特征的(主题、,分类)途径:2)反映信息外部特征的(著者、题名、代码等)途,径。上述两类途径构成了信息检索的整个检索途径体系。,在计算机信息系统中,检索途径还有很多,几乎信息的每一个,特征(如出版社、出版年代等)都可作为检索途径。显然,检索途,径的多少直接关系到检索的便利。,每种检索途径各有特色,不可偏废。应根据检索要求、已知条,件、设备是否齐全等因素,尽量综合利用各种途径,取长补短,进,行优化选择,以提高检索效果,。,例如:为了解某一学科的发展历史、研究现状和发展趋势,为,了制定战略决策和进行预测而搜集有关信息,应以分类途径为主,,辅以主题检索途径;为研究解决某一具体问题或攻克某一技术难关,,应以主题途径为主,辅以分类途径;如果已知检索课题的外部特征,,则应选择题名、著者、代码等检索途径;如果已知检索课题的内,容特征,则应选择主题途径或,分类途径,。,选择检索方法(1),追溯法:,1),传统追溯法;,2),引文追溯法,工具法:,1),顺查法;2,),倒查法;,3),抽查法,交替法:,1),直接交替法;,2),间隔交替法,检索方法的选择原则:,1)检索条件,在没有检索工具可供利用的前提下,采用追溯法较为实际。虽检,索效率不高,费时费力,但比逐期或逐年翻查原始信息要快得多。,在原始信息收藏比较丰富的前提下,可查得一批有用信息;在有,检索工具可利用时,以采用工具法为佳。其检出率要比追溯法高,,所以工具法是最常用的检索方法。,2)检索要求,信息检索的一般要求是:广、快、精、准。若课题检索的目的,在于系统收集信息,进行综合分析和研究,这样就需要评论性、战,略性信息,以便供决策某一问题参考,即,“,普查,”,型检索。,对信息的,选择检索方法(2),系统性、全面性要求较高,一般不能有重大遗漏。在检索时间比较,宽裕时,可以采用顺查法,利用检索工具进行检索。如果检索的目,的是解决与某一课题有关的关键性技术问题,即“攻关”型检索。这,种情况要求既“快”,又“准”地提供关键性信息。由于时间紧迫,无,疑不能采用顺查法,而宜用倒查法迅速查得最新技术信息。,3,),学科特点,要考虑检索课题的学科发展特点。新兴学科,起点年代不长,又,有准确的可供查考的起始年代,可采用顺查法,也可采用倒查法;,年代久远的学科,只能采用倒查法。但是历史悠久的传统学科,其,发展过程总是波浪起伏地发展,,在兴旺时期,信息量多,反之亦然,检索信息时,可重点抽查学科发展的高峰时期,当然,这种考虑、,学科特点的检索原则同样地适用于专业特点、行业特点或技术特点,的情况。,检索策略的调整,检索过程是一个动态的随机过程,在某些检索环节中,会不,可避免地产生一些和检索目标相差甚远的现象。检索词过宽泛或,偏窄而造成扩检和漏检,检索词不规范而引起的误检等。所以有,必要在评价检索效果的基础上,对检索效果进行信息反馈,便于,重新修正检索策略,调整检索手段,进行新一轮的循环检索,从,而实现检索目标的完善。,以,SKBK,为例,:,C913.5*G=青少年犯罪*E=2001,C913.5*(G=青少年犯罪+G=未成年人犯罪)*(E=2001+E=2002),C913.5*(G=青少年犯罪+G=未成年人犯罪+B=青少年犯罪+B=未成年人犯罪)*(E=2001+E=2002),SKBK数据库检索举例,学号:123456 姓名:XXX,检索课题:,现阶段青少年犯罪的现象分析,关 键 词:,青少年犯罪(未成年人犯罪),检索对象:,SKBK数据库,检索对象简介:,SKBK是全国报刊索引电子版。收录了全国社科期刊,报纸,内容涉及社会科学各个学科。收录原则为核心期刊全收、非核心期刊选收的原则,年更新量约20余万条,为目前国内特大型文献数据库之一。,检索步骤:,1)C913.5 234(篇),2)C913.5+D917 675(篇),3)C913.5+D17+D697.5 1455(篇),(作业不能省略),N)(C913.5+D17+D697.5)*(G=青少年犯罪+G=未成年人犯,罪)*E=1997,D=北京法制报 67(篇),【序号】1382,【分类】D669.5,【题名】市场经济的负效应与青少年犯罪,【著者】鲁雪英,【出处】安徽大学学报:哲社版.-1997.(3).-61-64,【年份】1997,【主题】青少年犯罪;市场经济,-,【序号】16962,【分类】D669.5,【题名】对25名青少年吸毒引发犯罪的分析,【著者】王循,【出处】北京检察.-1997.(5).-31-32,【年份】1997,【主题】青少年犯罪;吸毒;案例分析,-,【序号】18343,【分类】D669.5,【题名】对门头沟区未成年人犯罪情况的调查及预防对策,【著者】吴世芳,【出处】北京警院学报.-1997.(2).-31-35,【年份】1997,【主题】青少年犯罪;预防犯罪;调查报告;北京市,-,检索结果复制五条,打开数据库,输入检索表达式,在索引词典文档中比较和匹配,从记录号倒排文档中调取记录号集合,记录号集合之间的逻辑运算,从顺排文档中调取记录,输出命中信息,结束检索,另选数据库,重新输入检索标识,结果不匹配,篇数不合要求,重新调整检索策略,记录内容不合要求,数据库检索原理,数据库的检索原理注释:,在输入检索词后,系统主要操作的对象是顺排、倒排文档在输入,单个检索词的情况下(如“软件”),系统首先查找索引词典倒排文,档,并在显示器上响应,给出含有“软件”一词的记录数,同时将这,些记录的地址调入内存。在系统接到用户显示命中记录的指令后,,调用记录号倒排文档,根据记录号从顺序文档中读取并显示记录。,有的系统则在接受用户检索词后,顺次搜索索引词典文档、记录号,文档和顺排文档,用户可同时看到命中的记录数和首记录的全部内,容。,在输入两个以上检索词的情况下,系统除了进行上述操作外,还,要对记录号集合之间进行布尔逻辑运算。,以下三种情况,,可以通过或者换用其他数据库,或者重新输入检,索词,或者调整检索策略的办法予以解决。,1),对输入的检索词,系统响应为“0”,即检索词与索引词典中标,识词不匹配;,2),对输入的检索词,系统响应的篇数或者太多,或者太少;,3),对输入的检索词,系统最后给出的记录并不合乎课题要求。,数据库检索的过程介绍,例如,检索课题:计算机在监狱事务方面的运用,数据库检索的具体过程:,1)先把课题编制成检索策略输入系统,系统中的索引文档对检,索策略中的“计算机”和“监狱事务”分别与存储标识进行匹配,显示,出“计算机”的信息有1299条,“监狱事务”的信息有392条。,2)系统分别到存取号倒排文档中找出这两个词对应的地址号,(如12和90),同时找到了含有“计算机”和含有“监狱事务”的所有,信息的存取号,并把它们调入内存单元进行组配运算。,3)组配运算的结果,有23条信息符合要求,,显示各自的存取号。,4)系统到顺排文档中按存取号调取命中的,三篇记录,并将记录,打印输出给用户。,数据库分类,可以将信息数据库划分为二大类。,1)参考数据库(Reference Database),还需要进一步查找原文或其他资料的一类数据库。它包括,书目数据库:向用户提供信息线索,只能检索出信息的 标题、,出处、著者、主题等。可分为文摘和索引数据库,指南型数据库:能提供用户参考、指南的各类信息,如企业、机,构等名称、地址电话、人物、出版物、项目、活动等简要描述信息,2)源数据库(Source Database),数值型数据库:提供数据或数值类信息。,术语数据库:存储和检索名词术语信息,如电子词典等;,图像数据库:存储和检索各种图像或图形信息及文字说明资料;,全文数据库:存储和检索文献全文或其中主要部分的信息;,超文本数据库:存储内容分割为若干独立利用的结点,使用链路连结点等方式进行存取,形成了特殊的存取模式;,高级检索功能,1 加权检索,1)类似布尔,即用“+”号或选择“must contain”表示某检索词“一,定要出现”在检索结果中,如“+亚洲+金融风暴”,即检索结果中必,须同时含有“亚洲”和“金融风暴”这两个词)。即用“”号或选择,“must not contain”表示某检索词“一定不能出现”在检索结果中。,不加符号或选择“should contain”表示某个检索词“可以出现”在检索结果中。,2)加权(阈值),即对每个检索词根据其重要程度赋,予一定的权值,设定某阈值,检索结果的权值超越该阈值就算命中,如,检索词计算机、用户、软件,权值分别为5、8、4。阈值为9。,计算机、用户、软件 权值和=17 大于9,命中。,计算机、用户 权值和=13 大于9,命中。,计算机、软件 权值和=9 等于9,命中。,用户、软件 权值和=12 大于9,命中。,用户 权值和=8 小于9,不命中。,2 自然语言检索,系统利用非用词词表排除非关键词后检索。如please find for,me something about automobile sale in New York state,系统,会排除“禁用词”、“检索提问词”后将“New York state”、,“automobile sale”作为关键词进行检索。,3 相关信息反馈检索,希望得到类似检索结果中某一结果而采取的方法,如Google 中,的“类似网页”,Excite中的“search for more documents like,this one”,ycos中的“More Like This”.,4 模糊检索,允许被检索信息和检索词之间存在一定的差异。如监狱管理、管,理监狱、监狱的管理等。也包括用户的输入错误,以及格某些词汇,在不同国家的不同形式,例如“catalog”、“catalogue”.,5 概
展开阅读全文