计算机信息检索教学课件电子教案全书整套课件幻灯片.ppt

资源描述

单击此处编辑母版标题样式,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,计算机信息检索,计算机信息检索的过程,结构化、半结,构化、非结构化,信息资源,检索系统,专题数据库、OPAC、一般和多元搜索引擎、,智能代理、国际联机系统，多媒体检索系统,第一章信息概述,信息的特征,客观性：信息是客观事物运动与状态的反映。,动态性：客观事物的变化是永恒的，持续断的。,相对性：信息对于信息用户永远是相对的。,依存性：必须依附于一定的物质形式（声波、物质载体等）。,可传递可干扰：可跨越时空传递，但是传递过程中时刻被干扰。,可加工性：可以被分析、综合、扩充和浓缩。,共享性：信息可以被一个用户反复使用、或多个用户同时使用。,信息的类型（按信息表达形式划分）,文字信息：用文字表达其内容的信息资料，如各种书刊读物；,声像信息：通过声频信号负载和传递的信息，如电影、广播等；,实物信息：通过实物来传递的信息，如样品等；,机读信息：通过计算机阅读的信息，如磁盘、光盘等；,信息的类型（按信息加工的层次划分）,一次信息：以信息制作者的研究成果为依据创作（撰写）的，未,经信息加工的原始信息，如图书、期刊论文、学位论文等,二次信息：汇集大量的信息，用科学的方法整序，以简练的语言,揭示信息的内容和外部特征，并提供一定的检索途径的检索系统，,如目录、索引、文摘、数据库、搜索引擎等,三次信息：将大量的一次信息全面系统的再度选择、分析和综合，,编制成使用目的更明确，效果更理想的检索系统。如综述、百科全,书、年鉴。,零次信息：未经记录或未公开发表的最原始信息，其本身无法通,过载体在较大范围内传播的信息。如口头交流、会议文献、学位论,文、手稿等。,一次、零次信息是知识的创造，是信息检索的对象；,二次、三次信息是知识的重组，是信息检索的工具。,信息的价值和作用,信息是使人原有的知识结构发生变化的那一小部分知识：,K(S)+,I=K(S+,S),一个人原有的知识结构（KS）在受到某些信息增量（,I）,的作用后，便可形成新的知识结构（KS+,S）,信息动机的形成与转化,内在条件：在生活、学习和工作过程中遇到问题时感到缺乏信,息的状态，一旦达到较强的程度，被用户意识到，就会转化为信息,动机,外在条件：施加于个体之上的各种有形或无形的刺激，其中尤,以信息环境和信息意识的影响最为显著。,用户的信息行为,从用户的角度出发，人的信息行为主要表现为信息查询行为、信,息选择行为和信息使用行为。,穆尔斯定律：易用性和可近性。,信息的选择行为,信息选择是从某一信息集合中把符合用户需要的一部分(子集合),挑选出来。,“,符合用户需要,”,是信息选择的基本原则。其核心是：,1)相关性：（和查全率有关,）,信息交流过程中来源与终点之间接触效率的量度，凡是论述同一,主题或属于同一领域的文献信息都可以认为是相关的，而不考虑其,水平高低；,2)适用性：（和查准率有关,）,用户对查询结果的价值判定，它反映了特定时间查询结果满足用,户客观信息需要的程度，它受选择顺序和时间推移等多种因素作用，,其判断的有效范围是非常短暂的。,计算机信息检索的原理,广义的信息检索是指将大量信息进行人工、或机器的概念分析，,通过标引（分类、主题、题名、作者、代码、字段等），依据标引,组织成计算机信息系统；信息用户则利用计算机，依据标引在信息,系统中检索有关信息。所以它通常被称为,“,信息存贮与检索,”,。狭义,的信息检索指广义的信息检索的后半个过程。,如果用最简洁的文字表达，那么就是信息的,“,存,”,和,“,取,”,。,计算机信息检索的本质,就是用户的信息需求与存储在计算机检索系,统中的信息进行比较和选择，即匹配（Match）,的过程。也就是对计算机信息集合体（系统）,采用一定的技术手段，根据一定的线索与准确,找出（命中）相关信息。,计算机信息检索的必备条件,1 物质条件,从检索的过程来看，计算机信息检索的物质条件由数据库、通信,系统和检索终端三部分组成。,2 人员条件,1)对检索课题的了解的程度；,2)对检索系统（包括计算机和数据库）的掌握程度；,3)语言（检索语言、检索策略调整以及外语水平）的掌握程度。,计算机信息检索系统的构成,1）信息数据的选择、处理、录入、维护子系统,2）词表和标引子系统,3）检索子系统,4）系统用户接口子系统,计算机信息检索的类型,1 根据检索的内容可以划分为：,1)数据检索：其检索结果为数据，例如，从统计数据库中检索人口增长率,2),事实检索：其检索结果为事实。例如，从中国科技名人数据库中查询某一位科学家的生平与业绩。,3)文献检索：其检索结果是能够满足用户需求的文献线索或全文，例如，从中国学位论文数据库（CDDB）中检索学位论文。,检索类型的综合分析：,检索课题：循证医学信息管理系统的实践运用分析,关键词：循证医学信息系统循证医学（运用）实践,1）利用,“,中国大百科全书,”,数据库，查询,“,循证医学,”,的概念；,2）利用美国著名的医学数据库（Medline）检索,“,循证医学,”,和,传统医学在治愈率上的比较；,3）利用Springer Link数据库检索,“,循证医学,”,的论文情况。,手工检索和计算机检索的比较,信息检索的本质没有变化，变化的只是检索手段、检索对象、,信息表示的方式、存储信息的结构和匹配的方法,手工检索：检索点少、费时、效率低，但查准率高，经济等。,计算机检索：检索点多、省时、效率高，但查准率低，费用高等。,计算机信息系统的组织,定义：按计算机信息存储的方法建立起来的、供用户检索信息的,一种有层次的体系，是表征有序信息特征的集合体。在这个集合体,中，对所收录的信息的外部特征和内容特征都按需要有着详略不同,的描述，每条描述记录（即款目）都标明有可供检索用的标识，按,一定序列编排，科学地组织成一个有机的整体，同时应具有多种必,要的检索手段。,特征：信息集合、信息描述、概念标识科学编排、多检索途径,类型：OPAC、各类专题、网络数据库、搜索引擎、国际联机系统等,职能：报道信息、存储信息和检索信息,评估指标：信息的收录范围；信息特征标识的详略；,摘录及标引的质量；信息报道的时效；,检索功能的完善。,信息系统的组织方法,字顺组织：,音序：根据汉字的读音及读音的符号的顺序组织信息；,形序：根据汉字的形体结构的某些共同之处加以排序；,号码组织：,按照信息被赋予的号码次序或大小顺序排列的方法；如专利号；,自然组织：,时序组织：按信息发生的时间顺序组织信息；,地域组织：按信息发生的地域、区划等地理顺序组织信息,字段组织：由若干数据项组成的记录来构成数据库的文档，通常,可分为基本字段和辅助字段，每个字段都可以作为检索入口。,超文本组织：非线性的、联想的、跳跃式的、多角度多层次的,信息组织方法通过基本机构由结点的链组成，把信息中产生联,想的内容组合起来。,元数据组织：通过对网络信息（Web页面）外部特征和内容特征,的描述，并按照某一特征的规则组织信息的方法。,数据库的字段组织,数据库组成：符合某一目的需要的若干文档的集合,文档：若干个逻辑记录构成的信息组合,字段：用来描述实体的具体属性,记录：对某一实体的全部属性进行描述的结果,数据：对具体属性的表达,元数据信息组织实例：,元数据,页面体信息省略,元数据概述,即关于数据的数据，它是对数据内容的描述。,都柏林核心集（Dublin Core）,通过电子资源提供者对WEB资源属性信息的描述，依据规范的款项对网络信息资源内容进行标引，依此提高网络资源的检索效率。,特点：,简易：只有15个元素且都具有一个能够普遍理解的语义。,通用：不针对某个特定的学科或领域，支持对任何内容的资源进行描述，增加了跨学科的语义互操作性的可能,兼容：通过内嵌在HTML语言中来实现其对Web资源的描述。,可扩展：提供能够扩展描述的方法，即限定词的使用。：模式体系（SCHEME）、语言种类（LANG）、类型（TYPE），即所谓的,“,堪培拉限定词,”,。,计算机信息检索语言,定义：,精选于自然语言并加以规范化的词汇符号，用以对信息内容进行,概括其内容或外在特征的概念及其相互关系的概念标识体系。在信息的存储和检索过程中，它起着重要的语言保障作用。它既是,沟通信息存储和检索过程信息标引和信息利用桥梁，又是检索系,统表达信息主题概念和检索课题概念的人工语言。,概念：,1）等同关系：,同义：自行车和脚踏车、单车；斯里兰卡和锡兰；,准同义（近义）：实验和试验；法律制度和司法制度；,2）从属关系：经济和工业、农业经济；文学和中国文学；,3）相关关系：,交叉：概念的一部分外延相重合，如市场文化学；,矛盾：概念外延上的互相排斥，它们的外延之和等于其共同上位,概念外延的关系，如女性与男性；,对立：概念外延上的互相排斥，而它们的外延之和不等于其上,位概念外延的关系，如法制和犯罪；,并列：是同一上位概念下的几个下位概念间的关系,检索语言在表达各种概念及相互关系时，普遍地应用了上述概念,逻辑的原理，并且利用了概念的划分与概括，概念的分析与综合这,两种逻辑方法来建立自身的结构体系。,检索语言的类型：,分类语言（C912、F715）,反映信息内容特征,主题语言（关键词、叙词等）,题名、篇名,著者、团体著者,反映信息外部特征出版事项(出版单位、时间等）,代码、序号（ISBN、专利号等）,其他（区域、时代、年代等）,分类语言,定义：建立在科学分类的基础上，运用概念划分与概括的方法，将,概念进行层层划分，逐级划分就产生许多级别的下位类目，,层层隶属，形成一个严格有序、层次分明的知识门类等级体,系。每个类目分别以不同的符号作标志，每个分类号都是表,达特定知识概念的语词，即分类语言的语词，如：,C910 社会学理论 C913.1 家庭婚姻,C8 统计学 C912 社会关系 C913.2 老年问题,C社科总论 C91 社会学 C913 社会问题,C913.3 酗酒,C92 人口学 C915 社会工作 C913.4 性问题,C93 管理学 C917 社会保障 C013,5 青少年犯罪分,C913.9 其他社会问题,使用分类语言的检索步骤,1）分析研究所需要查找信息的内容主题。,2）判断该主题在分类法中属于哪一大类，然后再从大类一级一,级往下寻找，直到查到具体类目（或有关类目），记下类号为止。,3）根据检索到的类号在检索工具中检索，便可查得所需信息。,例如，欲查有关税收理论方面的信息。先进行分析得出主题是,“,税,收,”,。由于专业范围窄，概念内涵较深，可概括为财政，财政又可,概括为经济，然后再层层往下演绎。如：经济,财政金融财政财政理论,财政收入与支出税收，分类号为,F810.42。按此号到检索系统中去查找即得。,主题语言,定义：用自然语言中的名词、名词性词组描述事物概念的中心语义。,也就是说，它以语言文字为基础，以反映特定事物为中心，,不论学科分野和科学技术的逻辑序列，直接借助于自然语言,的形式，作为信息内容的标识和检索依据的一种以主题字顺,体系为基本结构的检索语言。包括关键词语言、叙词语言和,标题词语言。例如：,网络资源利用中知识产权的法律思考,主题词：知识产权资源利用网络资源,监狱管理中心理学实践的理论分析,主题词：心理学实践（运用）监狱管理,主题语言包含两个内容：,1）,指表达信息内容特征的、经过规范化的名词术语；,2）,指把这些名词术语按字顺排列成主题记号表或标题词表，以,此作为规范语词标引和检索信息的工具。,使用主题语言的检索步骤,1）,对检索课题进行主题分析。如，中国税收理论方面的信息，其,主题概念是中国税收理论，转换成主题词：税收、中国。,2）将所得出的主题概念转换成主题词；,3）再按查出的主题词字顺去翻检目录、索引或输入计算机数据库,4）注意选取最专指的主题词，再利用主题词找出相应的主题词。,因为选取上位类，范围过宽，缺乏查准率，反之选取下位类，范围,过窄，缺乏查全率。,5）应将主标题与副标题、说明语联系起来，如,“,社会主义空想,”,，,应逆读为,“,空想社会主义,”,，,“,资本论传播,”,，应顺读为,“,资本论,的传播,”,。,6）使用主题词检索信息时，还应充分考虑和选择该词的同义词、,近义词作为检索入口，这样才能保证查全率。,计算机信息检索的一般技术,1 布尔逻辑算符,指通过标准的布尔逻辑关系词来表达检索词与检索词之间逻辑关,系的检索方法，也是现代信息检索系统中最常用使用的一种方法。,常用的布尔逻辑算符有三种：,逻辑与：算符 AND *,示例：,刑事犯罪 *女性,computer,AND,law,释例：,同时含有*前后两者概念的信息,作用：,缩小检索范围，提高检索的查准率,逻辑或：算符 OR +,示例：,WTO+世贸组织+世界贸易组织,car,OR,automobile,释例：,符合+前后概念其中之一即可,作用：,扩大检索范围，提高检索的查全率,逻辑非：,算符 NOT,示例：,知识产权,版权,automobile,NOT,truck,释例：,满足前者概念，同时必须剔除后者,作用：,缩小检索范围，提高检索的查准率,2 截词符,（truncation）,截词是指检索者将检索词在合适的地方截断,局部进行检索的一,种方法，即凡满足这个词截断部分中的所有字符（串）的信息，都,为命中信息。在西文中，使用截词方法可以解决一个词的单复数问,题，词干相同而词尾不同的问题（例如，由同一词根派生出来的名,词、动名词、形容词和副词等）以及英美单词拼写差异等问题。,截词必须适可而止，,截去部分过多会大大增加误检率。绝大多数,的检索工具都支持截词功能。有的是自动截词（如Lycos），有的,是在一定条件下才能截词（如Alta vista）。使用最多的是右截词,（如comput*），部分支持中截词（如wom*n），左截词则少见（如,*physics）。,后截词：,edit*、computer*,可以检索到：edit、editing、edition、editor和 computerized、computerization等,前截词：,*market*physics,可以检索到：supermarket、internet-market等,*physics，可以检索到astrophysics、biophysics、,chemo-physics、geophysics等,中截词：,wom*n,可以检索到：woman、women等。,需要注意的是：,按截断的字符数量来分开分为有限截断和无限截断两种类型。在不同的检索系统中对截断符号的表示具有不同的规定，例如，Dialog系统使用,“,？,”,，而BRS系统使用,“,$,”,，Orbit系统使用,“,#,”,等。,使用布尔算符需要注意的是：,1）表达方式有异：,符号型：,“,+,”,、,“,*,”,、,“,-,”,；,字母型：,“and”、“or”、“and not(not)”；,菜单型：,“match all terms”、“match any term”;,文字型：,“MUST contain”、“MUST NOT contain”,2）部分支持布尔算符,如Yahoo!不支持逻辑非、如HotBot、Infoseek等不支持复合布尔算,符，却允许用户根据自己意愿组配布尔算符。,3）布尔算符的局限性显而易见。,匹配标准僵化、相关度难以描述、输出信息不排序、难以构建理,想的提问式等。尤其是公共检索系统更难以面对最终用户。所以各,类系统均出现一系列方法来部分弥补其不足。如英国的Okapi系统,采用词频加权模式，部分地弥补布尔算符的不足。,3 限制检索：,限定检索的条件多种多样，主要和常用的是字段限制，它是限,定检索词必须在数据库记录中规定的字段范围内出现。如,Computer/AB（后缀：基本字段使用）、,LA=English（前缀：辅助字段使用）等。,其余可以限定的有：,1),限定,范围，即限定关键词必须是处于页面中的某个字范围内的。如限定在标题、URL、链点文字、网页文字、特定站点等部分；,2),限定,网页深度（即网页层次）；,3),限定,在某一专题内。如新闻组、黄页、电邮地址、股票等；,4),限定,在某一分类类目内；如经济、文学、艺术、军事等,5),限定,首先在5最优站点范围内检索；,6),限定,网络资源类型（网站类型）。如个人网页、商业、教育等；,7),限定,网络资源类型。如文件、声音、图像、HTML、编程语句等；,8),限定,日期。如特定日期前、后、最近某段时间内建立等等；,9),限定,地区或域名。,4 邻近检索,（nW）：,要求所连接的两个检索词在结果中相互距离不超过n个词,（中文则不超过n个字），而且前后顺序不能颠倒。如：检索式,second(W)world(W)war,就只能检索出那些包含词组,“,second world,war,”,的结果，而不会检索到包含,“,second war in the world,”,（nN）：,用途略逊一筹。作用相同，但前后顺序可以变换。如：,Environment(2N)protection就可检索出包含,“,environment protection,”,“,protection of forest environment,”,“,protection of the environment,”,“,protection of water environment,”,总的来说，（W）和（N）关系对提高检索的查准率有着不可低估的功用。如果SE能支持更多其他邻近检索关系，如DIALOG的（L）和（F）关系，查准率可进一步提高。,检索效果的分析和评估,检索效果：是指计算机信息系统检索信息的有效程度，反映了数据,库系统的检索能力。检索效果包括检索的技术效果和经济效果。,技术效果：信息系统完成其功能的能力，主要指性能和质量。,经济效果：信息系统完成其功能的价值确定，主要指成本和时间。,查全率：是衡量系统检索出与课题相关信息的能力；,查准率：是衡量系统拒绝非相关信息的能力。,两者结合起来，即表示信息系统的检索效率。,查全率,查准率,一系列实验表明：查全和查准之间存在互逆关系。同时提高查全率和查准率是有难度的，对任何一个检索系统，在两者间存在一个最佳的比例关系，即查全率在60-70%，查准率在40-50%。,关于检索步骤,检索课题,检索结果,分析研究课题,选择检索系统,确定检索途径,调整检索策略,选定检索方法,初步检索结果,获取原始文献,制定检索策略,N,Y,关于检索词和关键词,关键词：,就是从检索课题的题目、摘要和内容中抽取出来，能够充分表达,信息主题内容的具有检索意义的关键性词汇。例如：,检索课题：计算机领域犯罪心理的剖析,关键词：计算机犯罪犯罪心理（学）,computer crime;criminal psychology,检索课题：家庭破裂和社会问题的内在联系,关键词：离婚社会问题,divorce social problem,检索课题：监狱管理中的社会学原理运用,关键词：社会学（原理）监狱管理,sociology;prison management,检索课题关键词的概念分析,1）一般关键词的分析,关键词分析就是分析出课题所涉及的主要概念，并选择能代表这,些概念的若干个词或词组，进而分析概念之间的上、下、左、右关,系。尤其值得注意的是对于新学科、交叉学科和边缘学科的课题，,清楚概念关系就显得尤为重要。概念分析的结果应以概念组为单元,的词或词组形式列出，以便制订检索策略。,例如，检索课题：网络资源的知识产权保护,关键词：知识产权保护网络资源,2）隐含关键词的分析,有些课题的实质性内容往往很难从课题的名称上反映出来，课,题所隐含的概念和相关的内容需要从课题所属的专业角度作深入分,析，才能提炼出能够确切反映课题内容的关键词。例如,“,知识产,权保护,”,的概念中就隐含着,“,版权,”,、,“,著作权,”,等概念。,3）核心概念的选取,有些关键词已经含有的某些概念，在概念分析中应予以排除。例,如。,“,社会保障,”,包含,“,养老保险,”,、,“,失业保险,”,、,“,医疗保险,”,、和,“,社会救济,”,等下位概念及同位概念,“,社会保险,”,。所以，如果需要检,索,“,养老保险,”,方面的信息，应直接使用养老保险做关键词最确切。,如果有些检索概念已经体现在所使用数据库中，这些概念也应该,予以排除。例如，在使用法律文摘数据库（law abstracts）时，,“,法律（law）,”,这一概念一般可以排除；而computer一词在计算机数,据库（The Computer Database）中一般也应予以排除。,另外有一些比较泛指、检索意义不大的概念，如,“,发展,”,、,“,趋势,”,、,“,现状,”,等在不是专门查找综述类信息时也予以排除。,关键词的判断和选择,关键词是表达用户信息需求和检索课题内容的基本元素，也是,计算机检索系统进行匹配基本单元。正确的主题分析是制定检索策,略的保证，它决定了检索策略的质量和检索效果的好坏。,1）使用通用性的术语,切忌使用国际上并不通用的术语，例如，,“,第三世界,”,、,“,下岗,”,等查,找国外数据库。要尽量使用本学科在国际上通用的、国外文献上出,现过的术语，避免使用冷僻词和自选词,2）选择概念表达最确切的词语,关键词的选择不仅从课题名称中分析，更要从学科专业和检索目,的的角度，概括出能够反映课题实质内容的检索词，以便提高检索,的切题程度。,3）从相应的规范词表中选定所需的关键词,很多数据库都有自己的主题词表，所以应该优先选用词表中的规,范词，以便能使检索获得最佳的效果。在计算,机检索系统中一般都,备有联机查询指令供检索者联机确定关键词使用。,关键词的扩展处理,在确定关键词时，除了要考虑到被选用关键词的缩写词及不同拼,法的词，还要考虑反映主题概念的同义词、近义词等相关词，以便,在编制检索式时考虑到这些因素，避免漏检有关的信息。,1）同义词的判断和选择,如：学名和俗名：激光（镭射）、马铃薯（土豆）、,简称和全称：TV（television）、澳州（澳大利亚）、WT,英美方式：,“,catalog,”,（catalogue）、,“,color,”,（colour）。,2）近义词的判断和选择,如：合同纠纷（合同争议）、国际矛盾（国际冲突）,跨国公司（跨国企业）、法律监督（司法监督）等。,3)概念为单位，构成组面关键词,例如：,检索课题：经济领域犯罪的心理分析,关键词：经济犯罪犯罪心理心理分析,关键词的选取应该考虑一些其他因素：,例如：关于经济领域的诈骗行为的心理剖析,关键词：经济诈骗诈骗心理（分析）,这里有个概念的重叠和拆分的问题，如果关键词为,“,经济领域,诈骗行为心理剖析,”,，显然没有达到简洁、切题的要求。,例如：家庭、婚姻裂变和青少年犯罪的内在联系,关键词：离婚（单亲家庭）青少年（未成年人）犯罪,这里有个常用概念、相近概念需要考虑，如果关键词标引为,“,婚姻裂变青少年犯罪,”,，检索结果的查全率一定将大大降低。,检索点的确认,课题名称：1998-2000年度邓伟志先生在报刊上发表的有关社会学家庭婚姻的论文有多少？,检索点：,1998-2000 报刊论文邓伟志社会学家庭婚姻,（时间）（范围）（人物）（学科）（主题）,检索课题的分析和研究,这是指在着手查找信息前对课题进行分析，明确学科或专业的,范围，弄清检索的真正意图及实质。它包括了解课题的内涵概念范,围和外延概念范围，以便确定检索标识（检索词、分类等）；明确,课题所需信息的内容、出版国别、语种和年限；,同时还要在分析的,基础上形成主题概念，包括所需信息的主题概念有几个？概念的专,指度是否合适？哪些是主要的？哪些是次要的等。,1）,专业范围：,确定该课题涉及哪些专业及其相关的学科。,2）,时间范围：,确定该课题需要检索信息的年代范围。,3）,地理范围：,了解课题在哪个国家处于领先地位。,4）,语种范围：,该课题在哪国占优势，选择该国母语的检索工具。,5）,信息类型,：,选择与课题有关的、针对性强的检索工具。,检索策略的制定,检索策略，,即将课题的提问及其检索词与检索工具的收录内容、编,排特点相匹配而确定的检索方案或程序。制定检索策略的主要内容,是，在分析检索课题的基础上，确定要利用哪些检索工具，确定查,找年限和专业范围的选择，确定检索用词并判明各词之间的逻辑关,系与查找步骤等事项的科学安排。,如,C913.5*G=青少年犯罪*E=2001,制定检索策略的关键环节,1）对检索课题的标引要准确。,2）,选择收录全面、年限长、地域广，学术权威性高，编排方法科,学，功能较多，易于使用的检索系统，这样才能提高检索效果。,3）,全面、综合地考虑选择检索途径，取长补短；,综上所述，详尽分析检索课题，从而确定检索目标，是制定良好,检索策略的基础；选择适当的检索工具，是使合理的检索策略得以,实施的前提条件；检索途径的确定和检索词的调节，是检索过程的,关键环节。只有使这些环节达到最优化，才能优化检索策略。,选择检索系统,要根据课题要求，选择与所查课题相适应、质量较高、检索手,段比较完善的检索系统须了解和掌握其适用范围、收录特点，然后,可通过三次信息的选择和检索，如“,Subject Guide to Dialog,Database,”、,数据库目录等工具指引到二次信息检索工具。例,如，美国E,.,P,.,Sheehy编著的Guide to the Reference Books，,它介绍多种工具书，是目前世界上主要的指导使用工具,书的工具书。,在选择检索工具时，要考虑的主要问题如下：,1）,内容和时间上，考虑数据库内容对课题内容的覆盖面和一致性,2）,手段和技术上，机检具有较高的检索效率，但查准率低，缺乏,回溯性，,选择时需掌握其收录信息的年代范围，才能获得满意的,结果,；手检效率低，却具有良好的查准率。,3）,考虑价格和可获得性，应选择就近容易获得的,检索系统,。,检索途径是进入检索的入口。1)反映信息内容特征的（主题、,分类）途径：2）反映信息外部特征的（著者、题名、代码等）途,径。上述两类途径构成了信息检索的整个检索途径体系。,在计算机信息系统中，检索途径还有很多，几乎信息的每一个,特征（如出版社、出版年代等）都可作为检索途径。显然，检索途,径的多少直接关系到检索的便利。,每种检索途径各有特色，不可偏废。应根据检索要求、已知条,件、设备是否齐全等因素，尽量综合利用各种途径，取长补短，进,行优化选择，以提高检索效果,。,例如：为了解某一学科的发展历史、研究现状和发展趋势，为,了制定战略决策和进行预测而搜集有关信息，应以分类途径为主，,辅以主题检索途径；为研究解决某一具体问题或攻克某一技术难关，,应以主题途径为主，辅以分类途径；如果已知检索课题的外部特征,，则应选择题名、著者、代码等检索途径；如果已知检索课题的内,容特征，则应选择主题途径或,分类途径,。,选择检索方法（1）,追溯法：,1）,传统追溯法；,2）,引文追溯法,工具法：,1）,顺查法；2,）,倒查法；,3）,抽查法,交替法：,1）,直接交替法；,2）,间隔交替法,检索方法的选择原则：,1）检索条件,在没有检索工具可供利用的前提下，采用追溯法较为实际。虽检,索效率不高，费时费力，但比逐期或逐年翻查原始信息要快得多。,在原始信息收藏比较丰富的前提下，可查得一批有用信息；在有,检索工具可利用时，以采用工具法为佳。其检出率要比追溯法高，,所以工具法是最常用的检索方法。,2）检索要求,信息检索的一般要求是：广、快、精、准。若课题检索的目的,在于系统收集信息，进行综合分析和研究，这样就需要评论性、战,略性信息，以便供决策某一问题参考，即,“,普查,”,型检索。,对信息的,选择检索方法（2）,系统性、全面性要求较高，一般不能有重大遗漏。在检索时间比较,宽裕时，可以采用顺查法，利用检索工具进行检索。如果检索的目,的是解决与某一课题有关的关键性技术问题，即“攻关”型检索。这,种情况要求既“快”，又“准”地提供关键性信息。由于时间紧迫，无,疑不能采用顺查法，而宜用倒查法迅速查得最新技术信息。,3,）,学科特点,要考虑检索课题的学科发展特点。新兴学科，起点年代不长，又,有准确的可供查考的起始年代，可采用顺查法，也可采用倒查法；,年代久远的学科，只能采用倒查法。但是历史悠久的传统学科，其,发展过程总是波浪起伏地发展，,在兴旺时期，信息量多，反之亦然,检索信息时，可重点抽查学科发展的高峰时期，当然，这种考虑、,学科特点的检索原则同样地适用于专业特点、行业特点或技术特点,的情况。,检索策略的调整,检索过程是一个动态的随机过程，在某些检索环节中，会不,可避免地产生一些和检索目标相差甚远的现象。检索词过宽泛或,偏窄而造成扩检和漏检，检索词不规范而引起的误检等。所以有,必要在评价检索效果的基础上，对检索效果进行信息反馈，便于,重新修正检索策略，调整检索手段，进行新一轮的循环检索，从,而实现检索目标的完善。,以,SKBK,为例,：,C913.5*G=青少年犯罪*E=2001,C913.5*（G=青少年犯罪+G=未成年人犯罪）*（E=2001+E=2002）,C913.5*（G=青少年犯罪+G=未成年人犯罪+B=青少年犯罪+B=未成年人犯罪）*（E=2001+E=2002）,SKBK数据库检索举例,学号:123456 姓名:XXX,检索课题：,现阶段青少年犯罪的现象分析,关键词：,青少年犯罪（未成年人犯罪）,检索对象：,SKBK数据库,检索对象简介：,SKBK是全国报刊索引电子版。收录了全国社科期刊，报纸，内容涉及社会科学各个学科。收录原则为核心期刊全收、非核心期刊选收的原则，年更新量约20余万条，为目前国内特大型文献数据库之一。,检索步骤：,1）C913.5 234（篇）,2）C913.5+D917 675（篇）,3）C913.5+D17+D697.5 1455（篇）,（作业不能省略）,N）（C913.5+D17+D697.5）*（G=青少年犯罪+G=未成年人犯,罪）*E=1997,D=北京法制报 67（篇）,【序号】1382,【分类】D669.5,【题名】市场经济的负效应与青少年犯罪,【著者】鲁雪英,【出处】安徽大学学报:哲社版.-1997.(3).-61-64,【年份】1997,【主题】青少年犯罪;市场经济,-,【序号】16962,【分类】D669.5,【题名】对25名青少年吸毒引发犯罪的分析,【著者】王循,【出处】北京检察.-1997.(5).-31-32,【年份】1997,【主题】青少年犯罪;吸毒;案例分析,-,【序号】18343,【分类】D669.5,【题名】对门头沟区未成年人犯罪情况的调查及预防对策,【著者】吴世芳,【出处】北京警院学报.-1997.(2).-31-35,【年份】1997,【主题】青少年犯罪;预防犯罪;调查报告;北京市,-,检索结果复制五条,打开数据库,输入检索表达式,在索引词典文档中比较和匹配,从记录号倒排文档中调取记录号集合,记录号集合之间的逻辑运算,从顺排文档中调取记录,输出命中信息,结束检索,另选数据库,重新输入检索标识,结果不匹配,篇数不合要求,重新调整检索策略,记录内容不合要求,数据库检索原理,数据库的检索原理注释：,在输入检索词后，系统主要操作的对象是顺排、倒排文档在输入,单个检索词的情况下（如“软件”），系统首先查找索引词典倒排文,档，并在显示器上响应，给出含有“软件”一词的记录数，同时将这,些记录的地址调入内存。在系统接到用户显示命中记录的指令后，,调用记录号倒排文档，根据记录号从顺序文档中读取并显示记录。,有的系统则在接受用户检索词后，顺次搜索索引词典文档、记录号,文档和顺排文档，用户可同时看到命中的记录数和首记录的全部内,容。,在输入两个以上检索词的情况下，系统除了进行上述操作外，还,要对记录号集合之间进行布尔逻辑运算。,以下三种情况，,可以通过或者换用其他数据库，或者重新输入检,索词，或者调整检索策略的办法予以解决。,1),对输入的检索词，系统响应为“0”，即检索词与索引词典中标,识词不匹配；,2),对输入的检索词，系统响应的篇数或者太多，或者太少；,3),对输入的检索词，系统最后给出的记录并不合乎课题要求。,数据库检索的过程介绍,例如，检索课题：计算机在监狱事务方面的运用,数据库检索的具体过程：,1）先把课题编制成检索策略输入系统，系统中的索引文档对检,索策略中的“计算机”和“监狱事务”分别与存储标识进行匹配，显示,出“计算机”的信息有1299条，“监狱事务”的信息有392条。,2）系统分别到存取号倒排文档中找出这两个词对应的地址号,（如12和90），同时找到了含有“计算机”和含有“监狱事务”的所有,信息的存取号，并把它们调入内存单元进行组配运算。,3）组配运算的结果，有23条信息符合要求，,显示各自的存取号。,4）系统到顺排文档中按存取号调取命中的,三篇记录，并将记录,打印输出给用户。,数据库分类,可以将信息数据库划分为二大类。,1）参考数据库（Reference Database）,还需要进一步查找原文或其他资料的一类数据库。它包括,书目数据库：向用户提供信息线索，只能检索出信息的标题、,出处、著者、主题等。可分为文摘和索引数据库,指南型数据库：能提供用户参考、指南的各类信息，如企业、机,构等名称、地址电话、人物、出版物、项目、活动等简要描述信息,2）源数据库（Source Database）,数值型数据库：提供数据或数值类信息。,术语数据库：存储和检索名词术语信息，如电子词典等；,图像数据库：存储和检索各种图像或图形信息及文字说明资料；,全文数据库：存储和检索文献全文或其中主要部分的信息；,超文本数据库：存储内容分割为若干独立利用的结点，使用链路连结点等方式进行存取，形成了特殊的存取模式；,高级检索功能,1 加权检索,1）类似布尔，即用“+”号或选择“must contain”表示某检索词“一,定要出现”在检索结果中，如“+亚洲+金融风暴”，即检索结果中必,须同时含有“亚洲”和“金融风暴”这两个词）。即用“”号或选择,“must not contain”表示某检索词“一定不能出现”在检索结果中。,不加符号或选择“should contain”表示某个检索词“可以出现”在检索结果中。,2）加权（阈值），即对每个检索词根据其重要程度赋,予一定的权值，设定某阈值，检索结果的权值超越该阈值就算命中,如，检索词计算机、用户、软件，权值分别为5、8、4。阈值为9。,计算机、用户、软件权值和=17 大于9，命中。,计算机、用户权值和=13 大于9，命中。,计算机、软件权值和=9 等于9，命中。,用户、软件权值和=12 大于9，命中。,用户权值和=8 小于9，不命中。,2 自然语言检索,系统利用非用词词表排除非关键词后检索。如please find for,me something about automobile sale in New York state，系统,会排除“禁用词”、“检索提问词”后将“New York state”、,“automobile sale”作为关键词进行检索。,3 相关信息反馈检索,希望得到类似检索结果中某一结果而采取的方法，如Google 中,的“类似网页”，Excite中的“search for more documents like,this one”,ycos中的“More Like This”.,4 模糊检索,允许被检索信息和检索词之间存在一定的差异。如监狱管理、管,理监狱、监狱的管理等。也包括用户的输入错误，以及格某些词汇,在不同国家的不同形式，例如“catalog”、“catalogue”.,5 概

展开阅读全文