1、计算机信息检索,计算机信息检索的过程,结构化、半结构化、非结构化信息资源,检索系统,专题数据库、OPAC、一般和多元搜索引擎、智能代理、国际联机系统,多媒体检索系统,第一章 信息概述,信息的特征 客观性:信息是客观事物运动与状态的反映。 动态性:客观事物的变化是永恒的,持续断的。 相对性:信息对于信息用户永远是相对的。 依存性:必须依附于一定的物质形式(声波、物质载体等)。 可传递可干扰:可跨越时空传递,但是传递过程中时刻被干扰。 可加工性:可以被分析、综合、扩充和浓缩。 共享性:信息可以被一个用户反复使用、或多个用户同时使用。信息的类型(按信息表达形式划分) 文字信息:用文字表达其内容的信息
2、资料,如各种书刊读物; 声像信息:通过声频信号负载和传递的信息,如电影、广播等; 实物信息:通过实物来传递的信息,如样品等; 机读信息:通过计算机阅读的信息,如磁盘、光盘等;,信息的类型(按信息加工的层次划分) 一次信息:以信息制作者的研究成果为依据创作(撰写)的,未经信息加工的原始信息,如图书、期刊论文、学位论文等 二次信息:汇集大量的信息,用科学的方法整序,以简练的语言揭示信息的内容和外部特征,并提供一定的检索途径的检索系统,如目录、索引、文摘、数据库、搜索引擎等 三次信息:将大量的一次信息全面系统的再度选择、分析和综合,编制成使用目的更明确,效果更理想的检索系统。如综述、百科全书、年鉴。
3、 零次信息:未经记录或未公开发表的最原始信息,其本身无法通过载体在较大范围内传播的信息。如口头交流、会议文献、学位论文、手稿等。 一次、零次信息是知识的创造,是信息检索的对象; 二次、三次信息是知识的重组,是信息检索的工具。,信息的价值和作用 信息是使人原有的知识结构发生变化的那一小部分知识: K(S)+ I=K(S+ S) 一个人原有的知识结构(KS)在受到某些信息增量( I)的作用后,便可形成新的知识结构(KS+ S)信息动机的形成与转化 内在条件:在生活、学习和工作过程中遇到问题时感到缺乏信息的状态,一旦达到较强的程度,被用户意识到,就会转化为信息动机 外在条件:施加于个体之上的各种有形
4、或无形的刺激,其中尤以信息环境和信息意识的影响最为显著。用户的信息行为 从用户的角度出发,人的信息行为主要表现为信息查询行为、信息选择行为和信息使用行为。穆尔斯定律:易用性和可近性。,信息的选择行为 信息选择是从某一信息集合中把符合用户需要的一部分(子集合)挑选出来。“符合用户需要”是信息选择的基本原则。其核心是: 1) 相关性:(和查全率有关) 信息交流过程中来源与终点之间接触效率的量度,凡是论述同一主题或属于同一领域的文献信息都可以认为是相关的,而不考虑其水平高低; 2) 适用性: (和查准率有关) 用户对查询结果的价值判定,它反映了特定时间查询结果满足用户客观信息需要的程度,它受选择顺序
5、和时间推移等多种因素作用,其判断的有效范围是非常短暂的。,计算机信息检索的原理 广义的信息检索是指将大量信息进行人工、或机器的概念分析,通过标引(分类、主题、题名、作者、代码、字段等),依据标引组织成计算机信息系统;信息用户则利用计算机,依据标引在信息系统中检索有关信息。所以它通常被称为“信息存贮与检索”。狭义的信息检索指广义的信息检索的后半个过程。 如果用最简洁的文字表达,那么就是信息的“存”和“取”。计算机信息检索的本质 就是用户的信息需求与存储在计算机检索系统中的信息进行比较和选择,即匹配(Match)的过程。也就是对计算机信息集合体(系统)采用一定的技术手段,根据一定的线索与准确找出(
6、命中)相关信息。,计算机信息检索的必备条件1 物质条件 从检索的过程来看,计算机信息检索的物质条件由数据库、通信系统和检索终端三部分组成。2 人员条件 1)对检索课题的了解的程度; 2)对检索系统(包括计算机和数据库)的掌握程度; 3)语言(检索语言、检索策略调整以及外语水平)的掌握程度。计算机信息检索系统的构成 1)信息数据的选择、处理、录入、维护子系统 2)词表和标引子系统 3)检索子系统 4)系统用户接口子系统,计算机信息检索的类型1 根据检索的内容可以划分为: 1) 数据检索:其检索结果为数据,例如,从统计数据库中检索人口增长率 2) 事实检索:其检索结果为事实。例如,从中国科技名人数
7、据库中查询某一位科学家的生平与业绩。 3) 文献检索:其检索结果是能够满足用户需求的文献线索或全文,例如,从中国学位论文数据库(CDDB)中检索学位论文。 检索类型的综合分析: 检索课题:循证医学信息管理系统的实践运用分析 关 键 词:循证医学 信息系统 循证医学(运用)实践 1)利用“中国大百科全书”数据库,查询“循证医学”的概念; 2)利用美国著名的医学数据库(Medline)检索“循证医学”和传统医学在治愈率上的比较; 3)利用Springer Link数据库检索“循证医学”的论文情况。,手工检索和计算机检索的比较 信息检索的本质没有变化,变化的只是检索手段、检索对象、信息表示的方式、存
8、储信息的结构和匹配的方法 手工检索:检索点少、费时、效率低,但查准率高,经济等。 计算机检索:检索点多、省时、效率高,但查准率低,费用高等。,计算机信息系统的组织,定义:按计算机信息存储的方法建立起来的、供用户检索信息的一种有层次的体系,是表征有序信息特征的集合体。在这个集合体中,对所收录的信息的外部特征和内容特征都按需要有着详略不同的描述,每条描述记录(即款目)都标明有可供检索用的标识,按一定序列编排,科学地组织成一个有机的整体,同时应具有多种必要的检索手段。特征:信息集合、信息描述、概念标识科学编排、多检索途径类型:OPAC、各类专题、网络数据库、搜索引擎、国际联机系统等职能:报道信息、存
9、储信息和检索信息评估指标: 信息的收录范围; 信息特征标识的详略; 摘录及标引的质量; 信息报道的时效; 检索功能的完善。,信息系统的组织方法 字顺组织: 音序:根据汉字的读音及读音的符号的顺序组织信息; 形序:根据汉字的形体结构的某些共同之处加以排序; 号码组织: 按照信息被赋予的号码次序或大小顺序排列的方法;如专利号; 自然组织: 时序组织:按信息发生的时间顺序组织信息; 地域组织:按信息发生的地域、区划等地理顺序组织信息 字段组织:由若干数据项组成的记录来构成数据库的文档,通常 可分为基本字段和辅助字段,每个字段都可以作为检索入口。 超文本组织:非线性的、联想的、跳跃式的、多角度多层次的
10、 信息组织方法通过基本机构由结点的链组成,把信息中产生联 想的内容组合起来。 元数据组织:通过对网络信息(Web页面)外部特征和内容特征 的描述,并按照某一特征的规则组织信息的方法。,数据库的字段组织,数据库组成:符合某一目的需要的若干文档的集合 文档:若干个逻辑记录构成的信息组合 字段:用来描述实体的具体属性 记录:对某一实体的全部属性进行描述的结果 数据:对具体属性的表达,元数据信息组织实例: , 元数据 页面体信息省略 ,元数据概述 即关于数据的数据,它是对数据内容的描述。 都柏林核心集(Dublin Core) 通过电子资源提供者对WEB资源属性信息的描述,依据规范的款项对网络信息资源
11、内容进行标引,依此提高网络资源的检索效率。 特点: 简易:只有15个元素且都具有一个能够普遍理解的语义。 通用:不针对某个特定的学科或领域,支持对任何内容的资源进行描述,增加了跨学科的语义互操作性的可能 兼容:通过内嵌在HTML语言中来实现其对Web资源的描述。 可扩展:提供能够扩展描述的方法,即限定词的使用。:模式体系(SCHEME)、语言种类(LANG)、类型(TYPE),即所谓的“堪培拉限定词”。,计算机信息检索语言,定义: 精选于自然语言并加以规范化的词汇符号,用以对信息内容进行 概括其内容或外在特征的概念及其相互关系的概念标识体系。在信息的存储和检索过程中,它起着重要的语言保障作用。
12、它既是 沟通信息存储和检索过程信息标引和信息利用桥梁,又是检索系 统表达信息主题概念和检索课题概念的人工语言。概念: 1)等同关系: 同义:自行车和脚踏车、单车;斯里兰卡和锡兰; 准同义(近义):实验和试验;法律制度和司法制度; 2)从属关系:经济和工业、农业经济;文学和中国文学; 3)相关关系: 交叉:概念的一部分外延相重合,如市场文化学;,矛盾: 概念外延上的互相排斥,它们的外延之和等于其共同上位 概念外延的关系,如女性与男性; 对立:概念外延上的互相排斥,而它们的外延之和不 等于其上 位概念外延的关系,如法制和犯罪; 并列:是同一上位概念下的几个下位概念间的关系 检索语言在表达各种概念及
13、相互关系时,普遍地应用了上述概念逻辑的原理,并且利用了概念的划分与概括,概念的分析与综合这两种逻辑方法来建立自身的结构体系。检索语言的 类型: 分类语言(C912、F715) 反映信息内容特征 主题语言(关键词、叙词等) 题名、篇名 著者、团体著者 反映信息外部特征 出版事项(出版单位、时间等) 代码、序号(ISBN、专利号等) 其他(区域、时代、年代等),分类语言定义:建立在科学分类的基础上,运用概念划分与概括的方法,将 概念进行层层划分,逐级划分就产生许多级别的下位类目, 层层隶属,形成一个严格有序、层次分明的知识门类等级体 系。每个类目分别以不同的符号作标志,每个分类号都是表 达特定知识
14、概念的语词,即分类语言的语词,如: C910 社会学理论 C913.1 家庭婚姻 C8 统计学 C912 社会关系 C913.2 老年问题 C社科总论 C91 社会学 C913 社会问题 C913.3 酗酒 C92 人口学 C915 社会工作 C913.4 性问题 C93 管理学 C917 社会保障 C013,5 青少年犯罪分 C913.9 其他社会问题,使用分类语言的检索步骤,1)分析研究所需要查找信息的内容主题。 2)判断该主题在分类法中属于哪一大类,然后再从大类一级一级往下寻找,直到查到具体类目(或有关类目),记下类号为止。 3)根据检索到的类号在检索工具中检索,便可查得所需信息。例如,
15、欲查有关税收理论方面的信息。先进行分析得出主题是“税收”。由于专业范围窄,概念内涵较深,可概括为财政,财政又可概括为经济,然后再层层往下演绎。如:经济 财政金融 财政 财政理论 财政收入与支出 税收,分类号为F810.42。按此号到检索系统中去查找即得。,主题语言定义:用自然语言中的名词、名词性词组描述事物概念的中心语义。 也就是说,它以语言文字为基础,以反映特定事物为中心, 不论学科分野和科学技术的逻辑序列,直接借助于自然语言 的形式,作为信息内容的标识和检索依据的一种以主题字顺 体系为基本结构的检索语言。包括关键词语言、叙词语言和 标题词语言。例如: 网络资源利用中知识产权的法律思考 主题
16、词:知识产权 资源利用 网络资源 监狱管理中心理学实践的理论分析 主题词:心理学实践(运用) 监狱管理主题语言包含两个内容: 1)指表达信息内容特征的、经过规范化的名词术语; 2)指把这些名词术语按字顺排列成主题记号表或标题词表,以 此作为规范语词标引和检索信息的工具。,使用主题语言的检索步骤,1)对检索课题进行主题分析。如,中国税收理论方面的信息,其主题概念是中国税收理论,转换成主题词:税收、中国。 2)将所得出的主题概念转换成主题词; 3)再按查出的主题词字顺去翻检目录、索引或输入计算机数据库 4)注意选取最专指的主题词,再利用主题词找出相应的主题词。 因为选取上位类,范围过宽,缺乏查准率
17、,反之选取下位类,范围过窄,缺乏查全率。 5)应将主标题与副标题、说明语联系起来,如“社会主义空想”,应逆读为“空想社会主义”,“资本论传播”,应顺读为“资本论的传播”。 6)使用主题词检索信息时,还应充分考虑和选择该词的同义词、近义词作为检索入口,这样才能保证查全率。,计算机信息检索的一般技术,1 布尔逻辑算符 指通过标准的布尔逻辑关系词来表达检索词与检索词之间逻辑关系的检索方法,也是现代信息检索系统中最常用使用的一种方法。常用的布尔逻辑算符有三种: 逻辑与:算符 AND * 示例:刑事犯罪 * 女性 computer AND law 释例:同时含有 *前后两者概念的信息 作用:缩小检索范围
18、,提高检索的查准率 逻辑或:算符 OR + 示例:WTO + 世贸组织 + 世界贸易组织 car OR automobile 释例:符合 + 前后概念其中之一即可 作用:扩大检索范围,提高检索的查全率,逻辑非:算符 NOT 示 例:知识产权 版权 automobile NOT truck释 例:满足前者概念,同时必须剔除后者作 用:缩小检索范围,提高检索的查准率2 截词符(truncation) 截词是指检索者将检索词在合适的地方截断,局部进行检索的一种方法,即凡满足这个词截断部分中的所有字符(串)的信息,都为命中信息。在西文中,使用截词方法可以解决一个词的单复数问题,词干相同而词尾不同的问题
19、(例如,由同一词根派生出来的名词、动名词、形容词和副词等)以及英美单词拼写差异等问题。 截词必须适可而止,截去部分过多会大大增加误检率。绝大多数的检索工具都支持截词功能。有的是自动截词(如Lycos),有的是在一定条件下才能截词(如Alta vista)。使用最多的是右截词(如comput*),部分支持中截词(如wom*n),左截词则少见(如*physics)。,后截词:edit*、computer* 可以检索到:edit、editing、edition、editor和 computerized、computerization等前截词:*market *physics 可以检索到:superm
20、arket、internet-market等*physics,可以检索到astrophysics、biophysics、chemo-physics、geophysics等中截词:wom*n,可以检索到:woman、women等。需要注意的是: 按截断的字符数量来分开分为有限截断和无限截断两种类型。在不同的检索系统中对截断符号的表示具有不同的规定,例如,Dialog系统使用“?”,而BRS系统使用“$”,Orbit系统使用“#”等。,使用布尔算符需要注意的是: 1)表达方式有异: 符号型:“ + ”、“ * ”、“ - ”; 字母型:“and”、“ or”、“ and not(not)”; 菜单
21、型:“match all terms”、“match any term”; 文字型:“MUST contain”、“MUST NOT contain”2)部分支持布尔算符 如Yahoo!不支持逻辑非、如HotBot、Infoseek等不支持复合布尔算符,却允许用户根据自己意愿组配布尔算符。3)布尔算符的局限性显而易见。 匹配标准僵化、相关度难以描述、输出信息不排序、难以构建理想的提问式等。尤其是公共检索系统更难以面对最终用户。所以各类系统均出现一系列方法来部分弥补其不足。如英国的Okapi系统采用词频加权模式,部分地弥补布尔算符的不足。,3 限制检索: 限定检索的条件多种多样,主要和常用的是字
22、段限制,它是限定检索词必须在数据库记录中规定的字段范围内出现。如 Computer/AB(后缀:基本字段使用)、 LA=English(前缀:辅助字段使用)等。其余可以限定的有: 1)限定范围,即限定关键词必须是处于页面中的某个字范围内的。如限定在标题、URL、链点文字、网页文字、特定站点等部分; 2)限定网页深度(即网页层次); 3)限定在某一专题内。 如新闻组、黄页、电邮地址、股票等; 4)限定在某一分类类目内;如经济、文学、艺术、军事等 5)限定首先在5最优站点范围内检索; 6)限定网络资源类型(网站类型)。如个人网页、商业、教育等; 7)限定网络资源类型。如文件、声音、图像、HTML、
23、编程语句等; 8)限定日期。如特定日期前、后、最近某段时间内建立等等; 9)限定地区或域名。,4 邻近检索 (nW):要求所连接的两个检索词在结果中相互距离不超过n个词(中文则不超过n个字),而且前后顺序不能颠倒。如:检索式second(W)world(W)war就只能检索出那些包含词组“second world war”的结果,而不会检索到包含“second war in the world” (nN):用途略逊一筹。作用相同,但前后顺序可以变换。如: Environment(2N)protection就可检索出包含 “environment protection” “protection
24、of forest environment ” “protection of the environment” “protection of water environment” 总的来说,(W)和(N)关系对提高检索的查准率有着不可低估的功用。如果SE能支持更多其他邻近检索关系,如DIALOG的(L)和(F)关系,查准率可进一步提高。,检索效果的分析和评估检索效果:是指计算机信息系统检索信息的有效程度,反映了数据库系统的检索能力。检索效果包括检索的技术效果和经济效果。 技术效果:信息系统完成其功能的能力,主要指性能和质量。 经济效果:信息系统完成其功能的价值确定,主要指成本和时间。 查全率:
25、是衡量系统检索出与课题相关信息的能力; 查准率:是衡量系统拒绝非相关信息的能力。 两者结合起来,即表示信息系统的检索效率。,查全率,查准率,一系列实验表明:查全和查准之间存在互逆关系。同时提高查全率和查准率是有难度的,对任何一个检索系统,在两者间存在一个最佳的比例关系,即查全率在60-70%,查准率在40-50%。,关于检索步骤,检索课题,检索结果,分析研究课题,选择检索系统,确定检索途径,调整检索策略,选定检索方法,初步检索结果,获取原始文献,制定检索策略,N,Y,关于检索词和关键词关键词: 就是从检索课题的题目、摘要和内容中抽取出来,能够充分表达信息主题内容的具有检索意义的关键性词汇。例如
26、: 检索课题:计算机领域犯罪心理的剖析 关 键 词:计算机犯罪 犯罪心理(学) computer crime; criminal psychology 检索课题:家庭破裂和社会问题的内在联系 关 键 词:离婚 社会问题 divorce social problem 检索课题:监狱管理中的社会学原理运用 关 键 词:社会学(原理) 监狱管理 sociology; prison management,检索课题关键词的概念分析1)一般关键词的分析 关键词分析就是分析出课题所涉及的主要概念,并选择能代表这些概念的若干个词或词组,进而分析概念之间的上、下、左、右关系。尤其值得注意的是对于新学科、交叉学科
27、和边缘学科的课题,清楚概念关系就显得尤为重要。概念分析的结果应以概念组为单元的词或词组形式列出,以便制订检索策略。 例如,检索课题:网络资源的知识产权保护 关 键 词:知识产权保护 网络资源2)隐含关键词的分析 有些课题的实质性内容往往很难从课题的名称上反映出来,课题所隐含的概念和相关的内容需要从课题所属的专业角度作深入分析,才能提炼出能够确切反映课题内容的关键词。例如“知识产权保护”的概念中就隐含着“版权”、“著作权”等概念。,3) 核心概念的选取 有些关键词已经含有的某些概念,在概念分析中应予以排除。例如。“社会保障”包含“养老保险”、“失业保险” 、“医疗保险”、和“社会救济”等下位概念
28、及同位概念“社会保险”。所以,如果需要检索“养老保险”方面的信息,应直接使用养老保险做关键词最确切。 如果有些检索概念已经体现在所使用数据库中,这些概念也应该予以排除。例如,在使用法律文摘数据库(law abstracts)时,“法律(law)”这一概念一般可以排除;而computer一词在计算机数据库(The Computer Database)中一般也应予以排除。 另外有一些比较泛指、检索意义不大的概念,如“发展”、“趋势”、“现状”等在不是专门查找综述类信息时也予以排除。,关键词的判断和选择 关键词是表达用户信息需求和检索课题内容的基本元素,也是计算机检索系统进行匹配基本单元。正确的主题
29、分析是制定检索策略的保证,它决定了检索策略的质量和检索效果的好坏。1)使用通用性的术语 切忌使用国际上并不通用的术语,例如,“第三世界”、“下岗”等查找国外数据库。要尽量使用本学科在国际上通用的、国外文献上出现过的术语,避免使用冷僻词和自选词2)选择概念表达最确切的词语 关键词的选择不仅从课题名称中分析,更要从学科专业和检索目的的角度,概括出能够反映课题实质内容的检索词,以便提高检索的切题程度。3)从相应的规范词表中选定所需的关键词 很多数据库都有自己的主题词表,所以应该优先选用词表中的规范词,以便能使检索获得最佳的效果。在计算机检索系统中一般都备有联机查询指令供检索者联机确定关键词使用。,关
30、键词的扩展处理 在确定关键词时,除了要考虑到被选用关键词的缩写词及不同拼法的词,还要考虑反映主题概念的同义词、近义词等相关词,以便在编制检索式时考虑到这些因素,避免漏检有关的信息。 1)同义词的判断和选择 如:学名和俗名:激光(镭射)、马铃薯(土豆)、 简称和全称:TV(television)、澳州(澳大利亚)、WT 英美方式:“catalog”(catalogue)、“color”(colour) 。2)近义词的判断和选择 如:合同纠纷(合同争议)、国际矛盾(国际冲突) 跨国公司(跨国企业)、法律监督(司法监督)等。3) 概念为单位,构成组面关键词 例如: 检索课题:经济领域犯罪的心理分析
31、关 键 词:经济犯罪 犯罪心理 心理分析,关键词的选取应该考虑一些其他因素: 例 如:关于经济领域的诈骗行为的心理剖析 关键词:经济诈骗 诈骗心理(分析) 这里有个概念的重叠和拆分的问题, 如果关键词为“经济领域 诈骗行为 心理剖析”,显然没有达到简洁、切题的要求。 例 如:家庭、婚姻裂变和青少年犯罪的内在联系 关键词:离婚(单亲家庭) 青少年(未成年人)犯罪 这里有个常用概念、相近概念需要考虑, 如果关键词标引为“婚姻裂变 青少年犯罪”,检索结果的查全率一定将大大降低。检索点的确认课题名称:1998-2000年度邓伟志先生在报刊上发表的有关社会学家庭婚姻的论文有多少? 检 索 点: 1998
32、-2000 报刊论文 邓伟志 社会学 家庭婚姻 (时间) (范围) (人物) (学科) (主题),检索课题的分析和研究,这是指在着手查找信息前对课题进行分析,明确学科或专业的范围,弄清检索的真正意图及实质。它包括了解课题的内涵概念范围和外延概念范围,以便确定检索标识(检索词、分类等);明确课题所需信息的内容、出版国别、语种和年限;同时还要在分析的基础上形成主题概念,包括所需信息的主题概念有几个?概念的专指度是否合适?哪些是主要的?哪些是次要的等。1)专业范围:确定该课题涉及哪些专业及其相关的学科。2)时间范围:确定该课题需要检索信息的年代范围。3)地理范围:了解课题在哪个国家处于领先地位。4)
33、语种范围:该课题在哪国占优势,选择该国母语的检索工具。5)信息类型:选择与课题有关的、针对性强的检索工具。,检索策略的制定,检索策略,即将课题的提问及其检索词与检索工具的收录内容、编排特点相匹配而确定的检索方案或程序。制定检索策略的主要内容是,在分析检索课题的基础上,确定要利用哪些检索工具,确定查找年限和专业范围的选择,确定检索用词并判明各词之间的逻辑关系与查找步骤等事项的科学安排。 如 C913.5 * G = 青少年犯罪 * E= 2001制定检索策略的关键环节1)对检索课题的标引要准确。2)选择收录全面、年限长、地域广,学术权威性高,编排方法科学,功能较多,易于使用的检索系统,这样才能提
34、高检索效果。3)全面、综合地考虑选择检索途径,取长补短; 综上所述,详尽分析检索课题,从而确定检索目标,是制定良好检索策略的基础;选择适当的检索工具,是使合理的检索策略得以实施的前提条件;检索途径的确定和检索词的调节,是检索过程的关键环节。只有使这些环节达到最优化,才能优化检索策略。,选择检索系统,要根据课题要求,选择与所查课题相适应、质量较高、检索手段比较完善的检索系统须了解和掌握其适用范围、收录特点,然后可通过三次信息的选择和检索,如“Subject Guide to Dialog Database” 、数据库目录等工具指引到二次信息检索工具。例如,美国E. P. Sheehy编著的Gui
35、de to the Reference Books,它介绍多种工具书,是目前世界上主要的指导使用工具书的工具书。 在选择检索工具时,要考虑的主要问题如下:1)内容和时间上,考虑数据库内容对课题内容的覆盖面和一致性2)手段和技术上,机检具有较高的检索效率,但查准率低,缺乏回溯性,选择时需掌握其收录信息的年代范围,才能获得满意的结果;手检效率低,却具有良好的查准率。3)考虑价格和可获得性,应选择就近容易获得的检索系统。,检索途径是进入检索的入口。1)反映信息内容特征的(主题、分类)途径:2)反映信息外部特征的(著者、题名、代码等)途径。上述两类途径构成了信息检索的整个检索途径体系。 在计算机信息系
36、统中,检索途径还有很多,几乎信息的每一个特征(如出版社、出版年代等)都可作为检索途径。显然,检索途径的多少直接关系到检索的便利。 每种检索途径各有特色,不可偏废。应根据检索要求、已知条件、设备是否齐全等因素,尽量综合利用各种途径,取长补短,进行优化选择,以提高检索效果。 例如:为了解某一学科的发展历史、研究现状和发展趋势,为了制定战略决策和进行预测而搜集有关信息,应以分类途径为主,辅以主题检索途径;为研究解决某一具体问题或攻克某一技术难关,应以主题途径为主,辅以分类途径;如果已知检索课题的外部特征,则应选择题名、著者、代码等检索途径;如果已知检索课题的内容特征,则应选择主题途径或分类途径。,选
37、择检索方法(1),追溯法:1)传统追溯法;2)引文追溯法工具法:1)顺查法;2)倒查法;3)抽查法交替法:1)直接交替法;2)间隔交替法检索方法的选择原则:1)检索条件 在没有检索工具可供利用的前提下,采用追溯法较为实际。虽检索效率不高,费时费力,但比逐期或逐年翻查原始信息要快得多。在原始信息收藏比较丰富的前提下,可查得一批有用信息;在有检索工具可利用时,以采用工具法为佳。其检出率要比追溯法高,所以工具法是最常用的检索方法。2)检索要求 信息检索的一般要求是:广、快、精、准。若课题检索的目的在于系统收集信息,进行综合分析和研究,这样就需要评论性、战略性信息,以便供决策某一问题参考,即“普查”型
38、检索。对信息的,选择检索方法(2),系统性、全面性要求较高,一般不能有重大遗漏。在检索时间比较宽裕时,可以采用顺查法,利用检索工具进行检索。如果检索的目的是解决与某一课题有关的关键性技术问题,即“攻关”型检索。这种情况要求既“快”,又“准”地提供关键性信息。由于时间紧迫,无疑不能采用顺查法,而宜用倒查法迅速查得最新技术信息。3)学科特点 要考虑检索课题的学科发展特点。新兴学科,起点年代不长,又有准确的可供查考的起始年代,可采用顺查法,也可采用倒查法;年代久远的学科,只能采用倒查法。但是历史悠久的传统学科,其发展过程总是波浪起伏地发展,在兴旺时期,信息量多,反之亦然检索信息时,可重点抽查学科发展
39、的高峰时期,当然,这种考虑、学科特点的检索原则同样地适用于专业特点、行业特点或技术特点的情况。,检索策略的调整,检索过程是一个动态的随机过程,在某些检索环节中,会不可避免地产生一些和检索目标相差甚远的现象。检索词过宽泛或偏窄而造成扩检和漏检,检索词不规范而引起的误检等。所以有必要在评价检索效果的基础上,对检索效果进行信息反馈,便于重新修正检索策略,调整检索手段,进行新一轮的循环检索,从而实现检索目标的完善。 以SKBK为例:,C913.5 * G = 青少年犯罪 * E= 2001C913.5 * (G = 青少年犯罪 + G=未成年人犯罪)* (E=2001 + E=2002)C913.5
40、* (G = 青少年犯罪 + G=未成年人犯罪 + B = 青少年犯罪 + B=未成年人犯罪)* (E=2001 + E=2002),SKBK数据库检索举例,学号:123456 姓名:XXX检索课题:现阶段青少年犯罪的现象分析关 键 词:青少年犯罪(未成年人犯罪) 检索对象:SKBK数据库检索对象简介:SKBK是全国报刊索引电子版。收录了全国社科期刊,报纸,内容涉及社会科学各个学科。收录原则为核心期刊全收、非核心期刊选收的原则,年更新量约20余万条,为目前国内特大型文献数据库之一。检索步骤:1)C913.5 234(篇)2)C913.5 + D917 675(篇)3)C913.5 + D17
41、+ D697.5 1455(篇) (作业不能省略)N)(C913.5 + D17 + D697.5)* (G=青少年犯罪+ G=未成年人犯 罪)* E =1997 D = 北京法制报 67(篇),【序号】1382 【分类】D669.5 【题名】市场经济的负效应与青少年犯罪 【著者】鲁雪英 【出处】安徽大学学报:哲社版.-1997.(3).-61-64 【年份】1997 【主题】青少年犯罪; 市场经济 -【序号】16962 【分类】D669.5 【题名】对25名青少年吸毒引发犯罪的分析 【著者】王循 【出处】北京检察.-1997.(5).-31-32 【年份】1997 【主题】青少年犯罪; 吸毒
42、; 案例分析 - 【序号】18343 【分类】D669.5 【题名】对门头沟区未成年人犯罪情况的调查及预防对策 【著者】吴世芳 【出处】北京警院学报.-1997.(2).-31-35 【年份】1997 【主题】青少年犯罪; 预防犯罪; 调查报告; 北京市 -,检索结果复制五条,打开数据库,输入检索表达式,在索引词典文档中比较和匹配,从记录号倒排文档中调取记录号集合,记录号集合之间的逻辑运算,从顺排文档中调取记录,输出命中信息,结束检索,另选数据库,重新输入检索标识,结果不匹配,篇数不合要求,重新调整检索策略,记录内容不合要求,数据库检索原理,数据库的检索原理注释: 在输入检索词后,系统主要操作
43、的对象是顺排、倒排文档在输入单个检索词的情况下(如“软件”),系统首先查找索引词典倒排文档,并在显示器上响应,给出含有“软件”一词的记录数,同时将这些记录的地址调入内存。在系统接到用户显示命中记录的指令后,调用记录号倒排文档,根据记录号从顺序文档中读取并显示记录。有的系统则在接受用户检索词后,顺次搜索索引词典文档、记录号文档和顺排文档,用户可同时看到命中的记录数和首记录的全部内容。 在输入两个以上检索词的情况下,系统除了进行上述操作外,还要对记录号集合之间进行布尔逻辑运算。 以下三种情况,可以通过或者换用其他数据库,或者重新输入检索词,或者调整检索策略的办法予以解决。 1) 对输入的检索词,系
44、统响应为“0”,即检索词与索引词典中标识词不匹配; 2) 对输入的检索词,系统响应的篇数或者太多,或者太少; 3) 对输入的检索词,系统最后给出的记录并不合乎课题要求。,数据库检索的过程介绍例如,检索课题:计算机在监狱事务方面的运用 数据库检索的具体过程: 1)先把课题编制成检索策略输入系统,系统中的索引文档对检索策略中的“计算机”和“监狱事务”分别与存储标识进行匹配,显示出“计算机”的信息有1299条,“监狱事务”的信息有392条。 2)系统分别到存取号倒排文档中找出这两个词对应的地址号(如12和90),同时找到了含有“计算机”和含有“监狱事务”的所有信息的存取号,并把它们调入内存单元进行组
45、配运算。 3)组配运算的结果,有23条信息符合要求,显示各自的存取号。 4)系统到顺排文档中按存取号调取命中的三篇记录,并将记录打印输出给用户。,数据库分类 可以将信息数据库划分为二大类。 1)参考数据库(Reference Database) 还需要进一步查找原文或其他资料的一类数据库。它包括 书目数据库:向用户提供信息线索,只能检索出信息的 标题、出处、著者、主题等。可分为文摘和索引数据库 指南型数据库:能提供用户参考、指南的各类信息,如企业、机构等名称、地址电话、人物、出版物、项目、活动等简要描述信息 2)源数据库(Source Database) 数值型数据库:提供数据或数值类信息。
46、术语数据库:存储和检索名词术语信息,如电子词典等; 图像数据库:存储和检索各种图像或图形信息及文字说明资料; 全文数据库:存储和检索文献全文或其中主要部分的信息; 超文本数据库:存储内容分割为若干独立利用的结点,使用链路连结点等方式进行存取,形成了特殊的存取模式;,高级检索功能 1 加权检索 1)类似布尔,即用“+”号或选择“must contain”表示某检索词“一定要出现”在检索结果中,如“+亚洲 +金融风暴”,即检索结果中必须同时含有“亚洲”和“金融风暴”这两个词)。即用“”号或选择“must not contain”表示某检索词“一定不能出现”在检索结果中。 不加符号或选择“shoul
47、d contain”表示某个检索词“可以出现”在检索结果中。 2)加权(阈值),即对每个检索词根据其重要程度赋予一定的权值,设定某阈值,检索结果的权值超越该阈值就算命中 如,检索词计算机、用户、软件,权值分别为5、8、4。阈值为9。 计算机、用户、软件 权值和=17 大于9,命中。 计算机、用户 权值和=13 大于9,命中。 计算机、软件 权值和=9 等于9,命中。 用户、软件 权值和=12 大于9,命中。 用户 权值和=8 小于9,不命中。,2 自然语言检索 系统利用非用词词表排除非关键词后检索。如please find for me something about automobile s
48、ale in New York state,系统会排除“禁用词”、“检索提问词”后将“New York state”、“automobile sale”作为关键词进行检索。3 相关信息反馈检索 希望得到类似检索结果中某一结果而采取的方法,如Google 中的“类似网页”,Excite中的“search for more documents like this one”,ycos中的“More Like This”.4 模糊检索允许被检索信息和检索词之间存在一定的差异。如监狱管理、管理监狱、监狱的管理等。也包括用户的输入错误,以及格某些词汇在不同国家的不同形式,例如“catalog”、“cata
49、logue”.,5 概念检索借助于一个同义词表对输入的检索词自动添加同一概念的词汇集合(同义、近义、广义和狭义词等),有助于提高查全率,但不会降低查准率。例如检索“automobile”、能同时包含“van” “bus”、“automobile”、“car”、“truck”, 等任一词汇的结果。又如在检索“公共交通”这一概念时,有关“公共汽车”或“地铁”的信息也能随之检索到。例如Excite.需要指出的是: 1) 检索技术的逐步改善能在一定程度上提高查准率,却减弱了检、索词的易用性。 2) 上述技术中,布尔检索、加权检索、限制检索和按相关度排列检索结果是主要的检索技术。 3)选择一定数量、质量
50、高的检索工具,在各自的检索结果中选定10%(结果罗列前面的),整理去重,无疑是一个提高检索效果的好办法。,联机公共书目检索(OPAC)联机公共书目检索系统是供读者查询馆藏数据的联机检索系统。特点:数据丰富、界面友好、检索方式灵活、服务周到。,检索字段选择,搜索引擎概述,随着因特网的迅猛发展、WEB信息的增加,用户要在信息海洋里查找信息,就象大海捞针一样,搜索引擎技术恰好解决了这一难题。搜索引擎以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的。搜索引擎提供的导航服务已经成为互联网上非常重要的网络服务,搜索引擎站点也被美誉为“网络