1、章 节:第二章 信息检索基本理论学 时:2学时教学目的:1 了解信息检索工具的概念、类型。2 了解检索语言的分类,掌握分类语言、主题检索语言的概念、特点、使用方法。3 了解中国图书分类法、汉语主题词表的主要结构。4 了解信息检索的原理和途径,学会信息检索的方法和检索步骤。5 掌握信息检索效果的主要评价指标,了解提高检索效果的策略。重点难点:1 简述信息检索工具的类型。2 论述分类语言、主题检索语言的原理与特点。3 简述信息检索的主要步骤。4 论述提高信息检索效果的方法。教学进程:1 信息检索工具(15分)。2 信息检索语言(30分)。3 信息检索的步骤(25分)。4 检索效果的评价(25分)5
2、 小结(5分)。思 考 题:1 简述信息检索工具的种类。2 简述分类语言与主题语言的含义及其特点。3 简述信息检索的步骤、方法。4 简述查全率、查准率的概念,分析影响查全率和查准率的因素,并提出解决办法。参考资料:1 沈固朝.信息检索(多媒体)教程.北京:高等教育出版社2 华薇娜.网络学术信息资源检索与利用.北京:国防工业出版社3 刘俊熙,王立义.信息检索.北京:北京图书馆出版社备 注:第二章 信息检索基本理论1 信息检索工具信息检索工具是指人们用来存储、报道和查找文献信息的工具或系统。在文献检索里面就是我们前面讲到的二次文献。 按照对收录文献的提示方式划分,信息检索工具可分为目录、题录、文摘
3、索引。检索工具的作用:1、存储作用 检索工具将分散的不同种类、学科文献经过压缩加工系统排列组织到一起。只有先进行了存储我们才能进行查找。这样我们不必在查找资料时阅读大量原始文献,只需利用检索工具查找相关主题的目录介绍等来确定我们所需的资料。在有限时间内提高了工作效率。2、检索作用存储在检索工具中的资料,可根据我们的需要按一定的方法和规则进行查找。既然是检索工具集必然具有检索的作用。3、报道作用检索工具搭建了文献管理者和文献利用者之间沟通联系的桥梁。它可以向我们使用者展示管理者所收藏的文献类型、数量等情况,提高了文献的利用率。例:图书馆的门口专供检索的机子,他将图书馆的馆藏数据存在一套图书馆专
4、用管理系统中,我们可以通过利用这套系统,来检索图书馆都有哪些书,书名作者是什么?放在什么地方?借出去基本几本?还有几本在库里,甚至你们读者证的一些信息,包括超期没有,罚金多少等等都可以查询。他也是一个检索工具。 检索工具类型:1.1 目录 目录是揭示出版物外部特征的检索工具,如书名、作者、出版社等等,并不涉及书中的具体章节或期刊中的具体文章。他以“本”为单位报道文献。目录的种类主要有:书名目录:如全国总书目、全国新书目;著者目录: ;分类目录: ;主题目录: 。1.2 题录 题录是以单篇文献作为报道单位,揭示文献外部特征的检索工具。内容包括文献号、文献篇名、作者及工作单位、原文出处等,他也不涉
5、及文献内容,没有内容摘要。文献深度比目录大,是用来查找最新文献的重要工具。1.3 文摘 文摘也是以单篇文献为报道单位,是描述文献外部特征和主要内容特征的检索工具。我们可以通过文摘内容了解文献基本内容,从而决定文献的取舍,起到筛选文献的作用。因此其检索功能强于题录,是检索工具的主体性类型。1.4 索引 索引是将文献中某些主要的、具有检索意义的内容特征标识或外部特征标识按某种顺序排列,并注明文献条目线索的检索工具。如主题索引、著者索引。索引常附于检索工具的后部,是检索工具的主要组成部分,它为查找文献提供了多种检索途径。有的本身全由索引构成,如美国科学引文索引(SCI),美国工程索引EI。 索引的组
6、成主要有索引款目和参照系统两部分。索引款目是索引的主要部分,每条索引款目通常由文献特征标识(标目)、说明语、地址三项组成。 标目:识别特定款目的主要标志,他控制款目在索引中的位置,检索者可以通过他迅速找到有关款目。作者姓名、主题词等都可作为标目。采用不同形式标识,就构成不同类型索引。如关键词索引、分类号索引、作者索引。 说明语:用来限定和进一步细分同一标识下的文献,达到改善索引的功能。文献题名、自编的短语或短句都可作为说明语。 材料出处:指明了索引中款目的文献线索,如页码、题录或文摘的顺序号等。一般文献描述项和索引之间常用文摘号相连,文摘号是检索系统编织者给每篇文献确定的一个能代表该篇文献的号
7、码,我们可通过所引种的文摘号的指引检索文献的描述项,从而获得文献详细信息。 5、搜索引擎 他是以网页为著录单元,在Web中自动搜索信息并将其自动所引到Web服务器。索引信息包括文档地址,文档中单字出现的频率、位置等。网络搜索引擎很多,著名的有Yahoo! Google 百度、搜狐、网易、新浪等。 2 信息检索语言2.1 信息检索语言的概念举例:每天经邮局寄出的信件来自四面八方,杂乱无章。而代表地址的邮政编码和文字确使这些信件成为有序。邮政编码使邮件分检速度加快,有序化程度提高。他不是随意组合的,而是代表了一定的编号。信息也是如此,全世界每年产生的信息何止千万,信息中心将这些信息搜集起来,制定出
8、有关规则,如使用哪种信息系统,使用哪种分类法和主题词表,著录信息的标准是什么等等。信息人员根据规定的规则将信息加工后按一定的排序送入信息系统。用户可以按一定得条件去检索信息了。因此说信息的有序化是由信息著录标准、信息系统的排序方法及检索语言等决定的。检索语言(Retrieval Language)是保证存储和检索的一致的一种共同性的人工语言,它把文献的存储与检索联系起来,使文献的标引者和检索者取得共同理解,从而实现检索。就检索语言的实质而言,它是从自然语言中精选出来并加以规范化的一套词汇符号,是概括信息内容或外在特征及其相互关系的概念标识体系。检索语言由词汇和语法两部分组成。 词汇是指登录在类
9、表、词表中所有的标识(分类号、检索号、代码等),是可识别的语词;语法是指如何运用标识来准确表达信息内容和特征,以有效实现信息检索的规则。 在存贮和检索过程中,检索语言起着重要的语言保障作用。它既是编制检索工具的依据,也是计算机信息存储及检索系统用以表达文献主题概念的人工语言。如果没有检索语言作为标引人员与检索人员的共同语言,就很难使得标引人员对文献主题内容的表达(文献标引)与检索人员对相同内容的课题文献需求(课题标引)取得一致,文献检索也就不可能顺利实现,甚至根本无法实现。2.2 信息检索语言的分类检索语言的种类很多。按描述文献特征不同,检索语言分为描述文献外表特征的检索语言和描述文献内容特征
10、的检索语言,见下图。图2-2 信息检索语言题名语言:是按文献题名字顺逐字排检,西文起首冠词一律不排。著者语言:是按著者姓名,按姓前名后的字顺逐字排检。号码语言:是按文献代码,发专利号、标准号、报告号、ISBN号、ISSN号等的顺序排检。2.3 分类语言2.3.1 概述分类语言是一种直接体现学科知识分类的等级制概念标识系统,是通过对概括性文献信息内容及某些外表特征的概念进行逻辑分类和系统排列而构成的,用分类号作为检索标识,用于存储和检索文献信息的一种信息标识系统。 建立体系分类语言的基础是概念的划分。所谓“类”是指具有某种共同属性的事物或概念的集合。一类事物可以根据其不同的属性进行层层划分。一个
11、概念经过一次划分后形成的一系列概念就是种概念(下位类),而被划分的概念被称为种概念(上位类)。同一属概念划分出来的各个种概念彼此之间相互称为并列概念(同位类)。 分类语言包括体系分类语言和综合分类语言(分面组配分类语言)。我们只对体系分类语言进行研究。2.3.2 中国图书分类法简介中国图书分类法简称中图法,是我国图书情报界为实现全国信息资料统一分类编目而编制的一部大型信息分类法。中图法1973年出版第一版,1980年和1982年相继出版第二版、第三版,现行的第四版1999年正式出版。 中图法由分类表、编辑及使用说明和索引三部分组成。编辑及使用说明为了解和掌握分类表提供指导。索引则是使用分类表的
12、辅助工具。分类表是分类法的主体,是类分信息的主要依据。因此,以下重点介绍分类表的结构。(1) 基本部类。它是分类法类目表中最先确定、最概括、最本质的类目。中图法确定为五大部类:马列主义、毛泽东思想、邓小平理论,哲学,社会科学,自然科学,综合性图书。(2) 基本大类。它是在基本部类的基础上进一步展开而形成的。基本大类构成分类表的第一级类目。中图法的基本大类有22个。见图2-3。(3) 简表。简表是整个分类法的基本类目表,一般由基本大类在作一、二度划分出来的类目和基本大类构成。(4) 详表。是整个分类法的正文,亦称主表,由所有不同级类目组成。它是类分信息资料的依据。(5) 辅助表。也称复分表,它是
13、用于辅助主表的不足,对主表中列举的类目进一步细分。 基本部类 基本大类马克思主义列宁主义、毛泽东思想、 邓小平理论 A 马克思主义、列宁主义、毛泽东思想、邓小平理论哲学 B哲学、宗教社会科学C社会科学总论D政治、法律E军事F经济G文化、科学、教育、体育H语言、文字I文学J艺术K历史、地理自然科学 N自然科学总论 O数理科学和化学P天文学、地球科学Q生物科学R医药、卫生S农业科学T工业技术U交通运输V航空、航天X环境科学、安全科学综合性图书Z综合性图书图2-3 中国图书分类法基本大类中图法的标记符号采用汉语拼音与阿拉伯数字相结合的混合制号码。用一个字母表示一个大类,用字母的顺序反映大类的顺序,在
14、字母后面用数字反映大类下类目的划分。分类号码的排列严格按照小数制的排列方法。数字的位置尽可能使号码的级数代表类目的级数,基本上遵循层累制的编制原则。见图2-4。 G文化、科学、教育、体育 G0文化理论 G1世界各国文化与文化事业 G2信息与知识传播 G25图书馆学、图书馆事业 G252读者工作 G252.7文献检索 G3 科学、科学研究 G4 教育 G8 体育图2-4 中国图书分类法类目展开示例2.3.3 体系分类语言的优势:(1) 族性检索效果强。能较好地体现学科的系统性,便于人们从某一学科或专业角度查找文献。(2) 便于随时放宽或缩小检索范围。(3) 分类标识简单明了,易于掌握。2.3.4
15、 体系分类语言的缺陷:(1) 不利于特性检索。(2) 类目专指度不够,在标引和检索复杂的主题概念时不够准确。(3) 单线结构,不能体现学科类目间错综复杂的多维关系。(4) 灵活性差,不能随时修改、补充,对边缘学科和新兴学科缺乏有效的方法。(5) 对检索者的专业知识要求较高。检索时要将信息主题内容转换成学科或专业名称,还要将类目转换成学科,影响检索效率和准确性。例:“茶的种植”、“茶的制造业”、“茶的贸易”都是论述茶这个主题的的,但是在中图分类法中却被归入“农业S”“工业技术T”“经济F”。影响查全率。2.3.5 分类检索语言的使用分类检索语言在信息检索中使用的步骤如下:(1) 分析研究所需要查
16、找信息的内容主题。(2) 判断该主题在分类法中属于哪一大类,然后再从大类一级一级往下寻找,直到查到具体类目或有关类目,记下分类号为止。(3) 按所得确切分类号在分类检索系统中查找,获得所需信息。 例如:1、查“程序设计”方面的信息,分析主题为程序设计,属工业技术类,然后进行逐级查找:工业技术T自动化技术、计算机技术TP计算机技术TP3计算机软件TP31程序设计、软件工程TP311程序设计TP311.1。2、查找税收理论方面。分析主题为税收*理论,属财政,而财政又是大类经济类。因此逐下寻找:经济F财政金融F8财政、国家财政F81财政理论F810财政收入与支出F810.4税收F810.42。按最后
17、查得的分类号到检索工具中去查询即可得到我们所需的文献。2.4 主题检索语言2.4.1 概述主题检索语言是指以自然语言为基础,以名词性术语为基本词汇,用名词性术语作为标识的一种信息标识系统。它的特点是以代表文献内容特征和科学概念的概念词作为检索标识,并按其外部形式(字顺)组织起来。2.4.2 主题检索语言分类主题检索语言主要有标题词语言、单元词语言、叙词语言和关键词语言四种类型。其中叙词语言是从单元词语言发展而来的,而单元词语言现已很少使用,故不讲述。以下将标题词语言、叙词语言和关键词语言作一简要介绍。(1) 标题词检索语言由标题法的概念可知,标题法是用规范化的自然语言经过标准化处理的名词术语作
18、为标识,来直接表达文献信息或涉及到的事物主题。其原理可概括为:按文献信息所涉及的主题集中文献,用规范化的语词直接标引文献信息主题,用参照系统间接显示主题之间的相互关系,用字顺序列直接提供主题检索途径。(2) 叙词检索语言叙词检索语言是以自然语言词汇为基础,以概念组配为基本原理,适用于现代信息检索需要而发展起来的一种信息检索语言类型。叙词语言基本构成要素是叙词。叙词又称主题词、描述词,它是一种从自然语言中精选出来的,以基本概念为基础的受控词汇。叙词语言的典据性文本是叙词表。在叙词表中,一方面通过词间关系的揭示来表达其语义关系,如等同关系、属分关系、相关关系以及等级关系等,同时运用字顺、分类或范畴
19、等级(词族)等方法全面显示。因此,叙词表形成了一个密切的语义网络,能适应多途径、多因素及多种特殊需求的检索,能达到较高的检索效果。例: 字面组配 概念组配 模拟+控制模拟控制 模拟+控制模拟控制 香蕉+苹果香蕉苹果 香蕉味食品+苹果有香蕉味的苹果(3) 关键词检索语言。关键词是一种用自然语言语词来作标识的检索语言。它是将出现在文献的标题(篇名、章节名)以至摘要、正文中,对表征文献主题内容具有实质意义的语词作为关键词排在检索入口,同时提供文献地址来满足检索者的检索要求。关键词法与其他主题法语言不同,它不编制关键词表。而是直接采用自然语言的词语作关键词,对自然语言中大量存在的等同关系词不加规范统
20、一,也不显示概念之间的关系,所以它的质量是比较差的的。但是,利用关键词法可以实现检索工具编制过程的计算机化,提高文献报道的时效性。2.4.3 主题语言的优势(1) 直观性强。来源于自然语言,用主题词作为标识,符合人们的辨识习惯,便于接受和掌握。(2) 专指性强,表达概念唯一。(3) 灵活性强,可以按检索需要,自由组配检索概念。(4) 概念网罗度高,一个主题词表达一个泛指的事物,若干个主题词人事科逻辑的组配,可以形成高度专批的概念。2.4.4 主题语言的缺陷无法实现“族性检索”。主题语言按主题概念集中信息,从而造成同一学科文献的分散。(1) 汉语主题词表简介汉语主题词表是为了使用汉字信息处理系统
21、进行检索而编制的,是我国第一部综合性的大型叙词表,也是国内最通用的一部词表工具书,共有三卷十分册。全表共收录主题词108568条。主表内容如下: Gongshi dinge 工时定额 Hour norm D 时间定额 S 技术经济定额 Z 经济定额 C 产量定额 工时利用 第一分卷社会科学 第一分册 主表(字顺表)A-Z 第二分册 索引(词族索引、范畴索引、英汉对照索引) 第二分卷 自然科学(略) 第三分卷 附表(世界各国政区名称表、自然地理区划名称表、组织机构名称表、人物名称表及其英文对照索引)2.4.5 主题检索的步骤(1) 对研究课题进行主题分析。(2) 将所得出的主题概念转换成主题词,
22、利用主题词表找出相应的主题词。(3) 按查出的主题词字顺去翻检目录、索引或输入计算机数据库。(4) 要注意选用最专指的主题词。(5) 应将主标题与副标题、说明语联系起来。(6) 在使用关键词检索信息时,除了使用某一常用的关键词外,还应当使用该词的同义词、近义词作为检索入口,以保证查全率。课题分析研究课题选择检索工具制定检索策略调整检索策略确定检索途径初步检索结果选定检索方法获取原始文献结果3 信息检索的步骤图2-5 信息检索的具体步骤示意图3.1 分析研究检索课题的要求 任何检索课题都是在一定范围内依据已知条件查找未知信息的过程。每项检索课题都有明确的目的和具体的要求,目的越明确,范围越具体,
23、掌握的线索越多,查获所需文献信息的可能性就越大。一般在进行课题检索之前从以下三个方面分析入手:3.1.1 分析研究课题的主题内容,即研究课题的所属学科、性质、特点,涉及多学科内容的检索课题,要找出其主要研究对象,确定检索课题所属学科、专业,从而准确把握检索课题核心内容的主题概念。3.1.2 确定研究课题所需的文献类型。由于现代科技文献的种类较多,并且所报道的内容各有侧重,如属于基础理论性研究的,一般侧重查找期刊论文,会议论文。如果是尖端科学技术,则应侧重于科技报告。如属于发明创造、技术革新,应侧重于专利文献。如为产品定型设计,则需利用标准文献及产品样本。 3.1.3 根据研究课题的背景信息确定
24、出文献检索的时间范围。检索的时间范围一般据研究课题的具体情况而定,如进行课题查新,需要检索近10年的文献;若为了掌握动态或解决某个问题,则以满足具体需要为准,确定检索时间范围。3.2 选择检索工具选择检索工具要根据检索课题的学科、专业特点以及所需文献类型,充分考虑检索工具报道文献的学科专业范围、文献类型、文种是否符合需要;了解所选检索工具对文献揭示的深度、提供的检索途径、报道的时差等因素。注重利用权威性的检索工具,同时注意将综合性与专业性和单一性的检索工具结合使用。并优先选择机读型检索工具,以争取最佳的检索效率。3.3 确定检索途径在利用检索工具查找文献信息时,主要是利用检索工具的各种索引,每
25、种索引提供一种文献信息检索途径,一般来说每种检索工具都为用户提供几种检索途径,归纳起来一般可以分为四种:分类途径、主题途径、作者途径、题名途径、号码等其他途径。3.4 选择检索方法文献信息检索方法可归纳为追溯法、常用法和综合法三种。在检索文献信息时可根据检索课题的不同要求,选择不同的检索途径,以达到省时省力查全的效果。3.4.1 追溯法:是指利用文献后面所附的参考文献线索进行追溯查找的方法。科学研究的连续性和继承性决定要不断的参考和借鉴以前的科研成果。一篇学术论文的形成往往要参考或引用多篇其他论文的内容,并在文末将其作为参考文献列出。利用文末参考文献线索查找相关文献信息,在某种程度上可以扩大文
26、献来源。由于原文作者所引用的参考文献数量有限,而且不够全面,因此容易产生漏检和误检,且查全率极低。所以该方法是在缺少检索工具的情况下,作为查找文献的一种辅助方法来使用。3.4.2 常用法:是利用检索工具来进行查找文献信息的方法。也是最常用的一种检索方法。这种方法可分为顺查法、倒查法和抽查法三种。(1) 顺查法:按课题的起始年代,由远及近逐年查找的检索方法。由于逐年查找,故查全律较高,而且在检索过程中可以不断筛选,剔出参考价值较小的文献,因而误检的可能性较小。利用这种方法检索文献比较全面、系统,但费时费力,工作量大,适合于内容较为复杂,时间较长,范围较广的研究课题。(2) 倒查法:与顺查法相反,
27、是由近及远逐年查找文献的检索方法。这种方法适合于课题查新以及掌握研究动态和制定研究规划时使用。采取这种检索方法可以及时把握学科的最新发展动态,且检索的时间跨度可以灵活掌握,检索效率高,但与顺查法相比查全率相对较低。(3) 抽查法:根据课题所属学科研究发展的某一高峰时期,抽出一个时间段,进行集中查找。此方法花费时间较少,检索效率较高。但检索者必须熟悉该学科的发展特点,了解该学科文献发展较为集中的时间范围,只有这样才能取得较好效果。(4) 综合法:又叫循环法或分段法,是常用法和追溯法相互结合的一种检索方法。这种方法是先利用检索工具查出一批有用文献,然后利用这些文献所附的参考文献进行追溯查找,扩大文
28、献线索。如此分段交替循环进行,从而可得到大量相关文献。以上检索方法是从手工检索归纳而来的,计算机信息检索方法具有强大的检索功能和极高的检索效率,这些在以后的章节中将有具体讲述。3.5 查找文献线索上述步骤完成后,即可利用所选择的检索工具进行具体的检索。在检索时采用描述文献外表特征的篇名、著者、序号等途径检索,简便快捷;采用分类途径进行检索,需要在该课题所属的类号和类目下逐条查找。采用主题途径检索,则要以表达研究课题主题内容的主题词为检索标识。但在用分类途径或主题途径检索时,可能会出现检索提问标识和文献存储标识不一致而查不到合适的文献的情况,这时应反复修改检索提问标识,直至检索到适合的文献为止。
29、当检索到研究课题的相关文献后,应仔细阅读文献著录条目的内容,判定是否有参考价值,如符合检索需要,则要准确记录下文献的分类号、题名、著者、出处和入藏号等,以便索取原始文献,并用以积累资料。3.6 查找原始文献查找原始文献是文献检索的最终目的。根据检索到的文献线索,利用各种类型的馆藏目录、联合目录即可查到文献原文。查找原始文献,一般是由近而远,首先从本单位、本地区的文献资源着手,然后利用全国性的文献联合目录。随着计算机网络化的普及,许多文献收藏与服务机构(特别是国家、地区级)已将馆藏文献信息建立了数据库,并连入互联网向用户提供文献的查询、传递和共享服务,利用互联网进行文献的查找和获取目前已成为用户
30、方便、快捷的远程获取原始文献的一种发展趋势。4 检索效果的评价4.1 检索效果的评价指标 检索效果是指信息系统检索信息的有效程度,反映了信息系统的检索能力。检索效果的评价指标一般包括:收录范围、查全率、查准率、相应时间、用户负担输出形式。其中,查全率和查准率是最主要也是最常用的两项指标。4.2 查全率和查准率 查全率(Recall Ratio)是指检索出的相关信息与信息系统中的相关信息总量之比。 查准率(Precision Ratio)是指检索出的相关信息和检索出的信息总量之比。 用公式表示: 表2-1 检索效果评估相关数据表相关情况检索情况相关信息非相关信息总计检索出信息a(命中的)b(误检
31、的)a+b未检索出信息c(漏检的)d(应拒绝的)c+d总计 a+c b+d a+b+c+d查全率衡量系统检索出与课题相关信息的能力,查准率衡量系统拒绝非相关信息的能力。两者结合起来,即表示信息系统的检索效率。检索者的最终目的是要求达到查全率和查准率均为100%,这实际上是不可能的。一系列试验结果表明,查全率和查准率之间存在互逆关系,即二者同时提高是不可能的。也就是说,对于任何一个信息系统,在其查全率与查准率之间都存在一个最佳的比例关系,查全率一般在60%70%,查准率一般在40%50%,这是检索的最佳状态。见图2-3。图2-6 查全率与查准率关曲线图4.3 影响查全率和查准率的因素4.3.1 客观因素:(1) 系统内信息存储不全,收录遗漏严重;(2) 索引词汇缺乏控制;(3) 词表结构不够完善;(4) 标引缺乏详尽性,没有网罗应有的内容;(5) 信息分类(标引)专指度缺乏深度,不能精确地描述信息主题;(6) 组配规则不严密,容易产生模棱两可或歧义现象。4.3.2 主观因素:(1) 检索课题要求不明确;(2) 检索工具选择不恰当;(3) 检索途径和方法过少;(4) 检索词缺乏专指性,检索面宽于检索要求;(5) 用词不当;(6) 组配错误。4.4 提高检索效果的措施和方法4.4.1 提高检索工具的质量。4.4.2 提高用户利用检索工具的能力。4.4.3 制订优化的检索策略。14