1、文献检索与利用管理学院 选修课 推荐教材及参考书1。信息检索,张海涛等编著,机械工业出版社2.信息检索,黄如花主编,武汉大学出版社3信息检索与利用,邹广严等编著,科学出版社4.信息检索系统导论,刘挺等编著,机械工业出版社教学目的与意义oWhy-为什么要学习信息检索oWhat-什么是信息检索(概念、原理、类型等等)了解相关知识oHow-怎样实施信息检索(方法、途径、步骤等)恰当运用方法oWhere-在哪里实施信息检索(检索系统介绍)熟悉检索工具oHow-to-better-如何提高检索效率和效果(策略、技巧等)掌握相关技能教学内容(理论与应用应用相结合)o第一篇第一篇 信息检索理论基础信息检索理
2、论基础 第一章第一章 信息检索概述信息检索概述 第二章第二章 信息检索途径与检索策略信息检索途径与检索策略 第三章第三章 计算机信息检索概述计算机信息检索概述o第二篇第二篇 科技文献检索篇科技文献检索篇 第四章第四章 事实和数据信息检索事实和数据信息检索 第五章第五章 科技期刊及其检索科技期刊及其检索 第六章第六章 特种文献及其检索特种文献及其检索 o第三篇第三篇 计算机信息检索篇计算机信息检索篇 第七章第七章 国内重要的综合性信息检索系统国内重要的综合性信息检索系统 第八章第八章 国外重要的综合性信息检索系统国外重要的综合性信息检索系统 第九章第九章 光盘信息检索光盘信息检索o第四篇第四篇
3、网络信息检索篇网络信息检索篇 第十章第十章 网络信息检索概述网络信息检索概述 第十一章第十一章 网络信息检索工具的使用介绍网络信息检索工具的使用介绍补充内容:补充内容:o信息资源的集中与分散规律:信息资源的集中与分散规律:n(1)马太效应-富集与贫集n(2)布拉德福定律-论文在期刊中的离散分布n(3)洛特卡定律-信息生产者分布规律n(4)普赖斯定律-核心生产者的平方根定律o文献的增长与老化规律:文献的增长与老化规律:n(1)指数增长律(文献累计数)n(2)逐渐过时律-半衰期和普赖斯指数o信息资源分布的马太效应n马太效应是美国学者R。默顿引用圣经新约全书马太福音中的一段话:“凡有的,还要加给她,
4、叫他有余;凡没有的,连他所有的也要夺去”。n信息分布的“富集”与“贫集”现象n信息富集分布表现为核心趋势和集中取向,例如:核心期刊、核心作者、核心网站、核心检索系统、核心机构等等n作用:选择核心信息源序号刊名主办单位1.中国社会科学中国社会科学院1.中国社会科学(英文版)中国社会科学院1.新华文摘(须全文转载)人民出版社1.进入SSCI检索的国外学术刊物(须用外文发表)1.进入A&HCI检索的国外学术刊物(须用外文发表)序号刊名主办单位1.管理世界(限理论部分)国务院发展研究中心1.马克思主义研究中国社会科学院马列主义毛泽东思想研究所1.哲学研究中国社会科学院哲学研究所1.世界宗教研究中国社会
5、科学院世界宗教研究所1.外语教学与研究北京外国语大学1.中国语文中国社会科学院语言研究所1.文学评论中国社会科学院文学研究所1.外国文学评论中国社会科学院外国文学研究所1.文艺研究中国艺术研究院1.历史研究中国社会科学院1.考古学报中国社会科学院考古研究所1.经济研究中国社会科学院经济研究所1.政治学研究中国社会科学院政治学研究所1.法学研究中国社会科学院法学研究所1.社会学研究中国社会科学院社会学研究所1.民族研究中国社会科学院民族研究所1.新闻与传播研究中国社会科学院新闻与传播研究所、宁波日报社1.教育研究中央教育科学研究所1.体育科学中国体育科学学会1.心理学报中国心理学会、中国科学院心
6、理研究所1.求是中共中央委员会1.中国社会科学文摘(须全文转载)中国社会科学杂志社1.文史中华书局吉林大学哲学社会科学A类期刊目录注:SSCI为国外社会科学索引;A&HCI为国外艺术与人文科学索引。吉林大学哲学社会科学B类期刊目录序号刊名主办单位1.科研管理中国科学院科技政策与管理科学研究所、中国科学与科技政策研究会1.中国软科学科学技术部政策法规与体制改革司、中国软科学研究会1.科学学研究中国科学学与科技政策研究会、中科院科技政策与管理科研所、清华大学科技与社会研究中心1.外国经济与管理上海财经大学1.南开管理评论南开大学1.管理科学学报国家自然科学基金委员会管理科学部1.中国管理科学中国优
7、选法统筹法与经济数学研究会、中国科学院科技政策与管理科学研究所1.中国行政管理中国行政管理学会1.经济管理中国社会科学院工业经济研究所3 3管理学管理学 (9 9种)种)o布拉德福分散定律n文献信息学家布拉德福经过长期的观察和统计分析的基础上发现,某一学科领域中的相关论文在期刊中的分布是不均匀的,而且具有明显的集中与分散规律。n定律的内涵:如果将科学期刊按其刊载某个学科主题的论文数量以递减顺序排列起来,就可以在所有这些期刊中区分出载文率最高的“核心”部分和包含着与核心部分同等数量论文的随后几个区,这时核心区和后继各区中所含的期刊数成1:a:a的关系(a1)。n目的:关注核心期刊o洛特卡定律n是
8、关于信息生产者的分布规律n洛特卡通过大量的统计研究后发现,在论文数x与发表了x篇论文的作者数y(x)之间,存在以下关系:y(x)=c/x,c是相对于这一典型数据集合而估计出的常数。n指导意义:首先检索高产作者的文献o普赖斯定律n核心生产者分布的“平方根定律”,即在某一特定领域中,全部论文的半数是由该领域中全部作者的平方根的那些人撰写的。n“那些人”无疑就是核心或高产作者。n指导作用:首先检索核心作者的文献o逐渐过时率(针对科技文献信息的老化针对科技文献信息的老化)n文献信息的老化一般指这样四种情形:文献中所含信息仍然有用,但现在已被包含在其他更新的论著中;文献中的信息仍旧有用,但现在正处于一个
9、人们对其兴趣下降的学科;文献中的信息仍旧有用,但为后来的著作所超越;信息不再有用。n文献的半衰期:是指某学科领域现时尚在利用的全部文献中的一半是在多长一段时间内发表的。例如,物理学文献的半衰期是4.6年。n普赖斯指数:即某一学科领域内,对发表年限不超过5年的文献的引用次数与总的引用次数之比值。n一般来讲,普赖斯指数越大,半衰期就越小,文献老化的速度就越快。n指导作用:重点检索近五年内的文献。文献检索与利用(第一篇)-信息检索理论基础信息检索理论基础 第一章 信息检索概述o本章要点本章要点:n掌握信息检索的概念、类型、原理n熟悉信息检索语言n了解信息检索的发展趋势文献与信息的概念o文献n国际标准
10、化组织文献情报术语国际标准(ISO/DIS5217)对文献的定义:“文献是在存贮、检索、利用或传递记录信息的过程中,可作为一个单元处理的,在载体内、载体上或依附于载体而存贮有信息或数据的载体”。我国中华人民共和国国际标准文献著录总则(GB3792.1-83)定义:“文献是记录有知识的一切载体”。现代文献囊括了各种信息载体,比如图书、期刊、光盘、电子出版物等。o信息n信息是指人们对世界的认识所形成的各种知识、学问、消息等,有文字信息、数据信息、图像信息、语音信息等类型。o文献是信息的载体,是获取信息的主要来源。o信息源的类型:图书、期刊、报纸、专利文献、会议文献、科技报告、学位论文、标准文献等。
11、1.1信息检索的概念与类型o1 信息检索的概念信息检索的概念n1950年,莫尔斯(CalvinNMooers)首次提出信息检索(InformationRetrieval)一词,发表“把信息检索看做是时间性的通讯”一文。n对信息检索可以从以下三个角度来认识:对信息检索可以从以下三个角度来认识:(1)时间性通讯角度的认识时间性通讯角度的认识-突出用户需求的重要性(2)信息处理角度的认识信息处理角度的认识-强调信息结构的构建(3)文献查找角度的认识文献查找角度的认识-强调查找特定用户所需的特定信息-主流观点主流观点例如:英国著名学者维克利(BCVickery)和美国著名信息专家兰卡斯特(FWLanc
12、aster)均持这种观点。n信息检索的含义具有广义和狭义之分:信息检索的含义具有广义和狭义之分:o广义地讲,信息检索包含信息存储(信息组织)和信息查找两个过程。o狭义地讲,信息检索仅仅指信息查找的过程。n信息检索的概念信息检索的概念:根据特定的需求,利用某种检索工具,按照一定的方法与步骤,从大量文献中查找出符合用户需求的信息与文献的过程。o2.信息检索的类型信息检索的类型n(1)按检索对象区分)按检索对象区分 按照检索的查找对象,信息检索分为书目信息检索、全文信息检索和数据事实信息检索。数据事实检索是确定性检索,书目和全文检索是相关性检索。n(2)按检索方式区分)按检索方式区分 按照检索的操作
13、方式,信息检索分为手工信息检索和机器信息检索。n(3)按检索要求区分)按检索要求区分 按照用户对检索的要求,信息检索分为强相关检索(强调查准率)和弱相关检索(强调查全率)。n(4)按检索性质区分按检索性质区分 按照检索的运行性质,信息检索分为定题检索(查找有关特定主题的最新信息)和回溯检索(查找一段时期内有关特定主题的信息)。在检索实践中,用户利用最多的是回溯检索,大多数的检索课题都属于回溯检索。n(5)按检索的信息形式区分按检索的信息形式区分 按照检索的信息形式,信息检索分为文本检索和多媒体检索。1.2信息检索的发展历程o1.手工信息检索(起源于手工信息检索(起源于19世纪前期,世纪前期,2
14、0世纪世纪40年代以前的唯一检索方式)年代以前的唯一检索方式)n手工信息检索的主要优点有:(1)几乎不需要特殊设备,检索方法简单、灵活;(2)可以边查边思考,随时修改检索策略;(3)无检索经费或费用较低。n主要缺点是:(1)效率低,检索速度慢,所需时间较长,特别是进行专题检索和回溯检索时需要查阅大量工具书,费时费力;(2)在进行复杂问题的多途径检索时,需要反复查找若干检索工具;(3)查全率一般较低。o2机械检索(机械检索(20世纪世纪40-50年代)年代)出现了一些半机械化、机械化的检索操作方式,例如各种穿孔卡片检索工具。提出了组配的检索思想,为计算机信息检索的发展提供了逻辑基础。o3.脱机批
15、处理信息检索(脱机批处理信息检索(50年代中期至年代中期至60年年代中后期)代中后期)n脱机批处理信息检索有许多优点:(1)批处理可同时进行多项检索;(2)可处理检索关系相当复杂的检索词汇;(3)一次输入作业,生产多种输出的多种服务能力。n脱机批处理信息也有以下缺点:(1)用户不能在检索过程中与主机进行“对话”和浏览文献;(2)不能在检索的同时修改检索策略,用户必须事先把可能的途径都考虑周全;(3)不能及时获得检索结果;(4)批处理是委托式检索,信息需求和查询结果之间有一定误差。o4.联机信息检索(从联机信息检索(从60年代中后期开始)年代中后期开始)用户使用终端设备,通过通信线路与中央计算机
16、连接,直接与计算机对话进行检索,结果由终端输出。n联机信息检索有以下几个特点:(1)用户通过检索终端和通信网络直接与远程中央计算机相连,检索远程数据库内文献信息,这几乎是同时的、直接的,无需委托;(2)检索过程是“人-机对话”式,可及时修改检索策略,及时显示、浏览文献信息;(3)可根据用户的不同需求进行各种输出,及时取得检索结果;(4)检索指令复杂,多为专业检索人员才能熟练使用。90年代后联机检索随着计算机、数据库、通信网络技术的发展而迅猛发展。o5.光盘信息检索(光盘信息检索(80年代中期开始)年代中期开始)n光盘检索主要有以下特点:(1)在通信不发达地区、联网较困难的地区,使用网络信息服务
17、比较困难。而使用光盘检索,可以免去联机检索必须支付的联机系统使用费,只需支付数据库生产者收取的数据库费即可。(2)有些出版商出于保密、版权及控制等方面的考虑,还不可能将收费信息产品很快上网。此情况下,CD-ROM就成为获取此类信息的最佳途径。(3)CD-ROM可以替代或补充图书情报机构的印刷本收藏,其多媒体的书籍、游戏和参考资料是用户最欢迎的类型之一。o6.网络信息检索(从网络信息检索(从90年代开始)年代开始)n主要特点:(1)信息量大,支持多媒体功能,信息共享。(2)使用方便、灵活,信息即时获取。(3)用户检索费用低,通信费用较高。(4)检索技术要求不高,检索结果中的误检率较高。1.3 信
18、息检索的原理信息检索的原理o信息检索包括信息存储与信息检索两个过程,它们是同一事物中两个相互对立的方面。实施检索的主要方法就是利用各种检索工具,通过使用信息存取系统(亦称检索工具)来实现。o信息检索的原理图信息信息资源资源信息信息选择选择收集收集主题主题概念概念分析分析信息信息标引标引信息信息用户用户信息信息需求需求主题主题概念概念分析分析检索检索提问提问检检索索结结果果信息信息检索检索系统系统检检 索索(标引)(标引)语语 言言比较比较/匹配匹配提问标识文献标识信息存储过程信息检索过程o(1)信息存储)信息存储信息存储是对文献进行收集、著录及标引,并加以有序化编排,编制信息检索的工具的过程;
19、是信息检索的基础。1)选择文献。根据信息检索系统的主题、性质及任务等,结合原始文献本身的研究水平、角度及其信息质量,对原始文献进行适当的评价,从中筛选出符合要求的文献。2)文献的概念分析,归纳出代表文献内容的若干主题概念。3)信息标引,实现词汇转换,把主题概念转换为文献标识。4)信息检索工具的编制。检索工具是信息检索系统的核心和概括,它主要包括两个有序化的序列,即文献序列和文献标识序列。文献序列是由文献描述体或文献本身按照一定的方式组织形成的有序化序列,构成文献库。文献标识的序列,是由文献标识按照特定的顺序形成的有序化序列,构成文献库的索引。o(2)信息检索)信息检索信息检索是从大量的信息中查
20、找出用户所需的特定信息的过程,是信息存储的目的。1)用户提问,给出检索需求。2)提问的概念分析,把检索提问概括为主题概念并明确它们之间的关系。3)检索提问的词汇转换,把主题概念转换为相应的提问标识(或称为检索词)。4)检索的实施,对文献标识与提问标识进行匹配比较。信息检索的原理就是提问标识与文献标识的对比与匹信息检索的原理就是提问标识与文献标识的对比与匹配配。即将描述特定用户所需信息的提问特征(检索式)与即将描述特定用户所需信息的提问特征(检索式)与信息存储的检索(信息)标识进行相符性比较和匹配,从信息存储的检索(信息)标识进行相符性比较和匹配,从中找出与提问特征一致或基本一致的信息的应用过程
21、。中找出与提问特征一致或基本一致的信息的应用过程。1.4 信息检索语言信息检索语言o1、信息检索语言概述、信息检索语言概述n(1)信息检索语言的概念)信息检索语言的概念 信息检索语言是人们在加工、存储及检索信息时所使用的标识符号标识符号,也就是一组有规则的、能够反映出信息内容及特征的概念标识体系(标识符)。检索语言是标引人员与检索人员之间进行交流的媒介,也是人与检索系统之间进行交流的桥梁,实质上就是双方之间约定的共同语言,用来联系文献信息与用户需求的“人工语言”。n(2)信息检索语言的作用信息检索语言的作用表现在两个层次上(操作层面和原理层面)文献文献信息信息内容内容用户用户信息信息需求需求主
22、题主题概念概念主题主题概念概念文献文献标识标识检索检索标识标识检检索索结结果果信信息息检检索索语语言言检检索索系系统统o2.信息检索语言的种类信息检索语言的种类 分类语言分类语言 等级体系分类语言等级体系分类语言 分面组配分类语言分面组配分类语言 标题词语言标题词语言 元词语言元词语言 主题语言主题语言 叙词语言叙词语言 关键词语言关键词语言 引文语言引文语言 分类主题一体化语言分类主题一体化语言 代码语言代码语言不同的检索语言可以构成不同的标识和索引系统,提供用不同的检索语言可以构成不同的标识和索引系统,提供用户不同的检索点和检索途径。户不同的检索点和检索途径。信信息息检检索索语语言言o3分
23、类检索语言分类检索语言n分类检索语言是用分类号分类号来表达各种文献的概念,并将各种概念按照学科、专业性质进行分类和系统排列。n分类表分类表是分类法的具体体现,它与分类规则一起构成分类语言,是进行分类工作的依据和规范。n信息资源分类法按照其编制方式,通常可以分为:信息资源分类法按照其编制方式,通常可以分为:(1)等级列举式分类法(基于概念的划分与概括)。能直接体现知识分类的等级制概念标识系统。它的特点是按学科、专业集中文献,用等级来表示类目的从属性,用列举法来表示类目的完整性,在类目表上尽量地把类目列举出来。这种分类法有利于藏书组织,便于人们从学科分类角度进行文献检索。O 数理科学和化学数理科学
24、和化学 O4物理学 F 经济经济O41理论物理学F2经济管理O42声学F20国民经济管理O43光学F21经济计算与规划O44电磁学、电动力学F23会计O441电磁学F24劳动经济O442电学F27企业经济 G 文化、科学、教育、体育文化、科学、教育、体育F270企业经济理论与方法G2信息与知识传播F271企业体制G25图书馆事业、信息事业F272企业管理G250图书馆学、情报学F273企业生产管理G251图书馆管理、信息工作管理F274企业营销管理与市场G252信息资源服务F275财务管理与资本运营G253信息资源建设G254信息组织G254.9信息检索G254.928网络搜索引擎C 社会科学
25、总论社会科学总论C93管理学C931管理技术与方法.1管理数学.2管理的方式方法.3管理工作管理人员.4办公室工作.5文书工作.6管理信息系统.9管理工作自动化C932咨询学C933领导学(2)分面组配式分类法(基于概念的分析与综合)。是以简单概念组成复合类目的方式。其基本思想是:任何复合主题,不管它多么复杂,都可以分解为相应的基本概念;同时,它们也可以通过相应基本概念的组合加以表达。(3)列举组配式分类法是上述良种编制方法的结合,是一种在详尽类表的基础上,广泛采用各种组配方法的分类法.n分类法体系结构o信息资源分类法主要是通过类目体系的系统排列类目体系的系统排列进行词汇控制的。o对于分类法的
26、结构组成目前大致有两种划分方法:一种按照分类法组成部分的功能,将分类法的组成分为类目体系、标记符号、说明与注释、类目索引四部分;另一种按照分类法构成的形式,将其分为编制说明、主表、副表、类目索引。n分类法分类法-基本部类。是分类法对知识范畴所作的最概括、最本质的划分。n中图法、资料中图法、资料法等法等 杜威法杜威法 布立斯书目分布立斯书目分类法类法 中国档案分类法中国档案分类法 马列主义、毛泽东思想、邓小平理论哲学、宗教社会科学自然科学综合性图书理性知识想象知识记忆知识哲学科学历史技术和艺术政治科学文化经济n中国图书馆分类法中国图书馆分类法(第五版)第五版)中图法类目体系是一个层层展开的分类系
27、统。其基本大类以科学分类为基础,结合文献分类的需要,在五大部类的基础上展开,序列如下:n马克思主义、列宁主义、毛泽东思想A马克思主义、列宁主义、毛泽东思想、邓小平理论n哲学B哲学、宗教n社会科学C社会科学总论D政治、法律E军事F经济G文化、科学、教育、体育H语言、文字I文学J艺术K历史、地理n自然科学N自然科学总论O数理科学和化学P天文学、地球科学Q生物科学R医药、卫生S农业科学T工业技术TB一般工业技术TD矿业工程TE石油、天然气工业TF冶金工业TG金属学与金属工艺TH机械、仪表工业TJ武器工业TK能源与动力工程TL原子能技术TM电工技术TN无线电电子学、电信技术TP自动化技术、计算机技术T
28、Q化学工业TS轻工业、手工业TU建筑科学TV水利工程U交通运输V航空、航天X环境科学、安全科学n综合性图书Z综合性图书o雅虎雅虎(Yahoo!)!)n雅虎基本上是一个分类字顺体系,在按照主题内容关系层层展开的同时,并没有根据类目之间的关系排列同位类,因此国外一般又将其称为主题指南。nYahoo!的类目体系是一个按等级和字顺逐级展开的浏览系统。按照网络资源的特点和用户使用需要,Yahoo!设置14个基本大类,按照其英文字顺排列如下:艺术与人文新闻与媒体商业与经济休闲与运动计算机与网络参考资料教育地区娱乐科学政府社会科学健康与医药社会文化o4主题检索语言主题检索语言n主题是指信息资源论述的主题对象
29、,包括事物、问题、现象等。n经过选择,用来表达信息资源主题的语词,称为主题词。n主题法是指就直接以表达主题内容的语词作检索标识,以字顺为主要检索途径,并通过参照系统等方法揭示词间关系的标引和检索信息资源的方法。n特征:特征:1)直接以语词作为检索标识。2)以字顺作为主要检索途径。3)以特定的事物、问题、现象,即主题为中心集中信息源。4)通过详尽的参照系统等方式揭示主题词之间关系。通过在主题词下设置用、代、属、分、参等多种参照项,建立起“隐蔽的分类体系”。同时,一些系统还备有词族索引、范畴索引、轮排索引等多种辅助索引。n主题法的类型主题法的类型o按照主题法的选词方式,可以分为标题法、元词法、叙词
30、法、关键词法;o按照语词受控情况,可以分为受控主题法与非控主题法。1)标题法标题法是一种以标题词作为主题标识,以词表预先确定的组配方式标引和检索的主题法,属于列举式的主题法列举式的主题法。例如:”信息存储与检索”2)元词法是以元词作为主题标识,通过字面组配字面组配的方式表达文献主题的主题法。所谓元词,是指用来标引文献主题的、最基本的、字面上不能再分的语词。如“物理”3)叙词法)叙词法所谓叙词法,是以从自然语言中精选出来的、经过严格处理的语词作为文献主题标识,通过概念组配概念组配方式表达文献主题的主题法类型。叙词,国内亦称主题词,是经过规范化处理的,以基本概念为基础的表达文献主题的词和词组。4)
31、关键词法就是将文献原来所用的,能描述主题概念的那些具有实质意义的词抽出,不加规范或只作极少量的规范化处理,按字顺排列,以提供检索途径的方法。1)受控主题法受控主题法指依据特定词表或类表揭示文献信息的整序方法。各种标题法、叙词法以及后期的元词法等均属于这一类型。它们的共同特点是,标引和检索均依据预先确定的检索词表对主题概念进行转换,从而可以通过词表对文献内容的规范表达和相互关系的揭示来改进检索效果。2)自然语言检索系统自然语言检索系统是直接使用文献或用户检索使用的自然语言语词进行的整序方法。这种方式包括关键词法、自然语言文本检索等,早期的元词法也属于这一类型。这类整序法的特点是不需要使用受控词表
32、,但一般仍需遵守一定的文献标引规则或检索措施,以改进使用效果。o汉语主题词表汉语主题词表n1)主表汉表的主表是由众多叙词及与其相关的语义关系项构成的字顺表,根据大型工具书的特点,按社会科学和自然科学两大范畴分别组织。主表叙词款目结构,通常由款目叙词、汉语拼音、英文译名、范畴号、注释项及其语义关系项组成。如下例为族首词的款目格式:Qingbaojiansuo族首词符号情报检索*07kInformationretrievalD文献检索F专题检索追溯检索n2)附表汉表的附表收入“世界各国政区名称”、“自然地理区划名称”、“组织机构”和“人物”等四个范畴中常用的专有名词。n3)辅助索引汉表的辅助索引是
33、通过改变组织方式,提供从不同途径着手查找叙词的工具,包括范畴索引、词族索引、轮排索引和英汉对照索引四种。o主题法与分类法的异同主题法与分类法的异同n相同点1)都用来揭示信息内容2)都需要对信息进行主题分析3)一般都使用预先编制的专门语言工具4)赋予的主题标识都是对信息主题的表达n不同点1)主题概念表达的形式及效果不同2)标识所揭示信息的角度不同3)检索方法有所不同4)作用范围有所不同o中国分类主题词表中国分类主题词表n中国分类主题词表是在中图法类目与汉表主题词对应的基础上,将分类法与主题法、先组与后组融为一体的一种文献标引和检索的工具。全表共分2卷6册,收录分类法类目5万余个,主题词及主题词串
34、21万余条,包括分类号一主题词对应表和主题词一分类号对应表两部分。n分类号一主题词对应表分类号一主题词对应表是以中图法的类目体系为基础,把汉表主题词及主题词组配形式,对应于各级类目之下编制而成,从分类角度进行分类主题一体化标引的工具。n分类号一主题词对应表款目构成要素包括:分类号、类名、类目注释及对应的主题词、主题词串、对应参见和注释。对应款目的编排格式分为左右两栏,中间用竖线隔开。F41世界工业经济工业经济世界F410工业政策工业政策世界工业政策F414工业建设与发展工业经济经济建设世界:工业经济经济发展世界工业危机世界F415国际工业经济关系工业经济国际经济关系F415.1国际分工、联合工
35、业经济国际分工:工业经济国际合作n主题词一分类号对应表主题词一分类号对应表是以主题词的字顺排列为基础,把分类号对应于各个主题词或主题词串之下编制而成的,是从主题词角度查找主题词和分类号,进行分类主题一体化标引的工具。n主题词及对应分类号款目的结构如下:机场机场TU248.6;V35;V351D航空港D航空站垂直起落机场国际机场军用机场水上机场直升机机场C导航台C飞机库C机场建筑物n中国分类主题词表中国分类主题词表的特点是:的特点是:1)通过将中图法类目与汉表主题词的对应,建建立起了一个分类语言与主题语言结合的一体化工具立起了一个分类语言与主题语言结合的一体化工具.2)其分类法部分是将中图法中图
36、法、资料法资料法融为一体融为一体的类目体系的类目体系,可以同时供图书资料单位标引使用;3)其主题法部分,除收入原有的叙词外,还包括近年来中文图书标引中新增的叙词新增的叙词和对应表编制时的新增词,以及分类号一主题词对应表中出现的主题词组配形式,是汉表叙词比较完整的版本。4)改进了字顺表的款目结构,改进了排序方法,采用音序和字形结合排序,符合人们查找习惯,使得编排紧凑,便于查找,易于使用。n中国分类主题词表的不足主要是:1)本表中的类目和对应的主题词之间只是一种先组语言和后组语言之间的兼容互换关系,很难进行两者之间精很难进行两者之间精确的转换确的转换,不少类目下对应主题词的数量往往不够,不能详尽包
37、括标引较深层次的类目含义或隐含主题。2)类目的处理由人工按照概念关系的理解转换而成,存存在随意性和不一致性在随意性和不一致性,有时过多,有时过少,有时存在着错误,影响对应的质量。o5其它检索语言其它检索语言(1)自然语言n1)关键词语言用计算机自动抽取计算机自动抽取文献题名、文摘或正文中有检索意义的语词,通过轮排生成各种类型的关键词索引,同时也建立数据库供计算机检索使用,是目前主要应用形式。n关键词法的特点是:o关键词法基本属自然语言,在标引阶段只进行少量控制或不控制。o通常使用禁用词表(Stop-list),来淘汰题名中的非关键词。o一般不建立关键词表,即使建立关键词表,也比标题表、叙词表简
38、单得多,通常不设置任何参照或词间关系,因而篇幅较小,处理方便。n2)文本检索又称为自然语言检索,这是一种不进行标引不进行标引、直接利用计算机的功能,通过自然语言中的语词或语词组配,对文本形式的信息资源进行匹配检索的方式。匹配的对象包括题名、文摘、正文等。n3)自由标引)自由标引通常指由标引人员直接选择自然语言中语词进行标引的形式。这种标引可以克服受控标引速度慢、周期长,比关键词标引准确度高,可以用于文献资源增长量大、需求迫切的领域。自由标引不依据词表,但一般应通过建立严格的标引规则n4)自动标引)自动标引亦称机标,指直接使用计算机对信息资源进行标引,通常包括自动主题标引(自动抽词标引、自动赋词
39、标引)和自动分类标引(自动归类、自动聚类、类号的自动转换)两种类型。n(2)引文语言o引文是指一篇学术论文中所引用的参考文献,通常是以脚注或尾注的形式出现。利用文献之间引用与被引用的利用文献之间引用与被引用的关系,作为文献内容主题标识,并以此标引和检索文献关系,作为文献内容主题标识,并以此标引和检索文献的语言就是引文语言。的语言就是引文语言。o引文语言的基本原理:引文语言的基本原理:n1)以文献之间的引用关系,作为文献主题内容之间的联系,换言之,若两篇文献发生引用关系,那么它们在主题上就是相关的;n2)以引用文献或被引用文献,通常按著者姓名著者姓名字顺排检,作为标引和检索文献的标识。n引文语言
40、的检索特性:引文语言的检索特性:1)以引用文献或被引用文献进行标引和检索,摆脱了人工符号标识或词语标识的限制,使用容易,一致性好;2)以引用关系形成的“文献网”作为“主题网”,检索明确而有效,且能够查找到较为重要的文献;3)引文语言系统的标引深度很深,一般的手工标引深度为平均每篇文献:1-5个词,而一篇文献的引文数量常常达到十几篇,即可提供十几个检索点;4)引用关系本身非常稳定,但作为主题关系的可靠性不够稳定;5)引用关系要受到文献可得性的影响;6)引文的著录有时不够统一规范;7)引文语言无需编制词表,可利用计算机自动进行文献标引和处理,检索系统的成本低、速度快,提供的信息回溯性和及时性都令人
41、满意。1.6 信息检索的研究内容与发展趋势信息检索的研究内容与发展趋势o1信息检索的主要研究内容信息检索的主要研究内容(1)信息检索理论与形式模型(2)信息存取系统(体系结构、DB、DM等)(3)内容表示与文本挖掘(4)信息抽取、自动分类、自动文摘、信息过滤等(5)数字图书馆(6)跨语言检索、基于内容的多媒体检索(7)信息检索策略与评价方式o2信息检索的发展趋势信息检索的发展趋势n多样化发展趋势n检索资源形态的多样化,基于内容的检索技术和语音识别技术是研究热点与发展趋势之一;n多国化和多语种化,研究多语种信息检索是另一个发展趋势;(跨语言检索)n检索工具和检索服务的多样化,集多种检索功能于一体
42、的检索系统也是一个热点;n个性化发展趋势n注重检索内容的特色化,如何根据个人需求的不同实现个性化是未来信息检索发展的趋势之一;n注重信息检索个性化的服务,体现用户喜好;n可视化发展趋势用图象取代文字;n智能化发展趋势-是信息检索发展的重要方向基于自然语言的检索;智能搜索引擎、智能代理、智能浏览器等;n知识化发展趋势n专门化发展趋势n地域化发展趋势n简单化发展趋势第二章 信息检索途径与检索策略o本章要点本章要点:n掌握信息检索的步骤以及检索策略n熟悉信息检索的方法和检索途径2.1信息检索的方法、途径及步骤o1.信息检索的一般方法信息检索的一般方法n(1)追溯法追溯法(又称回溯法或引文法),是利用
43、文献末尾所附的参考文献或引用文献,由近及远(由现在到以前)地进行追踪查找。所查到的信息主题内容较为切合,但易出现漏检和误检。追溯法是利用引文语言进行检索的两种方法之一。还有另一种引文检索方法,如利用科学引文索引(SCI),从被引用文献入手,查到引用它的文献,再把所查出的文献作为被引用文献,查找出引用它们的文献,如此反复操作,即可获得大量的有关文献信息。要注意,这样查找所获得的文献是越来越新的。n(2)直接查找法直接查找法(又称工具法)常用法的具体操作,可分为顺查、倒查、抽查三种方式。(1)顺查方式(查全率和查准率较高)(2)倒查方式(查准率较高,查全率较低)(3)抽查方式n(3)循环查找法循环
44、查找法(又称分段法)是综合常用法和追溯法的检索方法,即在查找文献信息时,既利用成套的检索工具书查找,又利用原始文献后所附的参考引用文献进行回溯,分阶段按周期地交替使用,也称为分段法。循环法常常以五年为周期,轮流交替使用常用法和追溯法。o2信息检索的途径信息检索的途径检索途径主要是指信息检索的角度或渠道,通常分为内容特征检索途径和外表特征检索途径两类。n(1)内容特征检索途径内容特征检索途径,是从文献所包含的信息内容特征来检索信息的途径。按照所采用的检索语言不同,又分为两种:o1)主题途径)主题途径按文献的信息内容,利用主题检索语言检索文献信息的途径。主题检索的实施,需要使用各种主题词索引,如主
45、题索引、关键词索引等。o2)分类途径)分类途径按文献的信息内容,利用分类检索语言,检索文献信息的途径。分类检索的实施,需要使用各种分类目录或索引,如分类目次、分类索引等。n(2)外表特征检索途径外表特征检索途径,是利用文献的外表特征来检索文献信息的途径。按照所采用的外表特征不同,可分为多种具体的检索途径。o1)著者途径著者途径,按照已知的文献著者姓名或名称,检索文献信息的途径。o2)刊名途径途径,按照已知的期刊名称,检索文献信息的途径。o3)序号途径序号途径,有些文献具有独特的编序号码或标识号码,如专利、报告、标准等文献类型。o4)引文途径引文途径o5)其他途径其他途径,可按照专业领域的需要以
46、及文献的出版类型、日期、地址、国别、语种等特征,进行文献信息的检索。o3.信息检索的步骤信息检索的步骤 不满意不满意 满意满意分析研究问题分析研究问题选择检索系统选择检索系统确定检索方法确定检索方法确定检索途径确定检索途径制定检索式制定检索式输出检索结果输出检索结果提交检索系统提交检索系统用用 户户修改检索式修改检索式2.2信息检索的策略与效果评价o1.信息检索的策略信息检索的策略n(1)信息检索策略的含义)信息检索策略的含义 信息检索策略就是为实现检索目标而制定的全盘计划和方案,是对整个检索过程的谋划和指导,如选择哪种检索系统和数据库、采用什么检索途径、如何编写检索式等,其目的是为了达到一定
47、的查全率和查准率。检索策略是影响检索效果的最重要的因素。n(2)信息检索策略的制定方法与步骤)信息检索策略的制定方法与步骤o1)确定检索系统)确定检索系统根据信息需求,选择检索系统例如,检索科研方面的信息,一般要利用光盘检索系统和联机检索系统。根据对检索信息熟悉的程度,选择检索系统(选取准确的检索词)根据经济条件,选择检索系统o2)选择检索数据库)选择检索数据库(收集信息的专业范围、时间、文献类型等)选择数据库所采用的方法一般有两种:n一种是查阅有关检索系统的数据库使用指南或手册一类的工具书。在这些工具书中给出了数据库的专业范围、时间范围、记录样例、可检字段、输出格式等内容。n另一种是根据联机
48、检索系统所提供的数据库总索引进行查阅。o3)明确检索途径)明确检索途径在确定检索途径时既要根据检索需求确定检索途径,又要由数据库所提供的检索项来确定检索途径。o4)制定检索方案)制定检索方案检索方案就是用已经选择好的检索词,利用各种算符组配成能反映所需信息概念的检索式,以及限定检索字段的方案。n(3)信息检索方案实施)信息检索方案实施o1)用户上机检索(光盘检索系统和Internet网络检索)o2)委托信息服务机构n选择信息服务机构n如何向检索人员介绍课题介绍主要有两个方面介绍主要有两个方面:1)是要阐明检索的目的及最终要达到的效果,以便于检索人员确定所使用的检索系统;2)是介绍检索课题的内涵
49、,尤其是在检索人员对所要检索的课题所涉及的学科范围不熟悉的时候,更要详细解释课题所涉及的概念。n(4)索取原始文献)索取原始文献目前索取原文的方法如下:ol)查找馆藏单位,可以利用各种期刊联合目录和各馆馆藏目录查找原文收藏单位。现在许多单位已将馆藏目录放到了Internet上,可以较方便地查找原文收藏单位;o2)与收藏单位联系索取原文。一般收藏单位需收到服务费后才寄原文;o3)直接向作者索取原文;o4)联机订购,利用Internet进行索取。o2.信息检索的效果评价信息检索的效果评价n(1)信息检索效果的评价指标)信息检索效果的评价指标信息检索效果是指信息检索的准确性和全面性,分别以查准率和查
50、全率两个定量指标来表示。1)查准率和查全率 查准率查准率(precisionratio),简称为P),是指检出的相关文献数占检出文献总数的百分比。查准率反映检索准确性,其补数就是误检率(missratio,简称为M)。查全率查全率(recallratio,简称为R),是指检出的相关文献数占系统中相关文献总数的百分比。查全率反映检索全面性,其补数就是漏检率(omissionratio,简称为O)。o在信息检索系统中,每进行一次检索,就把系统中所有的文献分为四个部分相关文献非相关文献检出文献a合理的命中b误查c漏查d合理的排除未检出文献查全率和查准率及其补数漏查率和误查率的计算公式分别为:查全率(