1、第第1章章 信息信息检索基索基础 1 第1章 信息检索基础 解释信息的含义与特征 论述信息的分类 介绍信息检索的概念 阐述信息检索的原理 讨论信息检索系统 梳理信息检索方法 阐释信息检索效果的评价本章要点本章要点 以知识经济为显著特征的信息社会已经成为社会发展的趋势。人类社会的发展,科技技术的进步都离不开信息资源的开发利用。我们怎样快速的查找信息和有序的整理信息?2 第1章 信息检索基础1.1.1 1.1.1 信息的含义与特征信息的含义与特征1.1.1.1 1.1.1.1 信息的含义信息的含义 信息的含义有广义和狭义之分:广义的信息指自然界和一切人类活动所传达出来的信号和消息,是事物表现的一种
2、普遍形式。狭义的信息指经过搜集、记录、处理和存储的可供检索的文献、数据和事实。它是人类对客观事物的认识,是实践经验的总结,是认识的结果,是我们检索的对象。1.1 1.1 信息概述信息概述 3 第1章 信息检索基础 1.可存储性可存储性 2.可传递性可传递性 3.可转换性可转换性 4.可处理性可处理性 5.可共享性可共享性 6.可识别性可识别性 7.依附性依附性 8.普遍性普遍性 1.1.1.2 信息的特征信息的特征 4 1.1.2 1.1.2 信息的功能和类型信息的功能和类型1.1.2.1 1.1.2.1 信息的功能信息的功能 1.传承人类文明,推动社会发展 2.提供决策依据,提高决策效益 3
3、.保障有效控制,保证系统秩序 4.发挥参考作用,推动知识创新第1章 信息检索基础 5 1.1.2.2 1.1.2.2 信息的类型信息的类型对信息的分类可以从广义信息和狭义信息两个方面来进行理解。第1章 信息检索基础基于广义信息概念基于广义信息概念的信息分类的信息分类A基于狭义信息概念基于狭义信息概念的信息分类的信息分类 B 6 第1章 信息检索基础基于广义信息概念基于广义信息概念的信息分类的信息分类 依据信息的产生,可以分为社会信息依据信息的产生,可以分为社会信息和自然信息和自然信息 依据信息的运动状态,可以分为自在依据信息的运动状态,可以分为自在信息、自为信息和再生信息信息、自为信息和再生信
4、息 7 基于狭义信息概念的信息分类第1章 信息检索基础印刷型信息缩微型信息视听型信息机读型信息按媒体类型分零次信息一次信息二次信息三次信息按信息的加工程度分经济信息、科技信息政务信息、文化信息教育信息、军事信息等按信息内容分正式出版信息非正式出版信息按信息出版发行特点分 8 1.1.3 1.1.3 网络环境下的信息变化网络环境下的信息变化1.1.3.1 1.1.3.1 因特网对信息的影响因特网对信息的影响 1.特网引发了信息新的出版形式网络出版,形成了 新型的网络信息资源 2.因特网使人类传统的信息交流方式发生了根本性的变 化 3.特网推动了信息处理技术发展1.1.3.2 1.1.3.2 网络
5、环境下信息的新特点网络环境下信息的新特点 1.信息类型多样化 2.信息的数量和内容都得到了极大的丰富 3.信息在分布上呈现出明显的分散性 4.信息共享程度提高第1章 信息检索基础 9 第1章 信息检索基础1.2.1 1.2.1 信息检索的概念信息检索的概念信息检索从广义的角度讲,包含信息存储和信息获取两个过程。信息存储指通过对大量无序信息的选择和收集著录和标引等方法,建成各种各样的信息检索工具或信息检索系统,使之成为有序化信息集合的过程。信息获取是存储的逆过程,其实质是根据特定的需求,运用已组织好的检索系统,将特定的信息查找出来。1.2 1.2 信息检索信息检索的原理和概念的原理和概念 10
6、1.2.2 1.2.2 信息检索的原理信息检索的原理第1章 信息检索基础信息检索的分类信息检索的分类文献检索文献检索Document RetrievalDocument Retrieval数据检索数据检索Data RetrievalData Retrieval事实检索事实检索Fact RetrievalFact Retrieval 11 第1章 信息检索基础1.2.3 1.2.3 信息检索的意义信息检索的意义1.信息检索是有效利用信息资源、实现其最大价值的 科学方法2.信息检索是再学习的工具,是获取知识的有效途径3.信息检索能有效地提高科研工作的效率,节省人力 物力及时间 12 第1章 信息检
7、索基础1.2.4 1.2.4 信息检索的历程信息检索的历程信息检索的发展与人们信息需求的增长以及现代信息技术的进程紧密相关。追溯时间发展的脉络,信息检索的发展经历了手工检索阶段和计算机检索阶段:1.2.4.1 1.2.4.1 手工检索手工检索 直接发源于图书馆的参考咨询工作和文摘索引工作。主要检索工具是纸本工具书。1.2.4.2 1.2.4.2 计算机检索计算机检索 随着计算机技术和网络技术的发展,计算机检索经历了脱机检索、联机检索、光盘检索和网络检索四个阶段。在当今网络环境下,计算机检索将发挥更大的作用,更好地满足人们日益增长的文献信息需求。13 第1章 信息检索基础1.3 1.3 信息信息
8、检索系统检索系统1.3.1 1.3.1 信息检索信息检索系统的概念系统的概念 14 1.3.2 1.3.2 信息检索系统的构成信息检索系统的构成1.信息选择子系统2.信息索引子系统3.词表管理子系统4.检索子系统5.用户同系统之间交互子系统6.匹配子系统第1章 信息检索基础 15 1.3.3 1.3.3 信息检索系统的分类信息检索系统的分类第1章 信息检索基础书本书本式的手工检索系统式的手工检索系统卡片式的手工检索系统卡片式的手工检索系统手工检索系统手工检索系统光盘光盘检索系统检索系统联机检索系统联机检索系统网络检索系统网络检索系统计算机检索系统计算机检索系统 16 第1章 信息检索基础信息检
9、索的效率与具体的信息检索方法有很大的关系,运用有效的信息检索方法能够使用户以最少的时间获得最满意的检索结果。信息检索方法的运用离不开各种信息检索系统,总的来说,检索方法有直接浏览法、常用法、追溯法和综合法。1.4 1.4 信息检索方法信息检索方法 17 直接浏览法也称直接查找法,指检索者不依靠任何检索工具或检索系统,从本专业最新核心期刊或其他文献中直接阅读原文或浏览最新目次而获取文献的方法。这是一种最常见的信息资源的获取方式。因为编制检索工具需要时间,有的半年,甚至长达一年之久,直接浏览可以及时获得最新文献。但利用这种方法查找的信息不全面、不系统、且局限性较大,不能作为查找文献的主要方法。第1
10、章 信息检索基础1.4.1 1.4.1 直接浏览法直接浏览法 18 第1章 信息检索基础指利用检索系统来查找信息的方法,这是目前查找信息的最常用的方法,故而称常用法。常用法包括顺查法、倒查法和抽查法。1.4.2 1.4.2 常用法常用法 19 第1章 信息检索基础指从已有的文献信息后所列的参考文献入手,逐一追查原文,从这些新查到的原文后面所附的参考文献再逐一追查,不断扩大检索范围的检索方法。其优点是:在没有检索工具或检索工具不齐全的情况下,借助此种方法,也可以查到一批有关的文献。其缺点是:原文作者引用的参考文献是有限的,不可能列出全部有关文献,而且有的引用文献又与原文关系较小或较远,参考价值不
11、大。单独使用这种方法,还是存在一定的局限性。1.4.3 1.4.3 追溯法追溯法 20 第1章 信息检索基础也有人称之为分段查找法、循环法或交替法。先利用检索工具查出一定时期内的一批有用的文献,然后依据这些文献后所附的参考文献,利用追溯法查出前一时期的文献,如此分期分段地交替使用上述两种查找方法,直到满足要求为止。这种方法兼有上述两种方法的优点,可以查得全面而准确的信息,适合于查阅那些过去年代内文献量较少的专业,并可弥补因检索工具不全而造成的漏检,检索效果较好。1.4.4 1.4.4 综合法综合法 21 1.5.1 1.5.1 信息检索效果评价信息检索效果评价信息检索效果是指信息检索系统检索的
12、有效程度,它衡量了检索结果对用户需求的满足程度,是检索系统性能的直接反映。据美国学者克莱弗登的研究,评价信息检索效果的指标主要有六个:收录范围、查全率、查准率、响应时间、用户负担和输出形式。1.5 1.5 信息检索信息检索效果效果第1章 信息检索基础 22 1.5.1.1 1.5.1.1 查全率(查全率(Recall RatioRecall Ratio)查准率()查准率(Precision Precision RatioRatio)查全率和查准率是由美国佩里(J.W.Pery)和肯特(Allen Kent)于50年代中期提出来的,后经不断改进和完善,至今已成为评价检索效果最常用的两项关键指标。
13、确定查全率和查准率最常用的方法是有名的22表。第1章 信息检索基础 23 1.5.1.2 1.5.1.2 漏检率(漏检率(Omission FactorOmission Factor)和误检率()和误检率(Noise Noise FactorFactor)漏检率指漏检相关文献信息量与检索系统中相关文献信息总量的比率,它与查全率相对应。具体公式如下:漏检率=漏检相关文献信息量/检索系统中相关文献信息总量100%=(c/a+c)100%误检率指误检(检出不相关)文献信息总量与检出文献信息总量的比率,是衡量信息检索系统误检程度的尺度,与查准率相对应。误 检 率=误 检 文 献 信 息 量/检 出 文
14、 献 信 息 总 量100%=(b/a+b)100%第1章 信息检索基础 24 1.5.1.3 1.5.1.3 响应时间(响应时间(Response TimeResponse Time)响应时间指在一次检索过程中,用户从开始向信息检索系统提问到系统输出检索结果的全部时间。响应时间的长短也是评价检索系统效果的重要指标,直接反映着信息检索的速度。此外,还有一些与检索效果相关的指标,如检索系统的收录范围、结果输出形式、易用性、用户负担,以及在网络环境下发展起来的重复链接率、死链接率等。第1章 信息检索基础 25 1.5.2 1.5.2 影响信息检索效果的因素影响信息检索效果的因素第1章 信息检索基础标引的质量标引的质量 检索语言的性能检索语言的性能 检索途径的数量检索途径的数量 检索策略的优劣检索策略的优劣 检索人员的素质检索人员的素质