收藏 分销(赏)

信息存储与信息检索考试重点.doc

上传人:仙人****88 文档编号:9401031 上传时间:2025-03-24 格式:DOC 页数:12 大小:607.50KB
下载 相关 举报
信息存储与信息检索考试重点.doc_第1页
第1页 / 共12页
信息存储与信息检索考试重点.doc_第2页
第2页 / 共12页
点击查看更多>>
资源描述
一:单项选择题(共20小题,每小题2 分,共40分) 二:填空题(共12个空,每空1分,共12分) 三:简答题。(共4小题,每小题6分,共24分。) 四:应用题。(共3小题,4选3,每小题8分,共24分。) (应用) 例1 检索课题: 查找中国2003年国内人口出生率和自然增长率。 1.手工检索 检索工具:《中国统计年鉴—2004》 通过分类途径在类目“人口”下进行查找。 2.计算机检索 (1)CNKI中国统计年鉴全文数据库 (2)国家统计局网站 进入国家统计局网站主页——点击“数据库查询”——进入“国家统计数据库”——输入检索关键字:人口 ,点击“搜索”,在结果页面单击“(整表/年度资料)--1978-2006年历年人口出生率、死亡率和自然增长率”链接,得到的检索结果如下: 指标名称 人口出生率 人口死亡率 人口自然增长率 (单位:‰) 2003年 12.41 6.40 6.01 (3)搜索引擎 检索式:“2003年 中国人口出生率 自然增长率” 例2.检索课题:查找2004年上海市国民经济生产总值GDP及其增长率。 1.手工检索 检索工具:《上海市统计年鉴—2005》 通过分类途径在类目“国民经济核算”下进行查找。 2.计算机检索 (1)国研网”主页, 进入“国研网”主页,。 点击“区域经济”栏目,在“区域列表”中点击“上海”。 在检索框里输入关键词“2004年上海”,检索条件限制在“标题”,并经关键词“GDP”二次检索,得到上海市2004年的GDP相关数据。 结果如下:2004年上海市按经济普查口径核算的GDP为8072.8亿元,比年快报核算的总量增多了622.5亿元,增加8.4%。 (2)中国经济信息网 地区数据>> 年度数据 (3)国家统计局网站 统计数据 >> 年度数据_>> 国民经济核算 (4)CNKI中国统计年鉴全文数据库 (5)上海统计网 http://www.stats- 上海统计信息网——统计数据——上海统计年鉴——国民经济核算 (6)搜索引擎 检索式:“2004年上海市GDP” 一、纸质文献资源的存储与组织的4个基本要素 信息内容、载体材料、记录符号和记录方式 二、按文献加工深度划分:零次文献、一次文献、二次文献、三次文献的区分 零次文献——尚未经过系统整理形成正式文献的零散资料,包括草稿、记录和谈话等。 一次文献——即作者最初发表的原始文献,是作者根据自己的科研情况而发表的原始创作。 二次文献——是对一次文献进行加工整理后的产物。 三次文献——是在运用一次文献成果并借助二次文献检索的基础上,用科学的研究方法,对一次文献进行综合分析、比较研究,从而揭示某种规律性认识的一种文献类型。 三、信息存储与检索定义 信息存储与检索(Information Storage and Retrieval)是信息检索的全称形式或广义的信息检索,又称为信息存取,它既包括采用多种形式记录信息、排序信息的信息存储过程,也包括通过一定的设备、采用一定的手段与技巧从信息系统中快速、准确地搜寻所需信息的方法与活动。 广义的信息检索包括信息的存储和检索两个过程(Storage and Retrieval)。全称又叫“信息存储与检索”(Information Storage and Retrieval)。信息存储是指工作人员将大量无序的信息集中起来,根据信息源的外表特征和内容特征,经过整理、分类、浓缩、标引等处理,使其系统化、有序化,并按一定的技术要求建成一个具有检索功能的工具或检索系统,供人们检索和利用。而信息检索是指运用编制好的检索工具或检索系统,查找出满足用户要求的特定信息。     狭义的信息检索则仅指该过程的后半部分,即从某一信息集合中找出所需的信息的过程,相当于人们通常所说的信息查询(Information Search)。 四、信息检索方法 信息存储与检索的基本原理就是,查询语言(检索提问)和系统标识语言所进行的“相符性比较”与“匹配运算”。即是:通过对大量的、分散无序的文献信息进行搜集、加工、组织、存储,建立各种各样的检索系统,并通过一定的方法和手段使存储与检索这两个过程所采用的特征标识达到一致,以便有效地获得和利用信息源。其中存储是为了检索,而检索又必须先进行存储。 1. 常规法(工具法):可分为顺查法、倒查法、抽查法; 2. 追溯法 :当查到一篇参考价值较大的新文献时,以文献后面附的参考文献为线索,由近及远,进行逐一追踪; 3. 综合法 :又称为分段法或循环法,将常规法和追溯法相结合; 五、信息检索语言的类型 描述信息内容特征的检索语言有:分类语言和主题语言2种 1.分类语言     分类语言是指以数字、字母或字母与数字结合作为基本字符,采用字符直接连接并以圆点(或其他符号)作为分隔符的书写法,以基本类目作为基本词汇,以类目的从属关系来表达复杂概念的一类检索语言。     以知识属性来描述和表达信息内容的信息处理方法称为分类法。著名的分类法有《国际十进分类法》、《杜威十进分类法》、《美国国会图书馆图书分类法》、《国际专利分类表》、《中国图书馆图书分类法》等。  2.主题语言 主题语言是指以自然语言的字符为字符,以名词术语为基本词汇,用一组名词术语作为检索标识的一类检索语言。以主题语言来描述和表达信息内容的信息处理方法称为主题法。 (主题语言又可分为:标题词、单元词、叙词、关键词 *描述信息的外部特征的检索语言主要是指文献的篇名(书名、刊名、篇名)、作者姓名、出版者、报告号、专利号、文献类型、出版年份等。) 六、信息检索的类型(按照执行主体、对象和目标) 按检索活动的执行主体划分:手工检索,计算机检索 手工检索(Manual Retrieval ) 手翻、眼睛浏览、大脑思维并举;对印刷型手工检索工具(包括书本式的手检工具 和卡片目录)中的文献款目进行扫描和匹配; 计算机检索 (Computer Retrieval) 将用户信息需求转换为检索提问,即编制提问检索式、制定检索策略和使用检索指令, 按检索活动的对象和目标划分:文献检索(目录,全文)、数据检索、事实检索 七、几大著名的索引 国外著名的四大索引包括:美国的《工程索引》(Ei)、《科学引文索引》(SCI)、《科技会议录索引》(ISTP)、《科学评论索引》(ISR)。 其他《社会科学引文索引》 SSCI、 《科学文摘》SA及其对应的INSPEC存取系统。 八、提问检索式及其构造: ﹡句子切分 ﹡词汇剔除 ﹡概念替换 ﹡概念限定与补充 ﹡组合式检索式 亦称检索式(项)或检索提问表达,它是一个直接面对数据库或检索系统的完整的检索条件表达式,是要求系统执行的检索语句。最简单的检索式由一个检索词和一个字段名(字段标识)构成,如information science/T1;复杂的检索式常由多个检索词及字段名经由关系运算符链接组合而成,如legal and liability or malpractice/ti;laster/ti,de,ab等。 九、关系算符——布尔逻辑算符、字段限定符、位置算符、截词算符 布尔逻辑算符 逻辑“与” — AND 或 * 主要用于交叉概念或限定关系概念之间的组配。 逻辑“或” — OR 或 + 主要用于并列关系的概念组配。 逻辑“非” — NOT 或 - 主要用于排斥与选择关系的组配。 布尔逻辑算符执行的优先顺序为NOT、AND、OR。 字段限定符 基本索引字段的限定检索。为了指定在基本索引的哪个或哪几个字段中检索,可在检索词或检索式后面加上一斜杠“/”,再加上所需限定字段标识。一般将加有“/”线的字段标识称为后缀代码(简称后缀)。 表3.1 常见后缀代码及其限定查找的字段范围 后缀代码 限定查找的字段范围 /TI 题名 /AB 文摘 /DE 叙词 /ID 自由标引词 /NT 注释 /SH 类目标题 示例1: 检索表达式:题名=薄膜 OR 摘要%超导器件 AND (作者=赵钱孙 OR 机构=物理) NOT 来源=中国科学 检索意图:题名中有“薄膜”并且作者中有“赵钱孙”或者题名中有“薄膜”并且机构中有“物理”,还要在摘要中对“超导器件”进行模糊检索的同时排除来源中含有“中国科学”的条件。 示例2 :检索表达式:摘要%文物保护*'历史 $ 2' 检索意图:在摘要中对“文物保护”进行模糊检索,同时要求摘要中还包含至少2个“历史”。 位置算符 (W)或( ) — With (nw) (N) — Near (nN) (F) — Field (S) — Sub field (L) — Link (C) — Citation (X)和(nX) 在位置算符的前面加上NOT即可构成位置算符的逻辑(非) 位置操作符(W)通常表现形式为k1( W )k2,它表示k1、k2两词彼此相邻,并且k1位置在前,k2位置在后。它的扩展形式(n W ),通常表现形式为k1(n W )k2,它表示k1、k2两词靠近,次序为k1前k2在后,中间最多有n个词。 位置操作符(N)通常表现形式为k1(N)k2,它表示k1、k2两词靠近,次序可变。它的扩展形式(n N)。 位置操作符(F)通常表现形式为k1(F)k2,它表示k1、k2两词在同一字段中。 位置操作符(S)通常表现形式为k1(S)k2,它表示k1、k2两词在同一句子中出现。 截词算符 所谓截词检索算符,是指在检索词的某个局部截断,利用检索词的词干或不完整的词形加上截词符号所进行的检索。 后截词—前方一致检索 前截词—后方一致检索 有限截词 前后截断—中间一致检索 中截断—前后方一致检索 无限截词 截词检索的主要形式是右截词,部分支持中间截词,左截词十分罕见。在不同系统或工具中的采用的截词符号可能不同,如EBSCO数据库采用截词符号为“*”、“?”。Dialog系统则采用“?”作为截词符 如:comput?等同于“computer”、“computing”、“computerized”和“computerization”等词的逻辑或运算。 Wom?n包含“woman”、“women”等词的检索结果。 ?ment 可同时检索attachment、establishment、equipment等文献记录 。 有限截词: 即在检索词干的左、右方或者词中间加截词符号“?”或“*”,截词符的个数与允许变化的字符数相等。 无限截词: 即在检索词词干后面加上一个“?”,表示允许在词干后出现的字符不限。 十、信息检索步骤 1、分析检索课题,明确检索需求。 *检索目的与意图。 *学科范围与主题概念。 *文献性质、类型与数量。 2、制定检索策略。 3、选择检索系统与数据库。 4、确定检索词和检索途径,编制逻辑检索式。 5、检索策略的调整. 十一、文献检全率和检准率的计算(参见第三章课件及第一次作业) 常用的信息检索效果的评价指标有查全率、查准率、漏检率、误检率和响应时间等,最主要的是前四种。 系统中相关信息总量 (a+c) 系统中非相关信息总量(b+d) 检出的信息总量(a+b) 检出的相关信息总量(a) 检出的非相关信息总量(b) 未检出的信息总量(c+d) 未检出的相关信息总量(c) 未检出的非相关信息总量(d) 查全率=a/(a+c)*100% 查准率=a/(a+b)*100% 漏检率=c/(a+c)*100% 误检率=b/(a+b)*100% 查全率是指系统在进行某一检索时,检出的相关文献量与系统文献库中相关文献总量的比率,它反映该系统文献库中实有的相关文献量在多大程度上被检索出来。 查全率=[检出相关信息量/信息库内相关信息总量]×100% 查全率=a/(a+c)*100% 例如,要利用某个检索系统查某课题。假设在该系统文献库中共有相关文献为40篇,而只检索出来30篇,那么查全率就等于75%。 查准率是指系统在进行某一检索时,检出的相关文献量与检出文献总量的比率,它反映每次从该系统文献库中实际检出的全部文献中有多少是相关的。 查准率=[检出相关信息量/检出信息总量]×100% 查准率=a/(a+b)*100%     如果检出的文献总篇数为50篇,经审查确定其中与项目相关的只有40篇,另外10篇与该课题无关。那么,这次检索的查准率就等于80%。显然,查准率是用来描述系统拒绝不相关文献的能力,有人也称查准率为“相关率”。查准率和查全率结合起来,描述了系统的检索成功率。 漏检率=c/(a+c)*100% 误检率=b/(a+b)*100% 十二、数据型数据库与事实型数据库的区别(课本P 44、P111、 P117-118) n 数据型数据库 存取的内容主要是各类数据,原材料、产品的价格行情,各类经济数据、股市行情、气象数据、经济分析等 支持此类存取系统的数据库是数值型数据库如:人口数据库、商品价格数据库、气象数据库、化学分子结构数据库等。例:ESA/IRS系统中,PRICE DATA 数据库就是典型的数值型存取系统库。该系统收录了自1972年以来世界上的60多种主要商品的价格行情,以及十几种货币的汇兑等数据。 n 事实型数据库 事实型存取系统是一种直接面对各类事实和事项提问的信息存取系统。也有人称之为事实或事项存取系统。 存取的内容是有关人物、机构、地域、事件等一般性描述的信息,人物传记、机构名录、产品指南、成果介绍数据库,用于人事档案管理、科研项目管理、企业决策、城建管理, 十三、国内外联机存取系统有哪些,了解概况 (一) 国外联机存取系统 DIALOG系统——是目前世界上规模最大、检索功能最完善、用户终端最多的联机存取系统。目前它拥有600多个数据库、记录量超过3亿条,内容涉及40多种语种和占世界发行总量60%的6万多种期刊,为全球100多个国家和地区的15万用户提供各种类型的联机存取服务。目前我国信息用户可以通过已经获得DIALOG系统账户和密码的信息机构(如各类信息服务部门、高校图书馆等)直接通过Internet连入DIALOG实施信息检索。 STN系统——国际科技信息网络 OCLC FirstSearch——联机计算机图书馆中心。FirstSearch(第一检索服务)是OCLC 1992年开始推出的一个新产品,1999年8月OCLC 完成了新版的FirstSearch(即New FirstSearch )。我国1996年2月成立了“清华大学OCLC服务中心” (二) 国内联机存取系统 万方数据资源系统——( ) CNKI数据资源系统——( ) 维普数据资讯系统——( 十四、Internet环境下的联机信息检索与网络信息检索的异同 联机信息检索与网络信息检索的相似之处: • 检索实质相同——都是将文献标识与提问标识相比较、匹配; • 逻辑组织大体相同——在逻辑上的核心部分可分为文献库及其索引两部分,两者都 使用了词表; • 提供检索的逻辑组配手段相似——均为用户提供构造检索表达式的逻辑方法; • 检索入口相同——提供分类和主题检索两种途径; 联机信息检索与网络信息检索的不同之处: • 标引所依据的语言不同——DIALOG等联机系统采用叙词表等人工语言,网络信息检索采用自然语言; • 系统界面设计不同——联机信息系统一直使用非图形界面;网络信息检索采用图形界面。 • 信息组织方式不同——联机信息系统以文档的形式按线性组织;网络信息检索采用超文本组织方式; 十五、根据检索式写出相应的检索意图 根据检索意图编制相应的检索式 检索式与检索意图示例:(应用)另外参见课件第5章 例1-例6 例1 用国际联机检索查找“用激光散斑法测三维位移量”的文献。 课题分析 课题名称:用激光散斑法测三维位移量 英文名称:Laser Speckle Method for Three-dimension Displacement Measurement 课题说明:用激光散斑法对三维物体受力后或经过其他变形后的位移量进行测量,本课题涉及光学和力学 选择数据库 本课题属于物理学范畴,选用FILE6 NTIS(美国政府研究报告)、FILE12、13INSPEC(英国科学文摘) 确定检索词,共5个 Laser、 Speckle、 Method、displacement、Measurement 编制检索提问式 (Laser(w)speckle? ?/TI)and(displacement? ?(w)measurement? ?) 填写国际联机检索提问单(略) 上机检索 例2 AU=Wang Li AND (CS=Wuhan Univ.) 表示要检索著者是Wang Li,著者单位是Wuhan University的记录,即要查找“武汉大学”姓名为“Wang Li”的作者的文献。 例3 Life(N)insurance AND PY=1999 即要查找“1999年”出版的关于“人寿保险”的资料。 例4 要求检索钱伟长在清华大学或上海大学时发表的文章 检索式:作者=钱伟长and(单位=清华大学or单位=上海大学) 例5 要求检索钱伟长1980年以前在清华大学期间发表的题名或摘要中包含“物理”的文章 检索式:作者=钱伟长and单位=清华大学and (题名=物理 or摘要=物理) and 出版年<1980 例6 “information”与“retrieval”两个词,使用不同的检索技术会表示不同的检索需求,如下表所示。这一实例说明检索式的不同,检索结果便会有很大差别 检索式与检索结果的比较 十六、了解网络信息检索工具及方法 (一) 网络信息检索的一般方法 l 浏览检索——网上遨游 l 通过资源指南(Resource Guide)来查找相应的信息——资源指南分为综合性和专业性的 l 利用网络信息检索工具——对www、FTP、Telnet、 Gopher 、Wais资源进行信息查询 l 使用搜索软件——可同时启动互联网上的多个搜索引擎 l 充分利用E-mail获取信息资源 l RSS订阅 (二) 网络信息检索的工具 网络信息检索工具——是指因特网上提供信息检索服务的计算机系统,其检索对象是存在于因特网中的各种类型的网络信息资源。如 www、FTP、Telnet、 Gopher 、Wais资源 www检索工具的典型代表是搜索引擎,搜索引擎以一定的策略在互联网上搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的,被称为“网络门户”。 十七、了解图书、期刊、专利文献、会议文献、标准文献的特点 图书:是品种最多、数量最大的一种文献,它是对科学知识、技术成果、称产技术和经验的概括论述,多属于经过总结和组织的三次文献。 图书文献检索包括图书文本的检索和电子图书的检索。 图书检索即书目检索,分为手工数目检索和计算机书目检索。 期刊:是指拥有固定名称、统一板式和连续的卷、期号或年月标识的定期或不定期的连续出版物,每期刊载两篇以上学术论文。 期刊检索主要包括期刊目录检索和期刊论文检索。 PS:图书与期刊都具有知识系统、内容全面、理论成熟可靠等特点。 专利文献:是一种集技术、法律和经济情报于一体的实用文献,在人类技术进步和社会经济发展历程中一直起着十分中要的作用,长期以来人们通过手工检索、光盘检索和联机检索获取各种专利信息。 专利文献检索主要包括手工检索和网上检索。 会议文献:主要指会议上发表的论文。主要有会前文献、会间文献和会后文献。 会议文献检索主要是网上检索。 标准文献:通常是指由技术标准、管理标准和工业标准及其他具有标准性质的文件组成的特种文献。包括标准、技术规范、操作规则和法规等文件。 标准文献检索包括书本式检索和计算机检索。 十八、网络环境下的图书检索 P233-235 网络环境下的图书检索:随着网络环境的普及以及网上信息服务的开展,通过网络提供图书文献检索的机构日渐增多,出版社、书店、图书馆等,为用户进行数目检索提供了便利。 (1) 图书馆馆藏目录检索 (2) 出版社网站书目检索 (3) 网上书店书目检索(当当:) (4) 其他网上书店网址(南方图书网:) 十九、美国政府四大报告及其检索系统 (一) 美国政府四大报告 由美国商务部下属的国家技术情报局(National Technical Information Service,NTIS)编辑出版,涉及数、理、化、生、天、工程、航空航天、军工、能源等许多领域,系统全面地记录了50年来美国科技发展地成就与经验,是美国科技信息的重要组成部分。 1. PB报告(行政系统) 2. AD报告(军事系统) 3. NASA报告(航空与宇航系统) 4. DOE报告(原子能和能源管理系统) (二) 美国政府报告检索系统(四大报告检索系统) l 《美国政府报告通报及索引》(Government Reports Announcement and Indexes) l NASA科技信息通报 (http://www.sti.nasa.gov) l NASA技术报告服务(NASA Technical Report Server,NTRS) (http://techreports.larc.nasa.gov) l 美国国防部科技报告服务(Scientific and Technical Report Collection) (http://www.dtic.mil/stinet/str/index.html) l 美国政府报告服务(National Technical Information Service,NTIS) (http://www.ntis.gov) 二十、中外专利文献检索工具 (一) 国内专利网上检索 q 中国专利信息网() q 中华人民共和国知识产权局专利检索系统( q 中国知识产权网() q 其它专利检索网站 l 易信专利信息网 l 中国专利网 l 中国专利信息中心专利检索系统 l 万方数据库系统的“专利数据库 ” l CNKI的 中国专利全文数据库 \国外专利数据库 (二) 国外专利网上检索(略) 详见课件第7章 美国专利文献检索 美国专利文献检索工具: Ù 《美国专利公报》 Ù 美国专利分类表及其分类索引 Ù 美国专利数据库 ø专利号检索(Patent Number Search) IBM公司的免费专利文献数据库()等。 日本专利文献的检索工具 : ö日本专利文献的检索工具 Ø 《日本专利分类表》(特许、实用新案分类表) Ø 《日本专利分类表索引》 Ø 《日本专利年度索引》 Ø 《日本专利索引快报》 Ø 《特许新案集报》 Ø 《公开特许摘要》 Ø Japan Patent Information Organization(JAPIO) www.japio.org.jp 德温特(WPI)专利检索 Ø WPI概况 Ø WPI的具体内容: ø WPI索引周报 ± 专利权人索引(Patentee Index) ± 国际专利分类号索引(IPC- Index) ± 登记号索引(Accession Number Index) ±专利号索引(Patent Number Index) ± 优先权索引(WPI Number Index) ø WPI文摘周报 ± 快报型文摘周报(Alerting Abstracts Bulletins) ± 基本专利文摘周报(Documentation Abstracts Journals) 二十一、国内和国外学位论文的检索系统 (一) 国内学位论文的检索系统有: l 中国科技信息研究所、国家图书馆 l 高校学位论文数据库(CALIS) l 国家科技图书文献中心中文学位论文数据库 l 高校图书馆站点 l 万方数据资源系统学位论文数据库 l CNKI数据资源系统优秀博硕士学位论文库 (二) 国外学位论文的检索系统:国外的检索系统比较多,如:《国际学位论文文摘》(DAI)、最全面的是PQDD。 二十二、国内外著名信息存取系统中索引文摘类系统和全文系统的区分 (参见课件第7章、10章和11章) 相同: (1) 网络检索 (2) 资源整合和集成检索 (3) 融合菜单检索和高级检索于一体 (4) 中和运用布尔检索、截词检索和位置检索等检索技术 (5) 数据库检索人性化 不同: (1) 检索途径存在差异 (2) 收录文献的原则和目的不同,数据库所起的作用不大 (3) 检索技术的运用不尽相同(检索原理不同、主题检索特征不同、输出格式不同) 二十三、字词典 、百科全书 、年鉴 、手册、名录等参考工具的适用对象区别 (参见课件第9章) l 查字词注音和释义——用综合或专业性字词典; l 检索内容包括多学科领域——百科全书(可用来查询事实型信息和某些数据及基本文献,知识门类齐全,问题的解释详尽完备,被称为“工具书之王”); l 检索一年中的大事、学科进展及统计数字和资料——年鉴 l 检索参考公式、规格、具体事实等——手册(大全、指南) l 人物、机构和地域信息参考工具——名录 l 历史年月日和图像信息 ——表谱与图录 l 历史典故、制度、诗赋文章的参考工具书——类书、政书 l 法令法规与统计资料参考工具(部分可通过手册年鉴及统计资料网页获得)——资料汇编 l 另外就是可以利用事实型、数据型数据库和相应网站。 英语世界著名的ABC三大百科全书 : << 美国百科全书>> <<新不列颠百科全书>> <<科利尔百科全书>> 二十四、中文事实型和数据型信息的检索工具有2大类 分别是:参考工具书和事实型、数据型数据库
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传
相似文档                                   自信AI助手自信AI助手

当前位置:首页 > 教育专区 > 小学其他

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4009-655-100  投诉/维权电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服