1、单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,#,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,#,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,#,单击此处编辑母版标题样式,#,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,#,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级
2、第五级,#,信 息 检 索,陆 燕,85427568,0,(,O,),luyan5062,老图书馆,201,本课程的相关信息:,24,个学时,1,个学分,平时成绩占,30%,,考试成绩占,70%,。,平时成绩来自实习作业,参考 书目:,1.,北大、南大、东大出版的,信息检 索,、,电子信息资源检索,等。,2.Google,使用指南,等。,3.,林业信息检索,等。,主 要 内 容,第一章 绪论,第二章 信息的相关知识,第三章 信息检索的基本知识,第四章 计算机信息资源检索,第五章 特种文献检索,实习,第一章 绪论,我们在本章节需要完成的学习任务:,信息检索的概念(,what,s it?,),信
3、息检索的作用(,what can it do for you,),学习信息检索的必要性(,Necessary,),如何学好,“,信息检索,”,(,how to master it,),WESEARCH FOR IFORMATION,信息检索(,information retrival,):信息存储(,information storage,)与信息检索(,information retrival,),信息检索(,IR,):信息查询(,information search,),信息检索(,whats it?,),信息检索最直接的作用,信息检索的作用:,获取信息,利用信息,避免重复劳动,获取的信息
4、的作用:参考,求证,比较,决策,产生新思想,,新技术,新发明,改善知识结构,提高,信息素养,和智力水平,改变生活方式,信息素养,信息素养:,利用大量的信息工具及主要信息源使问题得到解答的技术和技能。,了解自己的信息需求,承认准确和完整的信息是制定明智决策的基础,能在信息需求的基础上系统阐述问题,能识别潜在的信息源、检索信息源,制定成功的检索策略,能利用以计算机为基础的信息技术和其它技术,具有评价信息的能力,能为实际应用而对信息进行组织,具有将新信息结合到现存的知识体现中的能力,能采用批判性思维,利用信息并解决问题等,本课程的教学目标,学习信息检索的必要性,信息增加速度快,信息质量差异大,信息源
5、多,信息检索工具多,信息检索具有跨学科性,信息检索有技术与技巧,学习后,知道到那找信息,如何找信息,如何处理获取信息,大大提高检索结果的查全率和查准率。,如何学好,“,信息检索,”,掌握必须的基本知识,实践 总结经验体会 实践,for ever,第二章 信息的相关知识,第一节 信息,&,信息源,一、概念,信息:,1.,信息是事物运动的状态与方式。,2.,用来清除随机事件的形式的不定 性的东西。(从功能上的定义),3.,信息是主体通过各种认知方法获 得并经过收集、记录及处理后以 某种形式存储起来的事实或数据。,二、信息的特性,客观普遍性,依附性,可传递性,共享性,时效性,可转换性,可识别性,三、
6、与信息相关的其它概念,1.,知识:人类对于客观世界的认识。,2.,情报:人们搜集到的能为我们所用的新知识或新信息。,3.,文献:记录有知识的一切载体。,(人们在认识世界和改造世界的过程中,获得大量客观事物传递的信息,即感性认识或经验,然后对这些感性认识通过大脑进行加工处理,形成理性认识。),(只有将反映自然和社会现象的信息经过加工,上升为对自然和社会发展可观规律的认识,这种再生信息才构成知识。),(情报是知识通过传递并发生作用的部分,也就是说是传递中有用的知识。),(文献是传递知识的有效工具),四、信息源,一,.,概念:信息源是指“信息的来源”。,二,.,类型:,时间先后:先导信息源,即时信息
7、源,滞后信息源;,可保存性:可保存信息源,不可保存信息源;,开发程度:潜在信息源,,现实信息源,口头信息源,体语信息源,实物信息源,文献信息源等,非文献信息源,第二节 文献的基本知识,一、文献(信息源)类型,文献(信息源)类型:,1.,按文献载体形式分:印刷型,微缩型:,存储量高达,22.5,万页,/,平片,声像型,电子型,2.,按文献加工深度分:零次,一次,,二次,,三次文献。,一次文献:,二次文献:,20061128:,太湖西区公路两侧植物物种多样性的研究,/,刊,/,朱晓勇,胡海波,鲁小珍,/,南京林业大学学报,.2006.30(3):-8588,摘自,全国报刊索引,二、印刷型文献种类,
8、图书,期刊,报纸,特种文献,图书,1.,图书的定义,2.,图书的特点,3.,图书的类别,4.,国际标准书号:,ISBN:7-301-10446-4/TP.0863,期刊,1.,期刊的定义,2.,期刊的特点,3.,期刊的分类,4.,国际标准刊号:,ISSN,5.,核心期刊和同行评审期刊,报纸,1.,报纸的定义及特点,2.,推荐报纸,特种文献,1.,特种文献的概念,2.,特种文献的种类,三、电子型文献,数据库资源,网络信息资源,电子型文献:以数字代码方式将图、文等信息记录在磁点光介质上,通过计算机或类似功能的设备阅读使用的一类文献。,第三章 信息检索的基本知识,第二节 信息特征,一、概念 信息检索
9、信息存储,&,信息查找,二、实质 信息检索实质:,信息特征匹配,特定用户所需信息的提问标识,信息存储的检索标识,信息标引和存储过程:对大量无序的信息资源进行标引处理,使之有序化,并按科学的方法存储,组成检索工具或检索文档,即组织检索系统的过程,信息的需求分析和检索过程。分析用户的信息需求,利用已组织好的检索系统,按照系统提供的方法与途径检索有关信息,即检索系统的应用过程。,注:标引:对信息资源的各种检索特征进行分析并使之显化,以便存储和检索的信息加工操作。,信息特征,检索,检索途径,检索语言,Star,三、信息特征:(文献特征),外部特征,:,内部特征:,题名,著者,出处,号码,分类,主题
10、检索途径,外部特征,检索途径,:,内部特征,检索途径:,题名途径,责任人途径,出处途径,号码途径,分类途径,主题途径,第二节 检索途径(检索入口、检索点),中国图书馆分类法,UDC,标题词,单元词,叙词,关键词,一、检索语言 的种类:,外部特征,检索语言,:,内部特征,检索语言:,题名检索语言,责任人检索语言,出处检索语言,号码检索语言,分类检索语言,主题词,第三节 检索语言,(,标引语言、索引语言、概念标识系统),信息检索语言是用来描述文献特征和表达信息需求,沟通信息存储人员与信息检索者思想的一种人工语言。,标题词:规范化处理的名词术语。用术语表达文献主题和文献需求的主题,单元词语言是在标
11、题词语言基础上发展起来的一种规范化检索语言。单元词又称元词,是能表达主题最小的、最基本的、字面上不能再分的词汇单位(如“计算机”、“软件”),作为主题概念的标识。,标题词表的形式体现,叙词,叙词语言是以自然语言为基础,以概念组配为基本原理,并经过规范化处理,表达主题的最小概念单元,作为信息存储和检索依据的一种检索语言。,叙词的特点,叙词语言吸收了其它检索语言的优点,并加以改进。例如,叙词语言吸收了体系分类语言的等级关系,编制了词族表;吸收了标题词语言的规范化处理方法和参照系统,达到了一词一义,发展了词与词之间的逻辑关系,形成语义网络,编制了叙词表;吸收了单元词语言的组配原理,并取代了单元词语言
12、吸收了关键词语言的轮排方法,编制了各种叙词索引。因而,叙词语言在直观性、单义性、专指性、组配性、多维检索性、网络性、语义关联性、手检与机检的兼容性、符合现代科技发展的适应性诸方面,都较其它检索语言更加完善和优越。,叙词语言的基本特性表现,1),叙词的概念组配性。叙词语言以概念,语言,事物的逻辑关系来描述主题,并通过概念组配来检索所描述主题的信息。叙词的概念组配方式有四种。,概念相交组配。是指两个或两个以上交叉关系叙词的组配,其结果形成一个新的概念。这个新概念是原来用以组配的两个概念的下位概念,如汽车部件*发动机,=,汽车发动机。,概念限定组配。表示事物的叙词与表示事物方面的叙词组配,其结果形
13、成一个新的概念,这个新概念可用来表示这一事物的某一属性或某一个方面。如电视机*数字化,=,数字电视机。,以上两种组配方式,所得到的新概念,都是原组配概念的下位概念,缩小了检索范围,提高了叙词概念的专指度,达到提高检准率的目的。,概念并列组配。具有概念并列关系的叙词间的组配,其结果使概念检索的范围扩大,如环境污染,+,环境保护,=,环境污染和环境保护。,概念删除组配。是指两个具有上下位关系的叙词间的组配,其结果使概念检索的范围缩小,如计算机,-,模拟计算机,=,数字计算机。,2),叙词的规范性。,词义规范。,对同义词(如计算机与电脑)、近义词(如实验与试验)、学名和俗名(如发动机与马达)、不同译
14、名(激光与莱塞)、简称与全称(如中国与中华人民共和国)、不同写法(如,X,射线与爱克斯射线)等进行选择;对多义词、同形异义词进行限定说明,如杜鹃既表示一种鸟,也表示一种花,就须限定说明为,杜鹃(动物)、杜鹃(植物)。,词类规范。,即确定词类的范围。能用作叙词的词类一般要求控制在具有实质意义的名词或动名词的范围之内。,词形规范。即对词的繁简体、词序、字母符号等的规定。,上述几个方面的规范中,只有满足一词一义一型要求的词才有可能成为叙词。,表 叙词的语义参照系统,3),叙词的语义性 叙词与叙词之间存在一定的语义关系。叙词之间的语义关系主要有同义关系、属分关系和相关关系。叙词语言对语义关系的揭示方法
15、主要通过各种语义参照符号来反映和联系。,语义参照关系,参照项,中文符号,英文符号,作用,同义关系,用,Y,USE,从非叙词指引到叙词,代,D,UF,从叙词指引到非叙词,属分关系,属,S,BT,从下位叙词指引到上位叙词,分,F,NT,从上位叙词指引到下位叙词,族,Z,TT,从下位叙词指引到最高位叙词,相关关系,参,C,RT,从某一叙词指出其相关叙词,1),主表(字顺表)。是,汉语主题词表,的主体部分,由全部正式叙词款目和非正式叙词款目组成,所有款目严格按汉语拼音音序排检,其基本结构见表,2-5,。,表,2-5,汉语主题词表基本结构,-,Dianshi Xianxingguan,电视显像管,56
16、CE,Kenescope,Television tube,Y,显像管,Xian xiangguan,显像管,56E,lgh1,Kenescope,Picture tube,D,电视显像管,监视管,F,彩色显像管,(11),固体显像管,黑白显像管,S(12),电子束管,(13),Z(14),电子管,(15),C(16),显示管,(17),指示管,-,说明,:,汉语拼音 非正式叙词款目 范畴号 英译名 用项符号 正式叙词款目 正式叙词款目 代项符号 同义词,(,非正式叙词,),分项符号,(11),下位叙词,(12),属项符号,(13),上位叙词,(14),族项符号,(15),最高位叙词,(,族首词
17、)(16),参项符号,(17),同义词,(,正式叙词,),lgh1,2),附表。从主表衍生出来的一种专用词汇表,共有四种,系世界各国政区名称、自然地理区划名称、组织机构名称和人名。,3),词族索引。又称族系索引、等级索引。是将主表中具有属种关系、部分整体关系和包含关系的正式主题词,按其本质属性展开,显示词间从属关系的一种词族系统。作用是揭示主题词之间族系关系,满足族性检索的需要,其结构见表,2-6,。,表 词族索引结构,-,Guangbo Xitong,广播系统,.,电视广播系统,.,多伴音系统,.,无线电广播系统,-,说明,:,汉语拼音 一级主题词 二级主题词 三级主题词,4),范畴索引
18、又称分类索引,是按照学科范畴并结合词汇分类需要,将主表中的全部款目主题词,按社会科学和自然科学两大范畴划分为,58,个大类,以便从分类角度查找某一范畴内容有关的主题词,是主表的一种辅助工具。,5),英汉对照索引 按主题词英译名字母顺序排列的一种主题索引,是通过英译名来选择主题词的辅助工具。,关键词,关键词语言是直接从原文的标题、摘要或全文中抽选出来,具有实质意义的,未经规范化处理的自然语言词汇,作为信息存储和检索依据的一种检索语言。,第四节 信息检索方法,工具法,追溯法,综合法,第四章 计算机信息检索,第一节 计算机检索概述,一、计算机信息检索的定义,广义:计算机信息存储,&,检索狭义:使用指
19、令形成检索策略在计算机检索系统中检索所需的信息,二、计算机检索发展史:,(一)国外计算机信息检索发展阶段,脱机检索阶段,(1954-1964),联机检索阶段,(1965-1971),国际联机检索阶段,(1972-1994),网络信息检索阶段,(1995-),(二)国内计算机信息检索发展阶段,1975,年,从国外引进数据库开展机检服务;,1980,年,建立国际联机终端开展检索服务;,20,世纪,80,年代中后期,自建数据库;,90,年代初,发展光盘检索;,90,年代中期,,Internet,网络化检索阶段。,三、计算机检索系统的构成,主机,:运算器、控制器、存储器等硬件及系统操作程序、数据库管理
20、程序、联机控制程序、应用程序等软件。,通讯线路,:电话通讯网、数据通讯网、卫星通讯网等。,检索终端,:信息用户与检索系统主机进行人机对话,实现联机检索的设备。包括上网设备、调制解调器等。,数据库,:是计算机检索的对象。是由一个或数个文档构成,并能够满足某一特定目的或某一特定数据处理系统需要的一种数据集合。,数据库,数据库的基本类型(按内容性质分),数据库的结构,数据库的基本类型(按内容性质分),1,、文献型数据库,(,full text database,;,bibliographic database,),如:国外三大农业数据库、中国学术期刊(光盘版),2,、非文献型数据库,(,fact d
21、atabase,;,data database,;,概念型数据库、图像型数据库等。),data database,:存贮有科学数据,统计资料等数据。,Fact database,:存贮有企业名录、百科全书、人名录,等有利用价值的信息。,概念型数据库:存贮有各种名词属于或语言资料,一,般来源于词典等。,图像型数据库:存贮有某些图象信息,如图片、云图、,工程设计图等。,由字段、记录、文档组成,字段:,字段的构成,=,字段标识符,+,字段值,字段的类型:,三种,检索系统存取号,AN,(,Accession Number,),基本索引字段(,Basic index fields,)如,Ti,、,Ab,
22、De,等,(表达的文献的内容特征),辅助索引字段(,Addition Index Fields,),如:,Au,、,Py,、,Jn,、,La,、,Dt,等,表达的是文献的外部特征。,常用字段代码及其表示法(见下页),数据库的结构:,字段代码 字段名 表示方法,TI Title apple?in ti,AB Abstract machine in ab,DE Descriptors building in de,AU Author au=liu,BN ISBN bn=0-5635-0144-4,CC CAL Classification(,分类号),cc=921,CD Conference
23、Date cd=19960501,CL Conference Location(,会址),cl=hangzhou,CT Conference Title ct=robotics and au tomation,CY Conference Year cy=1996,DT Document Type dt=book,LA Language la=english,PY Publication Year py=1990,SN ISSN sn=1060=9857,SO Source Publication so=power,记录,:,文档,:,顺排文档(也称主档),:,按文献存取号先后顺序排列的,,相当
24、于检索工具正文部分。,倒排文档(索引文档):相当于检索工具中的索引。,随机文档:记录随即存储,记录的关键码与存放地址之间建立关系,分类号:,S511.103.4,记录号:,96017590,著 者:徐建龙等,篇 名:水道白叶枯病抗性基因,Xa-21,的初步利用,刊 名:浙江农业学报,信息出处:96.8(2).7073,主题词 :遗传效应 育种 白叶枯病 水稻 抗病性,顺排文档,按文献记录的存取号从小到大排列。,218653(AN),Nonverbal Communication in Teaching,Smith,Howard A,Reviews of Educational Research
25、V49 n49 p631-72,Language:English,School,related research is reviewed under,218654,218655,倒排文档,关键词索引文档表,索引词 记录号 字段号,Article 195895 AB2,Artifacts 218653 AB22,Behavior 218653 AB17,Body 195895 TH2,195895 AB10,四、计算机信息检索服务方式,(1),定题检索,(2),回溯检索,(3),日常检索,五、计算机信息检索方式,(1),脱机检索,(2),联机检索,(3),国际联机检索,(4),光盘检索,(5)
26、网络检索,浏览(,browse,):相当于分类途径,检索(,search,),六、计算机信息检索方法:,七、计算机信息检索特点,检索速度快,效益高;,检索功能强,数量大;,检索途径多,手段灵活;,检索范围广;,服务方式多。,第二节,计算机检索技术,1,、布尔逻辑检索功能,2,、词间位置检索功能,3,、截词检索功能,4,、字段限定检索功能,1,、,布尔逻辑检索功能,:,表达三种基本逻辑关系,逻辑与,逻辑或,逻辑非,(,1,)逻辑与(逻辑乘),用运算符号:,AND,或*,连接检索词,例查,“,有关计算机在图书馆中的应用,”,的文献,,检索式,=,计算机*图书馆,例查,“,猪的饲养,”,检索式,=
27、猪*饲养,用文氏图表示:图,1-1,A AND B,A,B,(,2,),“,逻辑或,”,用运算符号,“,OR,”,或,“,+,”,连接两检索词,例,1,查,“,苹果或梨,”,方面的文献,检索式,=,苹果,+,梨,它在同义词检索中使用,能提高查全率。,例,2,查,“,计算机或机器人,”,方面的文献,检索式,=,计算机,+,机器人,用文氏图表示如下:,A OR B,A,B,(,3,),“,逻辑非”,用运算符号,“,NOT,”,或,“,”,连接两检索词,A AND NOT B,有的书上也称为,“,与非,”,关系,即,“,逻辑乘,”,与,“,逻辑非,”,例,1,查,“,玉米但不是甜玉米,”,方面的文
28、献。,检索式,=,玉米,甜玉米,例,2,查,“,不是铬合金,”,方面的文献。,检索式,=,合金,铬,用文氏图表示:图,1-3,A NOT B,A,B,(,4,),“,异或,”,关系,(,A OR B,),AND NOT,(,A AND B,),“,异或,”,排除掉的是,A AND B,部分,例,A,=,水上运输工具,,B,=,陆上运输工,而,“,异或,”,的关系则排除了,A AND B,的那部分,,即,“,水陆两栖运输工具,”,不能被命中。,这同,A OR B,是有区别的。,用文氏图表示如下:,(,A OR B,),NOT,(,A AND B,),A,B,(,5,),“,逻辑非,”,的,“,逻
29、辑或,”,关系,即,:,NOT A OR NOT B,两检索词的。,例:,查除,俄文,、,法文,两种文字之外,的其它各语种的文献。,用文氏图表示:图,1-5,NOT A OR NOT B,A,B,(,6,)“逻辑或”与“逻辑非”,即:,A OR NOT B,检索,A,但否定,B,后的逻辑或,,例:检索焊接(,A,)方面的资料,但不要技术标准(,B,)。,这样,结果是,“,焊接标准,”,的资料被排除了。,但是其它一切课题的资料(除标准外)的资料均被命中。,用文氏图表示:图,1-6,因此,,A AND NOT B,(,即逻辑非),和,A OR NOT B,是不同的,其效果相差很远,。,A OR N
30、OT B,A,B,(,7,),A,即标引在,A,检索词下的文献,(,8,),NOT A,检索不是检索词,A,下文献。,总结:布尔逻辑检索是把任何检索课题加工成可以进行逻辑运算的,表达式,这是计算机检索的一种被广泛采用的匹配方式。布,尔逻辑运算的优 点是简单明确、易于理解、符合人们的思,维习惯,A,A,NOT A,A,2,、词间位置检索功能,例:,天线,反射器,反射器,天线,例:检索,“,小麦中氨基酸,”,(,determination of amino acids in wheat,),检索式:,determination,with,amino acids,with,wheat,例:,flig
31、ht,(,1w,),control,3,、,截词检索功能,截词运算符号有两个,:,“,?、*,”,例:,1,、,teen*teen,,,teens,,,teenage,,,teenager,等。,2,、,wom,?,n,woman or women,L,截词方式有很多,按截词位置可以分为:,L,前截断(后方一直检索):,?,Chemistry chemistry,、,bio,chemistry,、,electro,chemistry,physico,chemistry,(物理化学)等。,L,后截断(前方一直检索)例见书,111,,,chem*,chemical,(化学制品)、,chemism,
32、化学机理)、,chemomorphosis,(化学诱变)、,chemosynthesis,(化学合成)等。,L,中间截断:,wom?n,分别检出了,woman,,,women,两词,fib?board,分别检出了,fiberboard,,,fibreboard,两词。,L,截词检索在中文数据库中截的是词意,,例:西北?分别检出了:西北农林科技大,学学报、西北园艺、西北纺织学院学报等。,L,在外文数据库中截的是词的后缀,截断,派生出的词汇和原来的词义基本一致。,例,“,金属,”,metal*metal,、,metals,、,metaled,、,metalist,等。,L,利用截词检索时,注意截
33、词的部位,一定不能截的太深,否则误检率会很大。,4,、,字段限定检索功能,将,检索词限定,在某一字段中,检索时,计算机只对限定字段进行运算,以提高检索效果。常用的检索符号有:,in,、,=,、,、,例,1,:,English in la,例,2,:,py1992,总结,:在一个复杂的检索式中,不仅可以有多个运算符,,也可以使用括号来指定运算的优先顺序、以及体,现概念的完整性。,例,3,:查,“,玉米方面的英文,”,文献,检索式,=,(,maize or zea-mays or corn,),in de and,(,English in la,),第三节 重要的学术数据库资源,中文学术资源数据库:,电子图书数据库,电子期刊数据库,学位论文数据库,标准数据库,专利数据库,外文学术资源数据库:,电子图书数据库:,超星数字图书馆,北京世纪超星信息技术发展有限责任公司,检索途径(检索字段):分类浏览、书名、作者、出版日期等阅读器:,superstar reader,书生之家,北京书生科技有限公司,关键词等,阅读器:,书生之家阅读器,在线阅读,不能下载。,电子图书数据库:,






