资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第一讲回顾:小结NO4,信息源的三大划分标准:载体形式、处理级别、编辑出版形式。其中后两种是极其重要的。,不同的需求选择不同的信息源。,哪些信息源是你撰写学术论文必须的,网络资源和数据库作为涉及到各种类型信息资源。,根据“信息源划分示意图”理解不同信息源划分之间的关系。,根据“信息处理级别示意图”理解不同出版形式的信息源之间的关系,。,第二讲回顾:小结NO5,检索与查找的区别,信息检索的含义、原理、类型、意义,信息检索工具、方法、步骤,信息检索类型划分示意图,能通过“信息检索原理图”理解信息检索原理,能够借助“信息检索步骤示意图”理解并记忆信息检索五步骤,1 信息检索语言,信息检索语言=信息组织与存储的方法或规则,1.2 信息检索语言类型示意图,信息检索语言,描写文献,外部特征,描写文献,内容特征,分类语言,体系分类语言,组配分类语言,混合分类语言,题名语言,著者语言,号码语言,主题语言,单元词语言,标题词语言,关键词语言,叙词语言,文献信息分类,网络信息分类,数据库信息分类,1.3.1 文献信息分类语言,国内,中国图书馆分类法中图法,中国科学院图书馆图书分类法科图法中国人民大学图书馆图书分类法 人大法中国图书分类法台湾赖永祥编订,国外,杜威十进分类法DDC国会图书馆分类法LCC,中图法,采用“五分法”形成五大部类。这五大部类的依据,首先是毛泽东关于知识分类的论述,即世界上的知识只有,自然科学、社会科学和哲学,三大部类;其次强调,马列主义,的指导作用,将马列主义、毛泽东思想经典作家的著作及相关文献独立为一个基本部类;最后是由于文献的特殊性,即存在一些内容庞杂,无法具体归入某一学科的文献,将其概括为,“综合性图书”,作为一个部类。在五大部类之下,层层细分,划分出22个基本大类,分别为:,中图法,一、马克思主义、列宁主义、毛泽东思想,二、哲学,三、社会科学,A 马克思主义、列宁主义、毛泽东思想、邓小平理论,B 哲学、宗教,C社会科学总论,D政治、法律 ,E 军事,F 经济 ,文化、科学、教育、体育,语言、文字,四、自然科学,文学,艺术,历史、地理,自然科学总论,数理科学和化学,天文学、地球科学,生物科学,医药卫生,农业科学,工业技术,交通运输,航空、航天,五、综合性图书,基本大类:,(22种),A 马列主义毛泽东思想邓小平理论 N 自然科学总论,B 哲学 O 数理化科学,C 社会科学总论 P 天文学、地理,D 政治、法律 Q 生物科学,E 军事 R 医学、卫生,F 经济 S 农业科学,G 文化、科学、教育、体育 T 工业技术,H 语言、文字 U 交通运输,I 文学 V 航空、航天,J 艺术 X 环境科学,K 历史、地理 Z 综合性图书,TB 一般工业技术 TQ 化学工业,TD 矿业工程 TS 轻工业、手工业,TE 石油、天然气工业 TU 建筑科学,TF 冶金工业 TV 水利工业,TG 金属学与金属工艺,TH 机械、仪表工业,TJ 武器工业,TK 能源与动力工程,TL 原子能技术,TM 电工技术,TN 无线电电子学、电信技术,中图法,属于等级列举式分类法,特点是类目列举详尽,排列按等级体系,从总体到局部,由大类到小类层层细分,单线列举,形成树型结构,其中的等级体系一般根据学科属性排列。,类目格式一般包括分类号、类目名称和注释。,例如:,分类号 类目名称 注释,TM241,金属导电材料,铝、铜、铁、镍、钼等,及其合金入此,中图法类目,Q 生物科学 一级类目,O1 普通生物学 二级类目,Q11 生物演化与发展三级类目,Q111 进化论、生物系统发育 四级类目,Q1112 达尔文学说与研究五级类目,中图法等级分类体系,H1,H2,H3,R1,H11,H12,H13,H14,H121,H122,H123,H124,H111,H112,H113,等级体系分类法,上位类,下位类,中国科学院图书馆图书分类法简表(第三版),00 马克思列宁主义毛泽东思想,10 哲学,20 社会科学(总论),21 历史、历史学,27 经济、经济学,31 政治、社会生活,34 法律、法学,36 军事、军事学,37 文化、科学、教育、体育,41 语言、文字学,42 文学,48 艺术,49 无神论、宗教学,50 自然科学(总论),51 数学,52 力学,53 物理学,54 化学,55 天文学,56 地球科学(地学),58 生物科学,61 医药、卫生,65 农业科学,66 农作物,67 园艺,68 林业、林业科学,71 工程技术,72 能源学、动力工程,73 电技术、电子技术,74 矿业工程,75 金属学(物理冶金),76 冶金学,77 金属工艺、金属加工,78 机械工程、机器制造,81 化学,83 食品工业,85 轻工业、手工业及生活供应技术,86 土木建筑工程,87 运输工程,90 综合性图书,人大法简表,1.马克思主义、列宁主义、毛泽东思想,2.哲学,3.社会科学、政治,4.经济,5.军事,6.法律,7.文化、教育、科学、体育,8.艺术,9.语言、文字,10.文学,11.历史,12.地理,13.自然科学,14.医药卫生,15.工程技术,16.农业科学技术,17.综合参考,中国图书分类法(台湾),000 总论,100 哲学,200 宗教,300 自然科学,400 应用科学,600 历史、地理,700 历史、地理,800 语文,900 美术,310 数学,320 天文,330 物理,340 化学,350 地质,360 生物、博物,370 植物,380 动物,390 人类学,410 医学,420 家政,430 农业,440 工程,450 矿冶,460 化学工业,470 制造,480 商业,490 商学,441 土木工程,442 道路工程,443 水利工程,444 船舶工程,445 市政工程,446 机械工程,447 陆空交通,448 电气工程,449 核子工程,杜威十进分类法(DDC),000 总论,100 哲学,200 宗教,300 社会科学,400 语言,500 自然科学,600 应用科学,700 艺术,800 文学,900 历史、地理,510 数学,520 天文学,530 物理学,540 化学,550 地球科学,560 古生物学,570 生命科学,580 植物学,590 动物学,621 应用物理学,622 采矿,623 军事及航海工程,624 土木工程,625 道路工程,627 水力工程,628 卫生及市政工程,629 其它工程,610 医学,620 工程与应用科学,630 农业,640 家政,650 管理科学,660 化学工业,670 制造业,680 特种制造业,690 建筑,杜威十进分类法,“Dewey Decimal Classification“简称DDC或DC,由美国图书馆学家杜威(Melvil Dewey)创制,是目前全世界使用最广泛、影响最大的图书资料分类法,至少有135个国家和地区的20多万个图书馆在采用。,杜威法,第一次发表于,1876,年,书名原为图书馆编目排架用分类法及主题索引),类表只有12页,加上导言和索引,总共42页。1885年出版第二版,更名为十进图书分类法及相关索引,增加了类的级数,加深了细分程度,这一版奠定了杜威法的体系。之后到1996年已出版第2l版。,受英国科学家培根的知识分类影响,杜威法将所有的学科归纳成9大类,把涉及全部知识而不能归入任何一门学科的图书总为第0类,称总论,序列在其他学科知识之首。一级大类之下,以圆点相隔再分小类,称子类。每个一级大类再分为10个子类(也有不足或超过的)依此类分下去,形成一个完整的层层展开的等级体系。,美国国会图书馆分类法(LCC),A 综合性类目,B 哲学、宗教,C 历史辅助科学,D 历史与地方志(美洲以外),EF 美洲历史与地方志,G 地理学、人类学,H 社会科学,J 政治学,K 法律,L 教育,M 音乐,N 艺术,P 语言、文字学,Q 自然科学,R 医学,S 农业、矿业,T 工业技术,U 军事科学,V 海军,Z 目录学、图书馆学,QA 数学,QB 天文学,QC物理学,QD 化学,QE 地质学,TA 工程总论,TC 水力工程,TD 卫生工程和市政工程,TF 铁道工程和运输,TG 桥梁工程,TH 建筑工程,1.3.2 网络信息分类,很多情况下并不很清楚自己的信息需求,或者无法清楚表达信息需要,需要通过类目浏览,获得一些基本信息,然后再选择检索关键词,搜索引擎,【目录,专题网站,】,google网页目录 搜狗目录,学科信息门户,数据库信息分类,全文数据库,如,中国期刊全文库,文摘数据库 EI Village 2,分类语言优点,(1,)分类语言是以学科划分类目,符合人们认识事物的规律和处理事物的习惯,容易被人们掌握和应用。,(2 分类语言强调知识的系统性,方便人们按学科、专业系统检索有关文献资料,能够达到族性检索,可以获得较高的查全率。,(3)便于组织图书馆资料排架。,分类语言的不足之处,(1)检索信息时首先必须了解课题的学科体系才能顺利查找到相应的类目,如果不熟悉学科体系,会有一定难度。,(2)分类语言采用尽量列举类目的方法,但受到类目数量的限制,缺乏专指性,查准率不高。,(3)由于分类表的结构是固定的,不便于随时修订和增设新的类目。它总是落后于科学技术的发展,难于及时反映新兴学科和边缘学科的内容。,(4)分类语言采用分类号作为检索标识,检索文献时,需要将检索文献的主题内容转换成分类号,转换过程中,容易产生误差,造成误检。,小结NO6,文献信息分类特点,方便文献信息的排架,便于索取;,类目的结构严谨,逻辑性强;,适合学术信息资源(特别是印刷型)的组织。,网络信息分类特点,根据网络信息的存在状况和当前上网用户的特点来编制的,有一定的科学性和系统性;,适合大众信息资源的组织。,数据库信息分类特点,结合文献信息分类和网络信息分类的优点,方便浏览和检索,1.4 主题语言,主题:论述的对象和研究的问题,主题语言:以文献信息内容特征和科学概念的词语为检索标识,并按字顺组织起来的一种检索语言。,1.4.1 标题词语言,标题词:从自然语言中,选取并经过规范化处理,的、表示事物概念的的词、词组或短语。,代表:EI中工程主题词表(简称SHE),电脑-见(see)-计算机,局域网-参见(see also)-计算机网络,1.4.2 关键词语言,关键词:指那些出现在文献的标题(篇名、章节名)以至摘要、正文中,对表达文献,主题内容,具有实质意义的语词,亦即对揭示和描述文献主题内容来说是重要的、带关键性的(可作为检索“入口”的)那些词语。,关键词基本上,不作规范化处理,。例如,“国际联机检索概论”中的“国际联机”、“联机”、“检索”都是能描述这篇文献的主题的,可以作为检索词。,概括地说,关键词法就是将文献原来所用的,能描述其主题概念的那些具有关键性的词抽出,不加规范或只作极少量的规范化处理,按字顺排列,以提供检索途径的方法。,1.4.3 叙词(主题)词语言,叙词是指一些以概念为基础的,经过规范化的,具有组配功能并可以显示词间关系和动态性的词或词组。,如:汉语主题词表、机械工程主题词表,主题词表:,字顺表,computerized industrial control,USE,industrial computer control,Computerized instrumentation,UF,computerized instruments,NT,automatic test equipment,computerized monitoring,computerized spectroscopy,computerized tomography,BT,computer applications,TT,computer applications,RT,astronomy computing,astrophysics computing,biology computing,chemical engineering computing,主题词的语义性:主题词之间存在的含义上的相互关系(同义关系、属分关系、相关关系),同义关系,论理学 02H 逻辑学 02H,Y,逻辑学,D,论理学,(,正式主题词,)(,非正式主题词,),属分关系,师范学校 08E,F,幼儿师范学校 (,下位概念,),S,专业教育 (,上位概念,),Z,学校 (,族首词概念,),相关关系,标准化 20.P2D,(款目主题词范畴(分类)号),C,规格化 通用化 系列化 (,相关概念,),词族表,computer applications,administrative data processing,distributive data processing,computerized signal processing,computerized pattern recognition,computerized picture processing,computer-generated holography,正式主题词款目,Zo shng gn ro,噪声干扰 56MB,Noise jamming,D 杂波干扰,F 瞄准式干扰,扫频干扰,阻塞式干扰,S 通信干扰,有源干扰,Z 电子对抗*,C 连续波干扰,脉冲干扰,调制干扰,汉语拼音,范畴分类号,英译名,参 照 符 号,关 系 词,正式主题词,非正式主题词款目,Z b gn ro,杂波干扰 56MB,Noise jamming,Y 噪声干扰,非正式款目主题词,汉语拼音,范畴分类号,英译名,关系词,参照符号,词族索引款目,Din z du kng,电子对抗*,通信对抗,通信干扰,脉冲干扰,欺骗性干扰,载波干扰,噪声干扰,扫频干扰,阻塞式干扰,通信抗干扰,叙词语言,概念组配,是叙词语言的基本原理。,概念组配与字面组配在形式上有时相同,有时不同;而从性质上来看两者区别是很大的。字面组配是词的分析与组合(,拆词,);概念组配是概念的分析与综合(,拆义,)。例如:,字面组配,模拟+控制-模拟控制,香蕉+苹果-香蕉苹果,概念组配,模拟+控制-模拟控制,香蕉味食品+苹果-香蕉苹果,小结NO7,分类语言,主题语言,以学科和专业集中文献,能将,不同,学科的信息集中到一起,适宜族性检索,适宜特性检索,不利于新兴学科、交叉学科和边缘学科的检索,不利于新兴学科检索,查全率不高,查准率不高,2 计算机信息检索技术,机检,信息检索系统=硬件+软件+数据库,计算机信息检索的实质就是由计算机将输入的检索策略与系统中存储的文献特征标识及其逻辑组配关系进行,类比,、,匹配,的过程,需要人机协同作用来完成。,2.1 计算机信息检索的类型,计算机信息检索系统的类型,检索系统存储的内容,文献信息检索系统 EI,事实信息检索系统,数值信息检索系统,图像信息检索系统,多媒体信息检索系统,检索系统工作方式,脱机信息检索系统(20世纪5060年代),联机信息检索系统(20世纪70年代,光盘信息检索系统(20世纪80年代,网络信息检索系统(20世纪90年代,2.2 计算机信息检索技术,计算机信息检索技术是,用户信息需求和文献信息集合之间,的匹配比较技术。,由于,信息检索提问式,是用户需求与信息集合之间匹配的依据,,所以信息检索技术的实质是,信息检索提问式的构造技术。,目前,计算机信息检索技术已经从基本的,布尔逻辑检索,、,截词检索,、,邻近检索,、,限制检索,、,短语检索,、,字段检索,发展为高级的,加权检索、自然语言检索、模糊检索、概念检索,和相关检索等多种技术并存。,2.2.1 布尔逻辑检索,布尔逻辑组配是现行计算机检索的基本技术,主要通过“与(and,*)”、“或(or,+)”、“非(not,-)”将检索词联络起来。,AND*&空格,A and B 逻辑与。A和B都为真时,结果才为真,即:A*B,逻辑含义用图表示是:,OR+|,A or B 逻辑或。A或B中只要有一个为真时,,结果就为真,即:A+B,NOT-!,A not B 逻辑非。A为真、B为假时,结果才为真,即:A-B,布尔逻辑运算符的运算次序,括号优先与计算机编程中一样(A OR B)AND C NOT D,不同的系统次序有差别,但总的来说一般次序为:NOT AND OR,例A:查找有关信息检索的非英文文献信息information 检索retrieval 英文english,(信息 and 检索)not 英文(information and retriever)not english,2.2.2 截词检索,截词包括后截、中截、前截等。用?作为截词符(有些系统用*),主要包括下列情形:,截词符?中截一字符,后截断n个字符,如 wom?n,,中截一字符,可以检索出:woman,women,如,coumput?,后截断n个字符,可以检索出Comput,e,Comput,er,Comput,ing,compu,table,?,后、中截二字符,如:transplant?,可以检索出:transplant、transplant,ed、,transplant,er,?,后、中截三字符,如:,comput?,可以检索出:compute;comput,er,;comput,ing,通配符,无限截断,%?*,后方一致(前截断):,“%国庆”将检索出所有字段为,张国庆,、,欧阳国庆,、,国庆,等的记录。,前方一致(后截断):,如:“热电材料%”将检索出,热电材料梯度化,、,热电材料及其梯度化,等的记录。,2.2.3 邻近检索,位置算符,(W)with,(nW)n with,表示检索算符两侧的词,不可以,颠倒顺序,n表示两个词中间可以插入=n个的词(如:an in by of the)如:control(1w)system可以检索出“control system”“control in system”等的信息。,位置算符,(N)near,(nN)n near,表示检索算符两侧的词,可以,颠倒顺序,n表示两个词中间可以插入=n个的词(如:an in by of the)如:control system可以检索出“control system”“system control”等的信息。,字段算符,(F)(L),(F)-in the same field,表示检索算符两侧的词必须同时出现在记录的同一字段内。,(L)-link,表示检索算符两侧的词必须在数据库界定的统一规范字段内。且有一定的从属关系,可以用来链接主标题词和副标题词。,句子位置算符,(S)-in the same,subfield,or same paragraph,表示检索算符两侧的词只要在同一个子字段(文摘中的句子)或全文数据库的一个段落中出现就是匹配。,这些算符可以一起使用,,,顺序为(W)(S)(F)。,实践上这些算符都是扩大检索范围。,2.2.4 限制检索,针对特定年代、特定类别、特定检索点等作限制,包括前缀限制符和后缀限制符。,后缀限制符例如:,/TI 限在题目中查,/AB 限在文摘中查,/DE 限在叙词标引中查,前缀限制符例如:,AU=限查特定作者,JN=限查特定刊名,LA=限查特定语种,PN=限查特定专利号,PY=限查特定年代,如在谷歌和百度搜索引擎中的,检索特定的文献类型:“报告 filetype:pdf”,检索指定网址内的信息:“报告site:”,以后会看到一些数据库通常都有年代/类型等的选择,2.2.5 网络检索,短语检索(半角双引号),自动纠错检索(如:李熬,你是不是要检索李敖),自动转换检索(如:汉语拼音转换成文字),自然语言检索,概念检索(同义词/近义词/狭义词,如搜索引擎Excite),相关检索,2.2.6 其它检索的表述,二次检索/在结果内检索,精确检索,模糊检索,跨库检索/一站式检索,扩展检索(类似搜索引擎的概念检索),一般检索/高级检索/专家检索/命令检索,还有什么检索?,小结NO8,计算机信息检索技术是用户信息需求和文献信息集合之间的匹配比较技术。,布尔逻辑检索,、,截词检索,、,邻近检索,、,短语检索,、,字段检索,网络信息检索,几乎所有的检索系统都有布尔逻辑检索、截词检索(模糊检索)和限制检索,而不同的检索系统又会有一些特殊的检索技术和功能。,课堂小调查,你为什么上网?或说你上网都做些什么?能具体列举吗?,你认为网络上都有什么,能具体列举吗?,你上网的时候,觉得最困难或最困惑的是什么?,你上网的时候,觉得最困难或最困惑的是什么?,对知识的检索不够精确,很多不是自己想要的,查出的相关文献太多,感觉无从下手,关键词很难确定,找到的论文质量不高,不知道哪些信息有用?,搜索的文档太多,不知如何取舍,搜索英文文献比较困难,不知具体的数据库,尤其是校外访问时,建议推荐一些免费的专业数据库,有时输入关键词,一篇文献也检索不出来,续,只找到概述,找不到全文,有时知道了文献的全名,在数据库里也找不到,是因为这个文献没有被输入数据库吗?,难以确定规范的关键词,英文数据库的选择,经常在各个数据中重复找,英文数据库的使用,搜索引擎检索出来的重复,垃圾信息太多,无法按需求较准确快速地找到信息,常常要不找不到,要么一大堆(其中夹杂很多无用信息,有些文献查阅到后没有阅读权限或不能下载,资料太多,难以选择。,续,总是找不到合适格式的资料,doc,ppt pdf,对于本专业方向的资料不清楚该去哪里找,对资料查找没有一个系统的思路,知道了解的网站少,无法判别所获得的信息是否权威、准确,对各个资料库的特点不清楚,在图书馆数据库中没有找到想要的论文,还有哪些免费数据库可以使用,
展开阅读全文