1、文件检索与利用文件检索与利用主讲人:李昌彩电话:密码:lccserver第1页教学参考书:1、穆安民编著。科技文件检索实用教材(第二版),重庆大学出版社。8月。2、徐庆宁主编。信息检索与利用。华东理工大学出版社。年8月。3、陈雅芝等主编。信息检索。清华大学出版社。201月。4、邓学军等编著。科技信息检索,西北工业大学出版。208月。5、李跃珍主编。信息检索与利用,浙江大学出版社。208月。第2页1 文件检索基本理论与方法文件检索基本理论与方法1.1 基本术语及文件检索目标意义基本术语及文件检索目标意义1.2 文件类型与检索工具文件类型与检索工具1.3 文件检索原理与检索语言文件检索原理与检索语
2、言1.4 文件检索方法及检索步骤文件检索方法及检索步骤第3页1.1 基本术语及基本术语及文件检索目标意义文件检索目标意义1.1.1 信息、情报、知识、文件等基本术语信息、情报、知识、文件等基本术语(1)信息信息信息信息定义是物质存在、运动表征(即物质存在一个方式);普通指数据、消息中所包含意义,能够使消息中所描述事件不确定性降低。信息属性普遍性、无限性、相对性、转移性、时效性、有序性、共享性、轮换性、转化性。第4页(2)知识知识知识是经过精心研究、领会后有用信息,是人类对信息加工处理产物,并非全部信息都可称为知识。知识是关于事实和思想有组织、有系统陈说。知识是有组织大量信息。信息只是知识得以形
3、成和传输中介,而不是知识本身。知识属性意识性、信息性、实践性、规律性、继承性、渗透性第5页(3)情报情报情报普通定义为:针对特定目标、特定对象、特定时间所提供或寻找能起借鉴和参考作用有用信息或知识。情报是一个很特殊概念,任何信息都能够成为情报,惟一判别特征是“是否有用”。一旦产生需要,信息马上转化为情报,而一旦不再需要,则情报马上返回到信息或知识。情报属性情报知识性、情报传递性、情报效用性第6页(4)文件文件文件定义为统计知识一切载体。文件是信息主要组成部分,它和非文件信息组成了信息全部内容.文件属性知识信息性、物质实体性、人工统计性、动态发展性第7页(5)情报、信息和知识相互关系情报、信息和
4、知识相互关系西方学者习惯把文件情报与自然信息等同(information),而把相关国家安全之类情报叫做intelligence。intelligence这个词最惯用却是“智力、聪明”意思。汉字“情报”一词,则把文件信息与相关敌情信息混同,尽管同时存在着现成“谍报”一词。因为“信息”和“情报”在英语中都用同一个词(information)来表示,所以科技情报机构轻易被人误解,于是我国国家科委在1992年9月决定逐步用“科技信息”名称取代“科技情报”,并要求各科技情报所随之更名。第8页信息概念十分广泛。信息是无处不在,它是物质存在、运动表征。人类经过信息来认识世界,而在认识世界过程中,又把这种已
5、经取得信息,经过大脑思维组合、汇成知识。情报是针对特定目标、特定对象、特定时间所提供或寻找能起借鉴和参考作用有用信息或知识。第9页知识是系统化了信息,是人类对客观事物存在和运动规律认识。客观知识经过交流、传递而转变为情报,人们借助情报进行思维、决议,又不停产生新知识。这是情报与知识循环往复辩征过程。知识在需要时可变为情报,不需要时又还原为知识。辞海对于知识解释是:人类认识客观事物结果或结晶。知识是一个客观存在信息,而情报则是运动中、交流中知识或信息。情报、知识都属于信息这个大范围,三者都能够被统计、储存、传递,而且在一定条件下可相互转化。第10页(6)其它概念术语其它概念术语信息资源信息资源是
6、人类经过加工处理,使之有序化并大量积累后可供利用信息集合。信息资源几个分类介绍以下:1、孟广均以开发程度为依据,将信息资源划分为潜在信息资源和现实信息资源两大类。又按表述方式将现实信息资源分为口语信息资源、体语信息资源、文件信息资源和实物信息资源。第11页2、代根兴依据其载体将现实信息资源分为体载信息资源、文件信息资源、实物信息资源和网络信息资源。3、刘兹恒从信息媒体角度将信息资源分为纸质信息资源(如图书、期刊、特种文件等)和非纸质信息资源(如缩微型、视听型、机读型、光盘型、其它电子型、电子出版物等)两大类型。伴随信息革命快速发展和知识经济降临,信息资源已成为国家建设和企业发展主要资源,它与物
7、质资源和能源资源一起组成当代社会发展三大支柱。第12页信息高速公路信息高速公路 信息污染信息污染 我国学者陆宝益等将信息污染表现形式归结为:信息过载、信息失真、信息过时、信息重复、信息堵塞、信息错位、信息误导、信息干扰、信息无序、信息缺损、信息病毒、信息渗透等12种。信息素质信息素质(Informationliteracy),又称信息素养,即“利用大量信息工具及主要信息源使问题得到解答技术和技能”;以后又被解释为“人们在处理问题时利用信息技能”。信息素质这一概念,最早由美国信息产业协会主席波尔(PaulZurkowski)于1974年提出。1983年美国信息学家(Horton)认为教育部门应开
8、展信息素质教育,以提升人们对联机数据库、通讯服务、电子邮件、数据分析以及图书馆网络使用能力。信息素质主要包含:信息意识、信息能力和信息道德三方面素养。第13页1.1.2 文件信息检索概念文件信息检索概念文件信息检索文件信息检索(InformationRetrieval)是指从文件信息集合中查找所需文件或文件中包含信息内容过程。广义信息检索包含还信息存放,二者中往往合并称为“信息信息存放与检索存放与检索”(Informationstorageandretrieval)。对使用者来说,往往指是后者信息检索与查找过程。这也是本课所要学习内容。第14页依据检索对象不一样,可分为数据检索数据检索(Dat
9、a-)、事实检索事实检索(Fact-)、文件检索、文件检索(DocumentRetrieval)三种。“数据检索”是以数据为对象检索,如查找某一数学公式、数据图表、某一个材料成份、性能等都属于这一范围。“事实检索”是以特定事实为检索对象(是以各种史实、结果、现实状况为检索对象);如要查找某一事物发生时间、地点与过程;某类产品是哪些厂家生产、哪个品牌最好;某一高校或科研机构简况等均属于这一范围。凡是查找某一课题、某一著者、某一地域、某一机构、某一事物相关文件出处和收藏单位等,均属于“文件检索”范围。如要查找有否:“高层建筑结构抗震”相关文件及相关文件出处,即属于文件检索。第15页1.1.3 文件
10、检索目标和意义文件检索目标和意义就文件检索高等教育目标来说:对大学生主要培养五种能力即自学能力、研究能力、思维能力、表示能力和组织管理能力。科技文件检索技能是培养学生这些能力基础。对硕士生来说,在学习阶段中,主要是学会怎样独立地从事研究工作,在查找文件基础上,总结前人经验,在此基础上有所创新。对一个博士生来说,主要是经过文件检索,总结前人经验,培养选择含有创造性研究方向能力,开辟出新研究领域。第16页掌握信息检索方法和技能主要掌握信息检索方法和技能主要意义,最少有以下几个方面:意义,最少有以下几个方面:(1)防止重复劳动防止重复劳动科研含有继承创造两重性,科研两重性要求科研人员尽可能多地占有相
11、关资料、情报。从实践经验看,科研中出现绝大多数问题都有必要而且有可能经过查找科技文件得到启发甚至得到处理。能够说一项科研结果中95%是他人,5%是个人创造。所以研究人员在开始着手一项课题研究前,必须利用科学文件检索方法来了解这个课题情况,即前人在这方面做过哪些工作,还存在什么问题,以及相邻学科发展对研究这项课题提供了哪些新有利条件等与研究课题相关科技信息,只有这么,才能正确地制订研究方案,预防重复研究,并少走弯路。第17页据统计,科研人员大约花全部工作时间40%查找文件,假如没有掌握科学检索方法,则此时间还会加长。甚至使自己全部工作成为“重复劳动”。比如:美国20世纪50年代为了搞“继电器接点
12、电路合成研究”,曾经联合几家试验室研究了,耗资50万美元,终于成功;但当发表结果时,才发觉该项目早已被他人完成。美国某轧钢厂一位化学家,花了一万美元完成了一系列试验,并处理了问题,当他不无得意地向图书馆员谈起此事时,后者告诉他,有一份德国人汇报,就是做这个试验,全部资料只要花5美元就行了。第18页(2)节约查找文件时间,节约查找文件时间,提升科研效率提升科研效率据美国科学基金委员会、凯萨工学院研究基金会以及日本国家统计局初步统计,一个科研人员在一个科研项目中,用在查找和阅读情报资料时间要占完成该研究课题时间50.9%,而计划思索时间占7.7%;试验和研究时间占32.1%;编写研究汇报时间占9.
13、3%。第19页(3)促进专业学习促进专业学习科技文件检索学习将把学生引导到超越教学纲领更广知识范围中去。一个学生在大学学习中已取得了进行科研最基本知识,但在校学习时间毕竟有限,参加工作以后,仍需不停更新知识,才能适应科技快速发展,掌握了文件检索方法与技能,就可无师自通,很快找到一条吸收和利用大量新鲜知识捷径,进入旺盛创造期。第20页1.2 文件类型与检索工具文件类型与检索工具文件组成两个基本要素:一是要有知识内容;二是要有记载知识物质形式,即载体。第21页1.2.1 文件特点文件特点1、文件量急剧增大。据统计,非科技内容文件量每30年左右增加1倍,而科技文件每7至8年就增加1倍。2、载体多样化
14、。有印刷品与缩微声像、机读等资料共存。3、传输速度快。经过互联网传输,突破了空间界限。4、知识更新速度快。各类文件平均使用寿命:科技图书10至,期刊论文3至5年,大部分文件5至7年。5、学种间交叉渗透,造成文件重复和质量下降现象愈加突出。第22页1.2.2 文件类型文件类型文件划分有不一样标准,依据不一样划分标准可分为不一样文件类型。按文件载体划分按文件加工程度划分按文件出版形式划分第23页(1)按文件载体划分:按文件载体划分:印刷型文件;缩微型文件(它利用感光材料每张大小为1015cm2胶片上,可容纳98页印刷型文件资料;必须借助于缩微阅读机);机机读型文件(磁带、磁盘、光盘.它利用计算机技
15、术和磁性存贮技术);声像型文件又称视听型文件(唱片、录音带、幻灯片、电影胶片、电视片、录相片)。实物型文件(各种文物、展品、样品等)第24页(2)按文件加工程度划分按文件加工程度划分:一次文件一次文件指以本人研究结果为基本素材创作文件,也称第一手文件或原始文件。它包含期刊论文、科技汇报、会议论文、专利说明书、学位论文等。一些不公开发表文件,如试验统计、备忘录、科技档案、日志、信件等也能够属于一次文件,也有称为零次文件。第25页 二次文件二次文件 指在一次文件基础上进行加工后产生含有有序化和浓缩化特征文件。如目录、题录、文摘、索引等。二次文件作用不但在于报道,更主要是用于检索一次文件。第26页
16、三次文件三次文件指利用二次文件,选取原始文件内容进行分析、研究和综合而成评论性、综述性文件。如百科全书、手册、年鉴、述评、指南、大全等。第27页从文件情报角度看,一次文件是检索对象(目标),二次文件是检索工具(伎俩),三次文件是情报研究结果(既可作检索目标,又可作检索伎俩)。第28页(3)按文件出版形式划分按文件出版形式划分:科技图书、科技期刊、报纸、专利文件、会议文件、科技汇报、政府出版物、学位论文、标准文件、产品资料、其它文件(十一大类型)。第29页1科技图书科技图书科技图书,大多是对科学研究结果和生产技术经验概括叙述,经常是作者搜集大量资料,经过筛选、判别、融会贯通,进行全方面归纳总结产
17、物。现在科技图书(一次文件,但又含三次文件性质),都有一个ISBN号,即国际标准书号(InternationalStandardBookNumber),其定长为10个数字。这10个数字组合,可把全世界书都管理起来。第30页以计算机网络基本原理一书书号为例:ISBN7560921418/TP365。这10位数字分为四段,各段之间用短横线相连。7为第一段组号,是语言区域代码(代表国家、地域、语言区)。比如:7指中国,O和1指英语国家,2指法语语言区(如法国和加拿大法语区),3指德语区,4指日语区,5指前苏联,88指意大利,9971指新加坡等等。5609为第二段组号,是出版者代号。2141是第三段组
18、号,又叫书序号或书名号。这里2141是指这家出版社出版第2142种图书,因为第一个为零。8为第四段组号,又叫计算机校验位、检验码或校验号。它作用是可用其检验ISBN后面数字是否有误.第31页ISBN号前3部分都是变长结构,但总长不变(它采取弹性存放方法,即可变长存放技术,IP地址划分子网时也用到这一技术)。依据ISO相关标准,计算机校验位是用前9位数字分别对10,9,8,7,6,5,4,3,2乘积之和,对11模数求余,再用模11减去余数而得。如此例ISBN7560921418:第32页ISBN756092141109876543270+45+48+0+54+10+4+12+2=245245/1
19、1=22余3113=8所以,该书核校验位是8。注意一个数对11模数求余,可能余数集合是0,1,2,3,4,10,当余数为1时,11-1=10,为了确保ISBN号全长10位,故用大写字母X表示.第33页但中国ISBN号却还要在国际ISBN号后而加上中图法大类号和小类号,如此例:ISBN7560921418/TP365。“TP”为中图法大类号(自动化及计算机)。第34页将升成将升成13位位ISBN 1)13位码起源背景位码起源背景当前国际公认用于商品包装编码系统称为EANUCC系统,该系统由国际物品编码协会(EAN)与美国统一代码委员会(UCC)共同开发和维护,是全球统一和通用商业标识系统,是对全
20、球多行业供给链进行有效管理一套开放性国际标准。EANUCC系统编码有两种UPC条形码,该条码主要在美国使用。EAN-13条形码,EAN是EuropeanArticleNumber,是欧共体“欧洲物品编码协会”吸收了UPC经验而确立物品表示符号。该协会于1997年更名为“国际物品编码协会”。使用EAN条形码组员国除欧洲外,亚洲多国也使用此码,我国于1991年7月参加该协会。第35页EANUCC系统致力于编码全球唯一性,并处理编码混乱、重复和错误译码问题,EAN组员组织和UCC经过特定前缀协议确保代码在全世界唯一性。国际物品编码协会(EANInternational)指定给国际标准书号(ISBN)
21、系统专用前缀码是978。第36页2),国际ISBN中心(IIA)出版了13位国际标准书号指南(GuidelinesfortheImplementationof13-DigitISBNs),描述了将于年启用13位ISBN概况。国际标准化组织ISO将于201月出版新标准,该标准将以13位数字BooklandEAN条形码,作为图书和图书相关产品唯一条形码。到年1月1日起,全世界全部ISBN代理机构将只公布13位ISBN。所以,出版社将有两年时间来完成10位ISBN到13位ISBN升级。过渡期间内(2005-年),勉励出版社依据国际ISBN中心(InternationalISBNAgency)出版13
22、位国际标准书号指南为同一个文件提供10位和13位ISBN号。第37页3)新新ISBN 实际上就是现在EAN(欧洲物品号)。现在出版图书外封底(outsideofbackcover)ISBN下面就有一个13位号码,这就是EAN-13号,比如:CALIS联机合作编目手册外封底ISBN下面就有一个13位号ISBN:7-301-04815-7EAN-13:978-7-301-04815-3第38页前缀978(代表图书),中间一部分与ISBN相同,最终一位是校验码,校验位加权算法与10位ISBN算法不一样。详细算法是:用1分别乘ISBN前9位中奇数位,用3乘以偶数位,成绩之和以10为模即可得到校验位值,
23、其值范围应该为0-9。第39页BooklandEAN-13=978-0-393-04002-?校验位:81/10=8余110-1=9位置位置Total1234 5 67 8 9 10111213ISBN9780 3 93 0 4 002?权重权重1313 1 31 3 1 313-乘积乘积8192180 3 273 0 4 006-第40页1月1日以前,各国ISBN机构尚没有分配完10位ISBN能够在前面加前缀978,一旦现有10位ISBN号用完了,新申请ISBN号码全部以979开始。即979前缀当前用于两种情况,一是新建出版社首次申请ISBN和已经有出版社在1月1日以后申请ISBN号,二是假
24、如以978为前缀号码先用完,那么就只能用979。13位号码与10位号码能够经过算法相互转换,转换方法见ISBN中心主页(http:/www.isbn.org/)详细说明。第41页2科技期刊科技期刊期刊(journal)又称杂志(magazine),是一个有固定名称,有一定出版规律连续出版物,其特点是出版周期短、报道速度快、数量大、内容丰富新奇、能及时反应当代社会和科技发展水平和动向。期刊普通都有一个比较稳定编辑部,按照一定宗旨和编辑标准,选登众多著者文章,有时,也采取增刊和特辑形式登载某一著者专著。期刊论文是最经典一次文件。第42页同图书一样,期刊现有国内标准刊号-CN号,也有国际标准刊号-I
25、SSN号(InternationalSeriesStandardNumber),实现对全世界期刊文件管理。ISSN号全长8位数,前7位是刊物代号,末位是计算机校验位(算法同ISBN号,模数仍用11,只是加权数用8,7,6,5,4,3,2这7个数)。如ISSN10000402(这是图书馆学通讯期刊国际标准刊号),中间“”只是为了便于阅读而设置。计算机校验位2求出以下:第43页ISSN1000040?87654328+0+0+0+0+12+0=2020/11=1余911-9=2.期刊出版周期常见有旬刊、半月刊、月刊、双月刊、季刊、年刊等。如查得ActaAstroautV10.N3.Mar1983,
26、即星际航行学报1983年3月第10卷,第3期。第44页3报纸报纸报纸是一个出版周期最短、发行量最大出版物,它报道内容极为广泛,和人们生活息息相关,是人们日常生活中最常接触到信息源。报纸信息含有极强时效性,信息量大,但这也造成了报纸查找不便。不过,现在很多主要报纸都已送上网,能够在线阅读和查阅了。第45页4专利文件专利文件专利文件(集技术、经济、法律为一体一次文件)主要指专利局公布申请文件和专利说明书。专利有专利号,国家用两个字母代替,US是美国,GB是英国,FR是法国,CH是瑞士,CA是加拿大,中国是CN。第46页5科技汇报科技汇报科技汇报是科学工作者从事科学研究工作阶段进展情况和最终研究结果
27、汇报。其中美国最多,它主要是AD汇报、PB汇报、DOE汇报和NASA汇报。每篇汇报一个号码。科技汇报代号有:机构代号,如TID-7641代表美国原子能委员会技术情报局科技汇报。又如STAN-CS-82-916是美国斯坦福大学计算机系83年出汇报。类型代号,如TN代表技术札记,TT代表技术译文。密级代号,如C表示是保密汇报,ARR是绝密汇报。科技汇报(既像书、又像期刊一次文件)在我国国家图书馆、中国科技信息研究所和上海图书馆收藏科技汇报比较完善齐全。第47页6会议文件会议文件在各种学术会议上发表文件统称为会议文件(会议文件是报道最新科技动向一次文件)。它含有大量最新情报信息,是了解世界科学技术发
28、展动向、水平和最新成就主要渠道,是参考价值很高科技文件。会议文件出版形式普通有几个:一是以单卷式(图书)出版,以会议名称作为出版物名称,按会议届次编号(如会议论文集),定时或不定时出版文集。如Proceedingsofthe9thNationalAnalysisInstrumentationSymposium(第九届国家分析仪表会议论文集);二是以期刊形式出版会议专号、会议特辑或增刊;三是以科技汇报、视听资料等形式出版。会议类型较多,文件出版形式多样,命名方式复杂,以及文件收藏分散等等,给文件检索带来困难。第48页7政府出版物政府出版物政府出版物系政府所属各部门出版(是表达政府科技发展政策三次
29、文件),是政府设置或指定专门机构印刷发行文件。其内容包括两大方面:即行政性文件-如国会统计、政府法令、方针政策、规章制度、决议指示、调查统计等等;科技性文件-如科研汇报、科普资料、技术政策等等。科技性文件约占30-40%。其出版形式多样化,有图书、期刊;有印刷品,也有视听资料。对于了解一个国家科技政策、经济政策以及科技活动和水平,含有一定参考价值。第49页8学位论文学位论文高等院校毕业生参加不一样学位考试时,提交学术论文。有博士论文、硕士论文和学士论文。(学位论文是表达毕业生学术水平和能力一次文件。)学位论文是原始研究结果,有一定独创性,对研究工作有一定参考价值。学位论文除少数在相关期刊上登载
30、全文或摘要,或以书本形式单册发行外,大多数学位论文不对外发行,属非卖品,仅供内部参考。因为学位论文数量不停增加,质量参差不齐,多数未公开发行,难以搜集和利用。我国学位论文在学位授予单位、北京图书馆和中国科技信息研究所收藏。第50页9标准文件标准文件标准文件(是促进社会产品质量进步三次文件)是对工农业产品和工程建设质量、规格及检验方法等方面所作技术要求,是标准化工作产物。它包含各种标准化期刊、图书专著、标准化组织机构发表相关手册、通报、汇编、以及各种标准及检索工具等等。按其使用范围可分:国际标准、区域标准、国家标准、专业标准或部颁标准、企业标准。按其内容分:基础标准、产品标准、方法标准。按其成熟
31、程度分:正式标准、试行标准、推荐标准。它含有四个特点:严厉性、法律性、时效性、滞后性。第51页10产品资料产品资料厂商为了推销产品而出版发行一个商业性宣传资料(是提供产品技术细节和规格一次文件)。它包含:产品目录、产品样本和产品说明书等等。产品资料普通都要包括到产品性能、结构、原理、用途、使用方法和维修、保管等各方面技术问题,含有技术情报价值。利用产品资料,能够调查了解和分析国外同类产品技术发展过程、水平和发展动向等。还可作为引进技术,判断其质量和价值主要依据。第52页11其它科技文件其它科技文件有新闻稿、统计资料、科技档案(忠实统计工程项目标一次文件)、科技电影和数据等。在以上11类文件中,
32、普通把图书、期刊作为普通文件,其它九种均列入特种文件。特种文件特种文件:它通常是指那些在出版发行方面或获取路径方面比较特殊文件,或难于搜求(如科技汇报),或含有一些处理纠纷意义(如专利和标准)文件。第53页1.2.3 文件类型识别文件类型识别 1、期刊论文、期刊论文期刊论文出处于文摘中都是缩写,其特点在于它有卷、期、年、页。比如:AmOilChem.SocV74N4Apr1997P445-450V74-表示74卷N4-表示第4期P445-450-第445-450页第54页2、会议文件、会议文件会议文件出处普通著录有会议名称、开会时间、地点、出版时间等等,判断是否是会议文件还可依据表示会议特征英
33、文名称(conference,proceeding,congress,symposium,paper)来决定。比如:PracticalApplications,ProcConfTracklessPipelineProj1997Proceedingsofthe1997ASCEConferenceon.,Boston,MA,USA,Jun8-1111997,ASME,NEWYork,NY,USA,P383-389第55页3、科技汇报、科技汇报科技汇报标识有“科技汇报号,汇报入藏号”。比如:PB89-215783LA-8098-MS1989PB表示PB汇报,89表示年份AD、DOE、NASA、PB是
34、美国四大汇报AD-军事汇报DOE-能源汇报NASA-航天汇报PB-政府汇报第56页4、学位论文、学位论文学位论文【英国习惯称之为Thesis(复These),美国则称为Dissertation】出版著录有学位名称,颁发大学名称及其地址、授予学位年份等。比如:J.A.George,“ComputerImplementationoftheFiniteElementMethod”,Ph.D.Dissertation,StanfordUniversity,Stanford,CA.1971.Ph.D.Dissertation或者Ph.D.Thesis博士学位论文BachelorThesis学士学位Mas
35、terThesis硕士学位第57页5、科技图书、科技图书科技图书除著录作者姓名和书名外,主要还有出版社名称、出版地点、出版时间等。比如:Thisbookcontains.PublbyApplSciPublLtd,London,Eng,1998,372Pcontains-文摘ApplSciPublLtd-出版机构London,Eng,1998,372P-出版地点、文种、年份和图书页数第58页6、专利文件、专利文件专利文件除著录创造专利题目及创造人姓名外,其后为专利文件起源出处,即专利国别代码及专利号,说明书出版时间,有著有页码。普通有“Patent(专利)”字样。比如:U.S.PatentNO:
36、4,142,783.1979第59页7、标准文件、标准文件标准普通有“standard(stand标准)”字样。比如:ANSIStandnB109.11973,36PANSIStand-美国国家标准109.1-标准号1973,36P-年份及总页数第60页1.2.4 检索工具检索工具 一、检索工具概念一、检索工具概念检索工具检索工具是用以存放和检索文件线索、或报道、累积和查找文件线索工具;它是在一次文件基础上经过加工、整理,而形成二次文件。所以,它含有存放和检索功效。如前所述,科技文件数量庞大、交叉重复、高度分散,而且增加速度越来越快,这就给文件利用带来了很大困难。为此,人们在长久实践过程中,提
37、出了压缩文件内容方法,即提取文件特征,加以标引,并按一定次序排列起来,从而形成检索工具,便于人们用较少时间从不一样角度获取大量文件。手工检索工具主要指各种目录、题录、文摘和索引。第61页普通检索工具必须具备四个基本条件检索工具必须具备四个基本条件:1、必须详细著录文件外部特征和内容特征。2、必须含有既定检索标识。如主题词、分类号、著者姓名和文件序号等。3、必须依据标识次序,系统地科学地排列文件,使其成为一个有机整体。4、能够提供各种检索路径。第62页二、检索工具作用二、检索工具作用1、检索工具能将不一样类型、不一样语种文件按学科或主题加以集中组织在一起,防止了直接检索分散性、盲目性和偶然性,从
38、而在查全率和查准率两个方面都能确保其检索效率。2、借助于检索工具检索文件能够缩短检索过程、节约读者时间。检索者无须去阅读大量分散各种类型及文种原始文件。因为检索工具使科技人员所面正确不再是文件全文,而只是反应原文情况一些著录事项,因而大大加紧了检索速度。第63页3、检索工具中标识(分类号、主题词等)是按照一定检索语言来编排,所以,它能够提供有规律检索路径,使检索者能够依据需要灵活地从各种角度进行检索。4、帮助科技人员消除了语言文字障碍。当前世界上出版科技文件所使用语言有6070种之多,科技人员直接查阅文件时,经常受到语种限制而漏查一些有主要参考价值文件,而一个检索工具能够用一个语言来收录和报道
39、不一样文种文件,检索者只要掌握少数几个语言后,就能查阅各种文字文件资料。第64页三、检索工具类型三、检索工具类型(普通分为目录、题录和文摘三种)1、目录(、目录(Catalogue)目录是图书或其它单位出版物外表特征揭示和报道,它以完整单位出版物为著录基本单位。所谓单位出版物单位出版物是指以文件名称作为一个完整出版物单位出版物(如同一本书或一个杂志),并不包括书中详细章节或杂志中详细文章。目录仅著录出版物外表特征,按类编排,主要用于查找出版物出版或收藏单位。依据编制目标和其社会职能,目录可分为国家目录、馆藏目录、专题目录、联合目录、出版目录与书商目录等。第65页2、题录(、题录(Citatio
40、n)题录是单篇文件外表特征揭示和报道。题录普通只著录文件题目、著者、出处、文种等,没有内容摘要。题录以出版物中单篇文件为著录对象。准期刊中一篇论文。因为题录和索引在功效上有相同之处,有时人们把题录也称作索引,比如我国全国报刊索引就是经典题录型检索工具。第66页3、文摘(、文摘(Abstracts)文摘是揭示文件外部特征,摘录文件关键点,报道文件内容检索工具。文摘著录项目与题录基本相同,但增加了内容摘要。文摘依据对文件内容深度或详细程度报道,可分为指示性文件和报道性文件。第67页提醒性文摘(IndicativeAbstracts),其文摘内容比较简单,普通在100字左右,简明扼要地介绍原文主题范
41、围、研究方法、结论、用途等;不包括详细技术内容,以使读者对原文内容不产生误解为标准,所以也有些人将其简称为介绍。第68页报道性文摘(InformationAbstracts),是对原文内容高度浓缩,报道原文论点、方法、设备、结论、详细数据等。我国国家标准要求,报道性文摘普通字数为200300字(西文为250个实词),如有特殊需要字数可略多。这种文摘信息含量大,参考价值高。(另外,还有资料性摘要,它用于单独出版研究文集中。)第69页文摘类检索刊物主要由文摘和索引两大部分组成。文摘部分主要起报道作用,大多数按分类(或主题)编排,组成检索刊物正文,索引部分起检索作用。所以索引种类是否全方面,编制是否
42、合理,使用是否简便,直接影响整个检索工具检索效率,它是衡量一个文摘刊物质量主要标志。第70页(索引索引Index 索引就是将文件中含有检索意义文件特征标识,如文件标题、著者、分类号、主题词、序号等加以编排,并注明文件地址供检索使用检索工具。索引普通包含主题索引、分类索引、著者索引、题名索引和序号索引等。除上述四种索引工具外,还有“文件指南”、“书目之书目”之类检索工具。)第71页四、检索工具普通结构四、检索工具普通结构(一个完整检索工具普通由五部分组成)使用说明使用说明为使用者编写必要指导。普通包含编制目标、收录范围、著录格式、代号说明及注意事项等。使用前请认真阅读。目次表目次表检索工具正文普
43、通都按分类组织编排。所以前面都有详简不等目次表。作为从分类查找文件依据。第72页 正文正文这是检索工具主体部分。存放在检索工具中内容不是原始文件,而是描述文件外表特征与内容特征著录。著录本身由若干著录项目所组成,比如,篇名、著者、出处、文摘等。著录后每篇文件都有一个固定序号以与其它著录相区分,这个序号称为文摘号或次序号。把大量文件按一定规则(普通是分类)组织起来(著录),就组成检索工具正文。第73页 辅助索引辅助索引为了快速、准确、全方面地查到所需文件,仅从分类路径入手是不够,还要有主题、著者、序号等各种路径,所以索引也就有各种形式,但任何索引都不能单独存在,它们是依附于正文主体辅助部分,也是
44、检索工具关键所在。掌握检索工具实质就是掌握各种辅助索引使用方法。第74页 附录附录附录部分主要是使用该检索工具必须参考一些内容。比如,引用期刊一览表、文件起源名称缩写与全称对照表、缩略语解释以及收藏单位代码等。同学们在学习使用新检索工具时,应首先阅读其使用说明,然后依据所查文件逮属学科或专业,查找目次或分类表,经过浏览选汉字献。假如已知主题词、著者名、机构名或其它代码(如专利号、科技汇报号、化学分子式等),则利用索引抵达正文,可快速、准确地查得所需文件。第75页 使用说明使用说明:为使用者编写必要指导目录目录:通常以分类方法给出本检索工具内容、分类号及其页次正文正文:能够有目录、题录和文摘等形
45、式。普通按照分类次序排列,每一篇文件都有次序号、期刊等简称或全称索引索引:包含主题索引、附录附录:引用文件一览表、著者索引、号引用期刊、图书、码索引等会议论文等图图1-1 检索工具普通结构示意图检索工具普通结构示意图第76页1.3 文件检索原理与检索语言文件检索原理与检索语言1.3.1文件检索原理文件检索原理各种检索系统检索原理基本相同,文件(信息)检索就是将检索提问标识与存放在检索工具中标引标识进行比较,二者一致或信息标引标识中包含着检索提问标识,则含有该标识信息就从检索工具中输出。第77页文件存放过程文件存放过程就是按照检索语言(主题词表或分类表)及其使用标准对原始信息进行处理,形成信息特
46、征标识,为检索提供经整序了信息集合过程。详细来说,信息存放包含对信息著录、标引及编排正文和辅助索引等。对信息著录著录是按一定规则对信息外表特征和内容特征加以简单明确表述。信息标引标引是对其内容按一定分类表或主题词表给出分类号或主题词。第78页文件检索过程文件检索过程则是按照一样主题词表或分类表及组配标准分析课题,形成检索提问标识,依据检索工具所提供检索路径,从信息集合中查找与检索提问标识相符合信息特征标识过程。第79页信息处理人员存放过程 用户检索过程原始信息信息分析、著录和标引检索课题课题分析检索语言(主题/分类)检索工具检索结果 图1-2 文件存放与检索原理 第80页1.3.2 检索语言检
47、索语言检索语言概念:检索语言概念:检索语言是依据文件存放与检索需要,在自然语言基础上规范化了一个人工语言(又称为情报语言,标引语言,索引语言等)。它贯通于文件存放和检索全过程,是沟通标引人员与检索人员思想之间约定语言。第81页检索语言功效检索语言功效:能够准确地标引文件内容及特征,确保不一样标引者在标引文件时表示一致;能使主题内容相同或相关文件集中,提升检索效率;能在标引者与检索者之间起到桥梁作用,使二者在文件主题概念了解和表示上到达一致,提升检索准确性。第82页检索语言类型:检索语言类型:检索语言种类很多。按描述文件特征不一样,检索语言可分为描述文件外表特征检索语言和描述文件内容特征检索语言
48、。描述文件外表特征检索语言描述文件外表特征检索语言包含题名(书名、篇名)、著者姓名、代码(专利号、汇报号、标准号等)和引文语言(被引用著者姓名和被引用文件出处)等。描述文件内容特征检索语言描述文件内容特征检索语言包含分类语言和主题语言两种。其中主题语言又相关键词语言和叙词语言等之分。描述文件外部特征检索语言,如篇名、著者姓名、文件序号,它们作为文件标识与检索依据,直接明了,使用时较为简单。而描述文件内容特征语言,也就是分类语言分类语言和主题语言主题语言原理和使用方法是我们主要学习对象。第83页一、分类语言一、分类语言“类”是指含有许多共同属性事物集合。每一个事物都有各种属性,用其某一个属性作为
49、划分依据来对一类事物进行划分就称为分类。分类是人类逻辑思维一个最基本形式。分类语言是用分类号来表示学科体系各种概分类语言是用分类号来表示学科体系各种概念,将各种概念按学科性质进行分类和系统念,将各种概念按学科性质进行分类和系统排列。排列。详细地说,它是以学科分类为基础,按照概念划分原理,将知识概念从详细到普通,从简单到复杂、从低级到高级逐层划分,每划分一次就形成一批并列概念-下位概念,它们同属于一个被划分概念-上位概念。第84页比如:“科学”这个类可分“自然科学”和“社会科学”两个子类。“自然科学”又划分为“数学”、“物理”、“化学”等等子类。“自然科学”为被划分类,即上位类(上位概念),它所
50、划分出几个子类,即下位类(下位概念)。这几个下位概念之间表达是平行关系,而上下位类之间则是逮属关系。每个类目都用分类号作为标识,每个分类号就代表特定知识概念。表达这种分类体系就是图书分类法。第85页分类法很多,比较有影响有中国图书馆图书分类法(简称中图法)、中国科学院图书馆图书分类法(简称科图法),国际十进制图书分类法(UniversalDecimalClassification)和杜威分类法等。中图法作为我国文件分类标引工作国家标准,被我国图书情报界广泛应用。第86页分类语言包含等级体系分类语言(体系分类法)和分析-综合分类语言(组配分类法)。前者主要应用概念划分与概括方法;后者主要是应用概