收藏 分销(赏)

文献数据库与计算机检索(优秀文档).ppt

上传人:快乐****生活 文档编号:12859140 上传时间:2025-12-18 格式:PPT 页数:53 大小:426.54KB 下载积分:10 金币
下载 相关 举报
文献数据库与计算机检索(优秀文档).ppt_第1页
第1页 / 共53页
文献数据库与计算机检索(优秀文档).ppt_第2页
第2页 / 共53页


点击查看更多>>
资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,*,文献数据库与计算机检索,1.,文献信息数据库,2.,计算机信息检索基础,3.,检索效果评价及其优化,1.文献信息数据库,文献是记录知识的载体。数据库是结构化的数据集合,至少由一种文档组成并能够满足某种特定目的或特定数据处理系统需要的数据集合。当数据库记录的对象为文献信息时,就称为文献信息数据库。,文献信息数据库的结构,一个数据库通常由一个主文档,(Master File),和若干个索引文档或称倒排文档,(Inverted File),组成。,文档,是具有某种特征的全部记录的集合。,记录,是构成文档的基本单元,由各种反映,文献特征的字段组成。如一篇论文、一件专利、,一本图书、一个标准的相关信息都能够成为文,档中的一条记录。,字段,是记录的基本组成元素。一条记录的,常见字段通常包含题名字段、著者字段、主题,词字段、文献出处字段(如刊名等)多种字段。,文献数据库中常见的字段和段码,2025/12/18 周四,文献数据库的类型,按数据库文献记载的详细度可分为,书目型数据库(二次文献数据库):仅提供文献检索,读者根据其提供的线索查找文献原文。,可以分为:题录型 文摘型,EI SCI,中国科学引文索引,文献数据库的类型,按数据库文献记载的详细度可分为,全文数据库:不仅提供文献的基本信息及线索,同时还提供原始文献本身的数据库。主要包括全文数据库、术语数据库、图像数据库等等。,如,:CNKI,万方,Elsevier IEL,文献数据库的类型,按数据库文献记载的详细度可分为,混合型数据库,:,数据中的数据,一部分只是提供参考数据库中的信息(文献的基本情况及线索);另一部分则可以提供全文数据库中的信息(原始文献本身),。如:,EBSCO(ASPBSP),文献数据库的类型,按文献数据库收录信息的学科范围可分为,(1),专业性文献信息数据库,(CA),(2),综合性文献信息数据库,(,中国期刊网,),文献信息数据库的评价标准,收录内容范围,系统准确。,揭示文献详略,完备详细。,更新速度快慢,及时快速。,检索字段多寡,途径丰富。,检索功能强弱,高效完善。,用户使用方便,易学易用。,维护服务质量,及时到位。,计算机信息检索基础,计算机信息检索,指利用计算机及相关软件和通信设施,对本地计算机、远程服务器及网上信息进行检索的过程或活动。,随着信息技术的快速发展及对各种文献信息的数字化处理,计算机文献信息检索已经成为文献信息检索的主要手段。,计算机信息检索发展过程,脱机检索阶段(,50,年代中期到,60,年代中期),联机检索阶段(,60,年代中期到,70,年代中期),光盘数据库检索阶段(,70,年代中期到,80,年代末),网络化检索阶段(,90,初年代至今),1)分析检索课题,明确检索要求,(2)选择适当检索系统(数据库),(3)确定检索途径及检索词,(4)构建检索提问式,(5)上机检索并调整检索策略,(6)输出检索结果(具体),计算机检索的一般程序,计算机检索的一般程序,主题分析,明确检索需求及检索目标,(,1,)检索信息的学科范围,(,2,)检索信息的类型,(,3,)检索的目的,选择检索系统(数据库等),(,1,)根据检索目的确定所需数据库的类型,(,2,)根据信息需求的内容、专业范围选择数据库,(,3,)根据记录来源选择数据库,(,4,)根据熟悉程度选择数据库,计算机检索的一般程序,主题概念分析(注:是课题检索的重点和难点),检索目的(申报课题、开题报告、学术论文、成果查新、课程论文、商业需求以及其它需求类型等),文献类型(期刊论文、会议论文、科技报告、图书、专利、标准、网站等),?,结果形式(全文、文摘、题录、数值、事实等),检索年限(如,2000,年以来的文献),语种(中文、外文;英文、日文),检索结果数量(,100,?,50,?),(11)aircraft,扩大,检索范围,提高查全。,检出文献总量,主题分析实例 隐性概念的处理,synthetic(W)diamonds 合成金刚石;,(1)laser(激光),(2)laser bean(激光束),项目“灌溉用的橡塑多孔管”,一个“?”或者“n?”代表0个到9个额外的字符。,(3)更多地采用学科分类途径来扩大检索范围。,(6)采用“全文检索”。,评价检索效果的常用指标有:,聚乙烯 and 合成,文献信息数据库的评价标准,词字段、文献出处字段(如刊名等)多种字段。,2.,计算机检索基本技术,布尔逻辑检索技术,布尔检索技术是指利用布尔运算符连接各个检索词,然后由计算机进行相应逻辑运算,以检索出所需信息的方法。,常用算符及含义,:,AND(*)OR (+)NOT (-),布尔逻辑检索技术,AND(*),接不相容的主题概念,(,或不同字段,),检索结果同时出现连接的词,限定,缩小范围,提高准确率。,OR,(,+)?,连接同义词,同族词,相关词,检索结果至少含有其中一词或同时有,扩大,检索范围,提高查全。,NOT(-),缩小检索范围,起到减少文献输出量。,布尔逻辑检索技术,优先处理算符“()”,逻辑算符,OR,和,AND,的使用方法,如果归纳成一个模式,比如有,A,、,B,、,C,、,D,四个检索词(其中,A,和,B,,,C,和,D,分别为同义概念),,检索提问式为:(,A OR B,),AND,(,C OR D,),即,同一组检索提问既含有,OR,算符,又含有,AND,算符,此时须使用优先处理算符“()”,将,OR,算符前后的词放入括号中,计算机将优先运算括号内的算符。,位置算符,位置检索可要求检索词以用户所规定的相对位置出现。,比如,:,以词组形式表达的概念,;,彼此相邻的两个或两个以上的词,;,被禁用词或特殊符号分隔的词以及化学分子式等。位置算符是调整检索策略的一种重要手段。,输入:,COMMUNICATION SATELLITE,系统认为:,COMMUNICATION AND SATELLITE,结果,:communication satellite,satellite communication,communication devices for satellite;communication links without satellite,位置算符,常用的位置算符及含义:,(W),算符(,WITH,),表示两个检索词紧挨着,词序不能颠倒,中间不得插入其他词、字母或代码,但允许有空格或标点符号,也可用()表示。,例,:COMMUNICATION(W)SATELLITE,(,n W,)算符(,n WORD,),表示两个检索词中间可插入,n,个词,但它们之间的顺序不可颠倒。,(N)算符(NEAR),表示两个检索词必须相连,不得插入其他词,但词序可以颠倒。,位置算符,(,n N,)算符,(n NEAR),表示两个检索词中间可以插入,n,个词,且词序可以颠倒。,(S)算符(SUBFIELD),表示两个检索词必须出现在同一个子句子中,但两词的词序和插入的词数不限。句子位置算符,(F)算符(FIELD),表示两个检索词必须同时出现在同一个字段内,但两词的词序和中间插入的词数不限。字段位置算符,(C)算符(CITATION),表示两个检索词必须出现在同一记录中,但两词的词序和所在的字段不限。,(L)算符(LINK),表示两个检索词之间存在从属关系或限制关系,如果其中一个为一级主题词,另一个就为二级主题词。,截词检索技术,截词检索是为扩大检索范围与增加检索结果而采用的一种检索技术。,常件的截词符号及含义:,“*”可代表多个字符,“,#”,代表单个的字符,一个“?”或者“,n,?”代表,0,个到,9,个额外的字符。,指定文献类型字段 DT=JOURNAL,主要概念:河豚毒素、液相色谱,(n W)算符(n WORD),查找学科专业领域的新进展,(2)降低检索词或分类号的专指度。,(2)降低检索词或分类号的专指度。,如:有关纳米技术的研究综述,指定文献类型字段 DT=JOURNAL,文献信息数据库的评价标准,网络化检索阶段(90初年代至今),文献数据库与计算机检索,影响用户查全率与查准率的不良因素,项目“河豚毒素的液相色谱分析”,如世界专利索引(WPI)文档的国际专利分类号代码IC,世界工业产品市场与技术概况文档中的产品代码PC 和事项代码EC,化学文摘(CA)中的化学物质登记号RN 等。,一个“?”或者“n?”代表0个到9个额外的字符。,加权检索技术,加权检索是在检索提问式中,根据每个提问词在检索要求中的重要程度,分别给予一定的加权数值加以区别,我们称这个数值为权数。同时再给出检索命中的阈值。当检索结果达到所设定的阈值时,系统将显示为命中记录。,采用加权检索的目的在于提高检索结果的准确程度,限制检索技术,具体形式主要有:,(,1,)字段限制检索,(,2,)使用符号限制,(,3,)进行范围限制,(,4,)采用限制指令,字段限制检索,基本字段限制字段限制,(TI,AB,DE,ID),基本字段限制的用法是在需要指定字段(题目、叙词、识别词和文摘)的检索词后加上后缀运算符“,/”,和段码。,例如,检索策略“,OPTICAL/TI AND FIBER/TI”,的含义是指定在题目字段中查找含有“,optical”,和“,fiber”,两词的所有记录。,字段段码可以多个连用,段码之间加“,”即可。,例如,检索策略“,FIB?/TI,DE”,的含义是指定在题目和叙词字段中查找以“,fib”,为词干的所有记录。,字段限制检索,辅助字段限制,辅助字段运算符的用法是在需要指定字段的检索词(有时检索词须放在双引号内)之前加上段码和前缀运算符“,=”,。,例如检索策略,AU=“Robert,S.”,的含义是在作者字段中查找含有“,Robert,S.”,的所有记录。,下面是其他常用的辅助字段限制及其实例:,指定著者单位字段,CS=SHANGHAI UNIVERSITY,指定刊物名称字段,JN=APPLIED MATHEMATICS,指定语言字段,LA=ENGLISH,指定文献类型字段,DT=JOURNAL,3.,检索式的调整,检索表达式输入检索系统后,输出的检,索结果有时不一定能满足课题的要求:,检出的篇 数过多,而且不相关文献,所占比例很大,检出的文献数量太少,有时甚至为零,,需要调整检索策略。,调整检索策略,对于输出篇数过多的情况,a.,选用了多义性的检索词;,b.,截词截得过短;,c.,输入的检索词太少;,d.,应该使用“与(,AND,)”的使用了“或(,OR,)”;,e.,优先运算符“()”使用错误。,调整检索策略,对于输出篇数过少的情况,a.,检索词拼写错误;,b.,遗漏重要的同义词或隐含概念;,c.,检索词过于冷僻具体;,d.,没有使用截词算符;,e.,位置算符和字段算符使用的过多;,f.,使用过多的“,AND”,算符。,(2)降低检索词或分类号的专指度。,一个数据库通常由一个主文档(Master File),检索结果同时出现连接的词,系统中相关文献总量,3-6 从词表中可以选取,(5)系统功能不熟悉、检索技能不熟练,同义词、近义词是或的关系,(W)算符(WITH),(5)增加逻辑“或”及截词检索技术的使用。,课题:高温下使用的不锈钢,下位词即缩检,如“智育心理”、“德育心理”、“美育心理”、“教学心理学”、“学习心理学”、“教师心理学”、“学生心理学”等。,计算机检索实例,检索需求,查找某概念的确切含义如:什么是“,blog”,查找某概念的背景知识如:谁最先发现青霉素,查找某些事物的数值及量化指标特征型知,一般通过事实型、数值型数据库和搜索引擎获得。,查找某一学科的一般知识,如:关于分子生物学有哪些专著,查找学科专业领域的新进展,如:有关纳米技术的研究综述,查找课题相关的专业文献,最常见的,!,文献数据库,电子元器件的技术特性数据,可用有关的电子元器件类手册、产品目录、样本或书查找;,查过去某年度某种电气电子类产品的产销、贸易、市场概况,可用有关年鉴类资料;,查国内外哪些大学招收电气电子类研究生,可查大学类的机构名录或校方的招生简章资料;,查“自动化”一词的概念与含义,可用百科全书、学科术语类解释辞典和相关手册;,查电子产品的电路图,可用相应的电路图集或手册;,查钱学森的主要论著和贡献,可用名人录;等等。,主题分析实例,直接从检索项目中获取相关概念,例:项目“聚乙烯的合成(,synthesis of polyethylene,)”,主要概念:聚乙烯、合成(,synthesis,、,polyethylene,),检索式:,聚乙烯,and,合成,Synthesis and polyethylene,主题分析实例,排除重复无关的概念,项目“河豚毒素的液相色谱分析”,从项目名称上看,其主要概念为“河豚毒素”、“液相色谱”和“分析”,但由于液相色谱本身就是一种分析方法,它隐含了“分析”这一概念,主要概念:河豚毒素、液相色谱,检索式:河豚毒素,and,液相色谱,主题分析实例,检索词之间存在部分与整体关系,例:,1.,检索“欧洲能源”方面的文献,按照“欧洲”;同时包括许多国家。英 法 德 意,2.,国外综述,主题分析实例,隐性概念的处理,课题:高温下使用的不锈钢,“,不锈钢”“耐热钢”,主题分析实例,隐性概念的处理,项目“灌溉用的橡塑多孔管”,Rubber-Plastic Porous Pipe For Irrigation,橡塑多孔管也称为橡塑渗灌管,其主要原料为橡胶粉,(,由废旧轮胎制得,),和塑料,(,如粉状聚乙烯,),。隐含概念:橡胶、塑料,该产品主要用于农林、园艺等方面的灌溉。,主要概念:橡胶、塑料、多孔管、灌溉,检索式:,(,橡胶,or,塑料,or,橡塑,)and,多孔管,and,灌溉,主题分析实例,隐性概念的处理,文昌鱼的遗传多样性,显性主题概念,:,文昌鱼 遗传多样,隐含主题概念:文昌鱼,-,头索动物,遗传,-,基因,同义 近义词:基因,-DNA,2025/12/18 周四,主题分析实例 隐性概念的处理,项目“唐山综合防灾的研究”,由于唐山是一个城市,因此该项目实际上是“城市综合防灾的研究”。,该项目针对的主要灾害是地震、洪水和火灾,所采用的研究手段是决策支持系统和专家系统。,防灾:地震、洪水、火灾,研究:决策支持系统、专家系统,主要概念:城市、地震、洪水、火灾、决策支持系统、专家系统,检索式:城市,and(,地震,or,洪水,or,火灾,)and(,决策支持系统,or,专家系统,),主题分析实例,概念间逻辑关系的处理,同义词、近义词是或的关系,上位词即扩检,如“教育心理学”,下位词即缩检,如“智育心理”、“德育心理”、“美育心理”、“教学心理学”、“学习心理学”、“教师心理学”、“学生心理学”等。,若多个下位词都用来检索,相对于一个上位词来说,一般是扩检。,一个下位词相对于一个上位词来说,一般是缩检。,检索词的选择 规范词,选择检索词时,一般应优先选择主题词作基本检索词,但为了检索的专指性也选用自由词配合检索。,如查找“人造金刚石”的文献,很可能用“,manmade(,人造,)”,、“,diamonds(,金刚石,)”,作为检索词,但“人造”的实质是“人工合成”,检索词的范围可放宽至:,synthetic(W)diamonds,合成金刚石;,synthetic(W)gems,合成宝石;,synthetic(W)materials,合成材料;,synthetic(W)stones,合成石;,synthetic(W)crystals,合成晶体;,artificial(W)crystals,人造晶体;,diamonds,金刚石。,检索策略:,1+(2+3+4+5+6)*7,尽量使用代码,不少文档有自己的各种代码,,如世界专利索引(WPI)文档的国际专利分类号代码IC,世界工业产品市场与技术概况文档中的产品代码PC 和事项代码EC,化学文摘(CA)中的化学物质登记号RN 等。,如查找“20 年来CA 收录的锡酸钡导电机理”的文献,就应该用化学物质登记号表示,即rn 1 -18-6。,其检索式可为:rn 1 -18-6*electric?(w)conduct?。,而用如下检索式则不能保证文献查全:(barium(w)stannate+BaSn03)*eletrical(w)conductivity,同义词尽量选全,检索时为保证查全率,同义词尽量选全。同义词选择应主要考虑以下几点:,同一概念的几种表达方式,如化学分析有,chemical analysis,,,analytical chemistry,,,chemical determination,,,composition measurement,等。,同一名词的单、复数、动词、动名词、过去分词形式等,如生产有,product,,,production,,,producing,,,produce,,,productive,等,词根相同时,可用截词符解决。,同义词尽量选全,要考虑上位概念词与下位概念词,如水果榨汁,不仅要选,fruit,,也应选各种水果,如,pear(,梨,),、,orange(,橙,),、,plum(,李子,),、,peach(,桃,),、,apple(,苹果,),、,pineapple(,菠萝,),等,反之,如某一种水果保鲜则应参考水果保鲜。,化学物质用其名称也要用其元素符号,如氖,,Nitrogen,和,N,。,植物和动物名,其英文和拉丁名均要选。,注意选用国外惯用的技术术语查阅外文文献时,一些技术概念的英文词若在词表查不到,可先阅读国外的有关文献,再选择正确的检索词,同义词尽量选全,表示研究方法、技术方法的名词术语,如分析(化学)、针刺手法、有限元法、结构功能法、力学性能试验等,表示工艺方法、加工技术的名词术语,如铸造、锻造、热处理、焊接、酿造、取心钻进、爆破成型、激光切割等;,同一名词的单、复数、动词、动名词、过去分词形式等,如生产有product,production,producing,produce,productive等,词根相同时,可用截词符解决。,例:项目“聚乙烯的合成(synthesis of polyethylene)”,词字段、文献出处字段(如刊名等)多种字段。,另一部分则可以提供全文数据库中的信息(原始文献本身),优先运算符“()”使用错误。,字段段码可以多个连用,段码之间加“,”即可。,植物和动物名,其英文和拉丁名均要选。,检出的文献数量太少,有时甚至为零,,用户使用方便易学易用。,一个“?”或者“n?”代表0个到9个额外的字符。,常用算符及含义:AND(*)OR (+)NOT (-),主要概念:河豚毒素、液相色谱,其检索式可为:rn 1 -18-6*electric?(w)conduct?。,(1)根据检索目的确定所需数据库的类型,常用的位置算符及含义:,激光加工技术在航空工业中的应用,有关激光加工;在航空工业中的应用。,第一组面:激光。从词表中可以选取,(1)laser(,激光,),(2)laser bean(,激光束,),第二组面:激光加工技术。,3-6,从词表中可以选取,(,3,),laser annealing,(激光热处理),(,4,),laser cutting(,激光切削,),(,5,),laser drilling(,激光钻孔,),(,6,),laser welding(,激光焊接,),7-10,加工技术,(7)Suface alloying,(表面合金化,),(8)Surface hardening(,表面硬化,),(9)Remelting(,再溶化,),(10)Radiation hardening(,表面硬化,),第三组面:航空工业,(,11,),aircraft,(,12,),aircraft industry,(,13,),aircraft equipment,拟定检索式,(,1+2,)*(,7+8+9+10,),+,(,3+4+5+6,),*,(,11+12+13,),注意:对于复合词可以用位置算符,截词符。,检索效果评价的指标,评价检索效果的常用指标有:,查全率(,Recallratio,),用,R,表示,查准率(,Precisionratio,),用,P,表示,漏检率(,Omissionratio,),用,O,表示,误检率(,Fall-outratio,),用,F,表示,高查全率或查准率是人们在检索活动中通常所追求的目标。,查全率,查全率是指被检出的相关文献量与系统文档中实有的相关文献量之间的比率。它是衡量信息检索系统收录内容及其用户检索结果的完整程度的指标。可用下式表示:,被检出相关文献量,查全率(,R,),=,100%,系统中相关文献总量,未被检出相关量文献,漏检率,(O,),=,100%,系统中相关文献总量,查准率,查准率是指检出的相关文献量与检出文献总量之间的比率。它是衡量信息检索系统收录内容及用户检索结果精确度的尺度。可用下式表示:,检出相关文献量,查准率(,P,),=,100%,检出文献总量,被检出无关文献量,误检率(,F,),=,100%,检出文献总量,影响用户查全率与查准率的不良因素,(,1,)对检索目标把握不准确,(,2,)对检索系统选择不洽当,(,3,)检索词和逻辑组配不当,(,4,)检索途径和方法选择不当,(,5,)系统功能不熟悉、检索技能不熟练,提高查全率的主要方法,(1),准确把握检索对象及目的,选择合适的数据库。,(2),降低检索词或分类号的专指度。,(3),更多地采用学科分类途径来扩大检索范围。,(4),减少逻辑“与”及逻辑“非”的使用。,(5),增加逻辑“或”及截词检索技术的使用。,(6),采用“全文检索”。,(7),不限定检索对象的文献类型,
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服