资源描述
第第4课课 计算机信息检索计算机信息检索n n内容:教材第6、7章n n目的与要求:n n了解计算机及网络在信息检索的应用;了解计算机及网络在信息检索的应用;n n掌握数据库的类型与结构;计算机信息检索技术与方掌握数据库的类型与结构;计算机信息检索技术与方法;网络检索概况;搜索引擎使用。法;网络检索概况;搜索引擎使用。n n教学重、难点:n n计算机信息检索的概念;数据库的类型与计算机信息检索的概念;数据库的类型与结构结构;布尔布尔逻辑检索;字段限定检索;截词检索;搜索引擎的分逻辑检索;字段限定检索;截词检索;搜索引擎的分类,简单检索及高级检索类,简单检索及高级检索。14.1 计算机信息检索概述n n4.1.1 4.1.1 计算机在检索中的利用计算机在检索中的利用计算机在检索中的利用计算机在检索中的利用n n 一、计算机的特点满足检索的要求:一、计算机的特点满足检索的要求:一、计算机的特点满足检索的要求:一、计算机的特点满足检索的要求:n n用户对检索的主要要求:用户对检索的主要要求:用户对检索的主要要求:用户对检索的主要要求:n n准:准:准:准:要求检出的文献有针对性,能解决研究中的具体问题要求检出的文献有针对性,能解决研究中的具体问题。n n全:全:全:全:全面了解某一特定领域(问题)的发生、发展和现状。全面了解某一特定领域(问题)的发生、发展和现状。n n新:新:新:新:掌握最新动态或进展。掌握最新动态或进展。n n快:快:快:快:最短时间内获得结果。最短时间内获得结果。n n计算机具有计算机具有计算机具有计算机具有准、快、存储容量大准、快、存储容量大准、快、存储容量大准、快、存储容量大的特点。符合从海量数据中快的特点。符合从海量数据中快的特点。符合从海量数据中快的特点。符合从海量数据中快速、准确获取信息的检索要求。速、准确获取信息的检索要求。速、准确获取信息的检索要求。速、准确获取信息的检索要求。2n n1.1.早期应用情况(国外)早期应用情况(国外)早期应用情况(国外)早期应用情况(国外):n n19511951年人们首次利用计算机进行信息检索实验。年人们首次利用计算机进行信息检索实验。年人们首次利用计算机进行信息检索实验。年人们首次利用计算机进行信息检索实验。n n自自自自19541954年美国海军兵器中心使用年美国海军兵器中心使用年美国海军兵器中心使用年美国海军兵器中心使用IBM701IBM701型电子管计算机建立了世界上第型电子管计算机建立了世界上第型电子管计算机建立了世界上第型电子管计算机建立了世界上第一个计算机检索系统,存入文献一个计算机检索系统,存入文献一个计算机检索系统,存入文献一个计算机检索系统,存入文献1400014000篇。篇。篇。篇。n n19641964年,在使用计算机排版年,在使用计算机排版年,在使用计算机排版年,在使用计算机排版IMIM时产生一副产品:时产生一副产品:时产生一副产品:时产生一副产品:MEDLARSMEDLARS数据库数据库数据库数据库(医学文献分析与检索系统)。(医学文献分析与检索系统)。(医学文献分析与检索系统)。(医学文献分析与检索系统)。n n相应发展出相应发展出相应发展出相应发展出4 4种机检类型:种机检类型:种机检类型:种机检类型:n n脱机检索阶段(脱机检索阶段(脱机检索阶段(脱机检索阶段(2020世纪世纪世纪世纪5050年代中至年代中至年代中至年代中至 6060年代中)年代中)年代中)年代中)n n联机检索阶段(联机检索阶段(联机检索阶段(联机检索阶段(2020世纪世纪世纪世纪6060年代中至年代中至年代中至年代中至7070年代)年代)年代)年代)n n光盘检索阶段(光盘检索阶段(光盘检索阶段(光盘检索阶段(2020世纪世纪世纪世纪8080年代中期年代中期年代中期年代中期-)n n网络化联机检索阶段(网络化联机检索阶段(网络化联机检索阶段(网络化联机检索阶段(2020世纪世纪世纪世纪9090年代年代年代年代-)二.计算机信息检索的发展:3n n2.(国内)计算机信息检索发展:n n研究始于研究始于2020世纪世纪7070年代中期(年代中期(19751975年,首次引年,首次引进国外文献数据库进行机检实验)。进国外文献数据库进行机检实验)。n n19781978年开始由中国科技情报所试建文献数据库年开始由中国科技情报所试建文献数据库和检索服务系统。和检索服务系统。n n19801980年,国际联机检索年,国际联机检索n n目前,目前,44.1.2 计算机信息检索及类型n n一.计算机信息检索的定义 检索终端 特定信息用户利用计算机信息检索系统,使用特定的用户利用计算机信息检索系统,使用特定的指令、检索词或检索策略,从数据库中检指令、检索词或检索策略,从数据库中检索出与用户特定需求相一致的信息的过程。索出与用户特定需求相一致的信息的过程。用户用户检索指令、检索词、检索指令、检索词、检索策略检索策略5二二.计算机信息检索原理计算机信息检索原理n n本质上与手工检索原理相同,均采用逻辑匹配方式,但略有区别。n n手检:具有概念思维性、随机应变性,可随时修改的意义匹配。检索策略人脑记忆,对工具书手翻、眼看、大脑不停思考与判断来完成。n n机检:高速、机械的逻辑匹配。n n优点:高速、精确。优点:高速、精确。n n缺陷:缺陷:误检率高;误检率高;查全率低。查全率低。64.2 计算机信息检索系统的构成n n4.2.1 计算机信息检索系统的构成计算机信息检索系统的构成n n硬件硬件硬件硬件n n软件软件软件软件n n通讯网络通讯网络通讯网络通讯网络n n数据库数据库数据库数据库n n计算机存储设备上由一个或多个文档组成的相互关计算机存储设备上由一个或多个文档组成的相互关计算机存储设备上由一个或多个文档组成的相互关计算机存储设备上由一个或多个文档组成的相互关联的数据集合联的数据集合联的数据集合联的数据集合n n是计算机检索系统的核心是计算机检索系统的核心是计算机检索系统的核心是计算机检索系统的核心7一一.数据库的类型数据库的类型n n、文献型数据库、文献型数据库:n n书目型数据库:书目型数据库:n n文献外表特征和内容特征的描述与记载。文献外表特征和内容特征的描述与记载。n n全文数据库:全文数据库:n n存储文献全文或节选其中主要部分的数据库。存储文献全文或节选其中主要部分的数据库。n n可以直接获取原始资料。可以直接获取原始资料。n n、数值型数据库:、数值型数据库:n n、事实型数据库:、事实型数据库:n n、图像型数据库、图像型数据库:n n、多媒体型数据库:、多媒体型数据库:4.2.2 数据库的类型与结构数据库的类型与结构8n n数据库是检索系统的信息源和核心。数据库是检索系统的信息源和核心。数据库是检索系统的信息源和核心。数据库是检索系统的信息源和核心。n n不同的数据库,虽然利用原理相同,但由于数据不同的数据库,虽然利用原理相同,但由于数据内容和利用目的的不同,使得其数据结构和文献内容和利用目的的不同,使得其数据结构和文献记录标引方式也有一定的差异,因而其利用也各记录标引方式也有一定的差异,因而其利用也各有特点,并不存在普适的方法。有特点,并不存在普适的方法。n n利用利用一个数据库,首先要了解其一个数据库,首先要了解其结构结构。n n数据库对文献特征的组织和揭示影响着数据库的利用数据库对文献特征的组织和揭示影响着数据库的利用数据库对文献特征的组织和揭示影响着数据库的利用数据库对文献特征的组织和揭示影响着数据库的利用及效果。及效果。及效果。及效果。n n数据库可分为数据库可分为字段、记录、文档字段、记录、文档3 3个层次的构成。个层次的构成。二、数据库的结构二、数据库的结构9 数据库数据库 文档文档 记录记录 字段字段 若干个记录构成的信息集若干个记录构成的信息集合称为文档。大型的数据合称为文档。大型的数据库分割成若干文档。库分割成若干文档。记录是构成数据库的完整的信息单元,每条记记录是构成数据库的完整的信息单元,每条记录描述了原始信息的外部特征和内部特征。录描述了原始信息的外部特征和内部特征。组成记录的数据项目10文章号文章号文章号文章号篇名篇名篇名篇名作者作者作者作者文摘文摘文摘文摘全文全文全文全文001001asdasdLiLiXxxXxx.002002bysbysWangWangYyyYyy.vcavcadengdengzzzzzz.篇名篇名篇名篇名文章号文章号文章号文章号AsdAsd001001BysBys002002vcavca作者作者作者作者文章号文章号文章号文章号LiLi001001DengDengWangWang002002索引文档索引文档1 1:篇名索引篇名索引索引文档索引文档2 2:作者索引作者索引主文档主文档(顺顺排文档)排文档)检索篇名检索篇名检索作者检索作者当你要在篇名中当你要在篇名中查找时,查找时,搜索指令将在篇名索引搜索指令将在篇名索引中进行搜索,然后将主中进行搜索,然后将主文档中对应的记录调出文档中对应的记录调出来来各项数据以构成一张横竖对齐的二维表格形式存各项数据以构成一张横竖对齐的二维表格形式存各项数据以构成一张横竖对齐的二维表格形式存各项数据以构成一张横竖对齐的二维表格形式存放于数据库文件(库文件)中。放于数据库文件(库文件)中。放于数据库文件(库文件)中。放于数据库文件(库文件)中。文章号唯一,且索文章号唯一,且索引文档与主文档的引文档与主文档的文章号一一对应文章号一一对应索引文档索引文档(倒倒排文档)排文档)文档(文档(文档(文档(FileFile)由众多记录按一定由众多记录按一定由众多记录按一定由众多记录按一定方式组织在一起形成。方式组织在一起形成。方式组织在一起形成。方式组织在一起形成。11n n常用的外文生物医学数据库:常用的外文生物医学数据库:常用的外文生物医学数据库:常用的外文生物医学数据库:n nMEDLINEMEDLINE数据库数据库数据库数据库n n荷兰荷兰荷兰荷兰医学文摘医学文摘医学文摘医学文摘数据库数据库数据库数据库(EM)(EM)n n生物学文摘生物学文摘生物学文摘生物学文摘数据库数据库数据库数据库(BA)(BA)n n化学文摘数据库化学文摘数据库化学文摘数据库化学文摘数据库(CA)(CA)n n科学引文索引科学引文索引科学引文索引科学引文索引数据库数据库数据库数据库(SCI)(SCI)n n常见的中文生物医学数据库:常见的中文生物医学数据库:常见的中文生物医学数据库:常见的中文生物医学数据库:n n中国生物医学文献数据库(中国生物医学文献数据库(中国生物医学文献数据库(中国生物医学文献数据库(CBMdiscCBMdisc)n n中文生物医学期刊数据库(中文生物医学期刊数据库(中文生物医学期刊数据库(中文生物医学期刊数据库(CMCC)CMCC)n n中国学术期刊数据库中国学术期刊数据库中国学术期刊数据库中国学术期刊数据库n n万方数据库万方数据库万方数据库万方数据库n n中医药文献数据库中医药文献数据库中医药文献数据库中医药文献数据库124.3 计算机信息检索技术与方法n n常用计算机算符(常用计算机算符(4种):种):n n布尔逻辑算符布尔逻辑算符n n字段限定符字段限定符n n截词符截词符n n位置算符位置算符134.3.1布尔逻辑检索与布尔算符:布尔逻辑检索与布尔算符:n n来源:来源:来源:来源:(布尔代数)逻辑与、逻辑或、逻辑非。(布尔代数)逻辑与、逻辑或、逻辑非。(布尔代数)逻辑与、逻辑或、逻辑非。(布尔代数)逻辑与、逻辑或、逻辑非。n n作用:作用:作用:作用:布尔逻辑运算符用来布尔逻辑运算符用来布尔逻辑运算符用来布尔逻辑运算符用来表示两个检索词之间的逻辑表示两个检索词之间的逻辑表示两个检索词之间的逻辑表示两个检索词之间的逻辑关系关系关系关系,用以形成一个逻辑表达式。,用以形成一个逻辑表达式。,用以形成一个逻辑表达式。,用以形成一个逻辑表达式。计算机根据逻辑表达计算机根据逻辑表达计算机根据逻辑表达计算机根据逻辑表达式查找符合限定条件的文献信息。式查找符合限定条件的文献信息。式查找符合限定条件的文献信息。式查找符合限定条件的文献信息。n n算符形式(算符形式(算符形式(算符形式(3 3种):种):种):种):n n逻辑与(逻辑与(逻辑与(逻辑与(ANDAND)n n逻辑或(逻辑或(逻辑或(逻辑或(OROR)n n逻辑非(逻辑非(逻辑非(逻辑非(NOTNOT)。)。)。)。14布尔逻辑算符布尔逻辑算符n n一、一、一、一、逻辑逻辑逻辑逻辑“与与与与”(算符:(算符:(算符:(算符:ANDAND)n n表达概念间交叉限定关系的一表达概念间交叉限定关系的一表达概念间交叉限定关系的一表达概念间交叉限定关系的一种组配;种组配;种组配;种组配;n n作用:描述更为准确,缩小检作用:描述更为准确,缩小检作用:描述更为准确,缩小检作用:描述更为准确,缩小检索范围,提高查准率。索范围,提高查准率。索范围,提高查准率。索范围,提高查准率。n n例:查找例:查找“胰岛素治疗糖尿病胰岛素治疗糖尿病”的的文献,基本检索式为:文献,基本检索式为:n n insulin insulin AND AND diabetes diabetesn n胰岛素胰岛素 AND AND 糖尿病糖尿病n n检索式检索式检索式检索式“A and B”A and B”表示文献中表示文献中表示文献中表示文献中同时包含检索词同时包含检索词同时包含检索词同时包含检索词A A和检索词和检索词和检索词和检索词B B的的的的文献才是命中文献。文献才是命中文献。文献才是命中文献。文献才是命中文献。(如右图如右图如右图如右图)15布尔逻辑算符布尔逻辑算符n n二、二、二、二、逻辑逻辑逻辑逻辑“或或或或”(算符:(算符:(算符:(算符:OROR)n n表达概念间并列关系的一种组配;表达概念间并列关系的一种组配;表达概念间并列关系的一种组配;表达概念间并列关系的一种组配;n n作用:扩大检索范围,提高查全率。作用:扩大检索范围,提高查全率。作用:扩大检索范围,提高查全率。作用:扩大检索范围,提高查全率。n n如:查找如:查找“肿瘤肿瘤”的检索式为的检索式为cancercancer(癌)(癌)oror tumor tumor(瘤)(瘤)oror carcinoma carcinoma(癌)(癌)oror Sarcomas Sarcomas(肉瘤)(肉瘤)oror neoplasmneoplasm(新生物)。(新生物)。n n检索式检索式检索式检索式“A or B”A or B”表示包含检索词表示包含检索词表示包含检索词表示包含检索词A A的的的的文献或者包含检索词文献或者包含检索词文献或者包含检索词文献或者包含检索词B B的文献或者同的文献或者同的文献或者同的文献或者同时包含检索词时包含检索词时包含检索词时包含检索词A A和和和和B B的文献为命中文的文献为命中文的文献为命中文的文献为命中文献。献。献。献。n n使用注意使用注意使用注意使用注意:处理好整体与部分的关系:处理好整体与部分的关系:处理好整体与部分的关系:处理好整体与部分的关系,避免漏检。避免漏检。避免漏检。避免漏检。16布尔逻辑算符布尔逻辑算符n n三、三、三、三、逻辑逻辑逻辑逻辑“非非非非”(算符:(算符:(算符:(算符:NOTNOT、AND NOTAND NOT)n n表达概念间不包含关系的一种组配。表达概念间不包含关系的一种组配。表达概念间不包含关系的一种组配。表达概念间不包含关系的一种组配。n n作用:缩小检索范围,提高查准率。作用:缩小检索范围,提高查准率。作用:缩小检索范围,提高查准率。作用:缩小检索范围,提高查准率。n n例:查例:查“动物(非人类的)感染乙肝病毒动物(非人类的)感染乙肝病毒”的相关文献。的相关文献。n n检索式:检索式:hepatitis B virushepatitis B virus(乙肝病毒)(乙肝病毒)NOT NOT humanhuman(人类)(人类)?n n“A not B”“A not B”表示包含检索词表示包含检索词表示包含检索词表示包含检索词A A但不包含但不包含但不包含但不包含检索词检索词检索词检索词B B的文献为命中文献。的文献为命中文献。的文献为命中文献。的文献为命中文献。n n使用注意使用注意使用注意使用注意:处理好交叉关系,避免漏检。:处理好交叉关系,避免漏检。:处理好交叉关系,避免漏检。:处理好交叉关系,避免漏检。17运算次序与注意事项运算次序与注意事项n n运算次序运算次序n n在一个检索式中,可以同时使用多个逻辑运算在一个检索式中,可以同时使用多个逻辑运算在一个检索式中,可以同时使用多个逻辑运算在一个检索式中,可以同时使用多个逻辑运算符,构成一个复合逻辑检索式。一般情况下,符,构成一个复合逻辑检索式。一般情况下,符,构成一个复合逻辑检索式。一般情况下,符,构成一个复合逻辑检索式。一般情况下,运算优先级别如下所示(可以使用括号改变运运算优先级别如下所示(可以使用括号改变运运算优先级别如下所示(可以使用括号改变运运算优先级别如下所示(可以使用括号改变运算次序)。算次序)。算次序)。算次序)。()例:检索厚朴或槟榔对兔离体肠平滑肌运动功能例:检索厚朴或槟榔对兔离体肠平滑肌运动功能例:检索厚朴或槟榔对兔离体肠平滑肌运动功能例:检索厚朴或槟榔对兔离体肠平滑肌运动功能的影响的影响的影响的影响(厚朴(厚朴(厚朴(厚朴 槟榔)槟榔)槟榔)槟榔)AND AND 平滑肌平滑肌平滑肌平滑肌n n实际使用中,不同数据库对运算次序解释实际使用中,不同数据库对运算次序解释不同。不同。18检索实例:例:查找有关肿瘤引起的贫血的非英文文献例:查找有关肿瘤引起的贫血的非英文文献 neoplasms(肿瘤)(肿瘤)/complications(并发症并发症)anemia(贫血)(贫血)/etiology(病因学)病因学)English#1 1687 NEOPLASMS/complications#2 179 ANEMIA/etiology#3 23867 English in LA (或或LA=English)#4 20 (#1 and#2)not#3194.3.2 限定检索与字段限定符限定检索与字段限定符n n(1)“in”表示将“in”左侧检索词限定在某个字段名内查找。n n如:如:Hypertension in TI_ Hypertension in TI_ n n n n(2)“”、“”、“”、“”、“”符号主要用于限定查找年代。n n如:,表示要求检出如:,表示要求检出年出版的文献。年出版的文献。20n n截词检索:是用截断的词的一个局部进行检索。凡满足这个局部所有字符(串)的词,均被认为符合匹配条件。n n实质是用逻辑OR对具有相同的词头或词尾的词汇进行检索。n n截词符号也称通配符,通常用“*”代表无限多的字符组合,而用“?”代表任意一个字符。4.3.3 截词检索与截词检索与截词符截词符21(一)(一)(一)(一)后截断:后截断:后截断:后截断:n n将截词符号放在一个字符串的右方,以表示其右的有限或将截词符号放在一个字符串的右方,以表示其右的有限或将截词符号放在一个字符串的右方,以表示其右的有限或将截词符号放在一个字符串的右方,以表示其右的有限或无限个字符不影响该字符串的检索。无限个字符不影响该字符串的检索。无限个字符不影响该字符串的检索。无限个字符不影响该字符串的检索。n n后截断检索技术最常用,其主要用途有:后截断检索技术最常用,其主要用途有:后截断检索技术最常用,其主要用途有:后截断检索技术最常用,其主要用途有:n n词的单复数,如词的单复数,如词的单复数,如词的单复数,如book?book?n n同根词,例如同根词,例如同根词,例如同根词,例如biologbiolog*,physic*,physic*n n年代,例如年代,例如年代,例如年代,例如199?,19?199?,19?n n作者,例如:作者,例如:作者,例如:作者,例如:Lancaster*Lancaster*n n例如:例如:例如:例如:hypertensihypertensi?可查到可查到可查到可查到hypertensionhypertension、hypertensivehypertensive。hyperthyrhyperthyr*可查到可查到可查到可查到hyperthyrehyperthyre、hyperthyreosishyperthyreosis、hyperthyroidhyperthyroid、hyperthyroidosishyperthyroidosis、hyperthyroidismhyperthyroidism等等等等。22 (二)(二)前截断:前截断:前截断:前截断:n n将截词符号放在一个字符串的左方,以表示其左方将截词符号放在一个字符串的左方,以表示其左方有有限或无限个字符。有有限或无限个字符。n n前截断因为实现技术上较困难,在检索系统中比较前截断因为实现技术上较困难,在检索系统中比较少见。其少见。其主要用途主要用途在于:进行一个主题在不同领域在于:进行一个主题在不同领域应用情况的检索;在应用情况的检索;在化学化工文献中多有类似情况。化学化工文献中多有类似情况。n n例例1 1:*magnetic magnetic,可检索出,可检索出magnetic(magnetic(有磁性的有磁性的)、electro-magneticelectro-magnetic(电磁的)、(电磁的)、patamagneticpatamagnetic (顺磁的)(顺磁的)、thermo-magnetic thermo-magnetic(热磁的)(热磁的)thermomagneticthermomagnetic等词等词的文献。的文献。n n例例2 2:*sightedsighted,可查到可查到farsighted farsighted 与与nearsightednearsighted。23 (三)中截断:中截断:将截词符号放在一个检索词的中间的一种截将截词符号放在一个检索词的中间的一种截词方式。只允许有限截断,用于检索词的词方式。只允许有限截断,用于检索词的单复数或英美式不同拚法。单复数或英美式不同拚法。例如:例如:wom?n,可查到可查到Woman,Women。defen?e,可查到可查到defense,defence。24n n截词检索在大多数检索系统可基本实现。截词检索在大多数检索系统可基本实现。n n截词检索的优势:截词检索的优势:n n是防止漏检的有力手段。能扩大检索范围,提高查全率;是防止漏检的有力手段。能扩大检索范围,提高查全率;n n可以减少检索词的输入工作量;可以减少检索词的输入工作量;n n简化检索步骤(不需要用简化检索步骤(不需要用OROR进行同义词的组配)。进行同义词的组配)。n n注意:注意:但并不是所有用截词符产生的单词与你的检但并不是所有用截词符产生的单词与你的检索意图相一致。因此,要注意截断部位是否合适。索意图相一致。因此,要注意截断部位是否合适。254.3.4 位置检索与位置检索与位置算符位置算符(了解即可)(了解即可)n n又称邻近检索,是对检索词之间的相对位置进行又称邻近检索,是对检索词之间的相对位置进行又称邻近检索,是对检索词之间的相对位置进行又称邻近检索,是对检索词之间的相对位置进行限制。限制。限制。限制。n n包括在记录中出现的顺序和相对位置。包括在记录中出现的顺序和相对位置。包括在记录中出现的顺序和相对位置。包括在记录中出现的顺序和相对位置。n n运算符都用运算符都用运算符都用运算符都用“()”括起,前后不留空格。括起,前后不留空格。括起,前后不留空格。括起,前后不留空格。n n要求原始记录中检索词之间的相互位置满足某些要求原始记录中检索词之间的相互位置满足某些要求原始记录中检索词之间的相互位置满足某些要求原始记录中检索词之间的相互位置满足某些条件时要使用位置算符,常用的位置算符有条件时要使用位置算符,常用的位置算符有条件时要使用位置算符,常用的位置算符有条件时要使用位置算符,常用的位置算符有withwith、nearnear等。等。等。等。26n n(1)with算符算符(W)与()与(nW)n n表示此算符两侧的检索词在命中记录中必须出表示此算符两侧的检索词在命中记录中必须出表示此算符两侧的检索词在命中记录中必须出表示此算符两侧的检索词在命中记录中必须出现在现在现在现在同一字段同一字段同一字段同一字段中(如篇名或文摘等),中(如篇名或文摘等),中(如篇名或文摘等),中(如篇名或文摘等),位置相位置相位置相位置相邻且顺序不可颠倒邻且顺序不可颠倒邻且顺序不可颠倒邻且顺序不可颠倒。n n(2)near算符算符(N)与()与(nN)n n A near BA near B表示命中记录中左右两个检索词出现表示命中记录中左右两个检索词出现表示命中记录中左右两个检索词出现表示命中记录中左右两个检索词出现在在在在同一句子同一句子同一句子同一句子中。中。中。中。无论语序。无论语序。无论语序。无论语序。274.3.5 其他检索技术一、加权检索一、加权检索一、加权检索一、加权检索(Weighting SearchingWeighting Searching )n n是一种是一种定量定量定量定量检索的技术。检索的技术。从量的方面对检索词之从量的方面对检索词之间的组配关系加以限制和表示。间的组配关系加以限制和表示。n n在每个提问词后面给定一个数值表示其重要程度,在每个提问词后面给定一个数值表示其重要程度,这个数值称为权(这个数值称为权(WeightWeight),在检索时,先查找),在检索时,先查找这些检索词在数据库记录中是否存在,然后计算这些检索词在数据库记录中是否存在,然后计算存在的检索词的权值总和。权值之和超过阈值,存在的检索词的权值总和。权值之和超过阈值,该记录为命中文献该记录为命中文献n n缩小检索范围,提高检准率的有效方法缩小检索范围,提高检准率的有效方法28n n二、聚类检索:二、聚类检索:二、聚类检索:二、聚类检索:n n主题相近、内容相关的文献聚在一起,相异的被区分开来。n n计算文献的相似度,并把相似度较高的文献集中在一起,形成一个个的文献类。n n根据不同的聚类水平的要求,可以形成不同聚类层次的类目体系。29n n4.4.1 Internet的历史与发展的历史与发展n n一一.Internet的历史的历史n n19691969年,年,年,年,ARPANETARPANET(阿帕网),(阿帕网),(阿帕网),(阿帕网),7373年正式运行年正式运行年正式运行年正式运行n n19831983年,用于异种网络连接的年,用于异种网络连接的年,用于异种网络连接的年,用于异种网络连接的TCP/IPTCP/IP协议研制成功协议研制成功协议研制成功协议研制成功(实验网络向实用网络的转变)(实验网络向实用网络的转变)(实验网络向实用网络的转变)(实验网络向实用网络的转变)n n19861986年,年,年,年,NSFNETNSFNET,事实上的,事实上的,事实上的,事实上的INTERNETINTERNET主干网主干网主干网主干网n n19891989年,年,年,年,CERNCERN开发成功开发成功开发成功开发成功WWWWWW(超媒体信息)(超媒体信息)(超媒体信息)(超媒体信息)n n19911991年,年,年,年,INTERNETINTERNET实现商业入网实现商业入网实现商业入网实现商业入网n n19931993年,年,年,年,MosaicMosaic发表(图形用户界面)发表(图形用户界面)发表(图形用户界面)发表(图形用户界面)4.4Internet检索概述检索概述30二.我国Internet的发展n n我国正式加入因特网的历史较短,主要经历了两我国正式加入因特网的历史较短,主要经历了两个阶段:个阶段:n n 第一阶段第一阶段第一阶段第一阶段:年,以通过拨号年,以通过拨号实现电子邮件转发为特征。实现电子邮件转发为特征。n n 第二阶段第二阶段第二阶段第二阶段:年至今,实现了:年至今,实现了TCP/IPTCP/IP连接,连接,开通了因特网的全功能服务。开通了因特网的全功能服务。31CNNIC(中国互联网络信息中心中国互联网络信息中心)统计数据统计数据网民域名网站网页国际出口带宽20051.11亿259万69.42万26亿82,617M20061.37亿410万84.3万45亿256,696M20072.1亿1193万150万85亿368,927Mbps20082.98亿1682万 287万161亿640,286Mbps20093.84亿1681万323万336亿866,367Mbps20104.57亿866万191万600亿1,098,956Mbps20125.13亿32全球部分国家互联网普及率全球部分国家互联网普及率2009.12部分国家的互联网普及率截至截至2011年年12月底,中国互联网普及率较上年底提升月底,中国互联网普及率较上年底提升4个百分点,达到个百分点,达到38.3%。334.4.2 教育、科研与因特网教育、科研与因特网n n存储、查询信息n n了解学科动态,快速交流信息n n创造科研条件344.4.3 网络信息的特点及查询网络信息的特点及查询n n“每个人都能在网上找到对自己有用的信息。”n n特点:n n松散管理;微观有序,宏观无序;松散管理;微观有序,宏观无序;n n网络信息包罗万象;信息内容深度跨度很大;网络网络信息包罗万象;信息内容深度跨度很大;网络信息质量高下有别。信息质量高下有别。n n最常用的途径就是借助搜索引擎。354.54.5搜索引擎搜索引擎n搜索引擎使用率达到81.9%,用户规模3.75亿,成为网民第一大应用。在互联网信息迅速膨胀的今天,传统门户网站地位有所下降,而搜索作为互联网发展的引擎,越来越显现出其“新门户”的特点。-cnnic2010年报告 n n搜索引擎通常指的是基于整个互联网的搜索引擎。搜索引擎通常指的是基于整个互联网的搜索引擎。网站目录不等于搜索引擎网站目录不等于搜索引擎n n因特网的浅表信息和深层信息因特网的浅表信息和深层信息364.5.1 搜索引擎的工作原理搜索引擎的工作原理n n数据存储:n n数据采集:数据采集:n n采用机器人、蜘蛛、爬虫等网络搜索软件进行的采用机器人、蜘蛛、爬虫等网络搜索软件进行的n n数据组织:数据组织:n n利用索引软件将采集的网页进行标引、整序、组织,并建立索利用索引软件将采集的网页进行标引、整序、组织,并建立索引数据库引数据库n n数据检索:n n根据用户提出的要求,应用查询软件将其转换为计算机根据用户提出的要求,应用查询软件将其转换为计算机执行命令,在索引数据库是检索符合条件的网页记录执行命令,在索引数据库是检索符合条件的网页记录37n n、按检索功能分有:基于关键词的基于关键词的全文搜索引擎与分类目录型分类目录型搜索引擎n n、按检索内容分有:通用型搜索引擎与专业型搜索引擎n n、按组合方式分有:独立搜索引擎与元搜索引擎4.5.2 搜索引擎的类型(搜索引擎的类型(P55)38分类目录型搜索引擎的代表:YAHOO3940基于关键词的全文搜索引擎414.5.3 4.5.3 常用搜索引擎介绍常用搜索引擎介绍n n一.googlen n1998年9月由斯坦福大学博士生Larry Page与Sergey Brin创建。n n注重技术创新,业内有较高评价。占全球搜索请求量近1/3。n n支持多种语言。搜索响应速度快。42(一一)搜索功能介绍搜索功能介绍(参见帮助文件)(参见帮助文件)(参见帮助文件)(参见帮助文件)n n一般功能一般功能n n(1 1)自动使用)自动使用“AND”AND”进行查询进行查询n n(2 2)忽略词)忽略词 (3 3)短语搜索)短语搜索n n(4 4)高级搜索)高级搜索n n特殊功能特殊功能n n(1 1)查找)查找FlashFlash文件文件 (2 2)按链接搜索)按链接搜索n n(3 3)指定网域)指定网域 (4 4)手气不错)手气不错n n(5 5)货币转换)货币转换 (6 6)计算器)计算器n n(7 7)错别字改正)错别字改正 (8 8)中英文字典)中英文字典n n(9 9)定义)定义n n431.Google基本检索语法基本检索语法n n(1)(1)只只搜搜索索完完全全一一样样的的字字词词,不不使使用用“词词干干法法”,也不支持,也不支持 通配符通配符(*)搜索;)搜索;n n(2)(2)不区分大小写;不区分大小写;n n(3)(3)在多个关键词之间自动添加在多个关键词之间自动添加“AND“AND“n n(4)(4)不支持不支持“OR“OR“运算符运算符n n(5)(5)专专用用语语查查询询:只只要要在在专专用用词词语语上上加加上上双双引引号,就可以进行准确查询。号,就可以进行准确查询。n n(6)(6)加号加号“+”+”:后面的词必须出现:后面的词必须出现n n(7)(7)用减号用减号“”删除无关网页。删除无关网页。442.如何利用如何利用Google检索专业信息资料?检索专业信息资料?以及以及以及以及如何根据需要调整如何根据需要调整检索策略检索策略?n n例:如何在网络中查找有关“肺癌”的医学信息?45Google主页(中文界面)主页(中文界面)46GOOGLE检索结果界面47检索策略调整技巧检索策略调整技巧(1)n n1.限定语种:n n所有中文所有中文 1,3601,360,000000n n简体中文简体中文 920920,000000n n查英文文献查英文文献 lung cancerlung cancer:1919,100100n n2.选择更专业的提问词:n n肺癌肺癌肺肿瘤肺肿瘤 1,3601,360,0002100021,100100n n3.利用精选的网页目录 12648检索策略调整之一:限定中文网页检索策略调整之一:限定中文网页49检索策略调整之二:利用更专业的词汇检索策略调整之二:利用更专业的词汇50检索策略调整之三:利用网页目录检索策略调整之三:利用网页目录51检索策略调整技巧检索策略调整技巧(2)n n4.利用搜索引擎的高级检索模式(P60)n n限定提问词在限定提问词在“搜索结果搜索结果”中出现的形式中出现的形式n n指定检索以某一语言编写的网页指定检索以某一语言编写的网页n n限定要查询的网页更新的日期限定要查询的网页更新的日期n n指定查询字词位置(网页中的任何地方、网页的标题、指定查询字词位置(网页中的任何地方、网页的标题、网页的内文、网页的链接上)网页的内文、网页的链接上)n n限定搜索某一网域的网页限定搜索某一网域的网页(govgov、eduedu、com)com)n n“类似网页类似网页”:自动搜索某一网页的类似网页:自动搜索某一网页的类似网页n n“链接链接”:搜索与某一网址建立了链接的网页:搜索与某一网址建立了链接的网页52Google高级检索模式高级检索模式53检索策略调整技巧检索策略调整技巧(3)n n5.5.支持支持1313种非种非HTMLHTML文件的搜索。格式如:文件的搜索。格式如:“关关键词键词 filetype:pdffiletype:pdf”n n将文献类型限定为将文献类型限定为“pdfpdf”,”,可获取免费全文可获取免费全文n n提问式提问式“filetype:pdffiletype:pdf 肺癌肺癌”或或“filetype:pdffiletype:pdf taxoltaxol lung cancer“lung cancer“n n获取获取WORDWORD文档文档n n提问式提问式“filetype:docfiletype:doc 肺癌肺癌”n nPPTPPT:PowerpointPowerpoint文档文档n nXLS:EXCELXLS:EXCEL文档文档n
展开阅读全文