资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,1,信息检索系统的类型,2,信息检索系统的构成,3,标引处理,4,数据库的文档结构,5,倒排文档的检索技术,第三章 信息检索系统,3.1,信息检索系统及其类型,3.1.1,信息检索系统的概念,(,1,)定义:具有信息存储和信息查询功能的一类信息服务设施或者工具,(,2,)构成要素:,明确的目标,信息资源,技术装备,方法与措施,功能,(1),按设备划分,书本式检索系统,卡片式检索系统,穿孔卡片检索系统,缩微胶卷检索系统,计算机检索系统,光盘检索系统,多媒体检索系统,.1.2,信息检索系统的类型,(,2,)按照功能划分,文献检索系统,:狭义的信息检索系统,数据库管理系统,:面向结构化数据,自动问答系统,:自然语言处理、事实检索,管理信息系统,:面向管理人员,决策支持系统,:数据分析,.1.2,信息检索系统的类型,2026/5/26 周二,5,3.2,信息检索系统的构成,3.2.1,计算机检索系统的物理结构,计算机检索系统由计算机硬件、软件、数据库和通讯网络构成。,(,1,)硬件:是包括具有一定性能的主计算机、外围设备以及与数据处理或数据传送有关的其他设备。,(,2,)软件:由系统维护软件与检索软件构成。检索效果。,(,3,)数据库:在计算机存储设备上按一定方式存储的相互关联的数据集合。,2026/5/26 周二,6,3.2,信息检索系统的构成,3.2.2,检索系统的逻辑结构,信息检索系统的逻辑构成,(,1,)信息源选择与采集子系统。该功能模块的任务主要是根据系统需要,采取人工或者计算机自动方式,从众多信息源中选择和采集符合需要的信息资源。在有些计算机检索系统中,此部分还承担转换数据格式的任务。,(,2,)标引子系统。该功能模块的任务主要是对收集的信息资源进行内外部特征分析,并借助词表系统,对每条数据进行标引。目前,主题标引和分类标引主要是靠人工标引,而抽词标引主要是由计算机完成。,8,(,3,)建库子系统。该功能模块的任务是建立和维护可直接用于计算机检索的数据库。主要工作包括数据录入、错误检查与处理、数据格式转换、生成和更新各种文档、建立各种索引数据库等。,(,4,)词表管理子系统。该功能模块的任务是建立和管理维护系统中的主题词表和分类表,并使它们和标引、建库等子系统相连接,支持用户的各种词汇查询操作。该系统可以独立存在,也可以和建库子系统中的词典文档合并在一起。,信息检索系统的逻辑构成,(,5,)用户接口子系统。它的全称为“系统,-,用户接口”(,system-user interface,),简称用户接口。它的任务是承担用户与系统之间的通信功能,通常由用户模型、信息显示、命令语言和反馈机制等部分构成。,(,6,)提问处理子系统。该功能模块的任务是负责处理用户输入的提问式,并将它们与数据库存储的数据进行比较运算,然后将运算结果输入给用户。该模块主要由检索程序构成,包括:接收提问、提问校验、提问加工和检索。,信息检索系统的逻辑构成,3.3,标引处理,3.3.1,基本概念,标引:,indexing,对信息资源的各种检索特征进行分析并使之显性化。,标引深度:衡量标引详尽性,标引词对每条记录各方面内容表达和识别的详尽程度,标引专指度:衡量标引词对记录特定内容描述的精细程度。,标引方式:人工标引和自动标引,抽词标引和赋词标引,11,Document indexing,Goal=identify the important,meanings,and create an internal representation,Factors to consider:,Accuracy to represent meanings(semantics),Exhaustiveness(cover all the contents),Facility for computer to manipulate,What is the best representation of contents?,Char.string,(char bigrams):not precise enough,Word,:good coverage,not precise,Phrase,:poor coverage,more precise,Concept,:poor coverage,precise,Coverage,(Recall),Accuracy,(Precision),String Word Phrase Concept,3.3.2,自动标引处理流程,图见教材,60,页。,3.3,标引处理,3.3.3,自动标引中的词语加权方案,(,1,)绝对词频法,根据每个词在特定文档(集合)中的出现频次来确定该词重要程度的一种方法,最早有卢恩提出。基本原理,给定一个由,N,篇文档组成的文档集合,计算出每篇文档中每个不同的词的出现次数。,把每个不同的词在,N,篇文档的出现次数相加,得到词,K,的集合频率。,按集合频率递减顺序排列这些词,并确定高频词和低频词的阈值。挑选剩下的中频词作为标引词,并按照他们在相应文档的出现频次确定权重。,缺点是什么?,3.3,标引处理,14,Keyword selection and weighting,How to select,important,keywords?,Simple method:using middle-frequency words,(,2,)逆文档频率法,英文,Inverse Document Frequency,基于以下假设:某词的重要性与它在特定文档中的出现次数成正比,与含有该词的文档数成反比。,词频加逆文档词频确定权值的方法得到了广泛的应用。,3.3,标引处理,3.3.3,自动标引中的词语加权方案,16,tf=term frequency,frequency of a term/keyword in a document,The higher the tf,the higher the importance(weight)for the doc.,df=document frequency,no.of documents containing the term,distribution of the term,idf=inverse document frequency,the unevenness of term distribution in the corpus,the specificity of term to a document,The more the term is distributed evenly,the less it is specific to a document,weight(t,D)=tf(t,D)*idf(t),tf*idf weighting schema,3.3.3,自动标引中的词语加权方案,3.3,标引处理,3.3.4,中文自动标引,中文和西文(英文)的不同,中文标引关注词语切分,对于词语加权关注较少。,词语切分方法,(,1,)词典切分法,(,2,)单汉字法,3.3,标引处理,19,Result of indexing,Each document is represented by a set of weighted keywords(terms):,D,1,(t,1,w,1,),(t,2,w,2,),e.g.,D,1,(comput,0.2),(architect,0.3),D,2,(comput,0.1),(network,0.5),Inverted file:,comput (D,1,0.2),(D,2,0.1),Inverted file is used during retrieval for higher efficiency.,3.4,数据库的建立和维护,3.4.1,数据库的类型,参考数据库,源数据库,参考数据库,(Reference databases),是指引用户到另一信息源以获得原文或其他细节的一类数据库。它包括,书目数据库(,Bibliographic databases,),指南数据库,(Referral database,或,Directory database),两种,参考数据库,(,1,)书目数据库是指存储某个领域的二次文献(如文摘、题录、目录等书目数据)的一类数据库,如中国机械工程文摘数据库,属于此类型数据库。,(,2,)指南数据库也称指示性数据库,是指存储关于某些机构、人物、出版物、项目、程序、活动等对象的简要描述,指引用户从其他有关信息源获取更详细的信息的一类数据库。如产品目录、机构名录、研发项目、基金项目等数据库均属于此类型。,源数据库(,Source databases,),是指能直接提供原始资料或具体数据的数据库,用户不必再查阅其他信息源。它可以分为:(,1,)数值数据库:这是一种专门提供以数值方式表示的数据的源数据库,如统计数据库、财务数据库等。(,2,)文本,-,数值数据库:这是一种能同时提供文本信息和数值数据的源数据库,如企业信息数据库、产品数据库等。(,3,)全文数据库:这是一种存储文献全文或其中主要部分的源数据库,如法律法规全文库、期刊全文库等。,(,4,)术语数据库:这是一种专门存储名词术语信息、词语信息以及术语工作和语言规范工作成果的源数据库,如名词术语信息库、各种电子化辞书等。,(,5,)图像数据库:这是一种用来存储各种图像或图形信息及有关文字说明资料的源数据库,主要应用于建筑、设计、广告、产品、图片或照片等资料类型的计算机存储与检索。,(,1,)记录与字段,记录,(record),是作为一个单位来处理的有关数据的集合,是对某一实体的属性进行描述的结果。,在书目数据库中,被描述的实体是某一特定的文献,实体的属性就是该文献的特征,例如文献的题名、作者、发表时间、语种、分类号、主题词等。,3.4.2,书目数据库的结构,字段,(field),是记录的下级数据单位,用来描述实体的某一属性。一个记录中通常含有文献号字段、题名字段、作者字段、出版字段、语种字段、文摘字段、主题词字段、分类号字段等各种必要的字段。每个字段的具体内容称为字段值,(field value),或属性值,(attribute value),。、,子字段,(subfield),是字段的下一级数据单位。在有些字段中,它们的值往往由多个子项构成。例如,作者字段可能含有多个作者,出版字段含有出版者、出版地和出版年,主题词字段含有若干个主题词。,(,4,)文档:,若干个逻辑纪录构成的信息集合。,(,5,)逻辑记录,:某些逻辑上相关联的数据组织在一起的数据集合称为逻辑记录。,(,6,)物理记录,:硬件设备上一个基本存储单位,块,,block,。,(,2,)文档的类型,若干个逻辑记录构成的信息集合称为文档,(file),。,文档是书目数据库和文献检索系统中数据组织的基本形式。,(,2,)文档的类型,顺序文档,顺序文档,(sequential file),是文档在计算机存储器中的一种存放形式,文档中的全部记录按顺序一个接一个地存放,记录的物理位置通常由记录的键值决定,记录之间的逻辑顺序与物理顺序一致。,文档的修改和删除操作比较简单,但插入操作较为麻烦,存取时间与数据的物理位置有关。,随机文档,文档中的记录按随机方式存放在支持直接存取的磁盘、磁鼓或内存中。在记录的关键码与存放该记录的地址之间建立某种关系,根据这种关系来确定该记录在文档中的位置以及对文档进行存取的方式。,对文档中的记录可以随机存取,不考虑记录在文档中的排列次序,数据的存取时间与数据的存储位置无关。,实现随机文档快速存取的关键是寻址技术。,(,2,)文档的类型,主文档,(master file),书目数据库中描述每篇文献的完整记录通常以线性排列方式存放在磁带或磁盘上。检索时,只能按其物理顺序读取这些记录及其中的字段。由于它存储有关于每篇文献的最完整信息,所以通常又把它称为主文档,(master file),。,(,2,)文档的类型,倒排文档,所谓倒排档,就是把记录中一切可检字段或属性值,(,如著者名、主题词等,),抽出,按某种顺序重新加以组织后所得到的一种文档。既可以按不同类型的字段组成不同的倒排档,(,如著者倒排档、主题词倒排档等,),,也可以把所有不同的字段组成一个混合倒排档。,(,2,)文档的类型,Documents are parsed to extract words(or stems)and these are saved with the Document ID.,How Are Inverted Files,Created,倒,排档的生成,Now is the time,for all good men,to come to the aid,of their country,It was a dark and,stormy night in,the country,manor.The time,was past midnight,How Inverted Files are Created,After all document have been parsed the inverted file is sorted,How Inverted Files are Created,Multiple term entries for a single document are merged and frequency information added,The file is commonly split into a,Dictionary,and a,Postings,file,How Inverted Files are Created,(,3,)文档的存贮结构,A,固定格式、固定长字段,1,)物理记录和逻辑记录相一致,可以理解为一个逻辑记录一个块。,2,)每条记录中的字段数量、字段长度、子字段的长度以及排列位置顺序都是不变的。,3,)物理块的大小必须依据逻辑记录的最大可能的长度来确定。,4,)优缺点:,优点:便于处理,缺点:造成空间的浪费,造成数据的遗失。,B,固定格式、可变长,记录中字段数目和位置的排列是固定的,但各字段的长度是可变的。,一些早期的图书采购磁带格式采用这种方式,国际标准书号、订购号、书名项、出版项、单价、发票号、订购数,书商、订购日期,需要识别字段的开始、结束以及记录的结束,引入字段标识符、字段结束符、记录结束符。,(,3,)文档的存贮结构,C,可变格式、可变长,没有任何空间上的浪费。,记录头标区:固定长,,24,目次区:有多个目次项和一个分隔符组成。每个目次项占,12,个字节。结构如下:,标识符 段长 段起始位置,3 4 5,目次区的长度依目次项的数量而定,长度为,12N+1,数据区:,记录分隔符,(,3,)文档的存贮结构,书目数据库的记录格式,“,ISO-2709,格式,”,记录头标,(1eader),、,目次,(directory),、,数据区,(data field),记录分隔符。,头标区,头标是对一条书目记录的简要说明,固定长度,共含,24,字节,其信息内容及布局如下:,记录总长,(,字符位置,o,4),。用,5,位十进制数表示记录中字符的个数,包括头标区、目次区、数据区和记录分隔符。,记录状态,(,字符位置,5),。用单一字符,如字母,N,或,C,等,标示该记录是新增、修改,还是删除过的。,记录类型与目录级别,(-7,符位置,6,9),。用代码表示记录类型,(,图书、期刊、文章、地图、图片等,),和文献目录级别,(,分析性、专题性和连续出版物等,),。,指示符长,(-7,符位置,10),。以一个十进制数给出指示符位数,若不用指示符,则长度为,0,。,头标区,标识符长,(,字符位置,11),。以一个十进制数给出子字段标识符位数。若没有标识符,则长度为,0,。若有标识符,则其第一个字符必须是,IS0646,的,ISl(,相当于,16,进制的代码,1E,,通常记为,(1E)16),。,数据基地址,(,字符位置,12,16),。用,5,位十进制数给出记录头标区与目次区的总长度。,用户自由利用区,(,字符位置,17,19,,,23),。,段长信息,(,字符位置,20,22),目次区,目次区由多个目次项加一个域,(,段,),分隔符组成。每个目次项分为标识符、段,(,域,),长和段,(,域,),起始字符位置以及,“,指定执行部分,”,(,可选,),等部分,共占,12,个字节。,数据区,在目录数据区中,用字段指示符,(,域指示符,),标识某一字段的性质或与其他字段的关系,字段分隔符用,ISO-646,的,IS2,表示,相当于十六进制代码,1F(,写作,(1F)16),;在字段中可以用子字段标识符,(,子域标识符,),进一步标识子字段。,(,4,)记录分隔符,记录分隔符,亦称记录结束符,用,ISO,一,646,的,IS,。表示,相当于十六进制代码,1D(,写作,(1D)16),例如:,头标区:,01041cam 2200265 a 4500,目次区,001,002000000,003,000400020,005,001700024,008,004100041,010,002400082,020,002500106,030,0 04400131,040,001800175,050,002400193,082,001800217,。,数据区,891101s1990#maua#j#000#0#eng#$a#89048230#/AC/r91#$a0316107514:$c$12.95#$a 0316107506(pbk.):$c$5.95($6.95 Can.)#$aDLC$cD LC$dDLC00$aGV943.25$b.B74 199000$a796.334/2$220 10$aBrenner,Richard J.,$d1941-10$aMake the team.$pSoccer:$ba heads up guide to super soccer!/$cR ichard J.Brenner.30$aHeads up guide to super soc cer.#$a1st ed.#$aBoston:$bLittle,Brown,$cc19 90.#$a127 p.:$bill.;$c19 cm.#$aA Sports ill ustrated for kids book.#$aInstructions for impr oving soccer skills.Discusses dribbling,heading,playmaking,defense,conditioning,mental attitud e,how to handle problems with coaches,parents,a nd other players,and the history of soccer.#0$aS occer$vJuvenile literature.#1$aSoccer.,(,5,),数据库的文档结构,不是所有的检索系统的文档结构都是一致的,但是基本上包括主文档,MF,、主文档的索引文档,MX,、倒排档,IF,、倒排档的索引文档(,IX),和词表文档。,1,)主文档,MFMain Files,一般按照顺序文档方式。,采取可变长格式、组块存储。,大型的数据库一般可以分成若干个主文档来存储。如,DIALOG,的化学文摘数据库就分为六个文档。,2,)主文档索引,(MX),即主文档的索引文档,指明每条记录在磁盘上的存贮起始地址。,结构如下:,存取号 地址指针,(,5,),数据库的文档结构,3,)倒排档,(IF),就是将纪录中一切可见字段或属性值抽出,按照某种顺序重新加以组织后得到的一种文档。既可以按不同类型的字段组成不同到排档。(著者到排档、主题词倒排档等),也可以把所有不同的字段组成一个混合倒排档。,存贮与检索键对应的记录号集合。,(,5,),数据库的文档结构,如:按照关键词顺序,A 1,2,8,B 2,5,6,7,C 2,3,4,1,2,8,2,5,6,7,2,3,4,4,)倒排档索引,“,词典,”,文档,也称为倒排档索引,单独存贮各种作为检索键的值,如著者名、主题词、分类号、自由词等;,n,为出现频次,即有关的记录个数,;p,为地址指针,指向相应的倒排档记录的相对地址。,码值 命中数 记录号地址指针,K n p,(,5,),数据库的文档结构,各文档之间的关系,针对文摘索引数据库和全文数据库来说,还应该标明字段和字词出现的位置,这样,才能支持位置检索。,a 100 1 0001 ti1,amusing 2 101 0004 ab5,5,)词表文档,首先必须要有一部主题词表或叙词表,帮助用户选择检索词,提高检索效率。,(,5,),数据库的文档结构,(,6,)书目数据库的建立和维护,1,)数据库的设计,A,市场与用户调查。,包括以下两个方面:,市场调查:当前数据库的数量、类型、学科分布、地理分布、生产者、利用情况、发展动向等。非常重要的一环,国内目前许多数据库成为死库在很大程度上是由于没有进行市场分析。,思考:如何获得这方面的信息?,用户调查:调查用户需求以及对检索系统的期待。(内容范围、检索功能、数据完整性、以及提供方式等)。,B,数据库设计。,包括以下几种设计:,逻辑设计,在市场调查的基础上,确定用户类型、内容范围、功能。,技术设计,确定数据库的总体结构,各文档的结构,文档之间的联系、物理组织方式以及存储空间的分配等。,模拟建库,测试评价。,(,6,)书目数据库的建立和维护,2,)数据准备,数据采集。根据设计方案规定的数据库内容范围和数据类型,采集所需要的数据。,数据评价。评价方法可以采用引文分析法、专家评价法、用户调查法、来源渠道和著者鉴别法等。,数据加工整理。数据加工整理工作包括数据源的分析,数据的提取与描述,数据错误及一致性的校验与纠正等。,(,6,)书目数据库的建立和维护,3,)文献的初始化处理,格式标准化:,语言编码标准化,,unicode Gb2312 big5,,存储格式的选择,,Mpeg,,,Jpeg,,有损压缩和无损压缩。,确定检索范围,(,检索途径,),:,检索途径,(,子段,),,全文,(,篇名,摘要,关键词,正文,参考文献等部分,),。,(,6,)书目数据库的建立和维护,3,)文献的初始化处理,非检索词的处理,(,标点符号停用词,etc),:,目的是提高运算速度,节省存储空间。涉及到:标点符号,某些标点符号按照实际情况需要进行处理,如表示所有格的符号、连字符,small business men,等。,停用词和停用算法:,主要指没有任何检索意义的词,包括介词,冠次以及一些其他出现次数过多的词,.,思考:使用停用词和停用算法对查全率和查准率会有什么影响?,明确词义,(,上下位类,大小写,),。,(,6,)书目数据库的建立和维护,4,)建库,在设计方案最后敲定和数据准备工作就绪以后,就可以实际开始建库作业了。建库就是利用现有的数据将规划中的数据库加以实现。它包括以下环节:,硬件的安装调试。,软件的编制或购买与调试,数据的装入和生成各种文档。,数据库的试运行和鉴定验收。,(,6,)书目数据库的建立和维护,5,)维护,数据库投入运行后,必须定期进行维护与更新,以适应用户需求和文献生产状况的变化。,维护主要指对数据库系统硬件设备的维修、保养和对系统软件功能的修改与扩充。,更新主要指对文献库的数据内容进行添加和重新组织。,(,6,)书目数据库的建立和维护,全文数据库,全文数据库是一种存储文献全文或其中的主要部分的源数据库。,它最早出现于法律领域。,1961,年第一个文献数据库建成并投入使用,(,即美国的,“,匹兹堡系统,”,中的法律全文数据库,),匹兹堡法律全文检索系统问世后,引起了律师们的浓厚兴趣。,1,)按出版方式划分:一类是与印刷型文献平行出版的全文库,另一类是纯电子出版物,无相应的印刷型文本。,2,)按存储内容划分,直接原文型和摘录型。,直接原文型:直接存储文献的正文,有时甚至还包括正文以外的其他信息,如脚注、参考文献目录、文摘等。,摘录型:原文经过压缩提炼的,改写成若干篇一定长度的摘录,(,不同于文摘,),。,全文数据库的种类,3,)按应用领域划分,法律法规全文库或条法库,如,LEXIS,、,WESTLAW,。,期刊文章全文库,如美国化学会原始期刊数据库,(,在,BRS,系统中,),。,商情全文库,如英国,Datasolve,公司的市场新闻和研究报告全文库,,新闻消息全文库,如美国的,NEXIS,、,NEWSNET,全文数据库的特点与用途,优点:,直接性。,详尽性。,快速。,标引方法简单。,检索语言多用自然语言,少数用受控语言。检索方法除使用布尔检索以外,位置检索占有相当突出的地位。,请举出你所使用过的全文检索系统,1,、信息检索系统的逻辑构成以及各个部分之间的关系,2,、标引系统主要的任务是什么?,3,、书目数据库的结构如何,?,4,、磁带格式是什么,?,标准的磁带格式有何规定,?,5,、如何建造和维护一个数据库,?,6,、全文数据库的特点和用途是什么,?,7,、中文和西文文献的初始化处理有何不同?,8,、以书目查询系统系统为例,是否均应设计成两个文件的组织方式?固定长方式是否没有用武之地了?,9,、标引中如何赋予权重?,本章思考题,
展开阅读全文