ImageVerifierCode 换一换
格式:PPT , 页数:69 ,大小:839.50KB ,
资源ID:14005635      下载积分:10 金币
快捷注册下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/14005635.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

开通VIP折扣优惠下载文档

            查看会员权益                  [ 下载后找不到文档?]

填表反馈(24小时):  下载求助     关注领币    退款申请

开具发票请登录PC端进行申请

   平台协调中心        【在线客服】        免费申请共赢上传

权利声明

1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:0574-28810668;投诉电话:18658249818。

注意事项

本文(第三章信息检索系统.ppt)为本站上传会员【s4****5z】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4009-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

第三章信息检索系统.ppt

1、单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,1,信息检索系统的类型,2,信息检索系统的构成,3,标引处理,4,数据库的文档结构,5,倒排文档的检索技术,第三章 信息检索系统,3.1,信息检索系统及其类型,3.1.1,信息检索系统的概念,(,1,)定义:具有信息存储和信息查询功能的一类信息服务设施或者工具,(,2,)构成要素:,明确的目标,信息资源,技术装备,方法与措施,功能,(1),按设备划分,书本式检索系统,卡片式检索系统,穿孔卡片检索系统,缩微胶卷检索系统,计算机检索系统,光盘检索系统,多媒体检索系统,.1.2,信息检索系统的类型,(,2,

2、按照功能划分,文献检索系统,:狭义的信息检索系统,数据库管理系统,:面向结构化数据,自动问答系统,:自然语言处理、事实检索,管理信息系统,:面向管理人员,决策支持系统,:数据分析,.1.2,信息检索系统的类型,2026/5/26 周二,5,3.2,信息检索系统的构成,3.2.1,计算机检索系统的物理结构,计算机检索系统由计算机硬件、软件、数据库和通讯网络构成。,(,1,)硬件:是包括具有一定性能的主计算机、外围设备以及与数据处理或数据传送有关的其他设备。,(,2,)软件:由系统维护软件与检索软件构成。检索效果。,(,3,)数据库:在计算机存储设备上按一定方式存储的相互关联的数据集合。,202

3、6/5/26 周二,6,3.2,信息检索系统的构成,3.2.2,检索系统的逻辑结构,信息检索系统的逻辑构成,(,1,)信息源选择与采集子系统。该功能模块的任务主要是根据系统需要,采取人工或者计算机自动方式,从众多信息源中选择和采集符合需要的信息资源。在有些计算机检索系统中,此部分还承担转换数据格式的任务。,(,2,)标引子系统。该功能模块的任务主要是对收集的信息资源进行内外部特征分析,并借助词表系统,对每条数据进行标引。目前,主题标引和分类标引主要是靠人工标引,而抽词标引主要是由计算机完成。,8,(,3,)建库子系统。该功能模块的任务是建立和维护可直接用于计算机检索的数据库。主要工作包括数据录

4、入、错误检查与处理、数据格式转换、生成和更新各种文档、建立各种索引数据库等。,(,4,)词表管理子系统。该功能模块的任务是建立和管理维护系统中的主题词表和分类表,并使它们和标引、建库等子系统相连接,支持用户的各种词汇查询操作。该系统可以独立存在,也可以和建库子系统中的词典文档合并在一起。,信息检索系统的逻辑构成,(,5,)用户接口子系统。它的全称为“系统,-,用户接口”(,system-user interface,),简称用户接口。它的任务是承担用户与系统之间的通信功能,通常由用户模型、信息显示、命令语言和反馈机制等部分构成。,(,6,)提问处理子系统。该功能模块的任务是负责处理用户输入的提

5、问式,并将它们与数据库存储的数据进行比较运算,然后将运算结果输入给用户。该模块主要由检索程序构成,包括:接收提问、提问校验、提问加工和检索。,信息检索系统的逻辑构成,3.3,标引处理,3.3.1,基本概念,标引:,indexing,对信息资源的各种检索特征进行分析并使之显性化。,标引深度:衡量标引详尽性,标引词对每条记录各方面内容表达和识别的详尽程度,标引专指度:衡量标引词对记录特定内容描述的精细程度。,标引方式:人工标引和自动标引,抽词标引和赋词标引,11,Document indexing,Goal=identify the important,meanings,and create an

6、 internal representation,Factors to consider:,Accuracy to represent meanings(semantics),Exhaustiveness(cover all the contents),Facility for computer to manipulate,What is the best representation of contents?,Char.string,(char bigrams):not precise enough,Word,:good coverage,not precise,Phrase,:poor c

7、overage,more precise,Concept,:poor coverage,precise,Coverage,(Recall),Accuracy,(Precision),String Word Phrase Concept,3.3.2,自动标引处理流程,图见教材,60,页。,3.3,标引处理,3.3.3,自动标引中的词语加权方案,(,1,)绝对词频法,根据每个词在特定文档(集合)中的出现频次来确定该词重要程度的一种方法,最早有卢恩提出。基本原理,给定一个由,N,篇文档组成的文档集合,计算出每篇文档中每个不同的词的出现次数。,把每个不同的词在,N,篇文档的出现次数相加,得到词,K,的

8、集合频率。,按集合频率递减顺序排列这些词,并确定高频词和低频词的阈值。挑选剩下的中频词作为标引词,并按照他们在相应文档的出现频次确定权重。,缺点是什么?,3.3,标引处理,14,Keyword selection and weighting,How to select,important,keywords?,Simple method:using middle-frequency words,(,2,)逆文档频率法,英文,Inverse Document Frequency,基于以下假设:某词的重要性与它在特定文档中的出现次数成正比,与含有该词的文档数成反比。,词频加逆文档词频确定权值的方法得

9、到了广泛的应用。,3.3,标引处理,3.3.3,自动标引中的词语加权方案,16,tf=term frequency,frequency of a term/keyword in a document,The higher the tf,the higher the importance(weight)for the doc.,df=document frequency,no.of documents containing the term,distribution of the term,idf=inverse document frequency,the unevenness of term

10、 distribution in the corpus,the specificity of term to a document,The more the term is distributed evenly,the less it is specific to a document,weight(t,D)=tf(t,D)*idf(t),tf*idf weighting schema,3.3.3,自动标引中的词语加权方案,3.3,标引处理,3.3.4,中文自动标引,中文和西文(英文)的不同,中文标引关注词语切分,对于词语加权关注较少。,词语切分方法,(,1,)词典切分法,(,2,)单汉字法,

11、3.3,标引处理,19,Result of indexing,Each document is represented by a set of weighted keywords(terms):,D,1,(t,1,w,1,),(t,2,w,2,),e.g.,D,1,(comput,0.2),(architect,0.3),D,2,(comput,0.1),(network,0.5),Inverted file:,comput (D,1,0.2),(D,2,0.1),Inverted file is used during retrieval for higher efficiency.,3.4

12、数据库的建立和维护,3.4.1,数据库的类型,参考数据库,源数据库,参考数据库,(Reference databases),是指引用户到另一信息源以获得原文或其他细节的一类数据库。它包括,书目数据库(,Bibliographic databases,),指南数据库,(Referral database,或,Directory database),两种,参考数据库,(,1,)书目数据库是指存储某个领域的二次文献(如文摘、题录、目录等书目数据)的一类数据库,如中国机械工程文摘数据库,属于此类型数据库。,(,2,)指南数据库也称指示性数据库,是指存储关于某些机构、人物、出版物、项目、程序、活动等对

13、象的简要描述,指引用户从其他有关信息源获取更详细的信息的一类数据库。如产品目录、机构名录、研发项目、基金项目等数据库均属于此类型。,源数据库(,Source databases,),是指能直接提供原始资料或具体数据的数据库,用户不必再查阅其他信息源。它可以分为:(,1,)数值数据库:这是一种专门提供以数值方式表示的数据的源数据库,如统计数据库、财务数据库等。(,2,)文本,-,数值数据库:这是一种能同时提供文本信息和数值数据的源数据库,如企业信息数据库、产品数据库等。(,3,)全文数据库:这是一种存储文献全文或其中主要部分的源数据库,如法律法规全文库、期刊全文库等。,(,4,)术语数据库:这是

14、一种专门存储名词术语信息、词语信息以及术语工作和语言规范工作成果的源数据库,如名词术语信息库、各种电子化辞书等。,(,5,)图像数据库:这是一种用来存储各种图像或图形信息及有关文字说明资料的源数据库,主要应用于建筑、设计、广告、产品、图片或照片等资料类型的计算机存储与检索。,(,1,)记录与字段,记录,(record),是作为一个单位来处理的有关数据的集合,是对某一实体的属性进行描述的结果。,在书目数据库中,被描述的实体是某一特定的文献,实体的属性就是该文献的特征,例如文献的题名、作者、发表时间、语种、分类号、主题词等。,3.4.2,书目数据库的结构,字段,(field),是记录的下级数据单位

15、用来描述实体的某一属性。一个记录中通常含有文献号字段、题名字段、作者字段、出版字段、语种字段、文摘字段、主题词字段、分类号字段等各种必要的字段。每个字段的具体内容称为字段值,(field value),或属性值,(attribute value),。、,子字段,(subfield),是字段的下一级数据单位。在有些字段中,它们的值往往由多个子项构成。例如,作者字段可能含有多个作者,出版字段含有出版者、出版地和出版年,主题词字段含有若干个主题词。,(,4,)文档:,若干个逻辑纪录构成的信息集合。,(,5,)逻辑记录,:某些逻辑上相关联的数据组织在一起的数据集合称为逻辑记录。,(,6,)物理记录,

16、硬件设备上一个基本存储单位,块,,block,。,(,2,)文档的类型,若干个逻辑记录构成的信息集合称为文档,(file),。,文档是书目数据库和文献检索系统中数据组织的基本形式。,(,2,)文档的类型,顺序文档,顺序文档,(sequential file),是文档在计算机存储器中的一种存放形式,文档中的全部记录按顺序一个接一个地存放,记录的物理位置通常由记录的键值决定,记录之间的逻辑顺序与物理顺序一致。,文档的修改和删除操作比较简单,但插入操作较为麻烦,存取时间与数据的物理位置有关。,随机文档,文档中的记录按随机方式存放在支持直接存取的磁盘、磁鼓或内存中。在记录的关键码与存放该记录的地址之

17、间建立某种关系,根据这种关系来确定该记录在文档中的位置以及对文档进行存取的方式。,对文档中的记录可以随机存取,不考虑记录在文档中的排列次序,数据的存取时间与数据的存储位置无关。,实现随机文档快速存取的关键是寻址技术。,(,2,)文档的类型,主文档,(master file),书目数据库中描述每篇文献的完整记录通常以线性排列方式存放在磁带或磁盘上。检索时,只能按其物理顺序读取这些记录及其中的字段。由于它存储有关于每篇文献的最完整信息,所以通常又把它称为主文档,(master file),。,(,2,)文档的类型,倒排文档,所谓倒排档,就是把记录中一切可检字段或属性值,(,如著者名、主题词等,),

18、抽出,按某种顺序重新加以组织后所得到的一种文档。既可以按不同类型的字段组成不同的倒排档,(,如著者倒排档、主题词倒排档等,),,也可以把所有不同的字段组成一个混合倒排档。,(,2,)文档的类型,Documents are parsed to extract words(or stems)and these are saved with the Document ID.,How Are Inverted Files,Created,倒,排档的生成,Now is the time,for all good men,to come to the aid,of their country,It was

19、 a dark and,stormy night in,the country,manor.The time,was past midnight,How Inverted Files are Created,After all document have been parsed the inverted file is sorted,How Inverted Files are Created,Multiple term entries for a single document are merged and frequency information added,The file is co

20、mmonly split into a,Dictionary,and a,Postings,file,How Inverted Files are Created,(,3,)文档的存贮结构,A,固定格式、固定长字段,1,)物理记录和逻辑记录相一致,可以理解为一个逻辑记录一个块。,2,)每条记录中的字段数量、字段长度、子字段的长度以及排列位置顺序都是不变的。,3,)物理块的大小必须依据逻辑记录的最大可能的长度来确定。,4,)优缺点:,优点:便于处理,缺点:造成空间的浪费,造成数据的遗失。,B,固定格式、可变长,记录中字段数目和位置的排列是固定的,但各字段的长度是可变的。,一些早期的图书采购磁带格

21、式采用这种方式,国际标准书号、订购号、书名项、出版项、单价、发票号、订购数,书商、订购日期,需要识别字段的开始、结束以及记录的结束,引入字段标识符、字段结束符、记录结束符。,(,3,)文档的存贮结构,C,可变格式、可变长,没有任何空间上的浪费。,记录头标区:固定长,,24,目次区:有多个目次项和一个分隔符组成。每个目次项占,12,个字节。结构如下:,标识符 段长 段起始位置,3 4 5,目次区的长度依目次项的数量而定,长度为,12N+1,数据区:,记录分隔符,(,3,)文档的存贮结构,书目数据库的记录格式,“,ISO-2709,格式,”,记录头标,(1eader),、,目次,(director

22、y),、,数据区,(data field),记录分隔符。,头标区,头标是对一条书目记录的简要说明,固定长度,共含,24,字节,其信息内容及布局如下:,记录总长,(,字符位置,o,4),。用,5,位十进制数表示记录中字符的个数,包括头标区、目次区、数据区和记录分隔符。,记录状态,(,字符位置,5),。用单一字符,如字母,N,或,C,等,标示该记录是新增、修改,还是删除过的。,记录类型与目录级别,(-7,符位置,6,9),。用代码表示记录类型,(,图书、期刊、文章、地图、图片等,),和文献目录级别,(,分析性、专题性和连续出版物等,),。,指示符长,(-7,符位置,10),。以一个十进制数给出指示

23、符位数,若不用指示符,则长度为,0,。,头标区,标识符长,(,字符位置,11),。以一个十进制数给出子字段标识符位数。若没有标识符,则长度为,0,。若有标识符,则其第一个字符必须是,IS0646,的,ISl(,相当于,16,进制的代码,1E,,通常记为,(1E)16),。,数据基地址,(,字符位置,12,16),。用,5,位十进制数给出记录头标区与目次区的总长度。,用户自由利用区,(,字符位置,17,19,,,23),。,段长信息,(,字符位置,20,22),目次区,目次区由多个目次项加一个域,(,段,),分隔符组成。每个目次项分为标识符、段,(,域,),长和段,(,域,),起始字符位置以及,

24、指定执行部分,”,(,可选,),等部分,共占,12,个字节。,数据区,在目录数据区中,用字段指示符,(,域指示符,),标识某一字段的性质或与其他字段的关系,字段分隔符用,ISO-646,的,IS2,表示,相当于十六进制代码,1F(,写作,(1F)16),;在字段中可以用子字段标识符,(,子域标识符,),进一步标识子字段。,(,4,)记录分隔符,记录分隔符,亦称记录结束符,用,ISO,一,646,的,IS,。表示,相当于十六进制代码,1D(,写作,(1D)16),例如:,头标区:,01041cam 2200265 a 4500,目次区,001,002000000,003,000400020,

25、005,001700024,008,004100041,010,002400082,020,002500106,030,0 04400131,040,001800175,050,002400193,082,001800217,。,数据区,891101s1990#maua#j#000#0#eng#$a#89048230#/AC/r91#$a0316107514:$c$12.95#$a 0316107506(pbk.):$c$5.95($6.95 Can.)#$aDLC$cD LC$dDLC00$aGV943.25$b.B74 199000$a796.334/2$220 10$aBrenner,R

26、ichard J.,$d1941-10$aMake the team.$pSoccer:$ba heads up guide to super soccer!/$cR ichard J.Brenner.30$aHeads up guide to super soc cer.#$a1st ed.#$aBoston:$bLittle,Brown,$cc19 90.#$a127 p.:$bill.;$c19 cm.#$aA Sports ill ustrated for kids book.#$aInstructions for impr oving soccer skills.Discusses

27、dribbling,heading,playmaking,defense,conditioning,mental attitud e,how to handle problems with coaches,parents,a nd other players,and the history of soccer.#0$aS occer$vJuvenile literature.#1$aSoccer.,(,5,),数据库的文档结构,不是所有的检索系统的文档结构都是一致的,但是基本上包括主文档,MF,、主文档的索引文档,MX,、倒排档,IF,、倒排档的索引文档(,IX),和词表文档。,1,)主文档,

28、MFMain Files,一般按照顺序文档方式。,采取可变长格式、组块存储。,大型的数据库一般可以分成若干个主文档来存储。如,DIALOG,的化学文摘数据库就分为六个文档。,2,)主文档索引,(MX),即主文档的索引文档,指明每条记录在磁盘上的存贮起始地址。,结构如下:,存取号 地址指针,(,5,),数据库的文档结构,3,)倒排档,(IF),就是将纪录中一切可见字段或属性值抽出,按照某种顺序重新加以组织后得到的一种文档。既可以按不同类型的字段组成不同到排档。(著者到排档、主题词倒排档等),也可以把所有不同的字段组成一个混合倒排档。,存贮与检索键对应的记录号集合。,(,5,),数据库的文档结构,

29、如:按照关键词顺序,A 1,2,8,B 2,5,6,7,C 2,3,4,1,2,8,2,5,6,7,2,3,4,4,)倒排档索引,“,词典,”,文档,也称为倒排档索引,单独存贮各种作为检索键的值,如著者名、主题词、分类号、自由词等;,n,为出现频次,即有关的记录个数,;p,为地址指针,指向相应的倒排档记录的相对地址。,码值 命中数 记录号地址指针,K n p,(,5,),数据库的文档结构,各文档之间的关系,针对文摘索引数据库和全文数据库来说,还应该标明字段和字词出现的位置,这样,才能支持位置检索。,a 100 1 0001 ti1,amusing 2 101 0004 ab5,5,)词表文档,

30、首先必须要有一部主题词表或叙词表,帮助用户选择检索词,提高检索效率。,(,5,),数据库的文档结构,(,6,)书目数据库的建立和维护,1,)数据库的设计,A,市场与用户调查。,包括以下两个方面:,市场调查:当前数据库的数量、类型、学科分布、地理分布、生产者、利用情况、发展动向等。非常重要的一环,国内目前许多数据库成为死库在很大程度上是由于没有进行市场分析。,思考:如何获得这方面的信息?,用户调查:调查用户需求以及对检索系统的期待。(内容范围、检索功能、数据完整性、以及提供方式等)。,B,数据库设计。,包括以下几种设计:,逻辑设计,在市场调查的基础上,确定用户类型、内容范围、功能。,技术设计,确

31、定数据库的总体结构,各文档的结构,文档之间的联系、物理组织方式以及存储空间的分配等。,模拟建库,测试评价。,(,6,)书目数据库的建立和维护,2,)数据准备,数据采集。根据设计方案规定的数据库内容范围和数据类型,采集所需要的数据。,数据评价。评价方法可以采用引文分析法、专家评价法、用户调查法、来源渠道和著者鉴别法等。,数据加工整理。数据加工整理工作包括数据源的分析,数据的提取与描述,数据错误及一致性的校验与纠正等。,(,6,)书目数据库的建立和维护,3,)文献的初始化处理,格式标准化:,语言编码标准化,,unicode Gb2312 big5,,存储格式的选择,,Mpeg,,,Jpeg,,有损

32、压缩和无损压缩。,确定检索范围,(,检索途径,),:,检索途径,(,子段,),,全文,(,篇名,摘要,关键词,正文,参考文献等部分,),。,(,6,)书目数据库的建立和维护,3,)文献的初始化处理,非检索词的处理,(,标点符号停用词,etc),:,目的是提高运算速度,节省存储空间。涉及到:标点符号,某些标点符号按照实际情况需要进行处理,如表示所有格的符号、连字符,small business men,等。,停用词和停用算法:,主要指没有任何检索意义的词,包括介词,冠次以及一些其他出现次数过多的词,.,思考:使用停用词和停用算法对查全率和查准率会有什么影响?,明确词义,(,上下位类,大小写,),

33、6,)书目数据库的建立和维护,4,)建库,在设计方案最后敲定和数据准备工作就绪以后,就可以实际开始建库作业了。建库就是利用现有的数据将规划中的数据库加以实现。它包括以下环节:,硬件的安装调试。,软件的编制或购买与调试,数据的装入和生成各种文档。,数据库的试运行和鉴定验收。,(,6,)书目数据库的建立和维护,5,)维护,数据库投入运行后,必须定期进行维护与更新,以适应用户需求和文献生产状况的变化。,维护主要指对数据库系统硬件设备的维修、保养和对系统软件功能的修改与扩充。,更新主要指对文献库的数据内容进行添加和重新组织。,(,6,)书目数据库的建立和维护,全文数据库,全文数据库是一种存储文

34、献全文或其中的主要部分的源数据库。,它最早出现于法律领域。,1961,年第一个文献数据库建成并投入使用,(,即美国的,“,匹兹堡系统,”,中的法律全文数据库,),匹兹堡法律全文检索系统问世后,引起了律师们的浓厚兴趣。,1,)按出版方式划分:一类是与印刷型文献平行出版的全文库,另一类是纯电子出版物,无相应的印刷型文本。,2,)按存储内容划分,直接原文型和摘录型。,直接原文型:直接存储文献的正文,有时甚至还包括正文以外的其他信息,如脚注、参考文献目录、文摘等。,摘录型:原文经过压缩提炼的,改写成若干篇一定长度的摘录,(,不同于文摘,),。,全文数据库的种类,3,)按应用领域划分,法律法规全文库或条

35、法库,如,LEXIS,、,WESTLAW,。,期刊文章全文库,如美国化学会原始期刊数据库,(,在,BRS,系统中,),。,商情全文库,如英国,Datasolve,公司的市场新闻和研究报告全文库,,新闻消息全文库,如美国的,NEXIS,、,NEWSNET,全文数据库的特点与用途,优点:,直接性。,详尽性。,快速。,标引方法简单。,检索语言多用自然语言,少数用受控语言。检索方法除使用布尔检索以外,位置检索占有相当突出的地位。,请举出你所使用过的全文检索系统,1,、信息检索系统的逻辑构成以及各个部分之间的关系,2,、标引系统主要的任务是什么?,3,、书目数据库的结构如何,?,4,、磁带格式是什么,?,标准的磁带格式有何规定,?,5,、如何建造和维护一个数据库,?,6,、全文数据库的特点和用途是什么,?,7,、中文和西文文献的初始化处理有何不同?,8,、以书目查询系统系统为例,是否均应设计成两个文件的组织方式?固定长方式是否没有用武之地了?,9,、标引中如何赋予权重?,本章思考题,

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2026 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服