ImageVerifierCode 换一换
格式:DOCX , 页数:12 ,大小:17.39KB ,
资源ID:4482965      下载积分:8 金币
验证码下载
登录下载
邮箱/手机:
图形码:
验证码: 获取验证码
温馨提示:
支付成功后,系统会自动生成账号(用户名为邮箱或者手机号,密码是验证码),方便下次登录下载和查询订单;
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/4482965.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

开通VIP折扣优惠下载文档

            查看会员权益                  [ 下载后找不到文档?]

填表反馈(24小时):  下载求助     关注领币    退款申请

开具发票请登录PC端进行申请。


权利声明

1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4009-655-100;投诉/维权电话:18658249818。

注意事项

本文(基于多级指引索引的高效技术.docx)为本站上传会员【人****来】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4009-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

基于多级指引索引的高效技术.docx

1、基于多级指引索引的高效技术   摘 要 介绍了搜索引擎中基于多级指引索引的高效技术。包括索引压缩,置入文件阀值的方法。其中索引压缩介绍了字节对齐压缩、Elias gamma编码、Elias delta编码、Golomb编码、二 元插值编码,并对其压缩效率,解压速度以及相对性能做了比较,叙述了在不同的情况下使用不同的编码,以便提高搜索效率。 关键词 搜索引擎,多级指引索引,索引压缩,置入文件阀值 1 引言 搜索引擎是随着Web信息的迅速增加,从1995年开始逐渐发展起来的技术。它是一种Web上的应用软件系统,以一定的策略在Web上发现和收集信息,对信息进行组织和处理,为用户提供Web信息

2、查询服务。 一个搜索引擎由搜索器、索引器、检索器和用户接口等四个部分组成。其中索引器是一个搜索引擎的核心部分,因此索引的好坏直接影响到整个搜索引擎的质量。采用多级指引索引数据结构,尽管建立时需要付出一定代价,但是极大地提高了查询效率。本文在多级指引索引的基础上,介绍了提高效率的策略,其中包括多级指引索引的压缩,置入文件阈值的方法。 2 多级指引索引简介图1 索引多级指引结构 多级指引索引是倒排索引的进化,既满足检索接口的词语-网页结构的需要,又考虑到庞大数据量结构组织的可行性。在词语集设置网页指针,将包含该词语的网页分块放置,减少存储相同词语的空间,根据词语标识符直接找到网页分块首位置,并为

3、下一级指引提供前提;同一个词语在不同网页中出现的位置是变值,设置位置指针可以减少存储相同网页号的空间。 3 多级指引索引的压缩 多级指引索引压缩的目标是通过减少存储需求来降低输入输出。需要压缩的内容包括:词语列表中的词语名,每一个置入文件列表记录中的词频,每一个置入文件列表记录文档标识符。如果多级指引索引减少存储量,I/O读写置入列表的时间就会减少,也就减少了内存、磁盘空间的占用。而一个没有被压缩的多级指引索引通常需要超过30%的空间来存储可压缩的数据,压缩后的数据只占原可压缩数据的10%-15%。但是存在的问题是,要对数据编码解码,增加了CPU时间耗用,考虑到I/O是系统的瓶颈,CPU与I

4、/O之间不断扩大的性能差距,以时间换取空间是可行的。压缩不仅提高查询时的效率,还能加快创建索引,从各方面提升系统性能。 多级指引索引压缩的方法有字节对齐压缩,Elias gamma编码,Elias delta编码,Golomb编码,二元插值编码。 字节对齐压缩 字节对齐压缩[1]即对于一个给定的正整数,用一个或多个字节表示。表示该数首字节最左边的两位为长度指示器,剩余位可以用来存储实际的数。文档ID不同,记为x,文档ID需要基于x的字节标识码,用前面所说的2bits写下长度指示器。写下x的二进制表示法,如下例:0-63 00xxxxxx64-(16K-1) 01xxxxxx xxxxxxx

5、x16K-(4M-1) 10xxxxxx xxxxxxxx xxxxxxxx4M-(1G-1) 11xxxxxx xxxxxxxx xxxxxxxx xxxxxxxx0 000000001 00000001… …63 0011111164 01000000 0100000065 01000000 01000001字节对齐压缩的优点是容易编码和解码,位操作少,占用CPU时间少,缺点是对很小的整数压缩率低,每个整数最少用一个字节的空间。 Elias gamma编码 用γ方法表示文档ID的x的数值: 表示2的 次幂不超过x的最大值;一个0作为标记位;取x- 余数二进制编码的 位。用2 +1bi

6、ts表示x的值,整数越小,则表示它值的位数就越少。大多数词频相对很小。举个例子:X=22=4 24≤x254为2的 次幂不超过22的最大值,所以得出4位一元码:1111x- =22-24=6用4位二进制数表示余数6:0110最后的γ编码为:1111 0 0110x1234567……63γ0100101110001100111,0,1011,0,1111111,0,11111Elias Gamma Encoding(γ)总结:Gamma编码对于一元码很小的小整数是有效的,但是对于存储15个以上的整数效率就降低。 Elias Delta(δ)编码 Delta编码实际上是Gamma编码的延伸,

7、其中整数x由两部分表示,1+ 位由Gamma编码得出,之后标记位,接下来是x的二进制编码,其中x的最高位取反。Delta编码在表示小的整数的时候需要更多的空间存储,但对于压缩大整数是有效的。 Golomb编码 在Golomb编码中,整数x由两部分组成:商和余数。商q是由q= 得出的,余数r是由r=x-q*k-1计算出来的,这里的k是Golomb编码的基础。如果rp,可被存储为 位,反之则需要 位,这里的p是一个中心点,是由 -k得到的。 当rp时,Golomb编码是由q个0,一个1,r组成的;当r=p时,它是由q个0,一个1,r+p组成的。例如,k=3,整数9就可由00,1,11表示。选

8、择k对整个编码来讲是至关重要的。如果选的不合适,编码会变得很大而且解码也需要很长时间。这里可以考虑*mean(a),a为整型数组。值01234…1112131415…商00001…23333…余数01230…30123…编码1001011101110100…00111000100000101000110000111… 通过比较,可以将这三种编码方式结合起来,Golomb编码用于文档编号,Gamma编码用于词频,Delta编码用于表示偏移量。 二元插值编码 二元插值编码利用相邻元素关系,应用于单调递增整数序列。如果在单调序列X1中,对于给定的整数xi,我们知道它的前一个整数是xi-1,后一

9、个整数是xi+1, 由此我们知道存储xi所需要的最大位数。因为xi一定是在[xi-1+1,xi+1-1]的范围内,所以需要的最大比特数为㏒2,编码需要前面的xi-1和xi+1,所以序列X2可由原始的X1的第二个数开始与X1序列对应,编码可以递归的方法。 进一步优化的方法是根据整数序列的平均游程长度,对位向量编码增加参数,称作局部模式。比较简单的一种方法是一个整数序列的个数是Pw,则它的平均游程长度是N/Pw,设b=/Pw,则取VG=(b,b,b,…)作压缩向量,前缀用一元编码,后缀是二进制编码。 在非全文索引当中,置入文件由文档号d和文档词频f组成,一个平均可以用一个字节表示;单词t的置入文件

10、可以根据t的IDF(Inverse Document Frequency)推算出来。 在全文索引中,单词出现的位置信息占据索引数据的主要部分,所以忽略文档号d和文档词频f。用变长压缩算法,单词出现的位置可以用少于8bit的位表示。设全部文档分词后的单词总数是TN,那么单词t总的出现次数是TN×TF(Term Frequency),它的置入文件的平均长度小于TN×TF字节。   多级指引索引压缩总结 根据文献[10]这几种压缩方法的压缩效率,解压速度以及相对性能的比较如表一所示:图3 其中bpo-每个事件(occurrence)的比特数,bpr-每个记录的比特数,cpo-每个事件的周期数,c

11、pr-每条记录的周期数。 我们可以假设的多级指引文件列表通过最高效的方案被压缩,载入与解压的总代价 U≈T+EnA+dn,其中U是总时间,T是寻道时间,EnA是读需要的时间,dn是在内存中解压的时间,n是被读取的已压缩整数的量。 当n很大时,寻道时间就可以忽略,解压方案的性能P由读和解压时间来决定,P≈EA+d; 当n趋于0的时候,性能完全取决于寻道时间,P≈T,P≈T=*R+C。 其中M表示测量的磁盘平均寻道时间,C是时钟周期固定寻道时间,R是压缩后的文件占压缩前的比率。 通过这个式子计算可得出当编码的整数数目很小的时候,二元插值编码性能最好,但是在速度上Golomb编码要超过其它的编码,当

12、数目越来越大的时候,变长字节编码是最高效的。如图4示。图4几种压缩方式的比较 总结起来,在多级指引文件信息检索的过程中,处理长的多级指引文件是一个瓶颈,所以随着多级指引文件的增加而提高性能是一个好的解决方法。当多级指引文件小的时候,吞吐量由磁盘寻道时间决定,这个时间是与磁盘文件的长度相关的。减少文件的长度就会减少磁盘寻道的长度,选择基于最小化文件的压缩是最好的。随着文件长度的不断增加,磁盘寻道时间变得不那么重要,吞吐量与解压速度密切相关,所以变长字节编码最合适。如果磁盘空间需要额外的开销,推荐用Golomb压缩算法,使用Golomb算法可以使文件压缩的更小并且解压速度比gamma和delta算

13、法更快。由Moffat和Zobel提出的使用Golomb算法表示文档号gamma算法表示词频的方法不如使用Golomb同时表示文档号和词频高效。 4 置入文件阈值 置入文件阈值也称Topdocs,实际上是一种有损压缩,就是说有的信息可能被丢弃。 这个算法的主要思想是,对多级指引索引I进行修剪,每一个词语t对应n个文档d,将那些权值A(d,t)很小并且对系统准确性影响很小的文档进行修剪,只保存权值最高的k篇。算法描述: 为了评价Topdocs算法对精确率的影响,我们应用TREC(Text Retrieval Conference)的官方结果,下表说明了提交给TREC运行的准确度,结果显示P@1

14、0(threshold为10)在索引修剪之后基本上没什么变化,并且在平均精确率上的差别是可以忽略的。ε索引大小修剪率(%)MAPP@ TREC实验结果说明Topdocs方法有可能会丢掉索引中的一些重要信息,但是却可以和包括全部索引的查询效果一样好。用这种方法,网络搜索引擎通过转移那些对搜索结果没什么影响的数据来减少存储大量索引的负担,避免了检索整个置入文件,显着的提高了效率。实验结果证明可以减少40%的索引空间,并且可以达到相同的,只是在MAP上有点降低,同时也不适用于布尔查询。 5 总结 基于多级指引索引的两种不同的高效策略,实际上是有损压缩与无损压缩的包含的两个范畴。它们都是为了提高查询

15、索引效率,也就是提高搜索引擎的检索效率。不管是那一种方法,都有其优点与弊端,但这两种不同的高效策略并不矛盾,可以综合应用,为进一步优化索引结构、提高效率服务。 参考文献[1] Scholer F,Wiliams H,iannis of inverted indexes for fast query evaluation [ J ].ACM Transactions on Information Systems,2002 (8):222 —229 P. Elias. Universal codeword sets and representations of the integers. IEE

16、E Transactions on Information Theory,IT-21(2):194-203, Mar. 1975. Grossman, Frieder, Goharian. Information Retrieval Compression. 2002. Navarro G, Moura E, Neubert M. Adding compression to block addressing inverted indexes[J]. Information Retrieval, 2000, 3(1): 49-77 Vo Ngoc Anh and Alistair Moffat

17、in the paper "Inverted Index Compression using Word-Aligned Binary Codes", Information Retrieval 8(1):151-166, January 2005 Moffat and L. Stuiver. Binary interpolative coding for effective index compression. Information Retrieval, 3(1):25–47, July 2000. Peter Fenwick. Punctured Elias Codes for varia

18、ble-length coding of the integers. 1996(12) Jim Meany. Gomoly Coding (10)David Carmel, Einat Amitay, Miki Herscovici, Yoelle Maarek, Yael Petruschka, Aya Soffer. Juru at TREC 10—Experiments with Index Pruning. IBM Labs, Haifa University, Haifa 31905, Israel.[10] Aandrew Trotman. Compressing Inverted Files. Information Retrieval, 6, 5–19, 2003[11] 涂新辉,何婷婷,罗 景. 一种全文检索系统的设计与实现. 计算机工程.[12] 闫宏飞. 可扩展Web信息搜集和检索系统. 北京大学网路与分布式实验室,2002(9)

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4009-655-100  投诉/维权电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服