ImageVerifierCode 换一换
格式:DOC , 页数:3 ,大小:226.50KB ,
资源ID:8925776      下载积分:10 金币
快捷注册下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/8925776.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

开通VIP折扣优惠下载文档

            查看会员权益                  [ 下载后找不到文档?]

填表反馈(24小时):  下载求助     关注领币    退款申请

开具发票请登录PC端进行申请

   平台协调中心        【在线客服】        免费申请共赢上传

权利声明

1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:0574-28810668;投诉电话:18658249818。

注意事项

本文(深网搜索引擎.doc)为本站上传会员【s4****5z】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4009-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

深网搜索引擎.doc

1、深网搜索引擎的主要功能和关键技术研究 摘要:深网又可称为Deep Web。在此基础上发展起来的深网搜索引擎逐渐成为互联网应用的一大趋势,特别是针对学术研究者有重要意义。本文首先简单介绍了深网搜索引擎的研究背景和意义,然后从主要功能方面进一步加深对深网的了解,然后详细介绍了深网搜索引擎的关键技术,最后得出结论。 关键词:Deep Web,搜索引擎,接口识别,数据库分类,数据库选择,查询接口集成,查询结果抽取 1 研究背景和意义 用户在互联网上查询信息时经常遇到的问题是重复信息太多、信息太陈旧更新缓慢、得到的有用信息太少、信息查找不方便。所以如何满足网民的搜索要求是当前搜

2、索引擎研究的重点之一,由此出现了几种搜索引擎创新技术,如语义搜索、知识图谱、深网搜索。对于互联网上可获得的但传统的搜索引擎由于技术限制不能搜寻到或者经过慎重考虑后不愿意作索引的那些文本网页、文件或其他高质量、权威的信息,中文又有“隐形网络”、“看不见的网络”、“深网”、“暗资源”等说法。1994年,美国学者Dr.Jill Ellsworth首先使用“看不见的网络” Invisible Web概念,但没有引起重视。直到2000年以后,随着Web 数据库的广泛应用,才有相关的研究论文及成果发表,并迅速引发了热烈的讨论和研究。 深层网的研究目前主要分为两个方向:1)深层网的规模、分布和结构的调查和

3、研究。美国BrightPlanet公司,专门从事数据整合和企业信息分析,该公司开发了深网检索平台工具DQM(Deep Query Manager)。在2000年7月,BrightPlanet公司对深网的规模和相关性进行了研究,并将其调查白皮书发布在互联网站点上。UIUC大学在2004年对深网做了一次较为准确的估算。2)深层网搜索引擎系统关键技术的研究。目前主要的关键技术有Deep Web接口识别方法、信息提取算法、数据库选择算法、Deep Web集成查询接口生成方法。 深网资源内容丰富,专业性较强,质量高。因此了解深网主要功能并研究其关键技术,从而采集互联网上巨大的信息资源,为人们提

4、供方便的信息获取方法,具有比较重要的意义。 2 深网搜索引擎的主要功能 搜索引擎的英文为search engine。搜索引擎是一个对互联网信息资源进行搜索整理和分类,并储存在网络数据库中供用户查询的系统,包括信息搜集、信息分类、用户查询三部分。深网搜索引擎也是搜索引擎的一种,但是其从Deep Web数据库中获得数据的过程与普通搜索引擎有所不同,如下图, Deep Web是通过填写表单,并提交到后台服务器查询数据库后,以动态页面的形式返回信息。在Deep web数据集成领域存在着许多的研究问题,已有的工作主要集中这些问题上:web数据库的发现、查询接口模式的抽取、web数据库的分类、

5、查询接口的集成、查询的转换、查询结果的抽取、查询结果的注释等.有些问题已经得到了较多的研究,而有些问题还处在研究的初步阶段甚至还没有相关的报道。为了给出一个全面的认识,我们提出了Deep web数据集成框架,该框架共分为三个主要的模块,如下图, 集成查询接口生成模块。为用户提供一个统一的查询接口,使之可以同时向多个统一领域内的查询接口提交查询,即达到同时访问属于同一领域的多个web数据库的目的。该部分共有4个主要的子模块:web数据库的发现、查询接口模式的抽取、基于领域web数据库的分类和查询接口集成。web数据库的发现是指从web中发现具有一个真正Web数据库的网站,然后从中发现可访问

6、这个web数据库的查询接口。查询接口模式的抽取是对前一步获得的查询接口中所包含的属性进行分析和抽取,获得一个查询接口的模式信息。web数据库的分类是指根据已得到的查询接口的模式信息确定其对应web数据库所属的领域,即按照领域对web数据库进行分类。查询接口的集成是对属于同一个领域的查询接口进行集成,得到一个全局的查询接口。 查询处理模块。将用户在集成的查询接口上填写的查询转化到对各个web数据库本地查询接口的查询。该部分包含3个子模块:web数据库的选择、查询转换和查询提交。web数据库的选择是指为一个给定的用户查街从所有集成的web数据库中选择合适的进行查询。查询转换是指将用户在集成查询接

7、口上提交的查询转换到web数据库本地的查询.查询提交是指自动地将转换后的查询进行提交。 查询结果处理模块。将各个web数据库返回的结果抽取并合并到一个统一的结构化的模式下。该部分包括结果的抽取、结果的注释和结果的合并。查询结果的抽取是指从web数据库返回的结果页面中抽取出真正的查询结果。结果的注释是指由于抽取的结果通常缺少语义,因此要为缺少语义的数据项进行语义注释。查询结果的合并是指把从各个web数据库得到的查询结果进行有效的合并去重,存储在一个统一的模式下。 3 深网搜索引擎关键技术研究 3.1 集成查询接口的生成 为了得到集成接口,需要经历4个主要的步骤。首先要在web上发现要集成

8、的查询接口;其次对这些接口进行解析,获得它们的模式信息,即查询能力;第三要把它们按不同的领域分类;第四是把属于同一个领域的接口集成为一个统一的接口。 (1) Deep Web接口识别方法。识别方法有C4.5决策树、朴素贝叶斯(Naive Bayes)算法、最大熵分类器、C4.5决策树和朴素贝叶斯相结合、PreC-SVM表单接口识别算法(一种分类算法)。C4.5决策树主要分为两个步骤,首先是查询接口特征的产生;其次是在这些可以作为判断依据的特征之上利用C4.5算法得到一棵决策树,通过这棵决策树找出真正的查询接口。利用查询接口的特征作为判断依据是一种直观有效的解决途径,实验结果表明:从web中随

9、机查询的数据集准确性只达到了87%,还有很大提升空间。PreC-SVM接口识别算法总体结构如下, (2) Web数据库的分类。在查询接口上提交查询是获取web数据库信息的主要途径,对web数据库的分类实质上是对查询接口的分类。分类方法共分为两类:指导方式和非指导方式。针对应用意义最广泛的电子商务的web数据库提出了一种有效的分类方法。这种方法是一种非指导的方式,主要利用了电子商务的web数据库的查询接口所在页面上的可用特征信息,包括接口中出现的频繁词和商品的价格特征。还有一种指导方式的分类方法,根据统计特性认为查询接口的模式信息可以作为对web数据库分类的依据。基于这样的统计结论,他们提

10、出通过建立概率模型来表示所有可能出现的属性在每个领域中出现的可能性。对于一个给定的查询接口,考察其属性集合,在这个模型上计算出这个查询接口与每个领域的相似性。前面两种方法都是基于查询接口的特征信息实现对web数据库的分类,另外还提出了两种利用提交样本查询来实现分类的方法。从返回查询结果数量来分析一个web数据库属于哪个领域;从分析返回文本的内容来确定一个web数据库的领域。这两个工作针对的不是结构化信息,而是文本信息,但其通过查询进行分类的思想可以为web数据库的分类所借鉴。 (3) 查询接口的集成。对查询接口自动集成的实现方式上可分为两大类:一类属于局部方式,是基于给定的要进行集成的查询接

11、口集合,分析属性的隐藏信息,特别是语义信息,在它们之间作属性的匹配,得到一个新的全局接口;另一类属于整体方式,是基于某个确定的领域通过对这个领域范围内大量接口的处理,发现这个领域上一般的查询接口,如利用统计模式匹配的方案。 3.2 查询处理 当用户在集成查询接口上填写并提交查询时,要同时从多个web数据库中获取符合该查询的结果,并把这些异构的数据以统一的模式存储或展现,这就是对Deep web数据查询的处理。 Web数据库的选择。一种基于直方图的Top—N的选择方法。该方法分为两步:第一步是判断数据库与特定查询之间的相关性;第二步是确定最适合提交查询的数据库和从返回的结果

12、中选择最合适的记录。算法实验表明,这种计算Top—N查询的方法是非常有效的。还有一种是基于动态学习的Web数据库选择算法。其算法流程如下图, 3.3 查询结果的处理 查询结果的处理是为了把从各个web数据库返回的表现形式不同的结果在一个统一的模式下展现给用户。目前主要的工作集中在如何从查询结果页面抽取出结构化的查询结果。 查询结果的抽取。1)页面抽取语言。它是指特定设计的语言,帮助使用者实现抽取过程。抽取是用手工的方法编写程序来实现的。抽取过程是基于过程化的程序,但是抽取结果依赖于文档的结构。2)基于DoM树的工具。其依赖于Html页面的内在的结构特征。在抽取之前将页

13、面转化成DOM树,以反映页面标签的层次结构,然后自动或半自动地抽取规则在此树上应用。3)抽取规则推导工具。其是从给定的训练样本中产生基于分隔符的抽取规则,更适合Html文档,但需要大量的样本页面。4)基于模式的工具。为感兴趣的对象给定一个目标结构尽量使页面上的数据部分符合这个结构,通过图形界面与用户交互,由用户指出页面上感兴趣的区域。由于需要和用户交互,从自动化程度上来讲属于半自动抽取工具。 4 结论与展望 本文对最近几年来国际上在该领域的主要研究成果进行了回顾与总结,综述了Deep web数据集成系统中若干主要问题的研究现状。包括接口识别方法、web数据库的分类、查询接口的集成、web数据库的选择、结果数据的抽取等等。这些关键技术在国内还处于起步阶段,大部分文献报道都只是处于理论研究阶段,真正在实际搜索引擎中应用的却很少。未来深网搜索引擎的技术将会越来越成熟。

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2026 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服