ImageVerifierCode 换一换
格式:DOCX , 页数:6 ,大小:441.44KB ,
资源ID:8894288      下载积分:10 金币
验证码下载
登录下载
邮箱/手机:
图形码:
验证码: 获取验证码
温馨提示:
支付成功后,系统会自动生成账号(用户名为邮箱或者手机号,密码是验证码),方便下次登录下载和查询订单;
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/8894288.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

开通VIP折扣优惠下载文档

            查看会员权益                  [ 下载后找不到文档?]

填表反馈(24小时):  下载求助     关注领币    退款申请

开具发票请登录PC端进行申请。


权利声明

1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4009-655-100;投诉/维权电话:18658249818。

注意事项

本文(一种支持Web信息资源服务化的标记语言及其软件工具.docx)为本站上传会员【xrp****65】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4009-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

一种支持Web信息资源服务化的标记语言及其软件工具.docx

1、一种支持Web信息资源服务化的标记语言及其软件工具 杨少华1,2 张利永1,2 韩燕波1 1 (中国科学院计算技术研究所网格与服务计算研究中心,北京 100080) 2 (中国科学院研究生院,北京100039) (yangshaohua@) 摘要 互联网上聚集了大量基于万维网技术的信息资源,随着SOA的流行,如何将信息资源封装成Web服务以便于自动聚合和广泛重用成为倍受关注的问题。文中提出一种Web信息资源服务化标记语言,并基于该语言实现了一个可视化、半自动的服务化工具Web2WS。Web2WS提供友好的操作界面辅助用户定义Web信息资源的访问规则、数据抽取规则,以及

2、到目标Web服务的映射规则,可方便有效地将基于Web的信息资源封装成Web服务。 关键词 Web服务;资源封装器;Web信息集成;Web资源服务化 中图法分类号 TP311 A Markup Language for Generating Web Services out of Web-based Information Resources and Software Support Thereof Yang Shaohua1, 2, Zhang Liyong1, 2, Han Yanbo1 1 (Research Centre for Grid and Serv

3、ice Computing, Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100080) 2 (Graduate University of Chinese Academy of Sciences, Beijing, 100039) Abstract There exist numerous Web-based resources on the Internet. As service-oreiented concepts and architecture proliferate, m

4、ore and more attention is paid on encapsulating Web-based information resources into Web Services for composition and reuse. A markup language for this kind of encapsulation is proposed and a visual, semi-automatic tool called Web2WS is implemented. It provides a user-friendly interface that allows

5、users to define access rules and data extraction rules of the web-base information resource and specify mappings from the information resource to the target Web Service. Web2WS can help to generate Web Services from web sites effectively and conveniently. Keywords Web Service; Wrapper; Web Infor

6、mation Integration; Service Encapsulation 今天的互联网聚集了大量基于万维网技术的信息资源,如新闻、天气、股票、交通等等。我们通常使用浏览器访问这些信息,而在应用程序中集成这些信息资源并不容易,具体表现在:1)万维网使用HTTP作为客户端与服务器的通讯协议,处理HTTP协议过于复杂;2)信息嵌入在HTML标记的网页中,标签和数据交织在一起,难以分割,而且HTML的格式比较松散,甚至不要求标签的配对,应用程序很难从中抽取数据以及数据的结构关系。 以XML、SOAP、WSDL和UDDI等标准规范和协议为核心的Web服务具有良好的封装性、开放性、松

7、散耦合性、平台独立性等优点。如果以Web服务的形式对基于HTTP和HTML的Web信息资源进行封装,应用程序便可方便地集成此类信息服务。同时,以服务作为基本组成元素的服务组合语言(如BPEL等)及相关工具也已成熟,信息资源的服务化也会给应用集成带来极大的方便。 本文借鉴数据库领域Web信息抽取和集成方面的工作,提出一种基于XML语法的Web信息服务化标记语言,并基于该语言实现了一个可视化、半自动的服务化工具——Web2WS(Web Site to Web Service)。利用Web2WS,开发者只需简单的操作便可实现如下功能: 1) 通过浏览网页的方式定义网页数据抽取规则; 2) 提供

8、可视化界面定义服务规约说明并建立服务操作接口与Web页面元素的映射规则; 3) 自动生成Web服务代码、相关部署文件以及客户端调用代码,发布与测试服务。 本文首先对相关工作进行比较分析;第二节阐述Web信息资源服务化的原理,详细介绍服务化标记语言;第三节介绍服务化工具的设计与实现;第四节进行试验和评价;最后是结论和下一步工作。 1. 相关工作 数据库领域对Web信息抽取和集成研究进行了大量的工作,出现了一些成熟的技术,典型的有封装器(Wrapper)技术等。封装器特指能从Web站点中自动抽取信息并转化为结构化数据的一类程序[1]。许多封装器生成工具通过学习样本网页的结构以及用户的选择生

9、成封装器。文献[2][3]对此类工具进行了较全面的分析和总结,网站[4]中维护了三十多个封装器开发工具的列表,并进行了一些简要的分析和比较,其中许多工具能够抽取HTML网页中的数据并按一定的格式封装成XML文档。本文实现的服务化工具本质上属于封装器生成工具,但与传统封装器生成工具不同的是本工具生成的封装器是Web服务。 生成封装器的关键技术之一是数据抽取与映射规则的定义。许多生成工具提供图形化的交互界面辅助用户定义这些规则,其方式一般有两种:1)基于标记树方式,样本网页以HTML标记树呈现,用户通过选择感兴趣的树结点定义规则,如XWRAP[5];2)基于浏览器方式,样本网页直接在浏览器中显示

10、如Lixto[6]、SG-WRAP[7]。浏览器方式对用户屏蔽了HTML代码,更加方便易用。在数据抽取规则的表达上,有的使用W3C推荐的XML定位和查询语言XPath/XQuery[8,9],如SG-WRAP;有的则使用自定义的数据抽取脚本程序,如Lixto使用一种自定义的基于逻辑的脚本语言Elog。 生成封装器的另一关键技术是网页的获取。获取一个简单的静态网页只需知道网页的URL,而访问动态网页或HTML表单背后的网页需要了解更多的访问细节,如请求方法(GET或POST等)、参数传递及取值方法等。传统的封装器生成工具更多的关注数据的抽取,对于网页获取的支持较弱,用户如果封装HTML表单背

11、后的网页需要查看样本网页的HTML原始代码,增加了对用户背景知识的要求。 现有的Web信息资源服务化方法大都基于封装器技术。Pollock系统[10]对Web信息资源的服务化分构造时和运行时两步完成:1)构造时使用现有的封装器生成技术对Web信息源进行封装,同时生成Web服务的WSDL文档,2)运行时将封装器虚拟成Web服务,将基于SOAP的交互与封装器特定的交互进行转换。此方法可以重用已有的封装器生成工具,但是要求用户同时熟悉两套系统,而且已有的封装器生成工具往往从数据源角度而非服务的角度考虑Web信息。Web服务网关[11]是日本东芝公司提出的另一个Web信息资源服务化系统,该系统的特点

12、是提出一个支持多HTML解析器的框架,提供了可视化交互界面完成Web站点到Web服务的封装过程,并可以对生成的Web服务进行基本的管理。但是具体的服务化过程比较繁琐,例如用户需要手工提供网页获取的细节,虽然提供可视化的Web服务封装器描述文档的编辑器,但是相对于边浏览边定义的方式仍较为复杂。 2. Web信息资源服务化原理及标记语言 2.1服务化基本原理 Web信息资源服务化的目标是把网站提供的信息服务封装成Web服务。以列车车次查询为例,用户首先访问网站(如),然后填写车次,提交后转入车次详细信息页面。这个简单实际的例子揭示了获取Web信息的基本过程:访问网页、提交请求、查看结果。将上

13、述过程进行服务化,生成列车车次查询Web服务,它提供一个getTicketInfo操作,该操作返回请求车次ticketno的详细信息TicketInfo,接口如: TicketInfo getTicketInfo(String ticketno)。 目标Web服务需要关心以下几个问题: 1)如何获取网页的HTML文档?Web服务需要了解目标文档地址(URL)、获取方法(GET或POST)、请求参数、编码信息等细节。 2)如何在网页中抽取有用数据?数据抽取依赖于预定义的数据抽取规则,包括数据的定位和文本的抽取,此过程需要对HTML文档进行解析。 3)如何封装抽取的数据作为服务的输出结果

14、抽取数据的封装依赖于预定义的数据映射规则,它定义了Web信息源的请求参数和抽取的结果数据与Web服务规约说明中的操作的输入输出消息的对应关系。 图1揭示了Web信息服务化的基本原理:目标Web服务的输入与输入页面的HTML表单元素建立映射,服务的输出与结果页面中的数据通过XPath表达式建立映射,服务首先使用输入参数“填写”HTML表单或链接参数,提交服务器取得结果页面,然后对页面进行分析,抽取数据并按预定义的数据映射规则进行封装,最后返回结果。 XPath是W3C推荐的XML路径语言,HTML文档可以表示为一棵文档对象模型(DOM)树,树结点可以由类似下面的XPath表达式进行定位:

15、 /HTML[1]/BODY[1]/TABLE[1]/TR[1]/…/text()。 结果页面 表单输入页面 提交 HTML解析 与错误校正 车次查询 Web服务 … 服务输入 … 服务输出 HTML DOM树 Xpath 关联 图1 Web信息服务化原理 图2服务运行逻辑 图2以车次查询为例详细说明目标Web服务的运行逻辑:第一步服务调用客户端以车次编号TicketNo为参数调用服务操作getTicketInfo(1);第二步服务通过HTTP客户端与远程服务器建立连接,以车次编号为参数发送HTTP请求,取得包含车次信息的原始HTML文档(2,3,

16、4,5);第三步使用HTML解析器将HTML格式化为符合XML语法的Xml-HTML文档(6,7),格式化的过程是将HTML转换成符合W3C的DOM规范的文档,为下一步使用XML定位语言XPath抽取数据作准备;第四步使用XPath引擎从Xml-HTML文档中抽取信息并把结果封装成TicketInfo对象(8,9)。 2.2服务化标记语言 为了将基于万维网技术的信息服务封装成Web服务,我们提出一种基于XML语法的Web信息服务化标记语言Web2WS ML(Markup Language),利用该语言可以表达数据抽取和映射规则,以及生成Web服务的一些细节。使用该语言编写的XML文档称为服

17、务化文档。本节将给出Web信息服务化标记语言核心元素的定义和语法,为了方便表达,这里使用BNF文法说明语言的语法结构。 服务化文档包括六部分:Web2WS=(InputPage,OutputPage,XpathTable,Operation SoapServer,Config),语法结构如图3所示,下面对各元素进行详细介绍: 1)InputPage 样本表单输入页面,结构由WebPage定义,其中Url 为页面地址,LinkValuePair和FormValuePair是请求网页的链接变量和表单变量,当type属性为CONST时,直接使用expression的值,为INPUT类型时,exp

18、ression必须是Web服务的某个操作的输入参数,表示取值来源于服务的输入。 2)OutputPage 样本输出页面,结构与InputPage同。 3)XpathTable Xpath变量表,每个Xpath变量的path属性对应一个XPath表达式,type属性说明XPath表达式返回的结果类型,TEXT表示返回文本,COUNT表示计算元素的个数,常用于计算

中的标记个数。Xpath变量表定义了数据抽取规则,pattern值为正则表达式,用于匹配抽取的文本。 4)Operation Web服务操作,在服务化标记语言中直接使用对象定义服务的输入和输出,一个操作的输入由

19、零个或多个InputParam组成,服务的返回结果可以是Property、Bean、Array中的一种,分别对应Java语言中的简单类型、复合类型以及数组类型,其中Property作为定义服务输出的原子类型,Bean通过Property、Array复合或自身嵌套定义,Array定义为Property或Bean的数组。Property的type属性说明值的计算方式,例如type等于XPATH时,expression为某个已定义的Xpath变量,从而实现服务输出与网页HTML元素的关联。服务操作定义了数据的映射规则和目标Web服务的详细信息。 5)SoapServer 定义了发布目标Web服务的

20、SOAP服务器信息,包含主机地址和端口等信息,用于服务发布。 6)Config 定义了服务代码生成相关信息,控制代码生成。 Web2WS ::= < Web2ws servicename="ncname" targetnamespace="uri"> InputPage OutputPage XpathTable Operation * SoapServer Config InputPage::= WebPage OutputPage::= WebPage WebPage::=

21、page name="ncname" method="GET | POST" encode="String" type="InputPage | OutputPage"> * *

22、 XpathTable ::= * Operation ::= * OutputObj OutputObj ::= Property | Bean | Array Property::= Bean::= Property * Bean * Array * Array::= LoopVar Property |Bean 图3 Web2WS语法结构 从编程语言角度上看,服务化文档可以看作是Web信息服务化的程序脚本,编程人员可以手工编写,亦可通过第4节的服务化工具自动或辅助生成。 3. 服务化工具设计与实现 基于服务化标记语言,我们实现了一个可视化、半自动的Web信息

25、服务化工具——Web2WS。工具以插件形式运行于Eclipse[12]和EMF开发平台,很好的重用了Eclipse的强大集成开发环境。在工具的开发实现中,我们尽量使用一些成熟的开源模块,一方面加快开发的速度,把精力聚焦到需要解决的核心问题上;另一方面也增强了工具的稳定性。 3.1 系统架构 图4给出了服务化工具Web2WS的系统架构,由Web2WS文档图形化编辑器、Web代理、内置网页浏览器、代码生成器、服务辅助工具五部分构成。 .Java/.wsdd文件 Web2WS文档图形化编辑器 内置网页 浏览器 Web代理 互联网 代码生成器 服务辅助工具 Soap服务器 原始

26、 html 格式化 html 抽取规则 web2ws文档 http交互细节 Web服务 图4 Web2WS系统架构 Web2WS文档图形化编辑器是基于服务化标记语言的集成开发环境。编辑器以树的方式呈现,负责Web2WS文档的新建、读入和编辑,并可验证文档是否符合语言的定义。编辑器从Web代理中获取输入输出网页的HTTP交互细节,对用户屏蔽繁杂又琐碎的HTTP协议,自动生成Web2WS文档的InputPage和OutputPage元素。编辑器与内置的网页浏览器协作完成数据抽取和映射规则的定义。 Web代理作为内置网页浏览器的网络代理,接受浏览器请求,访问互联网获取网页的原始H

27、TML文档。我们使用Apache的HttpClient 3.0作为HTTP客户端,HttpClient提供了高效、健壮的HTTP访问能力。在返回HTML需要对HTML进行如下处理: 1)XML格式化,使用开放源代码的CyberNeko HTML分析器对HTML进行分析和错误校正,输出符合XML语法的HTML文档。 2)嵌入交互控制代码,在不改造浏览器的前提下为了实现基于浏览器的动态交互,Web代理在返回的HTML文档中嵌入JavaScript交互控制代码,辅助用户完成数据抽取和映射规则的定义。其中大量使用一种胖客户端技术AJAX(异步JavaScript+XML)。 Web代理同时自动记

28、录用户访问页面的HTTP交互细节,如请求网页的URL、请求方法、参数以及返回HTML文本的字符编码等信息。 内置网页浏览器作为用户定义数据抽取和映射规则的交互界面。用户在浏览样本网页时使用鼠标选择感兴趣的数据,配置数据抽取规则。浏览器通过Web代理获取远程网页,其HTML文档是经过Web代理处理过的Xml-HTML文档,并且嵌入了交互控制代码使得页面具有更多的动态交互功能。 代码生成器负责生成基于java语言的Web服务。它以服务化文档为输入,根据文档中的网页访问细节、数据抽取和映射规则以及生成目标Web服务的详细信息,产生Web服务、单元测试用例及Web服务调用客户端的程序代码,以及相关

29、服务部署文件和WSDL文档。由于Eclipse本身是优秀的Java集成开发环境,用户可以即时对Web服务进行编译和测试。 服务辅助工具集成了服务发布、测试等功能,可以直接将服务部署到SOAP服务器并进行测试。 3.2 运行界面 图5是Web2WS运行界面的一个截图,其中主工作区域是服务化文档图形化编辑器,服务化文档和生成的目标Web服务的源代码文件保存于Eclipse工程项目中。Web浏览器用于显示服务化的网页,同时也是定义数据抽取规则的交互界面。 服务化文档图形化编辑器 Web浏览器 服务化文档 目标Web 服务代码 图5 Web2WS用户界面 4. 试验与评价 4

30、1服务化工具好用性评价 从定性的角度分析,Web2WS好用性体现在以下几点: 1) 对服务开发者屏蔽获取目标网页的HTTP交互细节。开发者只需提供输入表单所在网页的地址,在浏览网页的过程中由工具自动获取详细的HTTP交互细节。 2) 基于Web浏览器的数据抽取和映射规则定义界面。相对于大多数以HTML标记树为操作界面的方式,基于浏览器的界面更加直观、易用。 3) 降低了服务开发者的背景知识要求。工具仅要求服务开发者懂得Java语言和Web服务的基本概念,对于某些复杂的网页可能需要一些正则表达式的知识。 4) 集成的开发环境。工具以Eclipse插件的形式运行,代码生成器的目标语言为

31、Java,可以利用Eclipse平台强大的Java开发和测试环境,方便的测试服务代码和调用客户端。 从定量的角度分析,工具的好用性体现在缩短开发者构建服务的时间,我们以互联网上五个典型的信息服务作为案例统计服务的构建时间,服务的开发者为熟悉Web2WS的使用者(同实验室的研究生)。统计信息如表1所示,可见对于熟练的工具使用人员,大约十分钟左右即可构造一个Web服务。构建Web的服务的主要时间花在数据抽取和映射规则的定义上,而且随规则数目的增加而增加,而其余时间相对较为稳定。 表1服务构建时间统计 Web服务 服务提供 网站 总时间(分钟) 数据抽取与映射定义(分钟) 数据抽取规

32、则数量(条) 天气预报 新浪网 9 5 8 车次查询 火车票网 15 11 20 股票查询 和讯股票 9 5 5 书价查询 互动出版网 9 6 7 在线词典 Dict.CN 8 4 2 4.2 Web服务执行性能试验 我们从执行时间角度对自动生成的Web服务进行了实验。由图2的服务运行逻辑可以看出,Web服务的执行主要包括以下几个阶段:1)网络访问时间,指的是从发出页面请求到取得HTML文档的时间,它与网络带宽和服务器处理请求的时间相关;2)文档解析时间,指使用HTML解析器将取得的HTML文档格式化为符合XML语法和W3C DOM规范

33、的Xml-HTML文档所用的时间;3)数据抽取与组装时间,指根据数据抽取规则从Xml-HTML文档提取数据并按服务的输出格式进行组装所用的时间。我们通过统计Web服务在各阶段的花费时间对Web服务的执行性能进行评价。测试环境为一台内存1G、CPU为1.8GHz的AMD机器,操作系统为Windows XP,服务运行容器使用Tomcat+Axis。同一时刻只测试一个服务,每个服务使用十组输入数据进行测试,并统计平均值,测试结果列于表2。 从表2中可以分析得出服务执行的性能瓶颈主要受以下因素影响:1)HTML文档的大小,文档越大,文档解析的时间越长,而且数据抽取与组装的时间急剧增加,图6显示了文档

34、大小对服务执行的性能的影响;2)网络的访问时间,包括网络传输延迟以及服务器处理请求的时间,与服务功能、网络状况、服务器的处理能力等因素相关。其中用时最长的书价和股票查询为两秒多,其余的用时在几十到几百毫秒之间,基本可以满足对时间限制不是很严格的应用。 表2 Web服务执行性能统计 Web服务 HTML文档大小(字节) 文档解析时间 (毫秒) 数据抽取与组装时间 (毫秒) 网络访问时间(毫秒) 总共用时(毫秒) 天气预报 18273 39 23 67 129 车次查询 14072 30 56 141 227 股票查询 110754 265 161

35、0 324 2199 书价查询 62432 134 183 1938 2255 在线词典 13166 27 32 35 94 图6 HTML文档大小对服务执行性能的影响 5. 结论和下一步工作 本文探讨了Web信息资源的服务化问题,提出一种针对Web信息资源的服务化标记语言,同时以该语言为核心实现一个可视化、半自动的服务化工具:Web2WS。该工具提供友好的交互界面辅助用户定义HTML网页数据抽取与映射规则,有效的辅助开发人员构建、发布,和测试Web服务。与传统的封装器生成工具相比,Web2WS生成的Web服务相对于其他软件构件具有更好的松耦合性、平台独立

36、性、互操作性等优点,而且在易用性上做了一些改进。 下一步工作将在完善现有功能的同时进行如下的一些改进:1)服务执行性能的提高,许多网站的信息具有时效性,采用缓存技术减少网络的访问时间和次数,可以改善服务的执行性能。2)对网页脚本语言的支持,使目标Web服务能够处理网页中的脚本语言。3)Web服务的维护,由于生成的Web服务与网页结构相绑定,需要提供一个机制用于发现和适应网页结构的变化。 参 考 文 献 [1] J. Hammer, H. Garcia-Molina, et al. Extracting Semistructured Information from the Web.

37、In: Proc. of the Workshop on Management for semistructured data (SIGMOD'97), 1997. 18~25, [2] A.H.F. Laender, B.A. Ribeiro-Neto, et al. A brief survey of Web data extraction tools, SIGMOD, 2002. 31( 2): 84~93, [3] S. Kuhlins and R. Tredwell. Toolkits for Generating Wrappers. NetObjectDays, 2002,

38、2591: 184~198 [4] R. Tredwell and S. Kuhlins. Wrapper Development Tools. http://www.wifo.uni-mannheim.de/~kuhlins/wrappertools/index.html.en. 2004-06 [5] L. Liu, P.u. Calton, et al. XWRAP: An XML-Enabled Wrapper Construction System for Web Information Sources, In Proc. of International Conference

39、on Data Engineering, 2000. 611~621 [6] R. Baumgartner, S. Flesca, et al. Visual Web Information Extraction with Lixto, The VLDB Journal, 2001: 119~128 [7] X. Meng, H. Lu, H. Wang, et al. SG-WRAP: A Schema-Guided Wrapper Generator, In Proc. of International Conference on Data Engineering,, IEEE Pre

40、ss, 2002. 331~332 [8] Berglund, S. Boag, D. Chamberlin and M.F. Fernández. XML Path Language (XPath) 2.0, http://www.w3.org/TR/xquery/, 2005 [9] S. Boag and D. Chamberlin. XQuery 1.0: An XML Query Language, http://www.w3.org/TR/xquery/, 2005. [10] Y Lu, Y. Hong, et al. Pollock: automatic genera

41、tion of virtual web services from web sites, ACM Symposium on Applied Computing (SAC), Santa Fe, New Mexico, USA, 2005. 1650~1655, [11] H.P. Huy, T. Kawamura and T. Hasegawa. How to make web sites talk together: web service solution, WWW 2005, Chiba, Japan, 2005 [12] http://www.eclipse.org/ Ya

42、ng Shaohua, born in 1981, PhD. candidate, His research interests include service-oriented software integration and context-aware middleware. 杨少华,男,1981年生,博士研究生,研究方向:面向服务的软件集成、上下文感知中间件。 Zhang Liyong, born in 1980, PhD. candidate, His research interests include service composition and execution e

43、ngine. 张利永,男,1980年生,博士研究生,研究方向:服务组合技术及其执行环境。 Han Yanbo, born in 1962, professor. His research interests include software integration and service grid. 韩燕波,男,1962年生,研究员(博导),研究领域:软件集成与服务网格。 联系人:杨少华 联系方式:北京市海淀区中关村科学院南路6号2704信箱 计算所智能软件部 邮编:100080 电话:13810834762,010-62600955 Mail:yangshaohua@

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4009-655-100  投诉/维权电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服