收藏 分销(赏)

资源数据采集技术方案设计及对策要点.doc

上传人:二*** 文档编号:4714229 上传时间:2024-10-10 格式:DOC 页数:13 大小:761KB
下载 相关 举报
资源数据采集技术方案设计及对策要点.doc_第1页
第1页 / 共13页
亲,该文档总共13页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、. .资源数据采集技术案公司名称2021年7月二O一一年七月目 录第 1 局部 概述31.1 工程概况31.2 系统建立目标31.3 建立的原那么41.3.1 建立原那么41.4 参考资料和标准5第 2 局部 系统总体框架与技术路线52.1 系统应用架构62.2 系统层次架构62.3 关键技术与路线7第 3 局部 系统设计规7第 4 局部 系统详细设计7第 1 部分 概述1.1 工程概况Internet已经开展成为当今世界上最大的信息库和全球围传播知识的主要渠道,站点遍布全球的巨大信息效劳网,为用户提供了一个极具价值的信息源。无论是个人的开展还是企业竞争力的提升都越来越多地依赖对网上信息资源的

2、利用。现在是信息时代,信息是一种重要的资源,它在人们的生活和工作中起着重要的作用。计算机和现代信息技术的迅速开展,使Internet成为人们传递信息的一个重要的桥梁。网络的不断开展,伴随着大量信息的产生,如在海量的信息源中查找搜集所需的信息资源成为了我们今后建立在线预订类旅游网重要的组成局部。因此,在当今高度信息化的社会里,信息的获取和信息的及时性。而Web数据采集可以通过一系列法,依据用户兴趣,自动搜取网上特定种类的信息,去除无关数据和垃圾数据,筛选虚假数据和迟滞数据,过滤重复数据。直接将信息按照用户的要求呈现给用户。可以大大减轻用户的信息过载和信息迷失。1.2 系统建立目标在线预订类旅游网

3、是在线提供机票、酒店、旅游线路等旅游商品为主,涉及食、住、行、游、购、娱等多面的综合资讯信息、全位的旅行信息和预订效劳的。如果用户要搜集这一类的相关数据,通常的做法是人工浏览,查看最近更新的信息。然后再将之复制粘贴到Excel文档或已有资源系统中。这种做法不仅费时费力,而且在查找的过程中可能还会遗漏,数据转移的过程中会出错。针对这种情况,在线预订类旅游网信息自动采集的系统可以实现数据采集的高效化和自动化。1.3 建立的原那么1.3.1 建立原那么由于在线预订类旅游网的数据采集涉及的面多、数据量大、采集源数据构造多样化的特点。因此,在进展工程建立的过程中,应该遵循以下原那么:可扩大性根据实际的要

4、求,系统可被便地载减和灵活的扩展,使系统能适应变化和新情况。可以实现模块级别的动态扩展,而且是运行时的。所谓运行时模块的动态扩展,比方说你需要增加一些新的功能,你可以将新开发的类和文件按照Bundle进展组织,然后直接扔到运行时环境下,这些功能就可以用了。因此系统不会受技术改造而重新做出调整。创新性软件的投资要考虑到今后的开展,不能使用落后的产品与技术,防止投资的浪费;在系统软件选型、开发技术上,到达国外先进水平。规性和标准性整个设计案从网络协议、操作系统到各个设计细节,应该全部遵循通用的国际或行业标准,符合有关标准规的。低耦合性采集系统与其它系统彼此间相对独立,直接进展数据库入库、sql同步

5、或者基于txt/xml的数据交换,保证整体系统的低耦合性。高效性在底层的技术实现上采用java语言,跨平台,跨数据库,运行效率卓越。平安、稳定、准确、及时性采用先进的算法,采用多个子系统和工具组成一个平安、稳定、准确、及时的解决案。案在总体设计上遵循稳定、开放、可扩展、经济、平安的原那么,从而使整个案组成合理,技术先进,易于扩展,既能满足当前的业务数据处理要求,又能符合长期开展的需要。易操作和易维护原那么整个系统易于维护,容易操作,易学,易用,完全通过WEB式完成,降低维护的技术难度,也减少了人为隐患的发生。1.4 参考资料和标准主要参阅并依据以下一些参考资料及标准:l ?中国工程管理知识体系

6、?C-PMBOK,2001.5 l GB/T 1526-1989?信息处理数据流程图、程序流程图、系统流程图、程序网络图、系统资源图的文件编制符号及约定?l GB/T 8566-1995?信息技术软件生存期过程?l GB/T 8567-1988?计算机软件产品开发文件编制指南?l GB/T 9385-1988?计算机软件需求说明编制指南?l GB/T 13702-1992?计算机件分类与代码?l GB/T 11457-1995?软件工程术语?第 2 部分 系统总体框架与技术路线网络信息资源采集系统是一套功能强大的网络信息资源开发利用与整合系统,可用于定制跟踪和监控互联网实时信息,建立可再利用的

7、信息效劳系统。能够从各种网络信息源,包括网页、BLOG、论坛等采集用户感兴趣的特定信息,经自动分类处理后,以多种形式提供给最终用户使用。2.1 系统应用架构l 网络蜘蛛:按照指定规那么抓取数据。l 数据分析:分析从网络蜘蛛来的数据,过滤掉我们不需要的信息。l 数据解析:根据指定资源格式(字段)的定义,进展数据库字段级别的解析。l 分组分析:根据不同的网络资源类型进展分类,并以多种存储式进展存储。2.2 系统层次架构整个系统分为四层,分别为:l 数据层:数据层负责存储抓取来的各种信息及数据,这里面包括网页、文档、关系型数据、多媒体数据等。l 支撑层:支撑层提供了关键的硬、软件支撑系统,包括应用效

8、劳器、WEB效劳器、规接口等规支撑系统。l 应用层:在应用层主要提供网络资源采集、数据转换、分析、处理、导出、发布、采集监控、消息通知、登录验证、任务方案、认证码识别等效劳。l 表现层:表现层通过浏览器等式,为用户提供多样化的信息效劳。2.3 关键技术与路线为了充分满足本工程的建立:我们采用先进、主流、可靠、实用、性价比好的三层架构体系,充分考虑今后纵向、横向扩能力。采用构件化和面向对象技术,使系统具有灵活的扩展性和良好的移植性。2.3.1 J2EE规体系从软件层次上看,我们采用了典型的J2EE三层架构体系,即应用支撑数据三层。简单地说,J2EEJavatm 2 Platform Enterp

9、rise Edition是一个标准中间件体系构造,旨在简化和规多层分布式应用系统的开发和部署,有了它,开发者只需要集中精力编写代码来表达应用的商业逻辑和表示逻辑,至于其他系统问题,如存管理,多线程,资源分布和垃圾收集等,都将由J2EE自动完成。J2EE已经被证明是一个稳定的、可扩展的、成熟的平台,在国外拥有众多成功的应用实例。J2EE 应用效劳器Application Server采用目前国际最先进的开发理念、拥有多适合基于Internet应用需求的特点:l 三层构造体系最适合Internet环境,可以使系统有很强的可扩展性和可管理性。l 面向对象、组件化设计2EE是一种组件技术,已完成的模块

10、能便的移植到其它地,可以提高开发速度,降低开发本钱。l 基于JAVA完全跨平台特性与平台无关,适应Internet需要,并能得到大多数厂商支持,用户可根据需要选择适宜的效劳器硬件和数据库。并且如果需要更换系统平台时,J2EE也能便的进展移植。把J2EE三层架构软件体系引用到资源采集系统,将大大提高系统的可移植性、可伸缩性和可扩展性。2.3.2 XML技术XMLeXtensible Markup Language,可扩展标记语言,是当前最热门的网络技术之一,被称为“第二代Web语言、“下一代网络应用的基。自它被提出以来,几乎得到了业界所有大公司的支持。XML具有卓越的性能,它具有四大特点:l 优

11、良的数据存储格式l 可扩展性l 高度构造化l 便的网络传输以XML技术作为支持,为用户自定义应用界面和业务数据构造,并将其与底层数据库定义格式、界面标准输入、输出的接口转换作了实现,可实现分布式、异构应用系统之间的数据交换。我们将在本工程中主要以XML为存储式,便扩展和数据分析。2.3.3 WEB2.0技术Web2.0,是相对Web1.02003年以前的互联网模式的新的一类互联网应用的统称,是一次从核心容到外部应用的革命,是依据“六度分隔(注:由美国哈佛大学社会心理学教授斯坦利米尔格兰姆发现的,你和任一个陌生人之间所间隔的人不会超过六个,也就是说,最多通过六个人你就能够认识任一个陌生人。)、X

12、ML、AJAX等新理论和技术实现的互联网新一代模式。由Web1.0单纯通过网络浏览器浏览html网页模式向容更丰富、联系性更强、工具性更强的Web2.0互联网模式的开展已经成为互联网新的开展趋势。 Web1.0到Web2.0的转变,具体的说,从模式上是单纯的“读向“写、“共同建立开展;由被动地接收互联网信息向主动创造网络信息迈进。运行机制上,由“Client Server向“Web Services转变;作者由程序员等专业人士向全部普通用户开展;应用上由初级的“滑稽的应用向全面大量应用开展。采用创新的Ajax技术,同等网络环境下,页面响应时间最高减少90。2.3.4 系统集成APIXML文档构

13、造在很多面可以便地反映对象的构造,这也是其适合面向对象的软件技术的一个关键点。使用XML对数据源的数据进展处理,它起着接口层或者封装的作用,这样不同的应用程序之间,不同的操作系统之间,不同的数据库之间都可以交换数据。使用XML作为数据交换工具还可以解决异构数据库之间的集成。对本工程中涉及到的数据采集、转换、分析、处理等问题,我们将开发专用的数据接口,采用XML技术作为数据交换的页面描述规。XStream是一个Java和XML相互转换的工具。使用非常的简单,并且可以自定义转换的过程,但是这个组件仅能做的就是这些最根本的工作,有了这个组件,我们可以不用考虑具体一个Java对象和XML之间问题了。第

14、 3 部分 系统设计规第 4 部分 系统详细设计4.1 应用功能设计4.1.1 资源采集我们可以使用采集,对网络上的各种资源进展挖掘。a) 采集工程:采集工作的详细设置文件,包含了要采集的资源。1. 准确:根据指定资源格式(字段)的定义,进展数据库字段级别的采集。2. 蜘蛛/爬虫:根据指定的文件匹配表达式,自动对指定的资源进展全面分析和采集。b) 字段:各种资源的最小单位,譬如您要采集某个的多个帖子,那么每个帖子可能包含以下字段:作者、标题、日期、容等。c) 链页:一些帖子在多页面里的,这种情况下您可以为帖子的容字段设置链页属性,自动把多个分页的容合并到容字段。d) 追踪:一些资源是要从列表页

15、面中,通过点击多个页面才显示的,这种情况下,您可以为容自动设置跟踪属性,自动获取最终的容。e) 登录验证:一些资源需要您登录后才可以访问容,这种情况下下,您可以为整个、每个甚至每个资源单独定义登录验证以满足具体需求。1. 参数:这是模拟登录需要的参数,譬如用户名、密码等。2. 登录采集工程:一些的登录认证相当复杂,往往会采用一些动态参数/值,如果用固定的参数是无法满足登录需求的,这个时候,您可以使用采集工程来自动获取登录参数的值。3. 登录脚本:如果即便使用采集工程仍然无法满足一些特别的登录需求,您可以使用自定义的登录脚本来实现相应的登录认证。f) 数据处理:1. 脏字过滤:对符合规定的敏感字

16、符的过滤,还可以自定义要过滤的字符,以确保采集到的容符合相关法律法规。2. 垃圾容过滤:使用贝叶斯概率模型对已采集的容自动分析判定是否为垃圾容,您可以自行对各种垃圾容进展过滤。3. 容嗅探:对于Flash/Silverlight播放器,会在页面加载之后才从后台获取实际的文件(.FLV/MP3/.XAP等),您可以使用容嗅探实现对这些实际容的采集。4. 关键字/标签(Tag)自动分析:利用全文分词对采集的容进展分析,自动获取容的关键字/标签列表。5. 文件格式批量转换:对大量文件的快速转换,改变图片或视频的大小/添加水印/改变格式,抽取压缩文件,Office系列文档转换为HTML,以多种式修改文

17、件名称和容,修改图片文件属性,文本排版,文本混淆,文本简繁大小写编码互转,文本切分合并,网页文本互转,不良图片过滤,数据转换等。g) 图片转换:改变图片大小和格式,添加水印,支持jpg、bmp、png、gif、icl、jpeg等。h) 压缩文档:抽取/转换/生成压缩文档,支持zip、rar等。i) Office文档支持:支持doc、docx、xls、xlsx、xml、pdf、rtf等。j) 文本排版:段落智能修正、去掉干扰符、修正段落首尾空格、修正标点符号,支持txt,htm,eml。k) 文本切分合并:按大小、行数或段落数剪切文本容、和并容,支持txt,htm,eml。l) 不良图片过滤:识

18、别并过滤不良图片,支持所有图片。m) 数据转换:使用自定义脚本转换数据和文件,支持采集工程、各种数据库和各种文件。n) 快速下载:1. 分析:复制要下载各种资源(如图片等)的或网页容,全自动分析并下载到本地磁盘。2. 嗅探:复制视频地址或容,全自动分析并下载视频,特有嗅探功能,支持所有视频。o) 通过多线程并行采集,加快采集速度。4.1.2 数据导出a) 导出数据库:把采集后的数据导出到各大数据库/数据文件中。b) 以Excel、XML等文件形式导出。c) 可以把文件导出到FTP。d) 自定义导出脚本。4.1.3 资源信息发布a) 采集后的数据:可以把采集后的数据,发布到指定或系统。b) 网络

19、请求:可以自定义请求,譬如网络投票等。4.1.4 任务方案可以指定采集、转换、导出、发布、请求等各种任务定时执行。a) 可启用多个线程来完成同一个采集任务。b) 可自由设定采集网页数和暂停的时间,此功能主要解决采集过快而被屏闭或制止访问等问题。c) 可以在采集当中随身暂停、启动或停顿任务。4.1.5 消息通知能够自动通过多种式、系统日志、系统声音等通知采集发布情况。a) 在各种任务完成之后,如采集,发布,方案任务等。b) 监控指定并在数据改变时。4.1.6 监控设置当网络资源更新或采集到新的资源信息时,通过各种通知式,随时提醒。4.1.7 脚本定义脚本是对各种功能的自定义扩展,支持JavaSc

20、ript语言编写。a) 采集脚本:在采集工程中,如果遇到一些特殊的资源,正常的采集式无法胜任的时候,可以通过脚本来进展自定义的采集。b) 发布脚本:可以针对特殊的进展发送请求。c) 常用脚本:系统置的常用的脚本,如对专用链的解释/编码、条形码的生成、敏感字符的过滤、中文分词/Tag识别、计算数学表达式、RSS解释与生成、消息通知等。4.1.8 认证码识别系统自动识别各种登录页面的认证码、验证码等。a) 默认识别:全自动识别各种常见的认证码。b) 智能识别:自定义识别各种特殊的认证码。4.1.9 系统扩展系统提供以下丰富的程序接口,便系统进展二次开发。a) 消息通知:编写各种特定的消息通知式以满足需求。b) 中文分词/Tag识别。c) 数据转换:转换各种采集后的数据到系统当中。d) 功能扩展:对各种功能(采集、发布、脚本、消息通知、方案任务等)进展自定义设置并应用到实际的系统运行中。4.1.10 任务管理可以对采集、发布、请求、方案任务、脚本、消息通知等各种任务进展全面管理。4.1.11 地图边资源采集可根据采集到的数据在地图上显示,以该点为中心,在指定的搜索围搜索其边的所有资源信息,并采集到系统当中。以酒店为例:以酒店为中心的5公里围,在这围的所有酒店、旅行社、小吃、旅游景点、购物场所、公交信息等都可以搜索到并采集下来。. .word.zl.

展开阅读全文
部分上传会员的收益排行 01、路***(¥15400+),02、曲****(¥15300+),
03、wei****016(¥13200+),04、大***流(¥12600+),
05、Fis****915(¥4200+),06、h****i(¥4100+),
07、Q**(¥3400+),08、自******点(¥2400+),
09、h*****x(¥1400+),10、c****e(¥1100+),
11、be*****ha(¥800+),12、13********8(¥800+)。
相似文档                                   自信AI助手自信AI助手
百度文库年卡

猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 教育专区 > 初中其他

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服