资源大数据采集技术方案设计要点.doc

资源描述

资源数据采集技术方案企业名称 7月七月目录第 1 部分概述 3 1.1 项目概况 3 1.2 系统建设目标 3 1.3 建设标准 3 1.3.1 建设标准 3 1.4 参考资料和标准 5 第 2 部分系统总体框架与技术路线 5 2.1 系统应用架构 5 2.2 系统层次架构 6 2.3 关键技术与路线 6 第 3 部分系统设计规范 9 第 4 部分系统详细设计 9 第 1 部分概述 1.1 项目概况 Internet 已经发展成为当今世界上最大信息库和全球范围内传输知识主要渠道，站点遍布全球巨大信息服务网，为用户提供了一个极具价值信息源。不论是个人发展还是企业竞争力提升都越来越多地依赖对网上信息资源利用。现在是信息时代，信息是一个主要资源，它在人们生活和工作中起着主要作用。计算机和当代信息技术快速发展，使Internet成为人们传递信息一个主要桥梁。网络不停发展，伴伴随大量信息产生，怎样在海量信息源中查找搜集所需信息资源成为了我们今后建设在线预订类旅游网主要组成部分。所以，在当今高度信息化社会里，信息获取和信息及时性。而Web数据采集能够经过一系列方法，依据用户兴趣，自动搜取网上特定种类信息，去除无关数据和垃圾数据，筛选虚假数据和迟滞数据，过滤重复数据。直接将信息按照用户要求展现给用户。能够大大减轻用户信息过载和信息迷失。 1.2 系统建设目标在线预订类旅游网是在线提供机票、酒店、旅游线路等旅游商品为主，包括食、住、行、游、购、娱等多方面综合资讯信息、全方位旅行信息和预订服务网站。假如用户要搜集这一类网站相关数据，通常做法是人工浏览网站，查看最近更新信息。然后再将之复制粘贴到Excel文档或已经有资源系统中。这种做法不但费时费劲，而且在查找过程中可能还会遗漏，数据转移过程中会犯错。针对这种情况，在线预订类旅游网信息自动采集系统能够实现数据采集高效化和自动化。 1.3 建设标准 1.3.1 建设标准因为在线预订类旅游网数据采集包括方面多、数据量大、采集源数据结构多样化特点。所以，在进行项目建设过程中，应该遵照以下标准：可扩充性依照实际要求，系统可被方便地载减和灵活扩展，使系统能适应改变和新情况。能够实现模块级别动态扩展，而且是运行时。所谓运行时模块动态扩展，比如说你需要增加一些新功效，你能够将新开发类和文件按照Bundle进行组织，然后直接扔到运行时环境下，这些功效就能够用了。所以系统不会受技术改造而重新做出调整。创新性软件投资要考虑到今后发展，不能使用落后产品与技术，防止投资浪费；在系统软件选型、开发技术上，达成国内外先进水平。规范性和标准性整个设计方案从网络协议、操作系统到各个设计细节，应该全部遵照通用国际或行业标准，符合国家关于标准规范。低耦合性采集系统与其它系统彼此间相对独立，直接进行数据库入库、sql同时或者基于txt/xml 数据交换，确保整体系统低耦合性。高效性在底层技术实现上采取java语言，跨平台，跨数据库，运行效率卓越。安全、稳定、准确、及时性采取先进算法，采取多个子系统和工具组成一个安全、稳定、准确、及时处理方案。方案在总体设计上遵照稳定、开放、可扩展、经济、安全标准，从而使整个方案组成合理，技术先进，易于扩展，既能满足当前业务数据处理要求，又能符合长久发展需要。易操作和易维护标准整个系统易于维护，轻易操作，易学，易用，完全经过WEB方式完成，降低维护技术难度，也降低了人为隐患发生。 1.4 参考资料和标准主要参阅并依据以下一些参考资料及标准： l 《中国项目管理知识体系》（C-PMBOK），.5 l GB/T 1526-1989《信息处理数据流程图、程序流程图、系统流程图、程序网络图、系统资源图文件编制符号及约定》 l GB/T 8566-1995《信息技术软件生存期过程》 l GB/T 8567-1988《计算机软件产品开发文件编制指南》 l GB/T 9385-1988《计算机软件需求说明编制指南》 l GB/T 13702-1992《计算机件分类与代码》 l GB/T 11457-1995《软件工程术语》第 2 部分系统总体框架与技术路线网络信息资源采集系统是一套功效强大网络信息资源开发利用与整合系统，可用于定制跟踪和监控互联网实时信息，建立可再利用信息服务系统。能够从各种网络信息源，包含网页、BLOG、论坛等采集用户感兴趣特定信息，经自动分类处理后,以多个形式提供给最终用户使用。 2.1 系统应用架构互联网客户端网络蜘蛛网络蜘蛛数据解析数据分析分组分析数据库资源发布系统采集应用服务数据流控制流 l 网络蜘蛛：按照指定规则抓取网站数据。 l 数据分析：分析从网络蜘蛛来数据，过滤掉我们不需要信息。 l 数据解析：依照指定资源格式(字段)定义，进行数据库字段级别解析。 l 分组分析：依照不一样网络资源类型进行分类，并以多个存放方式进行存放。 2.2 系统层次架构表现层浏览器应用层网络资源采集数据转换数据导出数据公布网络请求采集监控数据分析消息通知登录验证数据处理任务计划惯用脚本库认证码识别数据层关系数据文本文件数据图片视频数据支撑层 WEB 服务器应用服务器规范接口其余整个系统分为四层，分别为： l 数据层：数据层负责存放抓取来各种信息及数据，这里面包含网页、文档、关系型数据、多媒体数据等。 l 支撑层：支撑层提供了关键硬、软件支撑系统，包含应用服务器、WEB服务器、规范接口等规范支撑系统。 l 应用层：在应用层主要提供网络资源采集、数据转换、分析、处理、导出、公布、采集监控、消息通知、登录验证、任务计划、认证码识别等服务。 l 表现层：表现层经过浏览器等方式，为用户提供多样化信息服务。 2.3 关键技术与路线为了充分满足本项目标建设：我们采取先进、主流、可靠、实用、性价比好三层架构体系，充分考虑今后纵向、横向扩张能力。采取构件化和面向对象技术，使系统具备灵活扩展性和良好移植性。 2.3.1 J2EE规范体系从软件层次上看，我们采取了经典J2EE三层架构体系，即应用—支撑—数据三层。简单地说，J2EE（Java[tm] 2 Platform Enterprise Edition）是一个标准中间件体系结构，意在简化和规范多层分布式应用系统开发和布署，有了它，开发者只需要集中精力编写代码来表示应用商业逻辑和表示逻辑，至于其余系统问题，如内存管理，多线程，资源分布和垃圾搜集等，都将由J2EE自动完成。 J2EE 已经被证实是一个稳定、可扩展、成熟平台，在国内外拥有众多成功应用实例。J2EE 应用服务器（Application Server）采取现在国际最先进开发理念、拥有许多适合基于Internet应用需求特点： l 三层结构体系——最适合Internet环境，能够使系统有很强可扩展性和可管理性。 l 面向对象、组件化设计——2EE是一个组件技术，已完成模块能方便移植到其它地方，能够提升开发速度，降低开发成本。 l 基于JAVA完全跨平台特征——与平台无关，适应Internet需要，并能得到大多数厂商支持，用户可依照需要选择适宜服务器硬件和数据库。而且假如需要更换系统平台时，J2EE也能方便进行移植。把J2EE三层架构软件体系引用到资源采集系统，将大大提升系统可移植性、可伸缩性和可扩展性。 2.3.2 XML技术 XML（eXtensible Markup Language，可扩展标识语言），是当前最热门网络技术之一，被称为“第二代Web语言”、“下一代网络应用基石”。自它被提出以来，几乎得到了业界全部大企业支持。XML具备卓越性能，它具备四大特点： l 优良数据存放格式 l 可扩展性 l 高度结构化 l 方便网络传输以XML技术作为支持，为用户自定义应用界面和业务数据结构，并将其与底层数据库定义格式、界面标准输入、输出接口转换作了实现，可实现分布式、异构应用系统之间数据交换。我们将在本项目中主要以XML为存放方式，方便扩展和数据分析。 2.3.3 WEB2.0技术 Web2.0，是相对Web1.0（以前互联网模式）新一类互联网应用统称，是一次从关键内容到外部应用革命，是依据“六度分隔”(注：由美国哈佛大学社会心理学教授斯坦利·米尔格兰姆发觉，你和任何一个陌生人之间所间隔人不会超出六个，也就是说，最多经过六个人你就能够认识任何一个陌生人。)、XML、AJAX 等新理论和技术实现互联网新一代模式。由Web1.0单纯经过网络浏览器浏览html网页模式向内容更丰富、联络性更强、工具性更强 Web2.0 互联网模式发展已经成为互联网新发展趋势。 Web1.0到Web2.0转变，详细说，从模式上是单纯“读”向“写”、“共同建设”发展；由被动地接收互联网信息向主动创造网络信息前进。运行机制上，由“Client Server”向 “Web Services”转变；作者由程序员等专业人士向全部普通用户发展；应用上由初级“滑稽”应用向全方面大量应用发展。采取创新Ajax技术，同等网络环境下，页面响应时间最高降低90％。 2.3.4 系统集成API XML文档结构在很多方面能够方便地反应对象结构，这也是其适合面向对象软件技术一个关键点。使用XML对数据源数据进行处理，它起着接口层或者封装作用，这么不一样应用程序之间，不一样操作系统之间，不一样数据库之间都能够交换数据。使用XML 作为数据交换工具还能够处理异构数据库之间集成。对本项目中包括到数据采集、转换、分析、处理等问题，我们将开发专用数据接口，采取XML技术作为数据交换页面描述规范。 XStream是一个Java和XML相互转换工具。使用非常简单，而且能够自定义转换过程，不过这个组件仅能做就是这些最基本工作，有了这个组件，我们能够不用考虑详细一个Java对象和XML之间问题了。第 3 部分系统设计规范第 4 部分系统详细设计 4.1 应用功效设计 4.1.1 资源采集我们能够使用采集，对网络上各种资源进行挖掘。 a) 采集工程：采集工作详细设置文件，包含了要采集资源链接。 1. 精准：依照指定资源格式(字段)定义，进行数据库字段级别采集。 2. 蜘蛛/爬虫：依照指定文件匹配表示式，自动对指定网站资源进行全方面分析和采集。 b) 字段：各种资源最小单位，譬如您要采集某个网站多个帖子，那么每个帖子可能包含以下字段：作者、标题、日期、内容等。 c) 链页：一些帖子在多页面里，这种情况下您能够为帖子内容字段设置链页属性，自动把多个分页内容合并到内容字段。 d) 追踪：一些资源是要从列表页面中，经过点击多个页面才显示，这种情况下，您能够为内容自动设置跟踪属性，自动获取最终内容。 e) 登录验证：一些资源网站需要您登录后才能够访问内容，这种情况下下，您能够为整个网站、每个链接甚至每个资源单独定义登录验证以满足详细需求。 1. 参数：这是模拟登录需要参数，譬如用户名、密码等。 2. 登录采集工程：一些网站登录认证相当复杂，往往会采取一些动态参数/值，假如用固定参数是无法满足登录需求，这个时候，您能够使用采集工程来自动获取登录参数值。 3. 登录脚本：假如即便使用采集工程依然无法满足一些尤其网站登录需求，您能够使用自定义登录脚原来实现对应登录认证。 f) 数据处理： 1. 脏字过滤：对符合国家要求敏感字符过滤，还能够自定义要过滤字符，以确保采集到内容符合相关法律法规。 2. 垃圾内容过滤：使用贝叶斯概率模型对已采集内容自动分析判定是否为垃圾内容，您能够自行对各种垃圾内容进行过滤。 3. 内容嗅探：对于Flash/Silverlight播放器，会在页面加载之后才从后台获取实际文件(.FLV/MP3/.XAP等)，您能够使用内容嗅探实现对这些实际内容采集。 4. 关键字/标签(Tag)自动分析：利用全文分词对采集内容进行分析，自动获取内容关键字/标签列表。 5. 文件格式批量转换：对大量文件快速转换，改变图片或视频大小/添加水印/改变格式，抽取压缩文件，Office系列文档转换为HTML，以多个方式修改文件名称和内容，修改图片文件属性，文本排版，文本混同，文本简繁大小写编码互转，文本切分合并，网页文本互转，不良图片过滤，数据转换等。 g) 图片转换：改变图片大小和格式，添加水印，支持jpg、bmp、png、gif、icl、jpeg 等。 h) 压缩文档：抽取/转换/生成压缩文档，支持zip、rar等。 i) Office文档支持：支持doc、docx、xls、xlsx、xml、pdf、rtf等。 j) 文本排版：段落智能修正、去掉干扰符、修正段落首尾空格、修正标点符号，支持 txt,htm,eml。 k) 文本切分合并：按大小、行数或段落数剪切文本内容、和并内容，支持txt,htm,eml。 l) 不良图片过滤：识别并过滤不良图片，支持全部图片。 m) 数据转换：使用自定义脚本转换数据和文件，支持采集工程、各种数据库和各种文件。 n) 快速下载： 1. 链接分析：复制要下载各种资源(如图片等)链接或网页内容，全自动分析并下载到当地磁盘。 2. 嗅探：复制视频地址或内容，全自动分析并下载视频，特有嗅探功效，支持全部视频网站。 o) 经过多线程并行采集，加紧采集速度。 4.1.2 数据导出 a) 导出数据库：把采集后数据导出到各大数据库/数据文件中。 b) 以Excel、XML等文件形式导出。 c) 能够把文件导出到FTP。 d) 自定义导出脚本。 4.1.3 资源信息公布 a) 采集后数据：能够把采集后数据，公布到指定网站或系统。 b) 网络请求：能够自定义请求，譬如网络投票等。 4.1.4 任务计划能够指定采集、转换、导出、公布、请求等各种任务定时执行。 a) 可启用多个线程来完成同一个采集任务。 b) 可自由设定采集网页数和暂停时间，此功效主要处理采集过快而被屏闭或禁止访问等问题。 c) 能够在采集当中随身暂停、开启或停顿任务。 4.1.5 消息通知能够自动经过多个方式（邮件、系统日志、系统声音等）通知采集公布情况。 a) 在各种任务完成之后，如采集，公布，计划任务等。 b) 监控指定网站并在数据改变时。 4.1.6 监控设置当网络资源更新或采集到新资源信息时，经过各种通知方式，随时提醒。 4.1.7 脚本定义脚本是对各种功效自定义扩展，支持JavaScript语言编写。 a) 采集脚本：在采集工程中，假如碰到一些特殊资源，正常采集方式无法胜任时候，能够经过脚原来进行自定义采集。 b) 公布脚本：能够针对特殊网站进行发送请求。 c) 惯用脚本：系统内置惯用脚本，如对专用链解释/编码、条形码生成、敏感字符过滤、汉字分词/Tag识别、计算数学表示式、RSS解释与生成、消息通知等。 4.1.8 认证码识别系统自动识别各种登录页面认证码、验证码等。 a) 默认识别：全自动识别各种常见认证码。 b) 智能识别：自定义识别各种特殊认证码。 4.1.9 系统扩展系统提供以下丰富程序接口，方便系统进行二次开发。 a) 消息通知：编写各种特定消息通知方式以满足需求。 b) 汉字分词/Tag识别。 c) 数据转换：转换各种采集后数据到系统当中。 d) 功效扩展：对各种功效(采集、公布、脚本、消息通知、计划任务等)进行自定义设置并应用到实际系统运行中。 4.1.10 任务管理能够对采集、公布、请求、计划任务、脚本、消息通知等各种任务进行全方面管理。 4.1.11 地图周围资源采集可依照采集到数据在地图上显示，以该点为中心，在指定搜索范围内搜索其周围全部资源信息，并采集到系统当中。以酒店为例：以酒店为中心5公里范围内，在这范围内全部酒店、旅行社、小吃、旅游景点、购物场所、公交信息等都能够搜索到并采集下来。

展开阅读全文