收藏 分销(赏)

城市大数据中心(一期)建设项目-概要设计说明书-v2.5.docx

上传人:w****g 文档编号:9581503 上传时间:2025-03-31 格式:DOCX 页数:84 大小:2.35MB 下载积分:16 金币
下载 相关 举报
城市大数据中心(一期)建设项目-概要设计说明书-v2.5.docx_第1页
第1页 / 共84页
城市大数据中心(一期)建设项目-概要设计说明书-v2.5.docx_第2页
第2页 / 共84页


点击查看更多>>
资源描述
智慧无锡建设“一中心、四平台”项目 城市大数据中心(一期)建设 概要设计说明书 软通动力信息技术(集团)有限公司 地址:北京市海淀区西北旺东路10号院东区16号楼 电话:86-10-58749000 传真:86-10-58749001 网址:http:// 城市大数据中心(一期)建设 概要设计说明书 目 录 第一章 文档概述 3 1.1 目的 3 1.2 项目背景 3 1.3 读者对象 3 1.4 基线文档 4 1.5 参考文档 4 1.6 名词术语 4 第二章 一中心四平台总体设计 6 2.1 综述 6 2.2 一中心四平台总体架构 6 2.3 一中心四平台项目系统列表 8 第三章 大数据中心系统设计 10 3.1 整体规划 10 3.2 一期建设目标 10 3.3 大数据中心系统架构 11 3.4 数据架构设计 15 3.4.1 数据类别 15 3.4.2 数据质量设计 16 3.4.2.1 数据质量要求 16 3.4.2.2 数据质量保证方法 18 3.4.3 数据存储设计 18 3.4.3.1 数据库选型和数据分类 18 3.4.3.2 人口库数据库表清单(部分)附件 19 3.4.3.3 数据库逻辑结构设计(部分) 19 3.5 数据流向图 20 3.6 功能架构设计 21 3.6.1 功能结构图 21 3.6.2 基础信息库功能列表 23 3.6.3 舆情服务平台功能列表 25 3.6.4 数据交换平台功能列表 26 3.6.5 数据管理平台功能列表 28 3.6.6 政务共享平台功能列表 31 3.6.7 信息资产管理与服务平台功能列表 34 3.6.8 基础支撑平台功能列表 37 3.7 接口设计 40 3.7.1 内部接口 40 3.7.1.1 接口列表 40 3.7.1.2 接口详细说明 41 3.7.2 外部接口 41 3.7.2.1 接口列表 41 3.7.2.2 接口详细说明 42 3.8 部署架构 48 3.8.1 网络拓扑 48 3.8.2 机柜规划 50 3.8.3 硬件运行环境 51 3.8.4 软件运行环境 53 3.8.5 网络环境 53 3.9 安全方案设计 54 3.9.1 安全设计原则 54 3.9.2 安全技术方案 55 3.9.3 安全管理措施 67 第四章 数据流处理和控制 76 4.1 委办局数据交换到大数据中心 76 4.2 大数据中心到业务系统 76 4.3 委办局接口到业务系统 77 4.4 舆情数据采集数据流 77 4.5 视频数据流 77 第五章 统一管理与界面 79 5.1 统一项目管理体制 79 5.2 统一的数据标准规范 79 5.3 统一安全体系 79 5.4 统一的数据采集处理方式 80 5.5 统一身份认证及登录门户 80 5.6 统一界面风格 80 5.7 统一部署架构 80 5.8 统一运维管理 81 附件1:人口库数据表清单 82 第 83 页 第一章 文档概述 1.1 目的 本文依据“一中心、四平台”项目城市大数据中心建设的《需求规格说明书》中所规定的软件开发需求和界定的系统开发范围,将软件需求转换为系统的软件设计架构,明确软件的系统总体结构、子系统结构、接口设计、数据库设计,以及运行环境设计、部署架构等设计内容,为下一步的软件开发、测试、部署、运维提供明确的依据和指导。 1.2 项目背景 通过一中心、四平台和N个应用的建设,即城市大数据中心、电子政务综合信息服务平台、城市管理综合信息服务平台、经济运行综合信息服务平台、民生服务综合信息服务平台和各行各业各领域的智慧应用建设,把无锡打造成为具有国际影响力的智慧城市建设先行示范区、具有一流竞争力的智慧经济发展产业集聚区、具有较强辐射力的智慧民生服务创新先导区。 项目通过(一期)平台搭建期、(二期)应用扩展、(三期)全面推广的建设,达成整合(政务、社会、资源、网络数据),优化(业务流程、系统架构、功能服务、信息传播),共享(数据、知识、功能、信息)等能力,提升城市智慧水平,在更注重发展质量、更注重创新创造、更注重生态文明、更注重市场机制、更注重公平正义、更注重改善民生的社会新常态下,实现惠民、强企、优政的目标。 1.3 读者对象 本文档的读者对象包括: 1、用户方; 2、项目总集成方; 3、项目监理方; 4、系统分析与设计人员; 5、软件开发人员; 6、系统测试人员; 7、项目管理人员; 8、项目运维人员; 9、其他相关人员。 1.4 基线文档 编写本系统设计说明书所依据的需求基线文档如下: 1、《城市大数据中心(一期)建设需求规格说明书》 1.5 参考文档 本系统设计说明书编写过程中参考了以下文档: 1)、中华人民共和国国家标准——GB/T 8567-1988《计算机软件产品开发文件编制指南》 2)、《无锡市政务信息资源共享管理办法》 1.6 名词术语 本文档使用的缩写如下表所示: 表1: 缩写表 缩写 中文名称 FTP 文件传输协议 API 应用编程接口 DW 数据仓库 ODS 操作数据存储 ESB 企业服务总线 ETL 数据集成工具 JavaEE J2EE的新版及其新称谓 PBID 人口基础信息库 CBID 法人基础信息库 GASP 政务共享平台 第二章 一中心四平台总体设计 2.1 综述 以“感知中国、智慧无锡”为主线,以“惠民、强企、优政”为宗旨,以“让城市更宜居、让产业更发达、让生活更便捷、让百姓更幸福、让社会更和谐”为方向,以“政府主导、企业主体、社会参与、市场运作”为原则,按照“整合、优化、共享、外包”的理念,整合资源,整合系统,整合服务,采用先进成熟的新一代信息技术,构建“一中心、四平台”即构建城市大数据中心(简称“大数据中心”),打造电子政务综合信息服务平台、城市管理综合信息服务平台、经济运行综合信息服务平台、民生服务综合信息服务平台,为各行各业智慧应用建设、城市运行管理提供全方位的支撑,全面提升城市智慧化水平。 “一中心”和“四平台”相互支撑,互利互通。城市大数据中心提供基础数据服务,四平台及舆情采集的业务数据提供给大数据中心实现专题应用。通过大数据中心的服务容器的搭建,为四平台形成支撑服务,最终形成为政府、企业、公众提供基于无锡大数据的创新源头,形成促进信息增值,信息消费的创新孵化器。 2.2 一中心四平台总体架构 项目(一期)平台搭建期,主要从“共建部门”即无锡市各委办局及企事业单位所属的各业务信息系统中采集数据,将数据集成到大数据中心,应用系统主要服务“定制服务平台”即四个业务平台和政务共享平台。大数据中心、应用系统和数据标准规范等文档为本期项目成果,是交付提交给运维管理方的重要资源。 下图所列为一中心四平台整体框架,整体描述了大数据中心及系列应用平台建成后的业务生态链。 图1: 一中心四平台项目总体架构图 1、数据源 大数据中心数据主要来源自无锡市各委办局及企事业单位和网络收集的舆情数据。一期重点实现数据汇聚和人口库、法人库的建设,并为应用系统(四个业务平台及政务共享平台)提供数据支撑。 (1)一期采集数据的委办局及企事业单位不少40家,数据提供单位包括:应急办、发改委、经信委、信电局、教育局、科技局、公安局、监察局、民政局、司法局、人社局、国土局、建设局、交通运输局、水利局、农委、卫生局、计生委、环保局、规划局、住建局、市政园林局、城管局、统计局、安监局、物价局、旅游局、工商局、国税局、地税局、食品药品监管局、气象局、质监局、商务局、财政局、残联、编办、政务办、社保中心、公积金管理中心、医管中心、交通产业集团、地铁集团、机场集团、市政公用产业集团、供电公司、人行无锡中心支行等。 委办局及企事业单位数据为人口库、法人库提供原始业务数据来源,同时为应用系统(四个业务平台及政务共享平台)的数据分析及展示提供支持。 (2)舆情采集数据主要来自全国及无锡市本地的新闻媒体、论坛、微博、微信等网络数据源。 舆情采集数据提供主题数据分析(具体主题待定),结合委办局及企事业单位及人口库、法人库数据满足应用系统(四平台及政务共享平台)需求。 采集数据包括:人口基本信息、流动人口信息、居住证信息(16岁及居住半年以上的外来人口)、户口信息、标准地址信息、无锡市行政区划、无锡市机关单位组织机构等。详见数据项汇总列表。 2、数据层 该部分功能由大数据中心提供,包括数据交换、数据处理、人口法人库数据整合、数据共享、数据管理等内容。具体内容如下: (1)根据应用系统和人口库、法人库的建设需求,梳理数据整合的范围、方式和规则等。 (2)委办局及企事业单位和舆情数据通过数据交换平台,汇聚到大数据中心。数据交换包括数据交换平台自动采集数据和人工手动导入数据两种方式。根据梳理的规则,统一通过数据处理工具进行数据的抽取、转换、加载,形成委办局和舆情主题库数据,以及人口库、法人库等基础信息专题库数据。 (3)大数据中心提供数据共享服务,根据内部系统和外部委办局及系统的需求提供数据授权,提供完善的数据安全机制,保证数据的安全性。 (4)大数据中心通过数据管理平台提供数据管理维护的功能,方便运维人员及管理员查看委办局主题库、人口法人库的数据量、数据使用情况等。依据数据需求量及数据中心的负载等信息,运维人员可在技术上进行调整,保证数据中心稳定、健康的运行。 (5)基础支撑服务不仅提供统一认证服务、大数据离线分析处理功能,同时提供应用系统建设需要的基础服务,如报表服务、消息服务等。 3、应用层 一中心四平台所有应用全部通过统一认证门户进行登录和管理。 一期业务系统包括:城市管理平台、电子政务平台、经济运行平台、民生服务平台。 2.3 一中心四平台项目系统列表 序号 系统名称 厂商 1 一中心 人口库、法人库 软通动力 2 数据管理平台 3 数据交换平台 4 政务共享平台 5 舆情服务系统 6 信息资产管理与服务平台 7 基础支撑平台 8 四平台 城市管理平台 中兴 9 电子政务平台 中科 10 经济运行平台 东方通 11 民生服务平台 润和 第三章 大数据中心系统设计 3.1 整体规划 大数据中心为“一中心四平台”项目建设的核心,建设过程规划如下: 1、一期——平台搭建 完成数据汇聚、数据管理平台、人口库、法人库的建设,提供可扩展的数据交换、处理、共享框架,先期满足四平台和政务共享平台的数据需求和服务支撑。 2、二期——应用推广 扩充基础信息库和专题库的建设范围,提供更丰富的数据支撑。建设重点转向应用服务,向全市域委办局推广数据应用。 3、三期——全面推广 深化数据运营,完善数据更新及补充机制,适时提供社会数据开放服务。 3.2 一期建设目标 1、总体目标 建设无锡市城市大数据中心,完成人口库、法人库数据的汇聚,提供可扩展的数据交换、处理、共享框架,部署舆情服务系统、信息资产管理与服务平台、政务共享平台。同时大数据中心为城市管理平台、电子政务平台、经济运行平台、民生服务平台提供数据支撑。 2、具体目标 在总体目标的指导下,无锡市城市大数据中心将达成以下具体目标: (1)建立覆盖各共建单位的政务信息资源目录体系,对人口、法人共享基础信息进行梳理、编目,形成无锡市信息资源目录体系的示范应用,带动目录体系建设; (2)建立覆盖各共建单位的信息资源交换体系,提供人口、法人数据的交换服务,将政务信息汇聚落地成库,为实现跨部门主题应用提供支撑。同时为下一步交换体系横向覆盖更多的委办局提供可扩展的框架; (3)以现有的无锡市政务外网和互联网为依托,融合公安、人社、计生、民政等厅局单位与人口相关的信息资源,形成全市人口基础信息库,为人口生命周期管理、业务拓展、政府决策、公共服务系统等提供信息支撑; (4)整合工商、税务、质监、编办等部门的法人相关信息,形成全市法人基础信息库,为各监管部门进行“业务交叉稽核”、三证合一等政务融合奠定基础; (5)建立符合无锡市数据标准规范和管理制度规范等,明确统一的数据共享协议,明确部门共享信息资源的责任与义务; (6)建设基于基础数据库的主题应用,包括舆情分析、政务共享平台等,实现对网络舆情的分析,基于GIS平台对人口和法人基础信息库进行应用分析和数据展示; (7)大数据中心整体设计符合国家等级保护相关规定要求,并建成基础支撑平台为四平台的运行提供基础支撑服务,包括:流程服务、消息服务、检索服务、报表服务、大数据分析组件服务、统一身份认证等。 3.3 大数据中心系统架构 图2: 大数据中心系统架构 大数据中心存储数据包括:各委办局、人口库和法人库等数据,共涉及到40多个委办局及企事业单位。大数据中心持续采集部门业务数据,进行数据集成,保持数据的生命力。重点完成人口库、法人库的数据整合,以及空间地理库的重构。通过大数据中心的数据交换、共享、发布服务,不仅支持数据的汇聚和整合,同时可以将数据提供给上层业务系统以及委办局使用。 大数据中心在数据整合的同时提供基础数据的可视化展示,包括数据的查询,人口法人数据的统计报表;将人口、法人数据结合GIS地图进行展现;对于数据应用无法满足需要的情况,提供自定义展示等功能。 基础信息库应用可以实现对人口和法人的全生命周期管理和展示。基础数据和扩展数据的融合初步组成无锡大数据中心,后期面向公众、企业、政府提供全方位的信息服务,共建共享,从而缩小政府和民间的数字鸿沟,降低企业的信息化采集成本,增强政府的社会管理和服务能力。下面分层介绍系统整体架构: 1、基础设施层 一中心四平台需要基础设施主要由无锡市现有机房提供,包括物理服务、虚拟机和存储设备,以及整体网络布设、机房安全等。 2、数据采集 (1)数据交换方式 大数据中心数据采集主要是通过交换平台和舆情数据采集服务两种方式来完成。数据交换平台支持分布式前置交换和人工上传集中式交换两种交换模式。 序号 交换模式 描述 1 分布式前置交换 对于信息化建设水平高,业务系统及业务信息库完善的部门,安装交换前置机,将交换平台与部门业务系统隔离开来,保证部门业务系统与业务数据库的独立性,同时保证部门业务网络、业务系统的安全。交换前置机上安装部门前置交换信息库,保存部门对外交换共享的数据和从交换平台接收的数据。部门业务应用数据库与前置交换数据库之间通过信息交换桥接实现交换信息的实时同步。 2 人工上传集中式交换 对于信息化建设基础相对较差,业务信息系统建设不完善的部门,采用人工上传/下载的方式实现集中式交换。发送数据时,利用信息交换中心的数据上传网站,部门将需要交换的信息以XML、文本文件、EXCEL文件形式上传到交换中心,交换中心配置的适配器将上传的数据发送到信息交换平台,并经信息平台发送到相应部门。接收数据时,由交换平台负责生成数据交换文件保存到指定的目录,部门通过数据上传网站下载所需数据文件。 (2)交换前置机部署 考虑到无锡市委办局应用系统运行在政务内网、政务外网以及专网多种网络环境下,且网络之间物理隔离,而大数据中心位于政务外网。数据交换平台前置机采用如下部署方式: 序号 网络环境 前置机方案 部署方案描述 1 政务外网 共享前置 前置机部署在大数据中心政务外网。内专网业务系统数据通过人工方式导出,并导入外网前置机;外网业务系统数据直接通过数据交换平台对接至外网前置机。 独立前置 前置机部署部署于委办局政务外网。内专网业务系统数据通过人工方式导出,并导入外网前置机;外网业务系统数据直接通过数据交换平台对接至外网前置机。 2 政务内网 共享前置 前置机部署在政务内网和专网,业务系统数据统一汇聚到内网专网共享前置机中,然后通过人工方式将数据导入到政务外网共享前置机中。 3 专网 独立前置 前置机部署在专网,专网与外网逻辑隔离。委办局的网闸等设备或安全接入平台等实现专网到外网的通信,将数据推送到外网前置机。 3、数据处理层 大数据中心将原始数据分为委办局业务数据和舆情采集网络数据等原始数据、委办局业务数据和舆情数据行清洗之后的主题数据以及人口法人库等专题数据三种。数据的清洗、比对工作统一使用ETL来完成。数据管理平台提供物理数据库、主题数据、专题数据的管理监控功能,并提供数据共享服务,支持数据在内部以及外部系统之间的交互。 该层重点关注内容如下: 序号 重要流程和问题 解决方法 1 数据首次入库采集与整合流程 分析首次入库的清洗规则,ETL配置执行,保证数据准确。 2 正常运行过程中的数据整合流程 梳理数据转换规则、比对规则等,ETL配置执行,保证不产生重复数据 3 数据交换平台配置,可自定义数据采集内容和数据采集周期 提供采集周期和采集数据内容的配置功能。 4 数据字典采集和整合,保证数据一致性 梳理数据字典及各委办局数据比对规则,ETL配置执行 5 数据入库规则,入库后形成各委办局主题以及基础信息库(专题库)并保证数据质量 将整合后数据分为委办局主题库和专题库,分析每层入库规则,从不同层面上保证数据的质量。 6 数据授权和数据访问审计问题 从物理上、存储上、应用保证数据安全。详见安全方案。 4、服务支撑层 基础支撑平台主要为一中心四平台的运行提供基础支撑服务,基础支撑平台实现的服务包括:流程服务、消息服务、检索服务、报表服务、大数据分析组件服务。 5、应用层 大数据中心的应用层主要包括:政务共享平台、信息资源管理与服务平台、舆情服务系统、流动人口社会化项目。 (1)政务共享平台 基于GIS平台,结合人口、法人基础库,为其它部门提供高效率的在线查询服务、主题应用展示等功能。人口法人基础信息服务面向政府提供信息服务。 (2)信息资产管理与服务平台 信息资产管理与服务平台是大数据中心的账本,提供无锡市各委办局政务信息资源的分类管理等功能。 该系统遵循国家政务信息资源目录体系标准,以及其他相关技术标准和管理规范的要求,基于可视化技术和大数据应用,实现对信息资产的开发与利用,实现信息资源的共享与服务,实现信息资产的登记、管理、发布等功能。 (3)舆情服务平台 针对城市管理、经济运行等方面,提供网络舆情服务,网络舆情来源于互联网数据采集(包括网页、微博等)并实现不同的专题分析,提供专题分析配置功能,实现政府对网络舆情的监测,为政府管理服务提供数据支撑和依据。 (4)流动人口社会化项目 流动人口数据是人口基础信息库的重要组成部分,为实现对流动人口的管理,建设流动人口社会化服务管理系统,实现对流动人口信息的申报、比对、审核和房屋二维码管理等功能。所以,流动人口社会化项目不仅是数据的使用者,同时也是数据的提供者。该项目先与大数据中心项目独立实施,目前已上线。本文档不对流动人口社会化项目进行详细说明。 6、安全保障体系 确保平台安全运行的保障体系,信息安全贯穿于平台的各个层面,平台各系统的建设都必须具有相应安全保障措施。安全保障体系主要包括数据安全、应用安全和安全管理制度。详见安全方案设计。 7、标准规范体系 标准规范体系是无锡市城市大数据中心标准化工作的核心,也是无锡市城市大数据中心总体设计的重要内容。无锡市城市大数据中心标准规范体系要求按标准规范办事,使工程建设效果符合最新的行业技术质量标准规范,保证工程的先进性和可靠性,符合国家、省、市电子政务项目建设规范的要求。 参考文档包括: 《国家电子政务标准化指南》 《无锡市政务信息资源共享管理办法》 《江苏省综治信息系统数据整合暂行规定》 3.4 数据架构设计 大数据中心数据架构如下: 图3: 大数据中心数据架构 本章节主要说明大数据中心的数据组成,大数据平台对数据质量的要求及解决方法,数据容量以及存储方式等问题。 3.4.1 数据类别 大数据中心将数据划分为以下四类: 1、前置数据 委办局提供的原始业务数据,该部分数据存放在前置机中,尚未传输到大数据中心。前置数据物理位置可以是大数据中心,也可以在各委办局,视具体情况而定。前置数据相对质量较低,存在较多冗余和错误。 2、大数据中心原始数据(操作数据) 通过数据交换平台周期将前置机中数据(前置数据)采集到大数据中心后,这里称之为原始数据或操作数据。该部分数据是细粒度的业务数据,它是大数据中心可以维护数据的最小单位。同前置数据一样,该部分数据是相对质量较低,存在全量、增量、差量、不一致、错误等问题,需要进一步处理方能使用。 3、主题数据 将委办局原始数据进行清洗、比对等处理后得到的较为准确和完整的数据,以及其他主题数据进行综合分析处理、数据挖掘后得到的数据。该部分数据质量较高,数据相对完整,可通过数据服务直接提供给应用系统使用,也可进行批量处理作为其他主题数据的来源。主题数据又分为以下两种类型。 (1)委办局主题数据 委办局交换过来的原始数据进行清洗、比对等处理后的数据。这部分数据完全按照数据的来源单位进行管理,即每个共建单位都有自己的主题数据库。它跟委办局业务系统的数据相比,不仅消除数据的错误,也统一了数据标准,同时保证数据累计变化的结果。 (2)专题数据 根据具体的业务需求对委办局数据或其他主题数据进行处理得到的数据。该部分数据质量较高,具有很强的业务倾向性,在大数据中心中包括人口库、法人库等数据。 4、业务数据 数据管理平台、政务共享平台、信息资源管理平台、经济运行平台、城市管理平台、民生服务平台、电子政务平台等应用系统自身的业务数据、数据字典和系统数据等。 5、非结构化数据 非结构化数据主要包括文档、视频等,这些数据通过文件交换平台传送到大数据中心,并保存在Hadoop集群上。该部分非本期重点建设内容,二期会有更多规划和使用。 3.4.2 数据质量设计 3.4.2.1 数据质量要求 大数据中心数据的质量是保证数据应用的基础,它的评估标准主要包括四个方面,完整性、一致性、准确性、及时性。评估数据是否达到预期设定的质量要求,就可以通过这四个方面来进行判断。 1、完整性 完整性指的是数据信息是否存在缺失的状况,数据缺失的情况可能是整个数据记录缺失,也可能是数据中某个字段信息的记录缺失。不完整的数据所能借鉴的价值就会大大降低,也是数据质量最为基础的一项评估标准。 2、一致性 一致性是指数据是否遵循了统一的规范,数据集合是否保持了统一的格式。 数据质量的一致性主要体现在数据记录的规范和数据是否符合逻辑。规范指的是,一项数据存在它特定的格式,例如IP地址一定是由 4个0到255间的数字加上”.”组成的。逻辑指的是,多项数据间存在着固定的逻辑关系,例如PV一定是大于UV的,跳出率一定是在0到1之间的。 一般的数据都有着标准的编码规则,对于数据记录的一致性检验是较为简单的,只要符合标准编码规则即可,例如地区类的标准编码格式为“北京”而不是“北京市”,我们只需将相应的唯一值映射到标准的唯一值上就可以了。 3、准确性 准确性是指数据记录的信息是否存在异常或错误。和一致性不一样,存在准确性问题的数据不仅仅只是规则上的不一致。最为常见的数据准确性错误就如乱码。其次,异常的大或者小的数据也是不符合条件的数据。 数据质量的准确性可能存在于个别记录,也可能存在于整个数据集,例如数量级记录错误。这类错误则可以使用最大值和最小值的统计量去审核。 一般数据都符合正态分布的规律,如果一些占比少的数据存在问题,则可以通过比较其他数量少的数据比例,来做出判断。 当然如果统计的数据异常并不显著,但依然存在着错误,这类值的检查是最为困难的,需要通过复杂的统计分析对比找到蛛丝马迹,这里可以借助一些数据分析工具,那么具体的数据修正方法就不在这里介绍了。 4、及时性 及时性是指数据从产生到可以查看的时间间隔,也叫数据的延时时长。及时性对于数据分析本身要求并不高,但如果数据分析周期加上数据建立的时间过长,就可能导致分析得出的结论失去了借鉴意义。 3.4.2.2 数据质量保证方法 大数据中心为了保证数据质量和安全以及应用的需求,对数据进行如下处理: 1、通过ETL设定数据清洗规则,对操作数据进行数据有效性(准确性)检查; 2、统一数据字典、编码以及数据规则,并配置在ETL上运行,对数据进行数据一致性检查和处理; 3、数据采集周期设定小于委办局数据提供周期的90%,以保证数据的及时性; 4、主题库、专题库包括实时数据快照,方便查询主题库最新数据; 5、主题库、专题库包括累计数据快照,记录主题数据累计变化的结果,使用数据版本管理机制,支持数据的历史分析,保证数据时间维度上的完整性; 6、主题库、专题库周期进行数据备份,每周一次完整备份,每天一次增量备份,并由曙光机房提供容灾备份,保证数据的安全,防止意外情况导致数据不可恢复的丢失。 3.4.3 数据存储设计 3.4.3.1 数据库选型和数据分类 大数据中心数据库包括关系型数据库和非关系型数据库,主要选型为:Oracle和Hadoop两种,它们分别适用于不同的数据类别和应用场景。具体规划如下: 序号 数据类别 数据选型和规划 1 前置数据 委办局数据源,根据实际情况选择数据库、文件或服务接口。 2 原始数据(操作数据) 原始数据只存放一个周期从委办局交换来的基础信息数据,数据量相对较小,且存在数据的增删改查操作,这里推荐将存放在Oracle数据库中。 3 主题数据 主题数据中“实时数据”和“累计数据”需要满足应用的各种实时查询要求,且数据量不大,存放在Oracle数据库中非常合适。周期数据备份主要用来支持大数据分析处理和数据备份,数据量大。随着时间的推移,周期备份数据量会不断膨胀,这里推荐存放到Hadoop分布数据存储中,即提供大量的数据分析处理能力,又满足容量扩展性的要求。 4 专题数据 “专题数据”同“主题数据” 5 业务数据 业务数据涉及到业务上较多的增删改查操作,且数据量较小,这里存放在Oracle数据库中。 3.4.3.2 人口库数据库表清单(部分)附件 见《附件1:人口库数据表清单》。 3.4.3.3 数据库逻辑结构设计(部分) 完整的人口库、法人库逻辑结构,请参见《数据库设计》文档。 图4: 人口库ER图(部分) 3.5 数据流向图 图5: 大数据中心数据流向图 主要描述如下内容: 1、所有来源系统的数据均通过数据共享交换平台集成到数据中心原始数据(ODS)库。 2、主题数据和专题数据为其中非常重要的部分,是用户最常使用的数据。用户处理的流程大致如下: (1)所有由数据交换平台采集的数据均先存储到原始数据库(ODS库),该库是一个临时数据库。 (2)ETL根据配置的周期定时将ODS数据抽取、处理、加载到主题库,然后删除处理后的ODS库数据。主题库的数据较ODS数据质量较高,基本满足数据质量要求,可提供给用户直接使用。 (3)专题库数据主要来源自主题库数据的加工处理的结果,也可能直接来自ODS库。 关于ODS库与主题库、专题库的主要区别如下: (1)数据质量标准不同:ODS库中的数据,直接集成原始信息系统,数据完整性、一致性较差;主题库、专题库中存储的数据,是数据整合后的保证(完整性、一致性、及时性)的数据; (2)数据服务方式不同:ODS库中的数据,数据中心提供认证的入库查询服务;主题库、专题库中的数据,由大数据管理平台开发数据服务API(Data API),再经数据服务总线提供数据服务。 3、错误数据反馈 大数据中心错误数据从数据交换、数据处理以及应用层三个层面完成错误数据的反馈。 (1)数据交换层 数据交换平台支持配置简单的规则,过滤错误数据,并通过日志等形式,反馈给用户。 (2)数据处理层 ETL做数据清洗、比对时,支持将过程错误信息存放到预先定义好的数据库中,这样可以查询到清洗和比对的数据记录。 (3)应用层 数据管理平台提供错误数据反馈功能,当用户发现错误数据时,可登录数据管理平台,提交错误数据反馈信息,将信息提交给数据的提供者和维护人员,交由他们修正数据。 错误数据修改流程是唯一的,直接由数据提供单位将正确数据提交到数据交换平台的前置机中,重新经过一次数据处理过程,即可将正确数据覆盖以前的错误数据。 3.6 功能架构设计 3.6.1 功能结构图 城市大数据中心(一期)建设项目由七个子系统组成,分别为数据交换平台、基础信息库(人口库、法人库)、舆情服务系统、数据管理平台、基础支撑平台和政务共享平台。其中基础信息库为本期项目建设的核心目标;数据交换平台、舆情服务系统和数据管理平台为大数据中心的数据生产平台,负责获取、整合数据,为基础信息库提供技术支撑和管理能力,并对上层应用系统提供数据服务;政务共享平台为大数据中心的应用平台,结合人口和法人基础信息库,提供基于GIS、报表的数据展示和在线数据查询等功能。具体功能结构如下图所示: 图6: 大数据中心功能架构图 1、基础信息库 基础信息库建设包括人口库、法人库、地理基础信息库。主要功能有:综合采集、梳理、交换、整合、建立人口基础信息库和法人基础信息库,以及地理基础信息库的整合重构方案设计。基础信息库的数据清洗、比对等的数据处理能力,统一通过ETL进行配置实现。另外,基础信息库建设过程中,形成各委办局的主题库,从委办局维度整合数据。同时结合人口库、法人库重构现有地理基础信息库。 所有基础信息库和委办局主题库的数据通过数据管理平台进行统一数据管理和维护。 2、舆情服务系统 针对城市管理、经济运行等方面,提供网络舆情服务,网络舆情来源于互联网数据采集(包括网页、微博等)并实现不同的专题分析,实现政府对网络舆情的监测,为政府管理服务提供数据支撑和依据。 3、数据交换平台 负责各委办局数据的采集,通过交换平台将共建部门的业务数据汇总到数据中心。利用交换平台实现异构系统的数据采集、可靠信息传输等功能,并提供的适配器功能实现对数据的抽取、加载、格式转换等功能。采集后数据首先入ODS库,并保证数据采集的质量,提供数据交换监控等功能,支持后续数据的扩展。 4、数据管理平台 通过ETL工具将数据从ODS库整合到委办局主题库,提供数据的处理、元数据管理、数据申请授权、错误数据反馈、数据运行监控、数据服务等功能。为基础信息库建设提供所需处理规范和工具,形成统一的数据标准及管理规范,实现对城市大数据中心数据库的日常管理与维护,支撑上层应用系统。 数据服务模块对外提供的数据服务,由数据管理平台和数据共享交换平台(ESB)共同实现,数据管理平台提供数据访问接口,API接口注册到ESB对外发布数据服务。 5、政务共享平台 基于无锡市已有的GIS平台,提供人口和法人数据的查询、统计报表等应用服务。此外,基于成熟的人口和法人基础信息库,数据管理平台提供一系列的数据服务接口,以支撑政务共享平台对委办局提供的专题应用。政务共享平台具有自动定义应用的开放模式,支持应用扩展需求。 6、信息资产管理和服务平台 信息资产管理与服务平台实现了对全域范围内的信息资产的管理。包括:信息资产登记、信息资产管理、信息资产服务、信息资产发布四个系统。 7、基础支撑平台 主要为一中心四平台的运行提供基础支撑服务,基础支撑平台实现的服务包括:流程服务、消息服务、检索服务、报表服务、大数据分析组件服务。 3.6.2 基础信息库功能列表 表2: 基础信息库功能列表 序号 一级模块 二级模块 功能点 描述 1 人口库 数据采集 数据采集处理 通过数据交换平台将委办局提供的数据进行采集。 2 接收数据查看 通过数据交换平台将委办局提供的数据进行梳理,并且可对委办局对接的元数据进行查看。 3 数据处理 清洗比对处理 数据比对系统通过数据比对引擎,实现对基础信息库的比对工作。 4 清洗比对结果 对系统进行清洗比对后的数据进行相关的条件查询,并根据用户的需求导出为相应的文件。 5 数据入库 数据入库 数据入人口库的方式和规则。 6 异常数据报警 异常数据报警 在数据清洗、比对工作中,通过用户认可的业务过滤规则、各委办局数据的相互比对,发现并记录提醒不符合要求的数据,以及数据的相关信息。 7 数据共享发布 信息服务 人口信息服务主要是可按部门来对人口信息进行查询、可查看人口详细信息等。 8 码表信息 码表信息可供各部门下载相应码表数据。 9 共享指标 共享指标,可查看各部门提供的信息及数据项。 10 在线数据查询 在线数据查询 为政务共享平台提供基础数据,提供人口、法人信息的实时查询功能。详细功能描述参见政务共享平台在线查询模块。 11 统计报表 基础信息统计 可按人口年龄、文化、民族、性别来进行统计分析,并能直观、清晰、友好展现出人口统计分析的数据。 12 地区分布统计 按地区来进行统计分析,并能直观、清晰、友好展现出人口统计分析的数据。 13 人员参保分析 按社保参保情况来进行统计分析,并能直观、清晰、友好展现出人口统计分析的数据。 14 计划生育分析 按地区育龄分布、地区统计育龄妇女情况来进行统计分析,并能直观、清晰、友好展现出人口统计分析的数据。 15 法人库 数据采集 数据采集处理 通过数据交换平台将委办局提供的数据进行采集。 16 接收数据查看 通过数据交换平台将委办局提供的数据进行梳理,并且可对委办局对接的元数据进行查看。 17 数据处理 清洗比对处理 数据比对系统通过数据比对引擎,实现对基础信息库的比对工作。 18 清洗比对结果 对系统进行清洗比对后的数据进行相关的条件查询,并根据用户的需求导出为相应的文件。 19 数据入库 数据入库 数据入法人库的方式和规则。 22 异常数据报警 异常数据报警 在数据清洗、比对工作中,通过用户认可的业务过滤规则、各委办局数据的相互比对,发现并记录提醒不符合要求的数据,以及数据的相关信息。 23 数据共享发布 信息服务 法人信息服务主要是可按部门来对法人信息进行查询、可查看法人详细信息等。 24 码表信息 码表信息可供各部门下载相应码表数据。 25 共享指标 共享指标,可查看各部门提供的信息及数据项。 26 在线数据查询 在线数据查询 为政务共享平台提供基础数据,提供人口、法人信息的实时查询功能。详细功能描述参见政务共享平台在线查询模块。 27 统计报表 基础信息统计 按法人基本信息进行统计 ,并能直观、清晰、友好展现出法人统计的数据。 28 地区分布统计 按地区来进行统计分析,并能直观、清晰、友好展现出法人统计的数据。 29 法人税务统计 按法人纳税情况、违法违章情况来进行统计分析,并能直观、清晰、友好展现出法人统计的数据。 30 地理基础信息库 地理基础信息库重构 地理基础信息库重构 结合人口库、法人库重构地理基础信息库 3.6.3 舆情服务平台功能列表 表3: 舆情服务平台功能列表 序号 一级模块 二级模块 功能点 功能描述 1 数据采集服务 采集系统配置 模板配置 数据源模板管理,进而扩展数据渠道。 2 搜索配置 搜索的关键字管理,比如:公共交通,将收集和公共交通相关的舆情。 3 采集模块 网站采集 采集中心采集网站数据管理 4 引擎采集 采集引擎配置管理 5 采集调度 优先级管理 采集调度器
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4009-655-100  投诉/维权电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服