1、 勤智 创新创业大数据平台_解决方案勤智创新创业大数据平台解决方案成都勤智数码科技股份有限公司2015年6月目录1建设大数据平台的目的32大数据平台带来的价值33投资建设的内容43.1大数据支撑体系建设53.1.1大数据支撑平台53.1.2数据管理子系统103.1.3创新创业管理子系统133.1.4数据统一展示门户子系统143.1.5用户及权限管理子系统173.2大数据平台运营维护服务193.2.1平台内部资源的监控管理193.2.2平台故障处理管理203.2.3日常平台管理任务自动化213.2.4故障处理自动化213.3科研专家和数据资源224项目收费和收益模型224.1平台运营服务224.
2、2数据运营服务收益234.3大数据产业链发展促进收益234.4政府社会收益235项目建设阶段目标241 建设大数据平台的目的大数据正在改变信息社会,我们正从IT时代走向DT时代。大数据产业,作为国家战略新兴产业,受到各级政府的高度重视。大数据产业建设,通过“政府引导、市场主导”的模式建设一个数据驱动的创新创业生态环境,改变当下政务数据的分散、独立的现状,充分利用“大众创业、万众创新”的创新创业热潮,积极建设一个以数据驱动的运营体系、创新创业生态、大数据产业链、政务数据共享交换、智慧城市大数据支撑平台为核心目的的大数据全产业链的生态环境。以“一点创新,全盘激活”为引导思路,“一平台,多应用”为框
3、架设计思路,在人才培育体系建立、就业岗位增加、产业发展空间和产值提升等方面真切的做到为政府提供全方位的服务,从而为产业发展现状形成标杆性的发展格局,夯实大数据产业发展基础。进一步推进“大众创业、万众创新”,让创业创新成为经济增长的“倍增器”、发展方式的“转换器”, 让“大众创业、万众创新”在全社会蔚然成风;支撑政府在更高的平台上实现经济可持续发展,为产业转型升级提供经验和启示。2 大数据平台带来的价值创新创业大数据平台可以带来巨大的产业发展空间、解决诸多历史问题、明确城市产业的发展方向以及带动相关产业的协同发展,具体表现在:数据运营体系的建立:建立以数据为核心资产和驱动力的运营体系,全面利用智
4、慧城市框架内各类垂直业务的运营数据、国信优易拥有的可访问的700T国家部分部委的政务数据、区域政府的各委办局的政务数据等高价值的数据资产,并为之配套形成标杆性的规范与标准,对于大数据产业发展方向无疑会产生标志性的里程碑意义。依托国信优易的未来国家级大数据共享促进中心的发展定位,创新创业大数据平台作为区域内唯一的国信优易所拥有的国家部委重要数据资源的访问接口,在未来以数据驱动的运营体系中会处于非常有利的发展格局。创新创业生态的孵化:以数据为基础的创新创业平台,不仅迎合了国家“大众创业、万众创新”的政策,可以为政府服务,产生很多就业机会,形成有效的汇聚人才、吸引投资的强大磁场。数据作为政府的核心资
5、产,有数据就有机遇,就会有人才培养和孵化的润土。大数据产业链的打造:结合大数据产业发展目标,充分利用创新创业大数据平台中拥有的高价值智慧城市运营数据、国信优易数据、政务数居等核心资源,打造以数据为核心的产业链:产业链上游为各类数据拥有者和数据制造者;产业链中游为各种数据加工、创新创业、数据使用者,让数据成为产业链的“石油”资源,驱动产业链的良性发展;产业链下游为政府或者社会企业对数据加工创新环节产生的各类落地的应用和商业模式进行投资和运营;通过大数据产业链的良性循环,为政府带来百亿级别的产业发展机遇和上亿的产值。智慧城市数据互联支撑:智慧城市发展规划的顶层设计会涉及到很多的底层数据和上层应用,
6、将各类垂直应用的运营数据接入到统一的智慧城市数据支撑平台中,可以为未来智慧城市建设产生的数据的互联互通提供基础支撑,为数据的运营体系提供充足的血液。政务数据共享交换:通过对各个委办局数据孤岛中各类数据的分类、数据目录定义、数据挖局、数据分析、数据清理、数据脱敏、数据水印、权限管控、数据热度模型等各类数据的生产加工,为上层基于数据的共享创新等应用提供足够数据支撑;同时政府也可充分利用民生数据,脱敏利用后最大限度的做到服务于民。成都勤智数码科技股份有限公司(以下简称“勤智数码”)成立于2005年,管理团队均来自世界五百强,具备丰富的资本运作、市场运营经验,依托与电子科技大学成立的“机器学习和数据智
7、能”联合实验室,在大数据平台、数据分析和算法融合、应用开发等领域有丰富的项目经验和实力,成功承接过数十个政府大型项目的建设,运营和运维工作。勤智数码期望借助本地化企业的优势,承担创新创业大数据平台的项目建设及后期运营工作,组建最优秀的专家团队,在顶层设计、建设以及运营工作等方面高质量、按计划的完成。3 投资建设的内容创新创业大数据平台项目的投资建设,因为涉及的软硬件资源、咨询沟通、信息数据等内容繁多,勤智数码结合政府相关的项目经验,对初步建议的投资模式进行了如下的归纳总结。创新创业大数据平台项目主要涉及到三个方面的投资建设内容,包括:1)大数据支撑体系的建设2)大数据平台运营维护服务3)科研专
8、家和数据资源服务投入具体投资建设内容如下:3.1 大数据支撑体系建设为了实现政务数据的共享创新体系的建立,对政务数据需要有完备的分析处理体系,以支撑整个创新创业生态、大数据产业链的健康发展,而且国信优易拥有高质量的国家部委的各类数据,为了能有效的访问到经过国信优易授权的各类数据,建设内容已经充分考虑应用国内目前成熟和先进的技术,最大限度复用国信优易大数据平台的成熟稳定的技术架构和实现,结合特定需求的元数据管理、数据分类、数据审计、数据审核、数据评估、数据定级、数据发布、数据水印管理、数据开放接口管理、数据展示统一门户系统、身份权限管理、用户管理、平台门户系统、其他接口和应用平台等符合本地实际情
9、况的定制开发等建设内容。大数据支撑体系是整个创新创业大数据平台项目的核心支撑,也是投资建设难度最大的一个投资建设任务之一。包括:3.1.1 大数据支撑平台创新创业大数据平台承担了智慧城市底层支撑、政务数据共享交换、互联网数据存储、国信优易数据访问接口等多个核心业务需求,平台自身需要具备和采用先进的经过深度优化大数据技术、分布式存储计算和算法模型、高并发和快速响应的高速缓存架构等,建设一个基于SOA框架的大数据能力核心平台,作为整个项目的数据智慧处理中心,需要支持多种数据源的汇集 (政务数据、互联网数据、行业数据等),支持不同的数据格式(结构化数据、非结构化数据以及流数据等)。在繁杂的数据接入要
10、求的情况下,采用基于总线机制的数据接入系统,可以快速有效的完成数据接入的要求以及提供丰富和灵活的扩展性。大数据支撑平台的建设计划采取复用国信优易成熟的大数据平台产品的思路,一是确保了与国信优易的数据接口访问互通的一致性、二是成熟的产品架构确保了运行的稳定性、技术的先进性。平台的总体逻辑架构分为三层:基础设施层(IaaS层)、大数据平台层(PaaS层),以及大数据应用层(SaaS层)。基础设施层依托于分布式存储架构,大数据平台层则提供了包括数据接入、分析、共享和平台管理在内的大数据分析处理功能,最后由大数据应用层提供的各种大数据应用来充分展示大数据平台的数据处理能力和共享能力。图:创新创业大数据
11、平台逻辑架构设计3.1.1.1 基础设施支撑平台IaaS政务大数据平台将充分利用区域政务中心(或信息中心)提供的基础设施资源,如:计算、存储、备份、网络和安全防护等,从而为政务大数据平台提供一个稳定可靠、高性能、扩展性强、易于管理的基础设施平台,IaaS层中基础的服务器和网络等资源计划尽量复用现有的硬件资源。3.1.1.2 大数据分析处理平台PaaS政务大数据平台利用数据接入服务,将在云计算中心部署的政务应用中存在的政务信息资源以及互联网数据进行统一的接入,经过对结构化和非结构化数据进行处理后,汇总形成总计21个一级类,133个二级类的政务大数据目录库,实现资源的查询、检索以及共享利用。同时,
12、构建高效的大数据分析系统,利用分布式数据处理、分析工具和展示工具,为上层应用服务提供大数据处理和分析能力。此外,利用大数据门户,为政府各委办局、社会公众、社会应用开发商提供资源查询、信息公开和数据服务。3.1.1.3 大数据典型示范应用层SaaS利用基础设施支撑平台和分析处理平台构建基础云端应用服务能力,建设数据创新创业促进系统、数据创新竞赛等提云端应用服务,在平台落地建设完毕时,即可提供具体应用提升人气,产生数据价值。3.1.1.4 标准和先进的平台大数据平台规划设计完全符合国家的宏观政策和各类标准,在标准规范层面,通过建立政务大数据平台的数据目录编制规范、数据权限管理规范、运行标准规范、平
13、台安全与运维标准规范、数据交换接口规范,为平台的运行、维护与安全级权限控制管理等方面提供标准规范依据。大数据平台的核心技术优势明显,以整体高可用性、灵活的可扩展性、技术先进性为原则,打造适合于政府的大数据产业发展的支撑平台:q 双总线技术的SOA框架: 平台层采用基于政务服务总线(GSB)及政务数据总线(GDB)双总线架构的SOA框架。GDB主要负责数据的接入和交换,GSB主要负责对内对外的提供统一的服务接口。q 深度优化的分布式异构存储技术: 平台使用了经过深度优化的HDFS、HBase与集群关系数据库相结合的异构存储方案,利用基于内存交换技术的高速缓存和高性能数据中间件实现了高并发的异构存
14、储体系。q 自主知识产权的高效算法和分布式计算框架:平台内部集成了几十种自主知识产权的经过十多年技术沉淀的算法集合,利用MapReduce和Spark的高效分布式计算框架,实现各类复杂数据挖掘和分析需求。图:创新创业大数据平台功能层次架构设计3.1.1.5 互联网舆情信息模块据不完全统计,中国网民规模达6.32亿,互联网普及率为46.9%,网络已经成为超越广播、报纸、电视的第一大信息传播媒介。42%的消费者拥有博客或个人空间。61.7%的网民在购买之前到网络社区(如垂直网站、论坛、博客或问答)寻求推荐和建议。34%的博主发表关于产品和品牌的意见。73%的消费者在网上交流观点。76%的网民将网络
15、口碑作为了解产品和服务最可靠的信息源。78%的消费者相信朋友的推荐。在选择商品和服务时,人们更加关注他们在网络上的排行。不到10%的网民发表着超过80%的原创言论,并吸引着超过90%的点击率。根据权威媒体统计,69%的政府和企业危机来自于互联网。对互联网信息的接入将在信息资源的规模上对大数据提供更加丰富的数据资源。本项目将对互联网门户网站、网络社交论坛、微博舆论信息等相关信息资源进行接入。q 互联网分布式爬虫对互联网数据的获取主要依赖于网络爬虫技术实现。创新创业大数据平台采用先进的分布式网络爬虫框架,由框架完成爬虫的统一调度、管理和维护工作,以及被采集数据的统一存储工作。爬虫使用者只需要进行简
16、单的配置或开发极少量脚本代码即可完成一个复杂页面甚至网站的爬取工作。另外,平台在合法范围内适当利用反防爬虫技术,如验证码识别、动态IP、动态用户等,从而保障互联网数据的有效获取,减少人工干预,节约成本。平台提供部分互联网门户网站、网络社交论坛、微博等系统的爬虫,并采集相应数据以供平台使用。对于以后新增的应用,如果需要用到其他网站的数据,则可以基于爬虫框架,使用平台提供的SDK套件开发相应的爬虫。q 互联网门户网站信息获取接入互联网门户网站信息获取接入是利用分布式网页爬取技术,以及基于行业领域字库的模式识别技术,实现对各类新闻门户网站、行业领域专业门户网站等相关B/S网页进行实时解析获取符合条件
17、的数据。互联网门户网站信息爬取的对象如下: 对新华网、人民网、中国新闻网、新浪网、搜狐网、腾讯网、网易网、凤凰网、省级新闻网等各大综合类新闻网站的实时监控,获取符合条件的电子政务相关的信息。 对中国气象网、中国地震台网、交通网、减灾网等行业领域门户网站的实时监控,获取气象、地震、交通、自然灾害信息。 其他政府期望及时获取的有价值互联网信息等。q 网络社交论坛信息获取与门户网站信息获取方式类似,网络社交论坛信息获取同样通过网页的爬取技术获取互联网中的社交论坛信息。主要提供以下相关内容的获取: 对天涯社区、猫扑社区、搜狐论坛、凤凰论坛、网易论坛、新浪论坛、凯迪社区、强国论坛、中华网论坛、新华网论坛
18、、环球网论坛、红网论坛等众多主流论坛的信息进行实时监控,获取符合条件的电子政务相关的信息。 对搜狗说吧、百度贴吧等公共交流平台中的信息进行监控,获取网民反映电子政务相关的信息内容。q 微博信息获取微博信息获取主要通过调用爬虫对新浪微博的网页爬取方式,对微博用户发布的信息进行实时的爬取,微博信息可以进行基础的统计分析,为未来深层次利用做好准备。3.1.2 数据管理子系统3.1.2.1 元数据服务系统q 元数据库管理基于Web浏览器端,向后台系统管理员提供根据数据平台内部的元数据标准(数据描述元数据、服务信息元数据),分别进行对应元数据库的创建与管理的功能。q 元数据管理 基于Web浏览器端,向后
19、台系统管理员提供对元数据文件导入的功能。 基于单机版元数据编辑器,向后台系统管理员提供对数据描述元数据的创建编辑保存功能。 提供基于元数据检索、元数据入库存储、元数据修改删除功能的元数据管理WebService服务。q 元数据服务管理基于Web浏览器端,向后台系统管理员提供启停元数据服务的功能。3.1.2.2 数据目录和接口标准管理系统大数据资源目录体系梳理包括对政务信息资源核心元数据标准、分类标准、标识编码标准等方面进行梳理。参考国家对政务信息资源分类体系的制定标准,经过先期梳理,可将政务大数据资源目录梳理为 21个一级类,133个二级类。代码目录名称描述和说明ZA综合政务关于政治方面的事物
20、和和国家的管理工作ZAA政务综合类与政务管理相关的综合性事务,包括政务督查、电子政务、信息公开ZAB方针政策政府制订的、宏观的、指导各个领域发展的方针政策ZAD政府工作关于政府的规章制度、组织机构建设和发展,以及工作职责等相关信息ZAE机构编制关于机构编制的管理、机构体系的当前概况和远景规划ZAF政府领导关于政府各级领导的简历、工作岗位、工作活动、讲话等相关信息ZAG会议、会务会议产生的文件等相关信息,以及会议组织、管理的相关信息ZAH重大事件有深远影响的事件的相关信息ZB经济管理关于经济的管理、规划、发展概况ZBA经济管理综合类ZBB经济发展计划关于经济的宏观的发展规划ZBC经济管理关于经济
21、的宏观管理现状ZBD经济体制改革关于经济体制改革的管理和规划、发展情况。ZBE经贸管理关于经济贸易的宏观管理和发展调查报告、统计资料ZBF统计关于统计工作的管理和发展情况 (此处只列出部分分类, 整体依据国家标准进行同一分类)在平台建设的同时结合符合国家标准的平台段数据目录的定义,结合各个委办局的实际接口情况,明确各个委办局数据接口的接入标准,明确可汇聚共享交换的数据分类、数据格式、数据类型、数据接入方式等内容。通过明确的接口标准定义,指导各个委办局的数据接入,并提供必要的技术支持和指导。数据目录的定义和管理要遵循国家现有政务电子信息化建设的相关标准,同时结合各个委办局数据的地域特殊性进行更细
22、致的完善,确保数据目录在遵循国家标准的前提下,兼容支持本地政府的各类数据。3.1.2.3 数据挖掘和分析系统数据分析模块子系统作为创新创业大数据平台对外提供数据的深度挖掘和分析服务的核心系统,分布式数据处理子系统提供了对分布式存储数据进行处理的能力。数据分析系统利用多种分布式计算引擎,结合分布式数据存储模型对各类结构化及非结构化的信息资源进行快速的分布式分析处理,并将分析处理后的中间结果数据提供给上层示范性应用以及其他部门业务系统中进行二次利用;此外,模型管理子系统提供各类业务分析模型的新建、修改等管理功能。创新创业大数据平台的数据分析系统可分为如下几个主要部分:q 分布式计算引擎支撑系统在分
23、布式处理领域中,分布式并行技术是最为核心的领域之一。没有好的分布式处理程序的支持,分布式处理就不可能很好的工作,所谓超级计算、大数据分析也就更加无从谈起了。创新创业大数据平台通过提供MapReduce、Spark和Storm三种分布式计算框架,为上层应用提供大数据分布式计算的支撑。这种架构既能够最大限度的满足各种业务模型的需求,同时也能够充分利用政务大数据平台的软硬件资源,提供数据存储访问及分布式计算任务的调度、运行及结果通知等功能。q 算法及模型支撑系统数据分析不能一概而论,数据分析需要有基础算法的支撑。随着数据集规模和复杂度的持续上升,对算法要求也越来越高。创新创业大数据平台采用基于Had
24、oop技术架构的处理技术,为数据分析师及开发者提供几十种具备自主知识产权的分布式算法。平台提供相应的SDK开发工具套件及算法调用API,从而让各种应用能够方便的使用平台数据及其算法。拥有基础算法的支持仅仅完成了数据分析和挖掘的第一步,对于每一个具体的基于数据的应用系统,都需要根据其自身特点建立相应的分析模型,才能够有效的支撑应用系统。简单的说,分析模型可以看作是由一个或多个基础算法组合而成,基础算法提供了大量的中间结果,而模型则将大量的中间结果处理为最终结果。q 数据分析开发套件SDK大数据平台提供的三种分布式计算框架为平台提供了强大的分布式计算能力,从而为各种基于数据的应用提供了基本的运行环
25、境;同时,基础算法库中大量的分布式算法实现则为数据分析模型的建立提供了底层的工具支撑。为了让平台的计算能力和算法分析能力应用到实际业务之中,还需要通过研发人员开发出使用这些计算能力和算法库的分析程序。分布式计算开发套件SDK则使平台具备了二次开发的能力,它可以让研发人员利用大数据平台中分布式并行计算的能力,通过基于数据分析的定制开发,实现对海量大数据进行分析处理,建立数据分析处理的结果性数据,为上层大数据业务应用提供数据支撑。3.1.2.4 数据信息管理系统q 数据审核数据审核模块主要是接受供应商门户网站上传的流数据和块状数据,对这些数据进行审核,决定其是否能通过,并进入数据评估。q 数据评估
26、数据评估模块主要是对已审核过的数据,针对各个指标项进行数值评估,最终保存其评估结果,供用户查询和数据定价时参考。q 数据定价数据定价模块主要是设置经过数据评估的数据,对应不同用户、不同使用环境进行数据定价。q 数据发布管理数据发布管理模块主要是发布经过定价或评估的数据,进行对外发布,设置其发布范围和发布状态。3.1.2.5 数据日志系统q 数据日志存储对外提供数据日志存储服务接口,供其他系统进行数据日志信息的存储。q 数据日志查询基于Web浏览器端,向后台系统管理员提供数据日志查询功能。3.1.2.6 数据审计系统q 数据服务使用情况审计基于web浏览器端,向后台系统管理员提供对登陆和使用平台
27、进行数据服务使用情况的用户行为进行跟踪记录和统计,并形成分析报告的功能。q 服务状态监视基于web端,向后台系统管理员提供对所有已注册并发布的开放数据API和数据下载服务的服务状态信息进行监视记录,并形成分析报告的功能。3.1.2.7 数据使用权标记系统q 块状数据水印服务向数据平台提供webservice形式的块数据水印服务接口。q 流数据水印服务向API管理系统和创新工场API系统提供webservice形式的流数据水印服务接口。q 水印管理服务基于web浏览器端,向后台系统管理员提供对水印的管理和验证功能。3.1.3 创新创业管理子系统3.1.3.1 创新创业应用管理系统q 创新应用AP
28、P测试创新工场APP测试:当APP上架之前需要经过后台管理人员的测试,创新工场开发者用户应当提供给数据平台测试账号,布置测试环境,提供测试数据,以及对应APP的一些基本信息。后台管理员会根据提供的信息对该APP进行测试。q 创新应用APP发布APP发布:对于测试通过的APP应用,后台管理员会进行发布,添加新的APP应用,输入APP有关的基本信息“名称、开发者、访问方式、说明描述、使用说明及演示地址等”。3.1.3.2 开放数据API管理系统q API发布开放数据API发布:API数据系统主要提供给用户使用API的方式,进行数据下载。是通过接口形式,实时获取最新数据。后台管理员上架API,填写A
29、PI的详细信息包括:API数据的描述(api的收费情况描述、接口作用信息、接口的参数对照信息、返回字典等信息),接口信息(调用地址、返回格式),API调用的文档,以及API调用的地址。之后会经过后台管理人员审核确认API通过审核,才会发布到数据平台。q API测试API发布之前必须经过测试,确保API的可用性、正确性、以及数据的完整性,对一些法律规定不允许公布的数据将不予以发布。3.1.4 数据统一展示门户子系统3.1.4.1 数据统一展示门户数据统一展示门户主要为普通用户提供浏览、确定数据范围的功能,数据是由平台或者数据供应商提供的,用户可以通过分类、查找、过滤等方式找到自己关注的数据,然后
30、查看数据的详细信息,数据自身都是经过脱敏和加密,符合对外展示的具体要求的,成为数据驱动的运营体系的统一对外展示接口。数据统一展示门户系统功能包括,数据展示,数据的过滤功能,数据的查找功能,数据列表,数据的详细信息。q 数据展示数据展示功能主要是将数据种类、描述、样例、历史访问量等信息展示给客户,以方便用户的分析使用。具体包括以下内容: 数据的分类显示数据的分类会出现页面的头部导航栏,当用户把鼠标放到某一大分类出,弹出当前大分类下的所有子分类,用户点击子分类进入当前子分类有关数据的详细列表页面。 数据的过滤功能提供标签过滤功能,用户点击其中某个标签,会按照此标签 以及之前的过滤标签重新过滤目标数
31、据。目标数据的将以标签匹配的数据标题的关键字查找出来,以列表的形式展示出来,以供用户选择。 数据的查找功能提供查找功能,用户通过页面的搜索查找有关输入关键字所匹配的数据,搜索框前可以选择搜索数据的标题还是搜索详情,默认的是标题的关键字,输入数据的关键字,根据程序的处理搜索有关数据的关键字匹配,以列表的形式展示出来以供用选择。 数据列表数据列表会展示当前用户选择的或者默认的分类下的所有的数据,会以列表分页的形式展示,按照时间默认排序。当前列表会展示数据的一些基本信息“数据的标题、数据质量的评分、数据的图片、数据的访问量以及数据的简单描述”;如果当前登录的用户为创新工场的用户,创新工厂用户进入AP
32、I列表,api标题后会多出金银铜等级,只有符合当前等级的用户才可以调用当前的API数据。 数据详细信息数据的详细信息,点击数据的标题进入当前数据的详细信息页面。会显示当前数据的详细信息,包括“数据的图片、数据的标题、数据的价值、数据来源、数据上架的时间、数据的大小、当前数据的下载量、数据的简短描述、当前数据的完整性(八个指标)、收藏、推荐有关当前数据的相关数据、数据的详细信息、访问过的用户对当前数据的评论信息”。q 数据检索数据的检索包括,标签的筛选,数据的关键字及详细信息的搜索。用户点击其中某个标签,会按照此标签 以及之前的过滤标签重新过滤目标数据。目标数据的将以标签匹配的数据标题的关键字查
33、找出来。搜索框前可以选择搜索数据的标题还是详细信息,默认的是标题的关键字,输入数据的关键字,根据程序的处理搜索有关数据的关键字匹配,以列表的形式展示出来以供用选择。q 用户管理当前平台用户管理分为三类:普通用户管理、创新工厂用户管理、供应商用户管理。普通用户管理:普通用户可以在前台的个人中心里管理自己的基本信息,查看自己的账户信息,修改密码等操作。还可以通过我的订单查询当前所有的订单,及订单最新的状态,查看并管理当前的API的信息。查看当前的系统消息。创新工厂用户管理:创新工厂用户可以在个人中心管理自己的基本信息,查看自己当前的等级,查看并管理自己的账户余额,查看并管理当前的API的信息,更新
34、自己所购买的API版本等,发布自己的应用,查看并且管理自己当前已发布的应用。查看当前的系统消息。供应商用户管理:供应商用户可以在前台的个人中心里管理自己的基本信息,查看并且管理自己的数据状态,修改密码等操作。发布数据,查看自己发布的数据的情况。查看当前的系统消息。3.1.4.2 数据共享交换系统q 数据汇集配置管理基于web端,向后台系统管理员提供对数据平台主节点与分节点/独立数据终端系统之间的数据汇集操作配置管理功能。q 数据在线汇集基于web端,向后台系统管理员提供进行数据在线汇集传输的操作管理功能。q 数据离线汇集基于web端,向后台系统管理员提供进行数据离线汇集传输的操作管理功能,包括
35、数据离线汇集包的导出及导入功能。q 数据共享交换日志管理基于web端,向后台系统管理员提供数据共享交换业务操作的日志记录检索浏览功能。3.1.4.3 数据访问规则系统q 访问规则管理基于web浏览器端,向后台系统管理员提供基于内置数据访问业务规则,对特定用户或特定数据服务进行访问规则设置管理的功能。q 数据访问服务向平台提供基于webservice形式的API数据访问服务接口。q 访问信息服务向平台提供基于webservice形式的API数据访问历史记录信息检索服务接口。q 访问规则管理对数据访问相关的各类规则进行统一管理和配置。3.1.5 用户及权限管理子系统3.1.5.1 用户信息管理系统
36、q 数据平台注册用户管理平台注册用户管理,系统管理员可以在后台进行平台注册用户的管理。通过用户管理,可以查看用户的订单,以及发现不合法用户后,对用户的冻结功能。q 创新工场用户管理创新工场用户管理,系统管理员可以在后台对平台所有的创新工场用户进行操作。可以在后台的用户管理中的创新工场用户管理中设置。可以进行查看当前所有的创新工场用户列表及详细信息“ 创新工场用户名称、所发布的API、发布时间、账户信息、用户等级等。”管理员还可以对新申请的创新工场用户进行审核,对不符合创新工场用户条件的申请进行驳回。对已经通过审核的创新工场用户的账户进行冻结,叫停该用户在应用市场所发布的应用。q 数据供应商管理
37、数据供应商管理,系统管理员可以在后台对平台所有的数据供应商进行操作。可以在后台的用户管理中的数据供应商管理中设置。可以进行查看当前所有的供应商列表及详细信息“供应商名称、所提供的数据、时间等。”管理员还可以对新申请的数据供应商进行审核,对不符合数据供应商的申请进行驳回。对已经通过审核的数据供应商进行冻结,叫停所发布的数据等操作。q 系统管理员管理系统管理员管理,超级管理员账号可以在后台配置有关系统管理员的权限,设立不同的管理权限从而实现不同角色管理员的划分,例如订单管理员,只能进行订单的操作,无法操作其他菜单。超级管理员可以在后台用户管理中配置有关的系统管理员的权限。3.1.5.2 授权管理系
38、统q 数据服务分组管理与授权 基于Web浏览器端,向后台系统管理员提供对数据服务进行分组定义和分组管理设置的功能。 基于Web浏览器端,向后台系统管理员提供将数据服务分组与用户分组进行对应关系设置和管理,按照对应关系对用户组进行数据服务授权的功能。q 数据服务分级管理与授权 基于Web浏览器端,向后台系统管理员提供对数据服务进行分级定义和分组管理设置的功能。 基于Web浏览器端,向后台系统管理员提供将数据服务分级与用户分级进行对应关系设置和管理,按照对应关系对用户级别进行数据服务授权的功能。q 数据服务单独授权 基于Web浏览器端,向后台系统管理员提供为特定用户对特定数据服务的访问授权进行管理
39、控制的功能。 提供针对特定用户访问特定数据服务授权的WebService服务接口。q 数据访问权限管理数据访问权限管理:普通用户及其供应商用户只可以访问普通的块数据,及API。创新工厂的用户除了可以查看普通的块数据,及API,还可以调用创新工厂中的对应着自己账户等级的API。3.1.5.3 身份认证与访问控制系统q 用户身份认证提供WebService形式的用户身份合法性认证服务,根据用户名和口令进行用户身份的比对认证。q 数据服务动态Token授权服务向用户提供获取数据服务(开放数据API服务和块数据下载服务)访问授权动态Token的Web服务API,通过用户身份认证和数据服务访问权限认证后
40、,向用户返回最新的数据服务调用授权动态Token。q 数据服务访问控制对用户向数据平台发送的数据服务调用请求进行有效性验证和访问控制。3.2 大数据平台运营维护服务创新创业大数据平台项目涉及的软硬件系统范围较广,且承载了重要核心的数据资产,其稳定运行的保障十分重要,勤智数码依托自身十多年的IT运维经验,建立一套基于ISO/IEC20000和ITIL v3理论,遵循ITSS、GB/T 28827-2012系列运行维护服务国家标准的运营维护体系,对平台中各子系统以及各功能模块提供统一的监控维护服务,包括服务的提供状态监控、服务的使用状态监控、系统的运行状态监控等。包括如下的平台运维服务: 3.2.
41、1 平台内部资源的监控管理对平台所涉及的所有硬件资源、软件资源和数据资源进行实时不间断的7x24小时的监控和管理,合理设定资源状态的预警阈值的设定,确保任何资源状态异常的及时通报和展示,通过声光报警、短信、邮件的及时通知,确保管理人员及时的发现和处理问题。同时借助大数据平台的优势,实现平台内部软件、硬件资源运行状态的趋势预测,不同资源告警阈值的智能化管理和自动设定,做到平台内部运行状态的稳定和持续。q 硬件资源监控大数据平台的硬件资源较多,所有硬件资源包含:路由器、交换机、防火墙、主机(window、linux、Solaris、HP-Unix、AIX等)、虚拟服务器、无线设备AC/AP、存储设
42、备、光交换、其他安全设备等的监控,监控方式支持snmp v1/2/3、ssh/telnet、TCP、syslog、trap、脚本、WMI、netflow/cflow/sflow/netstream协议等。 支持对大数据平台涉及的各种设备状态的实时监控(如:通断、资源使用情况、端口状态、流量峰值、流量变化量等其他关键指标等) 支持网络设备的流量的应用层协议分析和监控. 借助类似曲线图表现大数据平台内部最近一个小时,最近一天,最近一周,最近一月,最近一年的服务器或者集群的cpu负载,内存,网络,硬盘等指标 支持各类监控指标的告警阈值的人工和自动调整 支持告警信息的短信、邮件通知以及声光报警通知 支
43、持网络拓扑和机房的视图可视化管理 支持网络资源的配置自动备份q 软件资源监控大数据平台内部的软件资源复杂,需要支持统一化的一体监控模式,支持对Hadoop架构体系内所有软件模块和系统(HBase、HDFS等)、关系型数据库(MySQL集群、Oracle、SQLServer等)、中间件系统、前端应用、软件TCP端口等软件资源的监控和管理,支持SNMP、SSH/telnet、JMX、JDBC等监控方式和协议,实现: 支持大数据平台内部的各种传统关系型数据库和数据库集群、Hadoop架构中HDFS/HBase等的状态、内存数据库状态、各类中间件资源状态、平台内部和前端应用状态、各类内外部的接口状态的
44、实时监控 支持各类监控资源的告警阈值的人工和自动调整 支持告警信息的短信、邮件通知以及声光报警通知 软件信息变动和资源使用异常等关键指标的监控 基于软件关联关系的监控,实现基于多个软件和硬件的业务级别的监控3.2.2 平台故障处理管理大数据平台涉及的软硬件信息和数据量较大,平台上线运行后会面临海量的故障信息,故障信息分析是运维工程师面临的难题,而云计算、虚拟化等新技术的广泛采用进一步加剧了运维管理的复杂度。需要对运维流程进行梳理,将技术人员从繁重的运维工作中解脱出来,实现运维作业的标准化、自动化,缩短业务响应时间,提高服务质量。平台的各类故障和告警处理的管理主要针对平台运行期间所有异常事件的统
45、一管理,确保所有异常事件都被处理的管理功能。借助国家标准和ITIL的SLA模型,需要建立一套完备的故障事件、问题、变更和发布等的标准化故障处理流程,规范故障处理的过程,做到故障的及时处理、追踪、统计,确保每一个问题和故障都能被及时的处理。提供页面/邮件/短信/声音/光/消息客户端/WebService接口及时通过责任人进行告警处理。3.2.3 日常平台管理任务自动化日常平台管理工作中有很多是标准化的工作,如巡检、值班等工作。这些工作会占用大量的时间,将人工的操作、管理转变为系统自动化的操作和管理,可以节省时间,将精力投入到更紧急、更重要的工作中。q 自动巡检功能平台的监控管理系统自动将需要巡检
46、的设备状态发送到系统中,自动进行设备运行状态和重要指标性能数据的收集汇总形成自动巡检结果,同时巡检过程全程记录,通过巡检工单,能够跟踪巡检的执行情况。q 人工巡检功能针对非监控资源的巡检,可通过系统内提供的人工巡检功能完成巡检结果的记录,为巡检任务执行的计划、监督和结果的电子化管理提供了有效的手段。q 值班管理系统提供值班管理功能实现管理人员的排班、值班、交接班等信息的电子化管理,系统自动排班。3.2.4 故障处理自动化q 告警的处理过程通过基于ITIL的事件、问题、变更等标准化的流程进行管理q 系统自动进行告警过滤、压缩,避免海量告警。q 自动将关键告警通过消息发送给责任人。q 系统自动运行
47、预定义的脚本恢复故障。q 对于需要技术人员处理的故障,系统自动创建工单,派发给管理人员处理。q 系统自动关联知识库,协助技术人员处理工单。q 技术人员处理结束后处理方案一键转知识,知识不断累积。q 平台内部管理的移动化支持移动终端的平台状态监控和故障事件的处理,实现管理人员不在现场时的实时平台状态的监管,实现平台状态监控管理的移动化办公。移动终端可以通过政府内网的无线网络系统直接接入、也可以通过互联网经过加密的专用VPN通道访问政务内网的特定资源。3.3 科研专家和数据资源以勤智数码与成都电子科技大学联合成立的“机器学习与数据智能联合实验室”进行挂牌,为大数据平台发展提供优质的科研专家资源。以国信优易分中心的形式挂牌,平台提供与国信优易数据访问的接口支持,创新创业大数据平台成为整个地区访问国信优易拥有的国家部委重要数据资源的唯一入口。依托国信优易的未来国家级大数据共享促进中心的发展定位,将在未来基于数据驱动的运营体系中会处于非