收藏 分销(赏)

大数据处理平台构架设计项目新版说明书.docx

上传人:w****g 文档编号:2657132 上传时间:2024-06-03 格式:DOCX 页数:15 大小:713.07KB
下载 相关 举报
大数据处理平台构架设计项目新版说明书.docx_第1页
第1页 / 共15页
大数据处理平台构架设计项目新版说明书.docx_第2页
第2页 / 共15页
大数据处理平台构架设计项目新版说明书.docx_第3页
第3页 / 共15页
大数据处理平台构架设计项目新版说明书.docx_第4页
第4页 / 共15页
大数据处理平台构架设计项目新版说明书.docx_第5页
第5页 / 共15页
点击查看更多>>
资源描述

1、 大数据处理平台及可视化架构设计说明书 版本:1.0变更统计序号版本变更说明修改人/日期审批人/日期11.0创建李万鸿 -3-18 目录11. 文档介绍31.1文档目标31.2文档范围31.3读者对象31.4参考文件31.5术语和缩写解释32系统概述43设计约束54设计策略65系统总体结构75.1大数据集成份析平台系统架构设计75.2可视化平台系统架构设计116其它146.1数据库设计146.2系统管理146.3日志管理141 1. 文档介绍1.1 文档目标设计大数据集成份析平台,关键功效是多个数据库及文件数据;访问;采集;解析,清洗,ETL,同时能够编写模型支持后台统计分析算法。设计数据可视

2、化平台,应用于大数据可视化和互动操作。为此,依据“优异实用、稳定可靠”标准设计本大数据处理平台及可视化平台。1.2 文档范围大数据处理,包含ETL、分析、可视化、使用。1.3 读者对象管理人员、开发人员1.4 参考文件 1.5 术语和缩写解释缩写、术语解 释BDBig dataSD系统设计,System Design2 系统概述 大数据集成份析平台,分为9个层次,关键功效是对多个数据库及网页等数据进行访采集、解析,清洗,整合、ETL,同时编写模型支持后台统计分析算法,提供可信数据。设计数据可视化平台,分为3个层次,在大数据集成份析平台基础上实现大实现数据可视化和互动操作。 3 设计约束 1.系

3、统必需遵照国家软件开发标准。2.系统用java开发,采取开源中间件。3.系统必需稳定可靠,性能高,满足天天千万次访问。4.确保数据成功抽取、转换、分析,实现高可信和高可用。 4 设计策略1. 系统高可用、高性能、易扩展,安全稳定,实用可靠,满足用户需要。2. 系统能够进行扩展,增加数据种类和数量。3. 系统能够复用别软件和算法。5 系统总体结构5.1 大数据集成份析平台系统架构设计1.逻辑架构2架构说明系统分为9个层次:1)数据源:CSMAR数据库、高频系列数据库、 量化因子仓库、风险控制模型数据库、量化舆情数据库、互联网网页。2)数据获取层:接收数据源数据和抓取网页,建立知识图谱将网页数据结

4、构化,为人工和机器决议提供依据。3)数据导入层:经过sqoop把数据库数据导入hbase,用flume、kafka把网页导入hbase。4)数据加工层:对导入数据进行清洗、抽取、整合,并存入数据关键存放层。5)数据关键存放层:采取hbase、关系数据库保留加工后数据。6)数据分析处理层:经过统计分析、数据挖掘、机器学习、风控模型等对大数据进行分析处理。7)数据服务存放层:存放分析结果,包含Elastic search分布式搜索,redis分布式缓存。8)应用层:包含报表引擎、规则引擎、风控搜索引擎、用户认证系统、统计分析接口等。9)服务层:对内应用服务和对外应用服务,为用户提供系统功效。 系统

5、采取一系列优异开源技术框架,实现大数据抽取、ETL转换、清洗、整合、汇总、统计分析,得出可信度高结果,高速稳定地响应用户请求,可对企业宽系列产品提供高质量支持。还可建立企业云,把大数据平台放到云上。系统从CSMAR数据库、高频系列数据库、 量化因子仓库、风险控制模型数据库、量化舆情数据库抽取数据,还用机器爬虫从互联网上抓取和金融相关网页,对这些结构化和非结构化数据进行抽取、清洗、整合、转换,存入hbase数据库。统计分析程序采取一定算法和模型经过spark、hadoopyarn、hive、pig等读取处理数据,结果保留在服务层数据库,为用户提供可信数据,还可经过可视化以多种统计图展现出来,经过

6、pc、手机能够看到结果。系统提供可视化操作界面,用户可自己定义统计统计和参数,系统计算分析后给出对应图表。3.系统特点1、 高负载和海量数据处理能力以云存放或当地存放为基石,以云计算或企业服务器为处理关键,建立了海量数据业务支撑大数据平台。天天能够承受千万级PV访问压力,支撑亿级用户及P级各类数据存放如金融数据、网页、日志文件、图片、文档、影音等。基于此大数据支撑平台,不仅能够处理日以继夜增加TB级数据增量,更能满足各类实时业务需求2、 业界领先实时性在实时处理领域实现秒级突破,能够对各项业务数据惊醒实时查看和统计,方便用户快速做出决议和即时响应,适应该今快节奏发展趋势。如传统监控对年、月、周

7、、日频次统计,能够实现二十四小时内实时监控,和管理目前实时改变统计仪表盘数据,更能实现7*24用户实时行为监测及秒级分析。3、 全方面运行监控指标体系不仅拥有常见接入站点运行监控流量指标如UV、PV、IP、新旧访客数,还建立了行为质量指标如用户请求,统计分析正确度 ,并可在此基础之上加入用户行为分析、统计模型调优、算法调优、网站访客背景分析、鼠标点击行为等高智能分析功效,从而为业务发展及运行策略提供了有力数据支撑。4、 对用户起源和数据深入挖掘和分析经过该平台不仅能够看到接入网站用户基础信息(跳出率、回访次数、回访频率、国家分析、省份分析、城市分析、网络位置、浏览器、移动终端等),还能够了解到

8、用户起源(如起源页面、网站、搜索引擎、关键字等)。而且在此基础上能够了解到用户访问路径,对数据进行多维钻取,进而对网站用户数据信息采集、挖掘愈加深入。对大数据进行深入分析,为提升网站流量、提供科学推荐依据、实现高质量用户差异化服务给出有力数据支撑。5、 对用户行为进行实时跟踪、立体分析及即时沟通和个性推荐服务能够针对实时在线个体用户进行WEB IM即时沟通,提供即时一对一服务。并能够结合业务需求,在实现客服人员和用户一对一同时,展现该用户历史业务操作行为及个性化信息,如用户消费历史统计统计、行为习惯及喜好等。6、 统一数据接入平台数据接入层采取sqoop、flume、分布式日志系统,实现推拉模

9、式多种主流方法,并可按需升级为统一数据接入平台,不仅支持日志及页面源码数据,还能够实现各类接口数据无缝可视化接入,如关系型和非关系型数据、多种主流非结构化数据等。7、 立体推荐及算法可替换平台能够对数据进行多个分析算法和模型处理,采取mahout、mlib二元分类、线性回归、聚类、协同过滤、卷积神经网络(CNN)进行机器学习,采取RF(随机森林)、SVM(支持向量机)、半监督学习,经过训练达成权重等参数最好化,优化样本空间,并实现完全自动化调参和学习。还可结适用户群体特征、个性行为历史及多种显式、隐式反馈进行人脑分析,实现个体用户和群体用户立体化推荐和全过程人工干预。以算法平台为支撑,建立了可

10、视化算法训练和推荐结构过滤植入,以增强用户个性化服务配置。实现了多种算法替换、组合和深度学习,如传统UCF、ICF及业务创新二度人脉剪枝算法等,以尽符合人脑思维习惯。8、 多个风格统计分析数据展现方法对数据统计分析实现人性化多种浏览器体验,传统风格如线性、柱形、饼状分析图为企业对不一样时段网站访问量、网站不一样模块访问量、针对访客不一样分类进行愈加直观分析。创新风格如热力图,更形象、视觉化表现网站页面不一样位置用户点击密度,实时反应出群体用户爱好特征,增强运行。用户能够自定义条件,得到可视化结果。9、 主流用户端全端统计该方案不仅能够统计WINDOWS/MAC/LINUX各类PC用户主流浏览器

11、用户端(如IE、360、Chrome、Firefox等)数据,还能针对移动互联网用户统计主流移动用户端(如iphone,ipad,Android手机等)各类数据,并能依据RESTful接口开发各类所需各端统计,如WAP手机端,嵌入设备端等。10、 操作体验简练方便该方案秉承了人性化设计理念。在确保正确、高效基础上简化了操作过程,数据检索分析一键处理,极大方便了用户使用。各类所需统计数据一目了然,并能针对关键数据如用户信息、用户行为等进行一键化深度分析或即时服务操作。11、 可靠性强以云平台作为支撑。该平台有极强可靠性,能够确保该软件更稳定、有效、安全运行。 12、 可扩展性强以云平台作为支撑,

12、能够实现各类平台组件按需横向扩展,如存放扩容、计算增强等。13、 集成性强丰富接口含有极强集成性。能够实现和企业内部业务系统高密度集成,依据不一样业务部门需求调取数据和数据分析结果。14、 可视化强统计分析数据以图表,热图等方法表现,方便用户对比判定,在使用时更舒适、方便,提供用户体验度。多种操作过程如算法训练、人工干预、数据ETL等均实现可视化,根本性处理了手工代码操作问题。15、 提供定制服务能够依据用户特定需求进行更丰富功效扩展,量身打造适宜实时运行分析及服务平台。 5.2 可视化平台系统架构设计数据可视化平台,实现大数据可视化和互动操作。1.逻辑架构2. 架构说明系统分为3个层次:1)应用系统:提供可视化操作界面和显示结果,还包含决议支持、业务分析等。2)大数据平台: 包含分布式数据库hbase,对大数据ETL和分析使用。3).数据源:包含集成平台全部数据。能够使用baidu开源软件echarts实现多种统计图表生成。可视化效果以下: 6 其它6.1 数据库设计依据数据源进行科学数据库设计,对habse列族进行合理划分,对关键库和存放库区分设计。6.2 系统管理 对系统、用户、数据库等进行管理。6.3 日志管理 系统用kafka保留日志。

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 应用文书 > 技术指导

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服