资源描述
提纲一、对BI的思考二、兰亭数据平台建设三、大数据的高性能实现四、高效的数据挖掘五、BI的发展趋势一、对BI的思考_定义BI组成 DW OLAP DM 查询报表 数据挖掘BI功能 信息搜集 管理 分析 处理BI目的 知识(Knowledge)洞察力(Insight)辅助做出决策一、对BI的思考_数据采购仓储订单物流销退客服系统数据渠道注册浏览沟通下单回访用户数据BI一、对BI的思考_协作管理者销售财务运营/设计/推广客服物流/仓储一、对BI的思考_问题响应较慢 开发速率跟不上互联网变化的节奏;需求变化,又得根据流程重新开发;灵活度不够 不能进行数据交互、自由组合;不能二次分析;无法支持大数据量 TB,PB级数据无法响应一、对BI的思考_解决思路快速响应 快速响应:实时数据仓库和准实时数据仓库;需求变化:最快响应;灵活多变 人与系统交互、维度自由组合;多样的展现方式基于云计算的大数据响应 海量数据处理:海量业务数据在线分析、云端部署基于云计算的大数据响应Actor模型:基于线程和基于事件的Actor;一、对BI的思考_定义 TB,PB级数据无法响应一、对BI的思考_协作一、对BI的思考_数据/Streaming流式计算一、对BI的思考_问题EMR+Hive 调度:基于Quartz开发的调度系统;需求变化:最快响应;一、对BI的思考_定义EMR/Hive/Spark数据挖掘Redis/HBase数据仓库/Kibana/Redis 集群/HBase TB,PB级数据无法响应/Redshift二、兰亭数据平台建设_架构数据计算层数据服务层源数据层MysqlOracle文件数据日志海量数据/离线计算:EMR/Hive/Spark数据挖掘实时计算:Kafka分布式消息系统/Streaming流式计算线上服务:Mysql/Redis 集群/HBase报表系统:Oracle主从/Redshift查询分析:Hive/数据仓库/KibanaAPI/JDBCWebRPC数据产品应用层统一调度、监控、权限控制二、兰亭数据平台建设1、数据模型分层:ODS,DW,DM,RPT范围:流量、销售、运营三大数据模型及数据集市推荐:个性化推荐数据、商品推荐数据排序:根据能效值排序的数据2、架构 调度:基于Quartz开发的调度系统;监控:判断程序执行返回状态,记录到日志表中,发送短信和邮件报警;权限控制:数据仓库访问权限,申请、审批和授权;线上支持:MySQL,HBase通过API接口支持线上服务二、兰亭数据平台建设2、架构 数据收集:DataExp,shell 脚本,Kafka分布式消息系统,快速低成本收集日志等;抽取与转换:存储和计算基于EMR/Hive/Spark/Oracle 存储:Oracle数据仓库存储量级较小的数据,Redshift存储量级大的数据 云存储:Amazon S3 Redis集群:支持实时推荐等3、应用 日常查询:临时查询;报表服务:报表以web展示,或者邮件形式发送给用户;自助服务:支持用户自定义查询,并保存为报表;网站运营效果评估:响应时间、各指标用户数等;流量分析:流量、点击率、转化率、跳出率等 推荐系统 搜索引擎二、兰亭数据平台建设 统一调度系统:架构ServerMysqlClient AgentClient AgentClient AgentAWS EC2OracleHadoopClient Agent其它二、兰亭数据平台建设 调度系统:运维、管理、监控、依赖/RedshiftRedis/HBaseActor模型:基于线程和基于事件的Actor;三、大数据的高性能实现Actor模型:基于线程和基于事件的Actor;人与系统交互、维度自由组合;Amazon Redshift 是一种快速、完全托管的 PB 自助服务:支持用户自定义查询,并保存为报表;线上服务:Mysql 需求变化,又得根据流程重新开发;基于云计算的大数据响应 不能进行数据交互、自由组合;一、对BI的思考_数据Web Service 报表系统:维度分析、动态展现、权限EMR/Hive/Spark数据挖掘二、兰亭数据平台建设 报表系统:维度分析、动态展现、权限元数据RDS MySQLAmazonS3二、兰亭数据平台建设计算与存储:EMR+HiveEMR+HiveOracleRedshiftMysqlDataExp二、兰亭数据平台建设 应用推荐服务商品排序运营数据RESTful API前端系统搜索引擎CRM、其它系统Web Service三、大数据的高性能实现 1、Oracle读写分离 一拖二 主库写,从库实时复制 多从库用于查询、统计 硬件加速:SSD盘加速三、大数据的高性能实现 2、Redshift Amazon Redshift 是一种快速、完全托管的 PB级数据仓库解决方案;列式存储;数据压缩;区域映射;MPP并行处理框架:在不停机的情况下实现扩展或收缩;三、大数据的高性能实现 3、Logstash、ElasticSearch、Kibana Logstash:日志进行收集、分析、过滤,并将其存储供以后使用;ElasticSearch:全文搜索服务 Kibana:自定义搜索接口,页面展示四、高效的数据挖掘1、Hadoop在数据挖掘中的问题 MP模式 vs复杂的机器学习算法 多次迭代问题 中间数据的处理 开发周期长四、高效的数据挖掘2、SparkRDD(Resilient Distributed Dataset)内存计算:计算的中间结果保存在内存中,不需要读写HDFS;快速迭代;DAGScala函数式编程(FP);Actor模型:基于线程和基于事件的Actor;并发能力;四、高效的数据挖掘 3、Spark架构HDFSAmazon S3HBase本地模式独立模式EC2MesosYarnMRSparkRDDFPSharkStreamingMllibGraphx原始日志SparkRedis/HBase模型结果Hive混合计算Hive表四、高效的数据挖掘4、兰亭推荐系统架构推荐结果用户访问日志四、高效的数据挖掘5、基于用户行为的商品推荐浏览购买购物车收藏训练数据展示预测ctr模型结果五、BI的发展趋势更加灵活的可定制商业智能;更易用更人性化;多样的展示方式;移动BI;云计算与云部署;海量数据处理;谢谢观看谢谢观看
展开阅读全文