收藏 分销(赏)

大数据与大数据技术.ppt

上传人:精*** 文档编号:10300142 上传时间:2025-05-20 格式:PPT 页数:59 大小:11.25MB
下载 相关 举报
大数据与大数据技术.ppt_第1页
第1页 / 共59页
大数据与大数据技术.ppt_第2页
第2页 / 共59页
点击查看更多>>
资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,二级,三级,四级,五级,*,Advanced Analytic Service All Rights Reserved 2016,*,*,Advanced Analytic Service All Rights Reserved 2016,*,量变到质变,大数据与大数据技术,2016.10,议程,公司简介,大数据与大数据技术,大数据技术应用,大数据案例分享,问题讨论,2,Advanced Analytic Service All Rights Reserved 2016,公司简介,公司概况,&,发展历史,主要客户,&,大数据产品,3,Advanced Analytic Service All Rights Reserved 2016,新加坡,上海,北京,公司概况,青岛,雅加达,专注于分析预测与行业应用的的大数据公司,深圳,业务,1,业务,2,业务,3,提供基于大数据技术的预测性分析及商务智能解决方案,大数据平台、数据集成与准备工具、开源开发技术,自助式分析工具、数据可视化工具,提供全球顶尖的大数据软件产品,300+,技术服务人员,端,到端的大数据平,台,数据集成、数据挖掘与预测,性分,析、高级分析,企业级大数据仓库、企业绩效管理、商务,智能,大数据,SaaS,应用和,DaaS,服务,基于云平台的软件即服务大数据应用,为企业提供全面的数据服务,发展历史,数据仓库,绩效管理,高级分析,数据可视化,看板管理,商务智能,2.0,至今,2005,2007,2011,2002,大数据技术,大数据应用,分析预测,数据挖掘,数据即服务,数据集市,14,年来,,,我们与数俱进,汽车制造,电子产品及家电,快消零售,医药与生命科学,航空与物流,高科技制造业,金融及其他,主要客户,云,以,H,a,d,o,o,p,为核心的大数据产品系列,数据集成与准备,SQL on Hadoop,Text here,流计算,机器学习,开源开发技术,数据挖掘,以,H,a,d,o,o,p,为核心的大数据产品,大数据软件产品,Statistica,数据,可视化,Vortex,数据,创新,经验,融合,拥有多元化的数据科学家团队和十余年的数据分析经验。经十余年自主开发的,IP,打造数据行业领先的技术优势。,追踪吸收和引进行业内最先进的技术,产品和应用经验。世界顶尖数据技术公司在中国地区的首选合作伙伴。,在一大批竞争行业(汽车、制药、快消、家电、物流等)内拥有,深厚的客户基础和众多行业成功案例。,追求行业业务能力和技术能力的融合以及企业系统架构与解决业务问题间的平衡,,具有扎实的项目实施能力。,HEADLINE,竞争优势,大数据与大数据技术,9,Advanced Analytic Service All Rights Reserved 2016,Hadoop,技术的发展,物联网应用需要将,Hadoop,变为一个高性能的分析平台,需要,Hadoop,不光能存储数据,更要能够处理计算数据,SQL,分析,挖掘预测,图形化数据分析,智能搜索,时间、用户、地理位置、事件 等标签,辅助技术:,Kafka,HBase,Cassandra,Accumulo,基于大数据技术的数据分析处理,Hadoop,核心层,数据准备,技术更迭过快,开源产品成熟度,开发效率,与现有架构的关系,运维与安全,大数据技术的顾虑,?,大数据平台计算框架,传统数仓功能,非结构化流式挖掘分析,软件架构(举例),DATA PLATFORM,(HDFS),灵活数据准备,SQL,in Hadoop,数据挖掘与预测,S Q L,(,ODBC,、,JDBC,、。,NET,),API,:Java,C/+,Python,前端应用,报表,外部应用,下游系统,管理控制台(,CloudEra,、,Talend,、,KNIME,),数据安全以及认证(,Portal,集成),用工具取代代码作坊,MapReduce,Performance,(runs on disk),One,Click,Spark,Performance,(runs in-memory&,on disk),20X,Faster,同时处理实时与批次,流式处理,批次处理,转换,清洗,治理,转换,清洗,治理,推荐引擎,Spark Streaming/Kafka,Spark,数据库,文件,批次数据,实时,流数据,HDFS,文件,数据流,输出,基于用户数据理解地模型预测,图形化数据准备挖掘,运用,Spark Mlib,等进行计算,结果回写入,Impala,或者,HIVE,非结构化数据为存储的新型,SQL,基于落地,HDFS,的文件或,HBASE,进行,SQL,建表解析,提供工业,MPP,级别查询性能,线性可扩展,标准,JDBC,SQL,界面,直连,BO,,,Tableau,,,Qlikview,MSTR,等报表工具,技术方案:特点小结,基于开源系统的成熟商用插件方案,部署简便,提高开发效率,降低实施风险,基于内存的计算 性能优异,全部基于唯一,Hadoop,集群内,统一存储统一计算,减少数据传输迁移的同步问题,维护便捷:一套集群,维护简单,扩展性:无限扩展,线性,提升,便捷的开发及报表展现工具,图形化,ETL,,数据挖掘开发,便捷报表展现分析工具,建模过程,100%,用户参与,IT,基础架构与用户数据准备、探查、分析、预测分离,19,Advanced Analytic Service All Rights Reserved 2016,大数据团队组织建设,数据与业务的结合,大数据开发团队,技术平台支持,业务人员,咨询团队,大数据管理员,内部团队与专业伙伴紧密合作,Evan,数据科学家,大数据技术应用,21,Advanced Analytic Service All Rights Reserved 2016,Internet of Customers and Internet of Things,IoT,Invisible devices and Wearable devices,Trillions of networked nodes,Low bandwidth last-mile connection,100kBit/sec,Mostly addressed by local schemes,Machine-centric,Sensing-focus,Trillions of computer-enabled devices which are part of the IoT,Global addressing,User-centric,Communication-focus,IoC,Laptops /tablets /smartphones,Billions of networked devices,High-bandwidth access,Cable:10Mbs+,Fiber:50-100Mbs,6+billion people,1.5 billion use net,US:4.3 devices,per adult,Big Data on IoT,Predictive,Maintenance,that enable you to change your business,Hadoop,Machine Learning,Query and,reporting,IoT 解决方案,Command and Control,You have devices on the network edge,Plant Floor,Things,Supply Chain,Things,Back Office,Things,Basic Sensors,Intelligent Devices,that provide you data,SQL Databases,Blob Storage,Table Storage,External Storage,DocumentDB,that you understand,apply rules,models and more,Command and,Control,Event Hub(Service Bus),本质是基于“信息物理系统”实现“智能化,”,二、工业,4.0,时代的智能制造,IoT,的本质,二、工业,4.0,时代的智能制造,IoT-,智能工厂,Big Data on IoC,360 Customer Profile,Micro-Segmentation,Customer Lifetime Value,Next Best,Action,Customer Sentiment,Campaign Optimization,Churn,Market Basket Analysis,关联,分析,行动,创建客户档案,识别共同关键词,CRM账户信息及客户特征,EDW交易历史,社交媒体关键字,整合数据并载入hadoop,连接至文本挖掘应用,将数据库连接至EDW,连接至flat file,Sales Lift,20%,60%,100%,n%,购买周期趋势,购买家庭信息,购买人口特征,通过API与CRM相连,连接至flat file,连接至flat file,删除重复客户,载入Hadoop,在用户ID间连接数据,第一阶段,识别人口微簇,客户画像,删除重复客户,在用户ID间连接数据,识别共同关键字,创建客户档案,数据流引擎,人口分布,客户倾向,HADOOP 集群/YARN,关联,分析,行动,数据库分析,查询可视化报表,分析工具及应用,HDFS/NFS,低延迟查询,集成服务器,BI服务器,数据库集群/服务器,社交媒体链接,数据库链接,文本分割链接,API链接,固定文本链接,文本分割链接,消费心理,第一阶段,HDFS API,数据混合与浓缩,集成引擎,ACTIAN分析平台,CRM账户信息及客户特征,EDW交易历史,社交媒体关键字,购买周期趋势,购买家庭信息,购买人口特征,客户画像参考架构,360,度客户视图,案例分享,车联网大数据应用,31,Advanced Analytic Service All Rights Reserved 2016,项目背景,围绕车辆全生命周期,数据驱动的车联网与跨行业融合,可衍生出多样的商业模式与创新服务;基于丰富的车联数据、多样的服务平台,可对行业、社会热点展开洞见分析,同时挖掘更多的商业价值,拓展新的业务,车辆全生命周期,Car Full Life Cycle,车辆防盗,财产保护,Property Protection,保,险车联,网,Telematics Insurance,车内,LBS,服务,In-Car LBS,车载,4G,热点,Onboard 4G WIFI,预测性保养提,醒,Proactive,Reminder,汽车延,保,Extended Warranty,预测性维修提,醒,Proactive Reminder,远程在线升,级,OTA Upgrade,车队管,理,Fleet Mgmt.,汽车共,享,Car Sharing,车,况,分析,报告,Assess Report,二手车联合鉴定,United Assessment,消费者画像,User Portrait,新车销,售线,索,Sales Leeds,客制,化服务,Customization,产品规划,Planning,设计研发,R&D,生产制造,Production,市场营销,Marketing,售后保障,After Sales,持续改进,Keep Improve,新车销售,Car Sales,试驾,Test Drive,金融,Finance,维修,Repair,车生活,In-Car Life,保险,Insurance,保养,Maintain,租赁,Leasing,二手车,Used Car,安吉星大数据项目目标与当前的问题,目标:,主数据(数据质量)的升级,主题模型落地,保持数据一致性,提高运维的灵活性,应用数据缓存的改造,用空间换时间的方法保护后台核心应用的正常运行,企业经营分析的改造,提高运营速度和质量,降低数据开发成本,新业务的支持,驾驶行为分析,燃油分析,二手车评估,车况鉴定报告,问题:,缺少数据主题,重复开发和浪费成本,数据质量不可控,数据缺少管控,BI 开发成本高,周期长,缺少业务分析平台,车辆数据采集能力有限,业务数据无法有效支持,大数据平台逻辑架构,报表,/,可视化,数据集成区,批量数据处理,实时消息队列,数据湖泊区,机器学习区,NoSQL,区,流计算区,数据暂存区,数据仓库区,主题分析区,Mobile,DAAP,Vehicle,LVDS,Traffic Probe,HA/HB,OVD,ACR,其它数据源,其它数据源,系统管理,数据管理,搜索引擎区,数据交换区,数据源,车辆行驶日志,车辆行驶日志,急加速、加速日志,车载系统日志,实时数据计算,36,驾驶行为评分,37,第,1,步:建模变量的选择,从所有变量中,选取建模选定的变量,第,2,步:衍生建模变量计算,基于,TP,类别的变量,进行用户驾驶风险的初步计算,第,3,步:用户出险概率计算,基于第,2,步计算结果,结合,HAHB,类别变量,进行用户出险概率的计算,第,4,步:驾驶风险评分计算,将出险概率,转化为对应的驾驶风险评分,第,5,步:驾驶行为评分计算,将驾驶风险评分,转化为对应的驾驶行为评分,驾驶行为评分,阈值计算,通过机器学习算法,实时的将所有用户数据代入驾驶风险概率模型,动态计算相关阈值,Set response variable=uncomfortable maneuver,Set predictor variable=acceleration,speed,turns,Calculate the score,38,驾驶行为评分,用车轨迹-用户画像,When,何时,Where,何地,Who,是谁,What,做什,么,上班族,Commuter,商务人士,Biz Man,家庭主妇,Housewife,夜晚活动族,Night Owls,用车轨迹 交叉销售,售后维修保养机会点,Opportunities for A/S Maintenance,新车销售机会点,Opportunities for New Car Sales,Maintenance Opportunities,车况报告,车况报告,案例分享,智能生产预测,44,Advanced Analytic Service All Rights Reserved 2016,项目背景,项目背景,随着业务的不断发展,生产线不断扩张,不同生产线、不同机台、不同工序所产生的玻璃面板坏点数量参差不起,良品率总体呈现下降趋势。为了提高玻璃面板的良品率,不断优化工艺流程,提升产品质量,决定建立数据分析平台,来预测坏点产生跟生产流程上的哪些因素有关,来做有正对性的改进。,项目实施,收集生产,Glass,过程当中所有相关的因子信息,通过,Dataflow,工具对品质异常的玻璃数据进行,regression,、,correlation,挖掘算法分析,计算各因子与产品异常之间的影响关系。同时针对正常品质玻璃也做因子分析,计算得出正常品质下各因子的正常范围值,从而可以快速判定超出范围的为异常值。,品质异常因子分析,抽取源系统数据并通过数据的业务逻辑进行数据关联进行数据准备,,然后通过数据挖掘算法进行correlation、regression两类数据挖掘,并将挖掘,结果写到HDFS文件系统中。,通过针对,defect_count,、,recipe,、,TC_C1_EV,因子,经过,regression,算法,从测试数据中挖掘出,defect_count,预测数据,数据分析过程,通过针对不同Product_ID下,defect_count因子和TC_PRESSS、TC_IP1_PRESS、TC_IP2_PRESS,,车台温度,等因子,经过correlation算法,从测试数据中挖掘出相关性数据,注:挖掘数据位于测试中转机I:To_Andycorrelation.txt、I:To_Andyregression.txt,关联预测准确度,(越靠近中线,预测偏差越小),线性回归分析,异常点部分需要进一步分析,分析结果,案例分享,传统数仓转大数据,51,Advanced Analytic Service All Rights Reserved 2016,项目背景,使用传统的标准数仓建模,分,ODS,、,DW,、,DM,及,DMA,ETL,主要通过存储过程实现,存储过程数据加工较多的使用临时表、中间表,使用传统交易型,DBMS ORACLE,作为数据仓库平台,前端通过刷,CUBE,提升报表查询速度,支撑报表数量:目前,150,左右,每日增量更新时长:,1,:,00,12,:,50,存在的问题,数据冗余比较严重,临时表、中间表使用过多,对内存及磁盘,IO,压力较大,层与层之间调度依赖严格,数据加工性能不足,数据查询性能不足,高并发查询性能下降严重,并发的计算架构,54,SQL(JDBC/ODBC/.Net),JAVA/C/,API,加载入,分布式存储,SQL on Hadoop,加载入,SQL in Hadoop,Source,CDH Cluster+Hadoop ETL,分布式内存,数据整合,数据,抽取,CDH Nodes(Clouderas distributiong including Apache Hadoop),Hadoop ETL runs natively on every node,SQL on Hadoop,SQL on Hadoop,基于标准,SQL,或者,API,界面输出,新架构解决的问题,数据冗余比较严重,临时表、中间表使用过多,对内存及磁盘,IO,压力较大,层与层之间调度依赖严格,数据加工性能不足,数据查询性能不足,高并发查询性能下降严重,Dataflow,流式加工数据,只将结果集回写数据库,大大避免减少数据冗余,Dataflow,中流式加工数据,可以不用临时表,节约大量磁盘,IO,Dataflow,作业中直接实现业务逻辑,各报表相对独立无依赖,Dataflow,流式并行加工数据,且可通过扩展节点线性提升性能,Impala,特有向量计算技术及采用分布式并行计算架构,Impala,向量计算、列存储、并行计算等技术完美支持高并发查询,结果比较,大数据创新实验室,Better Data,Better Decision,大数据之路有我们,不再迷茫,总结,问题与讨论,58,Advanced Analytic Service All Rights Reserved 2016,知识回顾,Knowledge Review,
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传
相似文档                                   自信AI助手自信AI助手

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4009-655-100  投诉/维权电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服