收藏 分销(赏)

EMC-Greenplum-统一数据分析平台解决方案PPT学习课件.ppt

上传人:a199****6536 文档编号:7436171 上传时间:2025-01-04 格式:PPT 页数:48 大小:4.65MB 下载积分:12 金币
下载 相关 举报
EMC-Greenplum-统一数据分析平台解决方案PPT学习课件.ppt_第1页
第1页 / 共48页
EMC-Greenplum-统一数据分析平台解决方案PPT学习课件.ppt_第2页
第2页 / 共48页


点击查看更多>>
资源描述
,#,Copyright 2010 EMC Corporation.All rights reserved.,Data Computing Division,EMC Greenplum Unified Analytics Platform,统一数据分析平台,Alex Liu,刘琳,EMC Data Computing Division,Cloud Meets Big Data,What is Big Data?,Cloud Computing,What is changed?,Greenplum UAP,Greenplum Database,Greenplum HD,Greenplum Chorus,Greenplum DCA,Agenda,什么是大数据?,维基百科对大数据的定义,即无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合,大数据呈现出三大特征,即,3V,数据大,(Volume),,例如,Facebook,每天在,30,万台服务器上处理,25Tb,数据,时效性要求高,(Velocity),,例如搜索引擎要求在几分钟内为用户查询新闻,种类和来源多样化,(Variety),,除了结构化的数据、半结构化、非结构化的数据大量产生,Source:2011 IDC Digital Universe Study,1 ZB=1024 EB,1 EB=1024 PB,增长,44X,2020:35.2 Zettabytes,下一个十年,数据源将会,数据源正在膨胀,Cloud Meets Big Data,What is Big Data?,Cloud Computing,What is changed?,Greenplum UAP,Greenplum Database,Greenplum HD,Greenplum Chorus,Greenplum DCA,Agenda,大数据解决之道,-,云计算,古代,人们用牛来拉重物。当一头牛拉不动一根圆木时,他们不曾想过培育更大更壮的牛。同样,我们也不需要尝试开发超级计算机,而应该试着结合使用更多计算机系统。,Grace Hopper,云计算的特点,云计算特点,内容,超大规模,云”具有相当的规模,,Google,云计算已经拥有,100,多万台服务器,亚马逊、,Yahoo,等公司的“云”均拥有几十万台服务器。“云”能赋予用户前所未有的计算能力。,虚拟化,云计算支持用户在任意位置、使用各种终端获取服务。所请求的资源来自“云”,而不是固定的有形的实体。,高可靠性,“云”使用了数据多副本容错、计算节点同构可互换等措施来保障服务的高可靠性,使用云计算比使用本地计算机更加可靠。,通用性,云计算不针对特定的应用,在“云”的支撑下可以构造出千变万化的应用,同一片“云”可以同时支撑不同的应用运行。,高可扩展性,“云”的规模可以动态伸缩,满足应用和用户规模增长的需要。,按需服务,“云”的规模可以动态伸缩,满足应用和用户规模增长的需要。,低总体成本,“云”的特殊容错措施使得可以采用极其廉价的节点来构成云。,Cloud Meets Big Data,What is Big Data?,Cloud Computing,What is changed?,Greenplum UAP,Greenplum Database,Greenplum HD,Greenplum Chorus,Greenplum DCA,Agenda,驾驭大数据能够改变什么?,2011,年,3,月,11,日日本大地震发生后仅,9,分钟,美国国家海洋和大气管理局,(NOAA),就发布了详细的海啸预警。,NOAA,通过对海洋传感器获 得的实时数据进行计算机模拟,制作的海啸影响模型出现在各大网站。,驾驭大数据能够改变什么?,电信行业借助社交网络分析,对客户的通话数据进行分析,能够识别出这部分“影响者”。社交分析并不是分析单一用户的通话记录,而是分析各用户所处的社交网络。,房,驾驭大数据能够改变什么?,全球金融危机带给我们的最大教训就是加强风险的监管力度,如何更好的进行风险管理已经成为银行等金融机构重要的课题。,Cloud Meets Big Data,Greenplum UAP,Greenplum Database,Greenplum HD,Greenplum Chorus,Greenplum DCA,Agenda,What is it?,Private/Hybrid Cloud Infrastructure or Appliance,Data Access&Query Layer,3,rd,Party/Partner Tools&Services,Greenplum Chorus-Analytic Productivity Layer,Greenplum Hadoop,Data Scientist,Data Engineer,Data Analyst,Bl Analyst,LOB User,Greenplum Database,Data Platform Admin,Data Science Team,The Greenplum Unified Analytics Platform,EMC,Greenplum,Greenplum Product Line,Cloud Meets Big Data,Greenplum UAP,Greenplum Database,Greenplum HD,Greenplum Chorus,Greenplum DCA,Agenda,Shared-Nothing,架构优势,DB,SAN/,共享存储,DB,DB,DB,DB,Disk,DB,DB,DB,DB,Disk,Disk,Disk,Disk,Master,Shared-Everthing,Shared-Storage,Shared-Nothing,红色表示共享资源,绿色表示无共享资源,数据均匀分布,并行处理的关键,43,Oct 20 2005,12,64,Oct 20 2005,11,45,Oct 20 2005,42,46,Oct 20 2005,64,77,Oct 20 2005,32,48,Oct 20 2005,12,Order,Order,Order Date,Customer ID,50,Oct 20 2005,34,56,Oct 20 2005,21,63,Oct 20 2005,15,44,Oct 20 2005,10,53,Oct 20 2005,82,55,Oct 20 2005,55,数据均匀分布在每一块磁盘上面,发挥每一块磁盘性能,根本上解决,I/O,瓶颈,支持数据,Distribution,分布和,Partition,分区,Master Node,高可用性,Standby Master Node,当,Primary Master,出现故障时,热备份,Standby Master,担它全部工作,热备份,Standby Master,通过复制进程,保持与,Primary Master,的交易日志同步一致,Segment Node,高可用性,Mirror Technology,RAID,保护驱动器故障,,Mirror S,egment,保护服务器故障,同一份数据在集群内有,4,份,copy,Mirror,Segment,接管不丢失服务,快速在线差异恢复,大规模并行处理优势,真正意义上的并行处理,利用原生,MapReduce,模型实现,业界效率最高的并行处理引擎,全部,SQL,逻辑都可以并行在每一个,Segment Node,执行,负载根据,Segment Node,数量自动均衡,Segment,Segment,Segment,Segment,Master,并行加载和导出优势,业界最快并行加载速度,10TB/Hr,并行加载技术充分利用分布式计算和分布式存储的优势,保证发挥出每一块,Disk,的,I/O,资源,并行加载比串行加载,速度提高,40-50,倍以上,减少,ETL,窗口时间,增加,Segment,和,ETL,Server,,并行加载速度呈线性增长,行列组合存储优势,列存储,少数字段查询,大幅节省,I/O,操作,大数据量频繁访问,性能提升,30%,以上,Column 1,Column 2,Column 3,Row 1,Row 2,Row 3,行存储,大多数字段频繁查询,随机行访问较多,组合存储,按照应用类型,随需定制,Partition,存储方式,达到最优化访问性能,动态在线扩容优势,系统永不停机,Greenplum,动态在线扩容技术,可以保证客户在扩容期间不宕机,不能动态在线扩容,高可用性无从谈起,宕机意味着利润的流失,客户需要可靠的,IT,环境,在线数据重分布,0101,0000,0101,0000,0101,0000,0101,0000,0101,0000,0000,0000,0000,0101,0000,0101,0000,0101,0000,0101,0101,0000,0101,0000,0101,0000,0101,0000,0101,0000,0000,0000,0000,0101,0000,0101,0000,0101,0000,0101,0101,0101,0101,0101,0101,0101,0101,0101,0101,0101,0000,0101,0000,0101,0000,0101,0000,0101,0000,0000,0000,0000,0101,0000,0101,0000,0101,0000,0101,0101,0000,0101,0000,0101,0000,0101,0000,0101,0000,0000,0000,0000,0101,0000,0101,0000,0101,0000,0101,0101,0000,0101,0000,0101,0000,0101,0000,0101,0000,0000,0000,0000,0101,0000,0101,0000,0101,0000,0101,0101,0000,0101,0000,0101,0000,0101,0000,0101,0000,0000,0000,0000,0101,0000,0101,0000,0101,0000,0101,在线数据重分布,在线数据重分布,Cloud Meets Big Data,Greenplum UAP,Greenplum Database,Greenplum HD,Greenplum Chorus,Greenplum DCA,Agenda,开源,Apache,项目,Hadoop,核心包括,:,-HDFS,分布式文件系统,-Map/Reduce,分布式计算,用,JAVA,编写,运行在,:,Linux,Mac OS/X,and Solaris,开放硬件平台,Shuffle,Map,Reduce,Whatis Hadoop,?,2007,2008,2009,2010,The Datagraph Blog,Source:Hadoop Summit Presentations,Hadoop,在各行业的应用,HDFS,Hadoop,分布式文件系统,MapReduce,分布式开发框架,Pig,分布式开发语言,Zookeeper,高可靠性分布式协调服务,Hive,基于,Hadoop,的数据仓库工具,HBase,一个高可靠性、高性能的非结构化数据库,Hadoop,组件,Greenplum HD MapR,Enterprise-Ready Hadoop Platform for Unstructured Data,Faster,2 5x,速度提高于,Apache Hadoop,Reliable,高可用性,镜像,Easier to Use,可使用,NFS,系统管理,DFSIO,(higher is better),Terasort,(lower is better),10 node cluster,2x Quad-Core,24G DRAM,12 x 1TB SATA Drives 7200 rpm,Quad NICs,Elapsed time in minutes,MB/sec,3.5 TB,GPHD MapR,Apache,Greenplum HD MapR,更快的速度,Lockless Storage Service,消除存储抢占和竞争,Direct Block Device IO,发挥全部存储的,IO,性能,Hadoop Direct Shuffle,利用,Name Node,的可扩展性,提供更快并行计算性能,Client Side Compression,实用自动压缩减少网络开销,C vs Java,消除,JAVA,的回收机制,使用,C,编写,为什么有更快的速度?,Greenplum HD MapRJob Tracker,高可用性,保证业务连续性,专为关键业务设计,自动安全重启动,没有任务丢失的重新连接,稳定的任务执行状态,Greenplum HD MapR Distribution,Enterprise HD MapReduce,Enterprise HD Lockless Storage Services,Distributed,Name Node,Job Tracker HA,Greenplum HD MapR Distributed Name Node,所有,Hadoop,节点都进行分布式处理,自动和已处理的失效机制,稳固的元数据,高达,1,万亿个文件存储,HadoopNode,NN,HadoopNode,NN,HadoopNode,NN,HadoopNode,NN,HadoopNode,NN,HadoopNode,NN,HadoopNode,NN,HadoopNode,NN,HadoopNode,NN,HadoopNode,NN,Greenplum HD MapR,管理简单,直观,洞察力,完整,查看一个或者多个节点,GPDB&GPHD,并行访问,Analytic Productivity,Applications,Tools,Chorus,Greenplum Database,Hadoop,Compute,Storage,SQL DBEngine,Compute,Storage,MapReduceEngine,Data Computing Interfaces,SQL,MapReduce,In-Database Analytics,Parallel Data Loading(batch or real-time),All Data Types,unstructured data,structured data,temporal data,geospatial data,sensor data,spatial data,paralleldata exchange,paralleldata exchange,Network,Cloud Meets Big Data,Greenplum UAP,Greenplum Database,Greenplum HD,Greenplum Chorus,Greenplum DCA,Agenda,数据分析现状,对企业数据仓库的访问严格管理,数据仓库中的计算负载通常很大,有可能可以发现非常有价值的见解的深入分析不被鼓励,数据分析的结果不再存储在数据库中,而是通过邮件来交换共享,Greenplum Chorus,主要给三类用户提供帮助,数据库架构师和管理员,负责管理数据库和提供数据访问,监控数据流动,数据分析师,负责从数据推导见解,和数据库管理员紧密合作,公司管理层,负责解释投资回报,关注对数据的快速有效分析,分析沙箱,公有云数据,普通硬件,虚拟机,Chorus,Chorus,自我服务的分析架构,Hadoop,企业数据仓库,Chorus,主要功能,企业数据云,整合数据源,整合结构化数据和非结构化数据,自我服务的架构,自己创建沙箱数据库,加快数据分析和形成商业方案的进程,协作环境,分析师通力合作,发现和创建见解,共享分析结果,代码和数据,开放和可扩展的平台,Chorus,与企业数据仓库,数据仓库,管理数据,生成企业运营报告和财务汇总,,Chorus,一个自我服务的架构,支持针对不同业务的分析沙箱,分析的结果可以影响企业发展方向和方案,Chorus,与,Hadoop,把,Hadoop,作为一个数据源注册到,Chorus,中,浏览,Hadoop,分布式文件系统,(HDFS),目录,预览,HDFS,文件,把,HDFS,文件添加到分析沙箱中,为,HDFS,文件添加注解,统一的数据分析平台,结构化数据,(,数据库表,),非结构化数据,(HDFS,文件,),Cloud Meets Big Data,Greenplum UAP,Greenplum Database,Greenplum HD,Greenplum Chorus,Greenplum DCA,Agenda,EMC Greenplum DCA,2 GPDB Master Servers,2 10GE Switches,Administrative Switch,Functional,Module,Functional,Module,Functional,Module,Functional,Module,DCA,模块化灵活,配置,GPDB,HD,Greenplum HD Module,Greenplum DB Module,DIA,DIA Module,Greenplum HD Module,28TB,capacity(3 copies,uncompressed),Each server contains:,2 sockets/12cores-48GB Mem,12x 2TB storage,Greenplum Database Module,9TB or 31TB capacity(uncompressed),Each server contains:,2 sockets/12cores-48GB Mem,12x 600GB or 2TB storage,Data Integration Accelerator Module,70TB capacity,Each server contains:,2 sockets/12cores-48GB Mem,12x 2TB storage,Example 3 Rack Configuration,GP DB,DIA,GP HD,GP HD,GP HD,GPDB,GP HD,GP DB,GP HD,DCA Modules Specifications,Module Type,Greenplum DB Standard Module,Greenplum DB High Capacity Module,Greenplum HD Module,Greenplum DIA Module,Software,Greenplum Database,Greenplum Database,Greenplum HD,Certified Partner Software,Segment Server,2 sockets/12 cores,Total Memory,48 GB,Storage,Drives,600 GB SAS,2 TB SATA,2 TB SATA,2 TB SATA,Total Number of Storage Drives,48,Usable Capacity(uncompressed),9 TB,31 TB,28 TB,70 TB,Usable Capacity(compressed),36 TB,124 TB,112 TB,Not,Applicable,
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2026 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服