收藏 分销(赏)

Cloudera大数据解决方案.pptx

上传人:pc****0 文档编号:13757949 上传时间:2026-04-10 格式:PPTX 页数:44 大小:6.67MB 下载积分:10 金币
下载 相关 举报
Cloudera大数据解决方案.pptx_第1页
第1页 / 共44页
Cloudera大数据解决方案.pptx_第2页
第2页 / 共44页


点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,#,Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,#,Cloudera,Inc.All rights reserved.,Cloudera,大数据,从最先进的,Hadoop,平台到企业级数据中心,Cloudera,公司背景,创立,2008,由几家世界顶级,IT,企业前雇员创立,世界顶级技术支持,24x7,全球技术支持,主动技术支持,&,预测性技术支持,企业核心业务应用,数千家企业客户,超过,500,名付费订阅企业客户,超过,6,0%,为世界,500,强客户,成功案例,全球范围内数百项成功实施案例,最大生态系统,超过,1300,个合作伙伴,培训,全球超过,5,万人通过培训得到了,Cloudera,认证,开源社区领导者,Cloudera,是无可争议的,Hadoop,开源社区领导者和贡献者,Cloudera,首席架构师为,Hadoop,之父:,DongCutting,公司发展历史,Cloudera Confidential-Internal Use Only,3,Cloudera,应用成果,Cloudera Confidential-Internal Use Only,4,行业成功案例,Financial&,Business Services,TelecomTechnology,HealthcareLife Sciences,Media,RetailConsumer,EnergyPublic Sector,应用行业,6,2014 Cloudera,Inc.All rights reserved.,客户,360,度分析,Enhanced customer experience&support,Personalization,targeted offerings,loyalty programs,Sentiment analysis,渠道优化,Campaign management,Selection process optimization,供应链优化,Manufacturing process efficiency,Supplier/merchant management,风险管理,Fraud detection,Intrusion detection&digital forensics,审计,Regulatory compliance(retention,privacy),Usage analysis and mediation,e-Discovery,市场资讯,Competitive analysis,Economic factor analysis,Customer segmentation,数据服务,Data as-a-product,Data enriched with insights/inferences,Cloudera,大数据应用案例种类,7,Cloudera,中国,2014 Cloudera,Inc.All rights reserved.,8,英特尔,7.4,亿美元投资到,Cloudera,英特,尔与,Cloudera,通,过开源驱动创新,英特,尔使得,Hadoop,在,IA,架构上运行达到最优性能,Cloudera,与,英特,尔协作建立广泛的合作伙伴生态系统,Cloudera,在中国建立销售及技术服务团队,,英特,尔大数据团队,2014,年,9,月正式加入,Intel,与,Cloudera,大数据联盟,2014 Cloudera,Inc.All rights reserved.,9,数据量决定数据使用方式,2014 Cloudera,Inc.All rights reserved.,10,以前,拷贝数据到计算节点,现在,拷贝计算程序到数据节点,Relative size&complexity,数据信息驱动,:,Multi-structured,internal&external data,of all types,Compute,Compute,Compute,流程,驱动,:,Structured data mainly,Internal data only,“Important”data only,Compute,Compute,Compute,Data,Data,Data,Data,传统数据分析,:,将数据带至计算平台,2014 Cloudera,Inc.All rights reserved.,11,复杂的架构,许多特殊用途的系统,频繁的数据移动,缺乏数据的整体认识,高数据遗失率,许多资料数据未能被使用,风险与合规,高存储成本,数据存取速度慢,需要前期建模,数据转换速度慢,转换程序常遗失数据,高数据分析的成本,现有系统负荷量过大,缺乏灵活性,“,商业智能积压,”,4,1,2,3,服务器,数据集市,企业级数据仓库,文件资料库,存储系统,搜索系统,存档系统,ERP,、,CRM,、数据库、机器,文件、图片、视频、日志、点击流,外部数据源,服务器,数据集市,企业级数据仓库,文件资料库,存储系统,搜索系统,存档系统,ERP,、,CRM,、数据库、机器,文件、图片、视频、日志、点击流,外部数据源,2014 Cloudera,Inc.All rights reserved.,多样化的分析平台,将应用程序带至数据,结合多样化的工作于常见的数据,(,即,SQL+,搜索,),真正的敏捷性分析,4,1,2,3,4,大数据分析,:,将计算平台带至数据,12,主动合规存档,全保真原始数据,不定时间,任何来源,成本最低的存储,1,保持,Staging,所有的分析使用单一数据源,保持变换后的数据的状态,更快更便宜,2,自动服务,BI,探索,简单的搜索,+BI,工具,“,Schema on read”,灵活性,降低,BI,用户请求积压,3,Hadoop,改变游戏方式,Hadoop,方式,传统方式,$30,000+per TB,Expensive&Unattainable,难以线性扩展,网络成为瓶颈,只能存储结构化数据,难以扩展新的字段和数据类型,Expensive,Special purpose,“,Reliable,”,Servers,Expensive Licensed Software,Network,Data Storage(SAN,NAS),Compute,(RDBMS,EDW),$300-$1,000 per TB,Affordable&Attainable,无限性能扩展,没有网络瓶颈,方便聚合多种数据来源,灵活的数据访问方式,Commodity,“,Unreliable,”,Servers,Hybrid Open Source Software,Compute(CPU),Memory,Storage,(Disk),z,z,Cloudera Enterprise,统一平台,全面的大数据解决方案,统一平台,全面的大数据解决方案,批处理,交互式处理和实时处理,.,兼具高性能和易用性的统一平台,.,端到端交互式分析,海量数据聚合,全面的数据处理框架,广泛的第三方工具兼容,集群管理和数据管理,批处理,数据导入,Sqoop,Flume,转换,MapReduce,Hive,Pig,Spark1,数据发现,分析数据库,Impala,搜索,Solr,建模,机器学习,SAS,R,Spark,Mahout,在线服务,操作,数据库,HBase,流处理,Spark Streaming,无限分布式存储,HDFS,HBase,YARN,Cloudera Manager,Cloudera Navigator,Cloudera Impala,业内领先的开源,SQL,数据库,SQL,兼容性,最广泛兼容,SQL92/99/2003,语法,用户可以使用熟悉的,BI,工具,高并发度,为多用户并发查询优化,特别适合,BI,生产环境,高性能,海量数据,SQL,操作秒级响应,并能够线性扩展,整合,&,安全,与,Cloudera Enterprise,各组件高度整合,全面支持各种安全规范,达到企业级标准,Enterprise Data Hub,Security and Administration,Unlimited Storage,Process,Discover,Model,Serve,Impala,的优势,17,勿需远程检索,勿需数据移动,使用,Hadoop,元数据,开源,(Apache-licensed),与,YARN,的整合,便捷的安装、管理与监控,可通过,Cloudera,管理器进行升级,ANSI SQL,兼容性,主流,BI,工具的整合,预先定义的分析方法,(MADlib),全面的数据安全性,基于角色的访问控制,可审计的权限管理,简单,&,开放,便捷,可管理,安全,&,管治,先进的,MPP,架构,:,不使用,MapReduce,海量数据处理性能远超传统数据库,性能是,Hive/Stinger,的,10-100,倍以上,快速检索任意,Hadoop,上的数据,“,Schema on read,or,write,”,引擎之间共享数据,例如检索、机器学习,Hadoop,上最快的,SQL,灵活,SQL,性能比较,Single User,5,10 Users,11,Single User,25,10 Users,120,10 Users,302,10 Users,202,Single User,37,Single User,77,5.0 x,10.6x,7.4x,27.4x,15.4x,18.3x,Independent validation by IBM Research SQL-on-Hadoop VLDB paper:,“Impalas database architecture provides significant performance gains”,搜索,Cloudera Search(Apache Solr),2014 Cloudera,Inc.All rights reserved.,19,易用,交互式的全文检索与切面导航,实时的数据检索,多用户友好,灵性,批处理,实时或者按需索引,多类型、多格式支持,原生与,Hadoop,执行引擎相结合,丰富的,API,与完善的生态系统,100%,开源,业界标准的搜索引擎,成熟的代码基础,活跃的社区,探索,导航,关联,CDH,是唯一一个提供企业级搜索解决方案的商用,Hadoop,版本,Cloudera Search,框架介绍,非结构化数据,用户搜索界面,(Hue),Flume,HDFS,Raw,filtered,or annotated data,SolrCloud Cluster(s),Data to be indexed,Indexed data,MapReduce Batch Indexing,GoLive updates,HBase Cluster,Replication Events to be indexed,结构化数据,Cloudera Manager,Search queries,$,机器学习与流处理,Apache Spark,2014 Cloudera,Inc.All rights reserved.,21,开源的数据并行处理框架,快速,.,充分利用内存,比,MapReduce,的数据处理快,100,倍,有效支持迭代式机器学习与分析,开发友好,.,提供,Java,Scala,Python,等多语言丰富的,API,完整,.,集成于,CDH,可通过,Cloudera,管理器管理;通过与,Databricks,公司的协作共同对,Spark,开发完善,便捷的实时流处理,简单,.,API,有利于快速部署流处理应用程序,容错,.,实现“,Exactly-once,”语意,统一,.,基于,Spark,平台共享数据与模型,第三方应用扩展性,数百家和,CDH,互相认证兼容性,的第三方合作伙伴,为企业用户更方便整合,Hadoop,到现有业务系统,Access,ingest,transform,and cleanse all data on Hadoop with a visual development environment,Quickly connect to Hadoop for ad-hoc visualizations of your data to find patterns and outliers,Run leading analytical systems natively on Hadoop to get insights from all data,Deliver R-powered advanced predictive analytics to Hadoop for better data modeling,Enterprise Data Hub,Security and Administration,Unlimited Storage,Process,Discover,Model,Serve,Cloudera Enterprise,端到端大数据平台管理,让,Hadoop,平台运维管理更容易,Cloudera Manager,Hadoop,业内最完善,最全面的零宕机时间管理平台,管理整个大数据平台系统,而不仅是,Hadoop,集群本身,独有特性,:,统一配置,管理和监控全部,Hadoop,模块,在线向导式安装和升级,一键寻求,Cloudera,支持,强大的第三方扩展支持,一个工具搞定全部运维管理,Hadoop,运维管理的复杂性:,+,部署和配置,监控,工作流,事件和警告,日志搜索,故障诊断,运维报表,集群活动监控,DIY,方式的运维管理,对比,Cloudera,“,在第三方客户调查中显示,超过,95%,的客户希望使用统一的端到端管理工具对,Hadoop,集群进行维护管理,而不是被迫学习多种开源工具用于不同类型的管理”,简化的故障诊断流程,Cloudera Manager,最大程度提高故障诊断效率,注意到系统任务失败,集群停止服务,在,TaskTracker,界面中定位找到故障任务,借助,Ganglia,调查服务,主机,网络的各种监控指标,帮助查找故障原因,尝试找到合适的,HEAP,MEMORY,设置大小,更新设置,分发到所有节点,暂时中断服务,重启整个集群,故障原因:,TaskTracker,Heap,Memeory,设置过低,1,小时,2,小时,1,小时,30,分钟,收到,CM,警告:任务运行时间长于预期,在,CM,中自动定位并高亮显示故障任务,自动对,TaskTracker,节点做健康检查,找到故障原因,用系统推荐的设置值更新集群,重启单独的,TaskTracker,,集群服务不会中断,故障原因:,TaskTracker,Heap,Memeory,设置过低,5,分钟,3,分钟,2,分钟,5,分钟,通过,CLOUDERA,MANAGER,4.5,小时,15,分钟,非,Cloudera,平台,故障诊断,Cloudera Manager,关键特性,全面的灾备解决方案,零宕机时间,-,滚动升级,Cloudera Manager,扩展接口,API access provides programmatic access to cluster operations(such as configuration and restart)and monitoring information(such as health and metrics).,The CM API is an HTTP REST API,using JSON serialization.The API is served on the same host and port as the CM web UI,and does not require an extra process or extra configuration.API users have the same privileges as they do in the web UI world.,Examples,cloudera.github.io/cm_api,Metrics plug-in,clients,Enterprise,企业级安全和审计功能,全面的企业级安全功能,满足企业合规性要求,验证,授权,审计,合规,验证,Guarding access to the cluster,itself,Technical Concepts:,验证,网络隔离,授权,Defining what users and applications can do with data,Technical Concepts:,权限许可,Authorization,加密,Protecting data in the cluster from unauthorized,visibility,Technical Concepts:,加密,密钥,数据遮罩,审计,Reporting on where data came from and how its being used,Technical Concepts:,审计,Lineage,Cloudera Manager,Apache Sentry,Cloudera Navigator,Navigator Encrypt&Key Trustee|Partners,外围安全需求,让用户自由选择需要的计算模块(例如 Impala,Spark),任何计算模块拥有统一的安全设置,实现已有的安全标准:Active Directory 和Kerberos,验证,Guarding access to the cluster itself,InfoSec,Concept:,Authentication,Cloudera Manager,Cloudera Manager,提供自动化用户验证,支持,AD Kerberos,单点登录,Kerberos,配置向导,支持配置多,KDC,用户验证和监控信息,用户直接通过,A,D,进行单点登录,Hadoop,所有服务统一接受,AD Kerberos,验证,用户对,Hadoop,服务的访问权限由通过,AD,Groups,控制,通过向导自动为当前集群配置,Kerberos,,简化繁琐的手动操作,避免各种可能的错误流程,自动配置和调整多,KDC,协调工作,当,Kerberos,生效后,自动通过,CM,监控,Kerberos,验证状态,访问授权需求,提供用户所需要的,细粒度,权限,集中化管理所有服务的用户权限,使用构建在,AD,上的基于角色控制的用户授权模型,授权,Defining what users and applications can do with data,InfoSec,Concept:,Authorization,Apache Sentry,可视化权限管理,数据审计视图需求,帮助用户理解报表数据的血缘关系,并找到更多相似数据,遵循企业在审计,数据分类和生命周期管理的统一策略,集中化的审计平台,自动数据发现,自动血缘关系管理,审计视图,告诉用户数据从何而来以及如何被使用,InfoSec,Concept:,审计,Cloudera Navigator,为什么需要,Cloudera Navigator,36,Cloudera,企业版处理大量数据的需求,数据规模大,数据源种类复杂,结构化,/,非结构化数据,数据敏感性级别多,1,多用户处理数据的需求,管理员以及合规官员,分析员以及数据科学家,商务用户,2,数据有效控制与处理的需求,对数据平台的可视化与管理,数据发现与探索,3,Cloudera,数据审计和生命周期管理平台,Cloudera Navigator,Hadoop,平台上唯一的端到端数据,审计解决方案。,最大程度降低安全风险,保证和企业安全审计策略兼容,独有能力,:,数据审计,数据血缘管理,Hadoop,元数据标记和发现,数据生命周期,数据安全需求,对,重要,数据进行,额外安全保护,加密敏感数据,完善的密钥管理服务,从源头防范数据泄露风险,和企业已有的,HSM,整合,作为密钥管理基础架构的一部分,数据保护,Protecting data in the cluster from unauthorized visibility,InfoSec,Concept:,合规性,Navigator Encrypt&,Key Trustee,在上层应用和文件系统中实现透明加密层,合规性,无限数据扩展,超高性能:采用,Intel,硬件指令集优化,可选重点内容加密,Navigator,管理服务器对密钥管理,Cloudera,数据透明加密,Applications/Processes,File System,Process-Based ACLs,File-Level Encryption,Blocks,Storage,Users,Key Manager,Cloudera Enterprise,强大而灵活的云部署,部署的灵活性,安全与管理,无限分布式存储,批处理,数据发现,建模,在线服务,部署灵活性,On-Premises,Appliances,Engineered Systems,公有云,私有云,混合云,Cloudera:,将,CDH,带到云端,可移植性,:,多种云端部署选项,灵活性:定价和支持,选择:快速增长的生态系统,私有云:,Physical,公有云:,通过标准,Cloudera Support,提供支持,与云计算平台提供商合作,按使用量付费的定价模式,拥抱迅速增长的云计算生态系统,*,*,*,Scheduled for Roadmap,云端自动化部署,Hadoop,集群,Cloudera Director,业内第一个可移植,自服务型的部署和管理企业级,Hadoop,集群解决方案,独有特性,:,动态集群生命周期管理,云端整体视图,多集群资源占用可视化监控,用于按资源计费的使用量报告,2014 Cloudera,Inc.All rights reserved.,谢谢,
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2026 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服