1、emc大数据解决方案- 15 -2020年4月19日文档仅供参考emc,大数据解决方案篇一:EMC双活数据中心解决方案数据中心容灾系统建设方案建议书EMC电脑系统(中国)有限公司Version ,20XX/10EMC前言信息是用户的命脉, 近十年来信息存储基础设施的建设在用户取得长足的进步。从内置存储转向外置RAID存储,从多台服务器共享一台外置RAID阵列,再到更多台服务器经过SAN共享更大型存储服务器。存储服务器容量不断扩大的同时,其功能也不断增强,从提供硬件级RAID保护到独立于服务器的跨磁盘阵列的数据镜像,存储服务器逐渐从服务器外设的角色脱离出来,成为单独的“存储层”,为数据中心的服务
2、器提供统一的数据存储,保护和共享服务。随着用户业务的不断发展,对IT系统特别是存储系统的要求越来越高,鉴于用户业务由于信息的重要性,要求各地各用户多中心来预防单一数据中心操作性风险。多数据中心建设方案能够预防单数据中心的风险,但面对多数据中心建设的巨额投资,如何同时利用多数据中心就成为IT决策者的首要问题。同时利用多数据中心就必须实现生产数据跨中心的传输和共享,总所周知,服务器性能的瓶颈主要在IO部分,数据在不同中心之间的传输和共享会造成IO延时,进而影响数据中心的总体性能。同时,各家厂商不断推出新技术 ,新产品,容量不断扩展,性能不断提高,功能越来越丰富,但由于不同存储厂商的技术实现不尽相同
3、,用户需要采用不同的管理界面来使用不同厂商的存储资源。这样,也给用户业用户带来不小的问题,首先是无法采用统一的界面来让服务器使用不同厂商的存储服务器,数据在不同厂商存储服务器之间的迁移也会造成业务中断。作为信息存储行业的领先公司,EMC公司针对用户跨数据中心信息传输和共享的迫切需求,推出存储VPlex解决方案,很好的解决了这些问题。本文随后将介绍VPlex产品及其主要应用场景,供用户信息存储管理人士参考。第一章. 方案概述1. 需求*计划建设两个数据中心,构成同城双生产系统,两中心之间距离不超过100公里;要求数据零丢失,系统切换时间小于5分钟;2. 方案简介为了满足客户建设容灾系统的需求,我
4、们设计了本地双活数据中心。整体架构如下:上图是双活数据中心总体框架,包括双活存储系统、双活数据库系统、双活应用系统和双活网络系统。我们将利用存储双活技术和主机集群技术实现数据库系统的双活,利用负载均衡设备实现应用系统在两个数据中心内的负载均衡,利用动态域名确保两个数据中心的网络双活。双活数据中心能够实现业务系统同时在两个节点同时工作,达到负载均衡的目的。当生产节点出现故障时,业务系统还能够在第二生产节点上正常工作,实现业务零切换。第二章. 双活数据中心架构设计经过对*具体需求的分析,我们建议客户采用双活数据中心架构设计。1. 数据库系统双活架构设计在这个架构中,存储层除了采用EMC VNX存储
5、系统或者其它厂商存储系统(第三方主流存储系统见EMC Vplex兼容性列表)外,还引进了EMC全新一代数据整合系统VPLEX,由VPLEX实现存储系统高可靠性和同城范围内数据高效共享。本地存储高可靠性保证在本方案中,首先我们要满足客户对生产中心存储系统高可靠性的需求。当前的IT系统架构中,从应用服务器、数据库服务器到网络等各个部分都已经提供了高可靠性的设计,唯独存储系统很少有高可靠性方案的设计,这主要基于两个原因:存储系统自身已经有高可靠性设计,控制器、电源、链路等都是冗余设计,可靠性较高,一般情况下很少会发生整体故障,导致数据不可访问。 没有非常合适的技术来实现存储系统的高可靠性保证现在EM
6、C推出了全新架构的数据整合解决方案VPLEX,VPLEX首先实现了本地存储系统的整合及高可靠性设计,而且是硬件级别的解决方案。在本项目中,生产中心VPLEX首先将两台EMC DMX3/4(仅以DMX存储为例说明,下同)整合在一起,实现存储级别的HA系统。如下图显示:1) 在两台DMX3/4中分别划出两个LUN,LUN-A和LUN-BLUN大小一样RAID的保护方式一样为了保证性能所分布的硬盘类型和数量最好也一样将这两个LUN同时映射给VPLEX(经过图中虚线链路),VPLEX能够将这些LUN进行再次RAID保护,当前VPLEX支持的RAID保护级别为:RAID 0RAID 1分布式RAID 1
7、在实现本地存储HA系统时,使用RAID 1保护方式,形成一个虚拟LUN(V-LUN)。2) VPLEX经过光纤链路(图中实线链路)将V-LUN分配给主机,主机能够进行读写操作3) 当主机向V-LUN写入I/O时,先写入V-LUN,然后再继续写入到两台DMX3/4存储系统中4) 当其中一台存储设备发生故障,整个存储系统能够继续工作,主机访问存储不会受到任何影响篇二:【推荐】大数据行业计划实施方案大数据行业计划实施方案前言在国家和上海市“十二五”科技发展规划及上海市中长期科学与技术发展规划纲要指导下,上海市科学技术委员会经过近一年时间的充分调研和讨论,梳理了市场和商业模式创新需求、大数据资源和技术
8、基础、研发能力和人才现状等。经过充分酝酿、多次征求意见,编制本规划:维基百科把大数据定义为一个大而复杂的、难以用现有数据库管理工具处理的数据集。广义上,大数据有三层内涵:一是数据量巨大、多样和类型多样的数据集;二是新型的数据处理和分析技术;三是运用数据分析形成价值。大数据对科学研究、经济建设、社会发展和文化生活等各个领域正在产生革命性的影响。为加快上海大数据研究和产业化布局,培育数据产业,服务智慧城市,促进经济结构调整和产业转型,特制定本计划。一、国内外发展现状(一)国外发达国家启动大数据布局。20XX年3月,美国政府发布大数据研究和发展倡议,投资2亿美元发展大数据, 用以强化国土安全、转变教
9、育学习模式、加速科学和工程领域的创新速度和水平;20XX年7月,日本提出以电子政府、电子医疗、防灾等为中心制定新ICT(信息通讯技术)战略,发布“新ICT计划”,重点关注大数据研究和应用;20XX年1月,英国政府宣布将在对地观测、医疗卫生等大数据和节能计算技术方面投资亿英镑。跨国IT企业进入大数据领域。传统数据分析企业天睿公司(Teradata)、赛仕软件(SAS)、海波龙(Hyperion)、思爱普(SAP)、Cognos、SPSS等在大数据技术或市场方面各占据一席之地。谷歌、Facebook等大数据资源企业优势显现。甲骨文、IBM、微软、SYBASE、易安信(EMC)、英特尔等企业陆续推出
10、大数据产品和方案抢占市场,如甲骨文公司的Oracle NoSQL数据库、IBM公司的InfoSphere BigInsights数据分析平台、微软公司Windows Azure上的HDInsight大数据解决方案、EMC公司的Greenplum UAP(Unified Analytics Platform)大数据引擎等。大数据技术发展迅猛。数据技术从早期在单机上处理单一类型数据,发展到当前在计算机集群上处理多类型数据,实现时间宽松的数据分析应用。随着数据量发展到PB、EB级甚至更大,而且要求更快的处理分析时间,大数据专用计算机、异地分布式计算机集群、多类型多数据的处理和分析、数据网络等复杂结构
11、数据的分析、秒级时间分析等通用技术以及各种面向领域的应用技术是大数据技术的发展趋势。以HDFS、GFS、MapReduce、Hadoop、Storm、HBase、MongoDB为代表的一批大数据通用技术和开源项目迅猛发展。数据科学研究不断壮大。在大数据应用的技术需求牵引下,数据科学研究和人才培养引起各国重视。美国哥伦比亚大学和纽约大学、澳大利亚悉尼科技大学、日本名古屋大学、韩国釜山国立大学等纷纷成立数据科学研究机构;美国加州大学伯克利分校和伊利诺伊大学香槟分校、英国邓迪大学、中国香港中文大学等一大批高校开设了数据科学课程。Facebook等著名企业开始设立数据科学家岗位。(二)国内政府和科研机
12、构开始高度关注大数据。20XX年12月,国家发改委数据分析软件开发和服务列入专项指南;20XX年科技部将大数据列入973基础研究计划;20XX年度国家自然基金指南中,管理学部、信息学部和数理学部将大数据列入其中。20XX年12月,广东省启动了广东省实施大数据战略工作方案;北京成立“中关村大数据产业联盟”。另外,中国科学院、复旦大学、北京航空航天大学等相继成立了近十个从事数据科学研究的专门机构。数据价值链和产业链初显端倪。百度、阿里巴巴、大智慧等数据资源型和研发应用型企业初步涌现,并引领着数据产业的发展。20XX年4月,淘宝推出“数据魔方”应用,开展基于淘宝网交易数据的分析和挖掘。20XX年,华
13、为公司推出了大数据解决方案和大数据存储产品。数据产业园区建设逐步展开。上海智慧岛数据产业园、秦皇岛开发区数据产业基地、北京国家地理信息科技产业园、中国国际电子商务中心重庆数据产业园等一批数据产业园区,在有关各方的大力支持下正展开基础建设和招商工作。二、上海基础分析(一)优势数据资源丰富。随着上海“四个中心”建设的全面推进,公众信息需求的不断提升,信息公共服务设施的不断完善,各行业信息化建设的深入推进,上海已经积累并将继续产生庞大的数据资源,在众多领域的重要作用越来越凸显。例如,上海拥有世界最大的医联数据共享系统,有4800万张交通卡、每天30GB交通流量信息数据,亚洲第二的证券交易额,世界第一
14、的货物和集装箱吞吐量等。研究实力雄厚。在基础理论研究方面,上海的高校和科研院所有较强的研究实力。在产业技术研究和推进方面,有一批面向产业的研究机构和企业研发中心,具备良好的基础积累。产业轮廓初现。近年来,上海在数据资源整合、数据技术开发、数据应用服务等数据产业环节涌现出一批机构和企业,已经成为或正在成为推动上海数据产业发展的中坚力量,数据产业初显轮廓。篇三:EMC Vplex双活数据解决方案EMC Vplex双活数据解决方案一、 方案目标本方案采用以EMC VPLEX技术为核心的双活虚拟化数据中心解决方案。EMC VPLEX产品能够打破数据中心间的物理壁垒,提供不同站点间对同一数据副本的共享、
15、访问及在线移动的能力,结合VMware虚拟化技术及Cisco OTV网络扩展技术,能够实现业务及数据在站点间的透明在线移动,使用户能够在两个站点间动态平衡业务负载,最大限度利用资源,并提供接近于零RTO的高可用能力,是真正意义上的云计算基础架构。二、 方案架构EMC VPLEX双活虚拟数据中心解决方案的构成与功能如下图所示:1) 基于EMC VPLEX Metro提供双活虚拟化数据中心解决方案核心功能:2) 基于Cisco提供的OTV(Overlay Transport Virtualization)L2 网络延伸技术,从网络层面为虚机在线透明迁移提供条件,及最小化的RTO指标;3) 基于VM
16、ware虚拟化技术、EMC VPLEX Metro、以及Cisco OTV技术三者的合力实现双活虚拟数据中心4) 基于EMC Avamar为双活虚拟数据中心提供完善的数据备份保护5) 基于EMC Ionix ITOI(IT Operations Intelligence)产品实现虚拟数据中心的全面集中监控管理三、 方案功能 EMC VPLEX方案功能EMC VPLEX 引入了一种新的体系结构,它吸收了 EMC 在 20 年设计、实施和完善企业级智能缓存和分布式数据保护解决方案的实践中取得的经验和教训。以可扩展、高可用的处理器引擎为基础,EMC VPLEX 系列设计为可从小型配置无缝扩展到中型和
17、大型配置。VPLEX介于在服务器和异构存储之间,使用独特的群集体系结构,该体系结构允许多个数据中心的服务器具有对共享块存储设备的读/写访问权限。新体系结构的独特特征包括:-横向扩展群集硬件,允许您从小配置开始并以可预知的服务级别逐步扩展 -高级数据缓存,它利用大规模 SDRAM 缓存提高性能并减少 I/O 延迟和阵列争用-分布式缓存吻合性,可跨整个群集自动执行 I/O 的共享、平衡和故障切换 -一个统一视图显示跨 VPLEX 群集的一个或多个 LUN(这些群集能够是在同一数据中心内相距几英尺,也能够是跨同步距离),从而实现新的高可用性和工作负载移置模式。使用 EMC GeoSynchrony
18、操作系统的EMC VPLEX系列是一个基于 SAN 的联合解决方案,它可消除单个虚拟化数据中心内和多个虚拟化数据中心之间的物理壁垒。EMC VPLEX 是世界上第一个同时提供本地联合和分布式联合的平台。本地联合提供了站点内物理存储元素的透明协作,而分布式联合将这一概念扩展到了跨远距离的两个位置之间。分布式联合是经过随 VPLEX 提供的 AccessAnywhere这一突破性技术实现的,此技术支持跨远距离共享、访问和移置单个数据拷贝。VPLEX 系列当前包括三个产品:-VPLEX Local 可跨异构阵列提供简化的管理和无中断数据移动。-VPLEX Metro 提供同步距离内两个VPLEX 群
19、集之间的数据访问和移动。 -VPLEX Geo 提供异步距离内两个VPLEX群集之间的数据移动和访问凭借独特的纵向扩展和横向扩展体系结构,VPLEX 系列的高级数据缓存和分布式缓存吻合性提供了工作负载弹性、存储域的自动共享、平衡和故障切换,并帮助实现了有可预知服务级别的本地和远程数据访问。VPLEX Local 支持本地联合;VPLEX Metro 提供分布式联合能力,扩展了同步距离内两个位置间的访问能力。VPLEX Geo 支持更远距离的共享、访问和移置单个数据拷贝。虚拟化数据中心与 EMC VPLEX 结合起来,为客户提供解决 IT 问题和引入新计算模型的全新方法。具体来说,客户能够:-跨数据中心移动虚拟化的应用程序-实现跨站点的工作负载平衡和移置-聚合数据中心并提供全天候 IT 服务