1、单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,第,11,章,海量信息存储,内容提要,物联背景下如何适应海量信息存储的需求呢?,随着物联网的,发展,,数据,中心,将成为,解决海量数据存储的主要手段。,本章将,介绍典型的网络存储体系结构以及数据中心的基本概念。,11.1,物联网对海量信息存储的需求,11.2,网络存储体系结构,11.3,数据中心,信息存储的发展历程如何?物联网对海量信息存储的需求促使了哪些技术的发展?,本章内容,数据存储的发展历史,甲骨文纸质书籍,数字化存储,物联网对海量信息存储的需求,全球信息总量迅猛增长,2007,年产生的数据量为,
2、281EB,(,1EB=10,亿,GB,),物联网中对象的数量,将,庞大到以百亿为单位,物,联网中的,对象积极参与业务流程的需求,高强度计算需求,数据的持续在线可获取特性,导致了,网络化存储,和,大型数据中心,的诞生,11.1,物联网对海量信息存储的需求,11.2,网络存储体系结构,11.3,数据中心,三种基本的网络存储体系结构:直接附加存储,网络附加存储,存储区域网络,各有什么特点?,本章内容,直接附加存储,直接附加存储,(Direct-Attached Storage,DAS),将,存储系统,通过缆线,直接与服务器或工作站相连,一般包括,多个硬盘驱动器,,与主机总线适配器通过电缆或光纤,在
3、存储设备和主机总线适配器之间,不存在其他网络设备,实现了,计算机内存储,到,存储子系统,的跨越,(管理容易、成本低、结构简单;资源利用率底、共享能力不足),网络附加存储,(Network Attached Storage,NAS),文件级的计算机数据存储架构,计算机连接到一个,仅为其它设备提供基于文件级数据存储服务的网络,包括存储器(,RAID,)和专用服务器(简化的,OS,;,NFS,),NAS,与,DAS,的区别,DAS,是一种对已有服务器的简单扩展,并没有真正实现网络互联。,NAS,则是将网络作为存储实体,更容易实现文件级别的共享。,NAS,性能上比,DAS,有所增强,存储区域网络,存储
4、区域网络,(Storage Area Network,SAN),通过,网络方式,连接存储设备和应用服务器的存储架构,由,服务器,、,存储设备,和,SAN,连接设备,组成,SAN,典型技术:,SCSI,、,FC,SAN,的特点,存储共享,支持服务器从,SAN,直接启动,支持存储块,不直接提供文件级别的访问,三种网络存储结构的比较,三种网络存储结构的比较,DAS,管理容易,结构简单;集中式体系结构,不能满足大规模数据访问的需求;存储资源利用率低,资源共享能力差,造成“信息孤岛”。,NAS,网络的存储实体,容易实现文件级别共享;性能严重依赖于网络流量,用户数过多,读写过频繁时性能受限。,SAN,存储
5、管理简化,存储容量利用率提高;无直接文件级别的访问能力,但可在,SAN,基础上建立文件系统。,11.1,物联网对海量信息存储的需求,11.2,网络存储体系结构,11.3,数据中心,什么是数据中心?典型的数据中心有哪些?数据中心的研究热点是什么?,本章内容,什么是数据中心?,维基百科,:,“数据中心是一整套复杂的设施。它不仅仅包括,计算机系统,和其它与之,配套的设备,(例如通信和存储系统),还包含冗余的,数据通信连接,、,环境控制设备,、,监控设备,以及各种,安全装置,。,”,Google,:,“多功能的,建筑物,,能容纳多个,服务器,以及,通信设备,。这些设备被放置在一起是因为它们具有相同的对
6、环境的要求以及物理安全上的需求,并且这样放置便于维护,。”,数据中心的起源与发展,大型机,微型机,大规模数据中心,(Mega Data Center),数据中心的起源与发展,大规模数据中心,已经得到推广,数据中心标准,数据中心建设者面对的,难题,如何规划一个新的数据中心?,怎样对数据中心进行升级?,数据中心的标准,对相关经验进行了总结,ANSI/TIA/EIA-942,(简称,TIA-942,):数据中心标准,电信产业协会(,TIA,)提出,美国国家标准学会(,ANSI,)批准,数据中心,标准:,TIA-942,选址,:,需要考虑多方面因素,建设和运营成本,应用需求,政策优惠,布局,:,按,功
7、能区域,划分,功能区域组成,数据中心,标准:,TIA-942,(续),TIA-942,还对,缆线系统,,,可靠性分级,,,能源系统,和,降温系统,等做了规定。,缆线,系统,规格,如何,放置缆,线,能源系统,外部电力供应,电池组,发电机,降温系统,降温设备,架空地板,冷通道与热通道,典型数据中心:,Google,数据中心,简介,全球共建有近,40,个大规模数据中心,单个,数据中心需要至少,50,兆瓦功率,,约等于一个小型城市所有家庭的用电量,独特的,硬件设备,:,定制的以太网交换机,、,能源系统,等,自行研发的,软件技术,:,Google File System,、,MapReduce,、,Bi
8、gTable,等,Google File System,GFS,的设计观念,组件失效不再被认为是意外,而是被看做正常的现象,GFS,的文件非常巨大,对文件的操作具有特定的模式,应用程序和文件系统,API,的协同设计提高了整个系统的灵活性,Google File System,GFS,的设计架构,一个,GFS,集群,包含,一个主服务器,和,多个块服务器,,并被多个客户端访问。,文件,分成固定大小的“,块,”。每个块在创建时都由主服务器分配一个固定不变的,64,位句柄唯一,标识,。,块服务器,把块作为,Linux,文件存储在,本地磁盘,上,并根据指定的块句柄和字节范围对数据块进行读写操作。,Goo
9、gle File System,GFS,的设计架构(续),主服务器维护,所有,文件系统,的,元数据,,包括名字空间、访问控制信息、文件到块的映射信息以及块当前的位置。此外,主服务器还控制其它系统级的活动。主服务器周期性地与块服务器通信,以下达指令和收集状态。,GFS,客户端代码,被嵌入到每个应用中。它实现了,文件系统,API,,实现主服务器与块服务器的通信从而代表应用实现读写操作。客户端与服务器交互从而实现元数据操作,但所有的数据操作都通过直接与块服务器交互而完成。,BigTable,BigTable,是一种用来在海量数据规模下(例如包含以,PB,为单位的数据量和数千台廉价计算机的应用)管理结
10、构化数据的,分布式存储系统,。,应用,Google,地球,网页索引,RSS,阅读器,数据中心的研究热点,2006,年,Google,在数据中心项目上的花费为,19,亿美元,而,2007,年该项支出增加到,24,亿美元,。,Google,在俄勒冈州的数据中心有近,100,兆瓦的功率,满负荷运行时消耗的电力基本上和纽卡斯尔(,Newcastle,)一个城市所有家庭的用电量加起来一样多,。,研究热点:,如何,在,保证服务质量,的前提,下,降低成本,?,数据中心的成本构成,基础设施部分,包括能源系统、降温系统、各种防火设备、安保设备等。降低这一部分成本往往涉及到机械设备制造技术或政策优惠等因素,与计算
11、机学科的关联程度相对较低。,从,服务器,,,网络设备,,,能源,三个方面,对造成高成本的原因和目前的解决方法进行简要介绍,。,服务器成本(,45%,),服务器,网络设备,能源,服务器的,实际利用效率较低,分配到各服务器的应用不能完全利用某些组件,对应用需求的预测比较难,无法做到按需分配,为了提高系统的可靠性,一般都留有冗余设备,提高服务器利用率的,关键,在于,及时应对需求的动态变化,网络设备成本(,15%,),服务器,网络设备,能源,主要来源,交换机、路由器、负载均衡设备,传统的数据中心使用树形结构,核心交换机和路由器构成流量瓶颈,且造价昂贵,研究热点:,新的,数据中心网络结构,以交换机为中心
12、的多层树形结构,:例如,Fat-Tree,以服务器为中心的互联结构,:例如,DCell,能源成本(,15%,),服务器,网络设备,能源,研究热点,降低服务器工作能耗,降低同等性能设备能耗,提高同等能耗设备性能,可调整负载的服务器,减少降温系统能耗,精细、精准的温度控制,集装箱式模块化数据中心,数据中心能耗构成,本章小结,内容回顾,本章介绍了三种基本的网络存储体系结构,并讨论了数据中心的基本概念,以,Google,数据中心和,Hadoop,为,例,简要介绍了数据中心的相关技术,最后指出了数据中心的研究热点。,重点掌握,了解物联网对海量数据存储的迫切需求。,重点掌握三种基本的网络存储体系结构(,DAS,,,NAS,,,SAN,)的基本概念以及各自的优缺点。,本章小结,重点掌握(续),了解数据中心的概念,以,Google,数据中心为例,了解,GFS,,,MapReduce,,,BigTable,等技术的基本概念和特点。了解,Hadoop,分布式计算开源框架的特点。,掌握保证性能前提下降低数据中心成本的方法(服务器成本,网络设备成本,能源成本)。,Thank you!,






