1、 第2章 Google云计算原理 第1章 绪论很少有一种技术能够像“云计算”这样,在短短的两年间就产生巨大的影响力。Google、亚马逊、IBM和微软等IT巨头们以前所未有的速度和规模推动云计算技术和产品的普及,一些学术活动迅速将云计算提上议事日程,支持和反对的声音不绝于耳。那么,云计算到底是什么?发展现状如何?它的实现机制是什么?它与网格计算是什么关系?。本章将分析这些问题,目的是帮助读者对云计算形成一个初步认识。1.1 云计算的概念云计算(Cloud Computing)是在2007年第3季度才诞生的新名词,但仅仅过了半年多,其受到关注的程度就超过了网格计算(Grid Computing)
2、,如图1-1所示。图1-1 云计算和网格计算在Google中的搜索趋势然而,对于到底什么是云计算,至少可以找到100种解释,目前还没有公认的定义。本书给出一种定义,供读者参考。云计算是一种商业计算模型,它将计算任务分布在大量计算机构成的资源池上,使用户能够按需获取计算力、存储空间和信息服务。这种资源池称为“云”。“云”是一些可以自我维护和管理的虚拟计算资源,通常是一些大型服务器集群,包括计算服务器、存储服务器和宽带资源等。云计算将计算资源集中起来,并通过专门软件实现自动管理,无需人为参与。用户可以动态申请部分资源,支持各种应用程序的运转,无需为烦琐的细节而烦恼,能够更加专注于自己的业务,有利于
3、提高效率、降低成本和技术创新。云计算的核心理念是资源池,这与早在2002年就提出的网格计算池(Computing Pool)的概念非常相似34。网格计算池将计算和存储资源虚拟成为一个可以任意组合分配的集合,池的规模可以动态扩展,分配给用户的处理能力可以动态回收重用。这种模式能够大大提高资源的利用率,提升平台的服务质量。之所以称为“云”,是因为它在某些方面具有现实中云的特征:云一般都较大;云的规模可以动态伸缩,它的边界是模糊的;云在空中飘忽不定,无法也无需确定它的具体位置,但它确实存在于某处。之所以称为“云”,还因为云计算的鼻祖之一亚马逊公司将大家曾经称为网格计算的东西,取了一个新名称“弹性计算
4、云”(Elastic Computing Cloud),并取得了商业上的成功。有人将这种模式比喻为从单台发电机供电模式转向了电厂集中供电的模式。它意味着计算能力也可以作为一种商品进行流通,就像煤气、水和电一样,取用方便,费用低廉。最大的不同在于,它是通过互联网进行传输的。云计算是并行计算(Parallel Computing)、分布式计算(Distributed Computing)和网格计算(Grid Computing)的发展,或者说是这些计算科学概念的商业实现。云计算是虚拟化(Virtualization)、效用计算(Utility Computing)、将基础设施作为服务IaaS(In
5、frastructure as a Service)、将平台作为服务PaaS(Platform as a Service)和将软件作为服务SaaS(Software as a Service)等概念混合演进并跃升的结果。从研究现状上看,云计算具有以下特点。1)超大规模。“云”具有相当的规模,Google云计算已经拥有100多万台服务器,亚马逊、IBM、微软和Yahoo等公司的“云”均拥有几十万台服务器。“云”能赋予用户前所未有的计算能力。2)虚拟化。云计算支持用户在任意位置、使用各种终端获取服务。所请求的资源来自“云”,而不是固定的有形的实体。应用在“云”中某处运行,但实际上用户无需了解应用运
6、行的具体位置,只需要一台笔记本或一个PDA,就可以通过网络服务来获取各种能力超强的服务。3)高可靠性。“云”使用了数据多副本容错、计算节点同构可互换等措施来保障服务的高可靠性,使用云计算比使用本地计算机更加可靠。4)通用性。云计算不针对特定的应用,在“云”的支撑下可以构造出千变万化的应用,同一片“云”可以同时支撑不同的应用运行。5)高可扩展性。“云”的规模可以动态伸缩,满足应用和用户规模增长的需要。6)按需服务。“云”是一个庞大的资源池,用户按需购买,像自来水、电和煤气那样计费。(7)极其廉价。“云”的特殊容错措施使得可以采用极其廉价的节点来构成云;“云”的自动化管理使数据中心管理成本大幅降低
7、;“云”的公用性和通用性使资源的利用率大幅提升;“云”设施可以建在电力资源丰富的地区,从而大幅降低能源成本。因此“云”具有前所未有的性能价格比。Google中国区前总裁李开复称,Google每年投入约16亿美元构建云计算数据中心,所获得的能力相当于使用传统技术投入640亿美元,节省了40倍的成本。因此,用户可以充分享受“云”的低成本优势,需要时,花费几百美元、一天时间就能完成以前需要数万美元、数月时间才能完成的数据处理任务。云计算按照服务类型大致可以分为三类:将基础设施作为服务IaaS、将平台作为服务PaaS和将软件作为服务SaaS,如图1-2所示。IaaS将硬件设备等基础资源封装成服务供用户
8、使用,如亚马逊云计算AWS(Amazon Web Services)的弹性计算云EC2和简单存储服务S3。在IaaS环境中,用户相当于在使用裸机和磁盘,既可以让它运行Windows,也可以让它运行Linux,因而几乎可图1-2 云计算的服务类型以做任何想做的事情,但用户必须考虑如何才能让多台机器协同工作起来。AWS提供了在节点之间互通消息的接口简单队列服务SQS(Simple Queue Service)。IaaS最大的优势在于它允许用户动态申请或释放节点,按使用量计费。运行IaaS的服务器规模达到几十万台之多,用户因而可以认为能够申请的资源几乎是无限的。同时,IaaS是由公众共享的,因而具有
9、更高的资源使用效率。PaaS对资源的抽象层次更进一步,它提供用户应用程序的运行环境,典型的如Google App Engine。微软的云计算操作系统Microsoft Windows Azure也可大致归入这一类。PaaS自身负责资源的动态扩展和容错管理,用户应用程序不必过多考虑节点间的配合问题。但与此同时,用户的自主权降低,必须使用特定的编程环境并遵照特定的编程模型。这有点像在高性能集群计算机里进行MPI编程,只适用于解决某些特定的计算问题。例如,Google App Engine只允许使用Python和Java语言、基于称为Django的Web应用框架、调用Google App Engin
10、e SDK来开发在线应用服务。SaaS的针对性更强,它将某些特定应用软件功能封装成服务,如Salesforce公司提供的在线客户关系管理CRM(Client Relationship Management)服务。SaaS既不像PaaS一样提供计算或存储资源类型的服务,也不像IaaS一样提供运行用户自定义应用程序的环境,它只提供某些专门用途的服务供应用调用。需要指出的是,随着云计算的深化发展,不同云计算解决方案之间相互渗透融合,同一种产品往往横跨两种以上类型。例如,Amazon Web Services是以IaaS发展的,但新提供的弹性MapReduce服务模仿了Google的MapReduce
11、,简单数据库服务SimpleDB 模仿了Google的Bigtable,这两者属于PaaS的范畴,而它新提供的电子商务服务FPS和DevPay以及网站访问统计服务Alexa Web服务,则属于SaaS的范畴。1.2 云计算发展现状由于云计算是多种技术混合演进的结果,其成熟度较高,又有大公司推动,发展极为迅速。Google、亚马逊、IBM、微软和Yahoo等大公司是云计算的先行者。云计算领域的众多成功公司还包括VMware、Salesforce、Facebook、YouTube、MySpace等。亚马逊研发了弹性计算云EC2(Elastic Computing Cloud)和简单存储服务S3(S
12、imple Storage Service)为企业提供计算和存储服务。收费的服务项目包括存储空间、带宽、CPU资源以及月租费。月租费与电话月租费类似,存储空间、带宽按容量收费,CPU根据运算量时长收费。在诞生不到两年的时间内,亚马逊的注册用户就多达44万人,其中包括为数众多的企业级用户。Google是最大的云计算技术的使用者。Google搜索引擎就建立在分布在200多个站点、超过100万台的服务器的支撑之上,而且这些设施的数量正在迅猛增长。Google的一系列成功应用平台,包括Google地球、地图、Gmail、Docs等也同样使用了这些基础设施。采用Google Docs之类的应用,用户数据
13、会保存在互联网上的某个位置,可以通过任何一个与互联网相连的终端十分便利地访问和共享这些数据。目前,Google已经允许第三方在Google的云计算中通过Google App Engine运行大型并行应用程序。Google值得称颂的是它不保守,它早已以发表学术论文的形式公开其云计算三大法宝:GFS、MapReduce和Bigtable,并在美国、中国等高校开设如何进行云计算编程的课程。相应的,模仿者应运而生,Hadoop是其中最受关注的开源项目。IBM在2007年11月推出了“改变游戏规则”的“蓝云”计算平台,为客户带来即买即用的云计算平台。它包括一系列自我管理和自我修复的虚拟化云计算软件,使来
14、自全球的应用可以访问分布式的大型服务器池,使得数据中心在类似于互联网的环境下运行计算。IBM正在与17个欧洲组织合作开展名为RESERVOIR的云计算项目,以“无障碍的资源和服务虚拟化”为口号,欧盟提供了1.7亿欧元作为部分资金。2008年8月,IBM宣布将投资约4亿美元用于其设在北卡罗来纳州和日本东京的云计算数据中心改造,并计划2009年在10个国家投资3亿美元建设13个云计算中心。微软紧跟云计算步伐,于2008年10月推出了Windows Azure操作系统。Azure(译为“蓝天”)是继Windows取代DOS之后,微软的又一次颠覆性转型通过在互联网架构上打造新云计算平台,让Window
15、s真正由PC延伸到“蓝天”上。Azure的底层是微软全球基础服务系统,由遍布全球的第四代数据中心构成。目前,微软已经配置了220个集装箱式数据中心,包括44万台服务器。在我国,云计算发展也非常迅猛。2008年,IBM先后在无锡和北京建立了两个云计算中心;世纪互联推出了CloudEx产品线,提供互联网主机服务、在线存储虚拟化服务等;中国移动研究院已经建立起1024个CPU的云计算试验中心;解放军理工大学研制了云存储系统MassCloud,并以它支撑基于3G的大规模视频监控应用和数字地球系统。作为云计算技术的一个分支,云安全技术通过大量客户端的参与和大量服务器端的统计分析来识别病毒和木马,取得了巨
16、大成功。瑞星、趋势、卡巴斯基、McAfee、Symantec、江民、Panda、金山、360安全卫士等均推出了云安全解决方案。值得一提的是,云安全的核心思想,与早在2003年就提出的反垃圾邮件网格非常接近5。2008年11月25日,中国电子学会专门成立了云计算专家委员会。2009年5月22日,中国电子学会隆重举办首届中国云计算大会,1200多人与会,盛况空前。2009年11月2日,中国互联网大会专门召开了“2009云计算产业峰会”。2009年12月,中国电子学会举办了中国首届云计算学术会议。2010年5月,中国电子学会将举办第二届中国云计算大会。1.3 云计算实现机制由于云计算分为IaaS、P
17、aaS和SaaS三种类型,不同的厂家又提供了不同的解决方案,目前还没有一个统一的技术体系结构,对读者了解云计算的原理构成了障碍。为此,本书综合不同厂家的方案,构造了一个供参考的云计算体系结构。这个体系结构如图1-3所示,它概括了不同解决方案的主要特征,每一种方案或许只实现了其中部分功能,或许也还有部分相对次要功能尚未概括进来。图1-3 云计算技术体系结构云计算技术体系结构分为四层:物理资源层、资源池层、管理中间件层和SOA(Service-Oriented Architecture,面向服务的体系结构)构建层。物理资源层包括计算机、存储器、网络设施、数据库和软件等。资源池层是将大量相同类型的资
18、源构成同构或接近同构的资源池,如计算资源池、数据资源池等。构建资源池更多的是物理资源的集成和管理工作,例如研究在一个标准集装箱的空间如何装下2000个服务器、解决散热和故障节点替换的问题并降低能耗。管理中间件层负责对云计算的资源进行管理,并对众多应用任务进行调度,使资源能够高效、安全地为应用提供服务。SOA构建层将云计算能力封装成标准的Web Services服务,并纳入到SOA体系进行管理和使用,包括服务接口、服务注册、服务查找、服务访问和服务工作流等。管理中间件层和资源池层是云计算技术的最关键部分,SOA构建层的功能更多依靠外部设施提供。云计算的管理中间件层负责资源管理、任务管理、用户管理
19、和安全管理等工作。资源管理负责均衡地使用云资源节点,检测节点的故障并试图恢复或屏蔽之,并对资源的使用情况进行监视统计;任务管理负责执行用户或应用提交的任务,包括完成用户任务映象(Image)的部署和管理、任务调度、任务执行、任务生命期管理等;用户管理是实现云计算商业模式的一个必不可少的环节,包括提供用户交互接口、管理和识别用户身份、创建用户程序的执行环境、对用户的使用进行计费等;安全管理保障云计算设施的整体安全,包括身份认证、访问授权、综合防护和安全审计等。基于上述体系结构,本书以IaaS云计算为例,简述云计算的实现机制,如图1-4所示。图1-4 简化的IaaS实现机制图用户交互接口向应用以W
20、eb Services方式提供访问接口,获取用户需求。服务目录是用户可以访问的服务清单。系统管理模块负责管理和分配所有可用的资源,其核心是负载均衡。配置工具负责在分配的节点上准备任务运行环境。监视统计模块负责监视节点的运行状态,并完成用户使用节点情况的统计。执行过程并不复杂,用户交互接口允许用户从目录中选取并调用一个服务,该请求传递给系统管理模块后,它将为用户分配恰当的资源,然后调用配置工具为用户准备运行环境。1.4 网格计算与云计算网格(Grid)是20世纪90年代中期发展起来的下一代互联网核心技术。网格技术的开创者Ian Foster将之定义为“在动态、多机构参与的虚拟组织中协同共享资源和
21、求解问题”6。网格是在网络基础之上,基于SOA,使用互操作、按需集成等技术手段,将分散在不同地理位置的资源虚拟成为一个有机整体,实现计算、存储、数据、软件和设备等资源的共享,从而大幅提高资源的利用率,使用户获得前所未有的计算和信息能力。国际网格界致力于网格中间件、网格平台和网格应用建设。就网格中间件而言,国外著名的网格中间件有Globus Toolkit、UNICORE、Condor、gLite等,其中Globus Toolkit得到了广泛采纳。就网格平台而言,国际知名的网格平台有TeraGrid、EGEE、CoreGRID、D-Grid、ApGrid、Grid3、GIG等。美国TeraGri
22、d是由美国国家科学基金会计划资助构建的超大规模开放的科学研究环境。TeraGrid集成了高性能计算机、数据资源、工具和高端实验设施。目前TeraGrid已经集成了超过每秒750万亿次计算能力、30PB数据,拥有超过100个面向多种领域的网格应用环境。欧盟e-Science促成网格EGEE(Enabling Grids for E-sciencE),是另一个超大型、面向多种领域的网格计算基础设施。目前已有120多个机构参与,包括分布在48个国家的250个网格站点、68000个CPU、20PB数据资源,拥有8000个用户,每天平均处理30000个作业,峰值超过150000个作业。就网格应用而言,知
23、名的网格应用系统数以百计,应用领域包括大气科学、林学、海洋科学、环境科学、生物信息学、医学、物理学、天体物理、地球科学、天文学、工程学、社会行为学等。我国在十五期间有863支持的中国国家网格(CNGrid,863-10主题)和中国空间信息网格(SIG,863-13主题)、教育部支持的中国教育科研网格(ChinaGrid)、上海市支持的上海网格(ShanghaiGrid)等。中国国家网格拥有包括香港地区在内的10个节点,聚合计算能力为每秒18万亿次,目前拥有408个用户和360个应用。中国教育科研网格ChinaGrid连接了20所高校的计算设施,运算能力达每秒3万亿次以上,开发并实现了生物信息、
24、流体力学等五个科学研究领域的网格典型应用。十一五期间,国家对网格支持的力度更大,通过973和863、自然科学基金等途径对网格技术进行了大力支持。973计划有“语义网格的基础理论、模型与方法研究”等,863计划有“高效能计算机及网格服务环境”、“网格地理信息系统软件及其重大应用”等,国家自然科学基金重大研究计划有“网络计算应用支撑中间件”等项目。就像云计算可以分为IaaS、PaaS和SaaS三种类型一样,网格计算也可以分为三种类型:计算网格、信息网格和知识网格6。计算网格的目标是提供集成各种计算资源的、虚拟化的计算基础设施。信息网格的目标是提供一体化的智能信息处理平台,集成各种信息系统和信息资源
25、,消除信息孤岛,使得用户能按需获取集成后的精确信息,即服务点播(Service on Demand)和一步到位的服务(One Click is Enough)。知识网格8研究一体化的智能知识处理和理解平台,使得用户能方便地发布、处理和获取知识。需要说明的是,目前大家对网格的认识存在一种误解,认为只有使用Globus Toolkit等知名网格中间件的应用才是网格。我们认为,只要是遵照网格理念,将一定范围内分布的异构资源集成为有机整体,提供资源共享和协同工作服务的平台,均可以认为是网格。这是因为,由于网格技术非常复杂,必然有一个从不规范到规范化的过程,应该承认差异存在的客观性。虽然网格界从一开始就
26、致力于构造能够实现全面互操作的环境,但由于网格处于信息技术前沿、许多领域尚未定型、已发布的个别规范过于复杂造成易用性差等原因,现有网格系统多针对具体应用采用适用的、个性化的框架设计和实现技术等,造成网格系统之间互操作困难,这也是开放网格论坛OGF(Open Grid Forum)提出建立不同网格系统互通机制计划GIN(Grid Interoperation Now)的原因。从另一个角度看,虽然建立全球统一的网格平台还有很长的路要走,但并不妨碍网格技术在各种具体的应用系统中发挥重要的作用。网格计算与云计算的关系如表1-1所示。表1-1 网格计算与云计算的比较网 格 计 算云 计 算目标共享高性能
27、计算力和数据资源,实现资源共享和协同工作提供通用的计算平台和存储空间,提供各种软件服务资源来源不同机构同一机构资源类型异构资源同构资源资源节点高性能计算机服务器/PC虚拟化视图虚拟组织虚拟机计算类型紧耦合问题为主松耦合问题应用类型科学计算为主数据处理为主用户类型科学界商业社会付费方式免费(政府出资)按量计费标准化有统一的国际标准OGSA/WSRF尚无标准,但已经有了开放云计算联盟OCC网格计算在概念上争论多年,在体系结构上有三次大的改变,在标准规范上花费了大量的人力,所设定的目标又非常远大要在跨平台、跨组织、跨信任域的极其复杂的异构环境中共享资源和协同解决问题,所要共享的资源也是五花八门从高性
28、能计算机、数据库、设备到软件,甚至知识。云计算暂时不管概念、不管标准,Google云计算与亚马逊云计算的差别非常大,云计算只是对它们以前所做事情新的共同的时髦叫法,所共享的存储和计算资源暂时仅限于某个企业内部,省去了许多跨组织协调的问题。以Google为代表的云计算在内部管理运作方式上的简洁一如其界面,能省的功能都省略,Google文件系统甚至不允许修改已经存在的文件,只允许在文件后追加数据,大大降低了实现难度,而且借助其无与伦比的规模效应释放了前所未有的能量。网格计算与云计算的关系,就像是OSI与TCP/IP之间的关系:国际标准化组织(ISO)制定的OSI(开放系统互联)网络标准,考虑得非常
29、周到,也异常复杂,在多年之前就考虑到了会话层和表示层的问题。虽然很有远见,但过于理想,实现的难度和代价非常大。当OSI的一个简化版TCP/IP诞生之后,将七层协议简化为四层,内容也大大精简,因而迅速取得了成功。在TCP/IP一统天下之后多年,语义网等问题才被提上议事日程,开始为TCP/IP补课,增加其会话和表示的能力。因此,可以说OSI是学院派,TCP/IP是现实派;OSI是TCP/IP的基础,TCP/IP又推动了OSI的发展。两者不是“成者为王、败者为寇”,而是滚动发展。没有网格计算打下的基础,云计算也不会这么快到来。云计算是网格计算的一种简化实用版,通常意义的网格是指以前实现的以科学研究为
30、主的网格,非常重视标准规范,也非常复杂,但缺乏成功的商业模式。云计算是网格计算的一种简化形态,云计算的成功也是网格的成功。网格不仅要集成异构资源,还要解决许多非技术的协调问题,也不像云计算有成功的商业模式推动,所以实现起来要比云计算难度大很多。但对于许多高端科学或军事应用而言,云计算是无法满足需求的,必须依靠网格来解决。目前,许多人声称网格计算失败了,云计算取而代之了,这其实是一种错觉。网格计算已经有十多年历史,不如刚兴起时那样引人注目是正常的。事实上,有些政府主导、范围较窄、用途特定的网格,已经取得了决定性的胜利。代表性的有美国的TeraGrid和欧洲的EGEE等,这些网格每天都有几十万个作
31、业在上面执行。未来的科学研究主战场,将建立在网格计算之上。在军事领域,美军的全球信息网格GIG已经囊括超过700万台计算机,规模超过现有的所有云计算数据中心计算机总和。相信不久的将来,建立在云计算之上的“商业2.0”与建立在网格计算之上的“科学2.0”都将取得成功。参考文献1Michael Armbrust, Armando Fox, and Rean Griffith, et al. Above the Clouds: A Berkeley View of Cloud Computing, mimeo, UC Berkeley, RAD Laboratory, 2009 2Ian Foste
32、r, Carl Kesselman, and Steve Tuecke. The Anatomy of the Grid: Enabling Scalable Virtual Organizations. International Journal of High Performance Computing Applications, 15(3), 20013刘鹏. 提出一种实用的网格实现方式网格计算池模型,2002 4Peng Liu, Yao Shi, San-li Li, Computing Poola Simplified and Practical Computational Gri
33、d Model, the Second International Workshop on Grid and Cooperative Computing (GCC 2003), Shanghai, Dec 7-10, 2003, published in Lecture Notes in Computer Science (LNCS), Vol. 3032, Heidelberg: Springer-Verlag, 2004 5Peng Liu, Yao Shi, Francis C. M. Lau, Cho-Li Wang, San-Li Li, Grid Demo Proposal: An
34、tiSpamGrid, IEEE International Conference on Cluster Computing, Hong Kong, Dec 1-4, 2003, selected as one of the excellent Grid research projects for the GridDemo session 6李国杰. 信息服务网格第三代Internet. 计算机世界, 2001年第40期7Foster, I., C. Kesselman, and S. Tuecke, The Anatomy of the Grid: Enabling Scalable Vir
35、tual Organizations. International Journal of High Performance Computing Applications, 2001. 15(3): p. 200-2228H. Zhuge, The Knowledge Grid, World Scientific Publishing Co., Singapore, 2004第2章 Google云计算原理Google拥有全球最强大的搜索引擎。除了搜索业务以外,Google还有Google Maps、Google Earth、Gmail、YouTube等各种业务,包括刚诞生的Google Wave
36、。这些应用的共性在于数据量巨大,而且要面向全球用户提供实时服务,因此Google必须解决海量数据存储和快速处理问题。Google的诀窍在于它发展出简单而又高效的技术,让多达百万台的廉价计算机协同工作,共同完成这些前所未有的任务,这些技术是在诞生几年之后才被命名为Google云计算技术。Google云计算技术具体包括:Google文件系统GFS、分布式计算编程模型MapReduce、分布式锁服务Chubby和分布式结构化数据存储系统Bigtable等。其中,GFS提供了海量数据的存储和访问的能力,MapReduce使得海量信息的并行处理变得简单易行,Chubby保证了分布式环境下并发操作的同步问
37、题,Bigtable使得海量数据的管理和组织十分方便。本章将对这四种核心技术进行详细介绍。2.1 Google文件系统GFSGoogle文件系统(Google File System,GFS)是一个大型的分布式文件系统。它为Google云计算提供海量存储,并且与Chubby、MapReduce以及Bigtable等技术结合十分紧密,处于所有核心技术的底层。由于GFS并不是一个开源的系统,我们仅仅能从Google公布的技术文档来获得一点了解,而无法进行深入的研究。文献1是Google公布的关于GFS的最为详尽的技术文档,它从GFS产生的背景、特点、系统框架、性能测试等方面进行了详细的阐述。当前主
38、流分布式文件系统有RedHat的GFS3(Global File System)、IBM的GPFS4、Sun的Lustre5等。这些系统通常用于高性能计算或大型数据中心,对硬件设施条件要求较高。以Lustre文件系统为例,它只对元数据管理器MDS提供容错解决方案,而对于具体的数据存储节点OST来说,则依赖其自身来解决容错的问题。例如,Lustre推荐OST节点采用RAID技术或SAN存储区域网来容错,但由于Lustre自身不能提供数据存储的容错,一旦OST发生故障就无法恢复,因此对OST的稳定性就提出了相当高的要求,从而大大增加了存储的成本,而且成本会随着规模的扩大线性增长。正如李开复所说的那
39、样,创新固然重要,但有用的创新更重要。创新的价值,取决于一项创新在新颖、有用和可行性这三个方面的综合表现。Google GFS的新颖之处并不在于它采用了多么令人惊讶的技术,而在于它采用廉价的商用机器构建分布式文件系统,同时将GFS的设计与Google应用的特点紧密结合,并简化其实现,使之可行,最终达到创意新颖、有用、可行的完美组合。GFS使用廉价的商用机器构建分布式文件系统,将容错的任务交由文件系统来完成,利用软件的方法解决系统可靠性问题,这样可以使得存储的成本成倍下降。由于GFS中服务器数目众多,在GFS中服务器死机是经常发生事情,甚至都不应当将其视为异常现象,那么如何在频繁的故障中确保数据
40、存储的安全、保证提供不间断的数据存储服务是GFS最核心的问题。GFS的精彩在于它采用了多种方法,从多个角度,使用不同的容错措施来确保整个系统的可靠性。2.1.1 系统架构GFS的系统架构如图2-11所示。GFS将整个系统的节点分为三类角色:Client(客户端)、Master(主服务器)和Chunk Server(数据块服务器)。Client是GFS提供给应用程序的访问接口,它是一组专用接口,不遵守POSIX规范,以库文件的形式提供。应用程序直接调用这些库函数,并与该库链接在一起。Master是GFS的管理节点,在逻辑上只有一个,它保存系统的元数据,负责整个文件系统的管理,是GFS文件系统中的
41、大脑。Chunk Server负责具体的存储工作。数据以文件的形式存储在Chunk Server上,Chunk Server的个数可以有多个,它的数目直接决定了GFS的规模。GFS将文件按照固定大小进行分块,默认是64MB,每一块称为一个Chunk(数据块),每个Chunk都有一个对应的索引号(Index)。图2-1 GFS体系结构客户端在访问GFS时,首先访问Master节点,获取将要与之进行交互的Chunk Server信息,然后直接访问这些Chunk Server完成数据存取。GFS的这种设计方法实现了控制流和数据流的分离。Client与Master之间只有控制流,而无数据流,这样就极大
42、地降低了Master的负载,使之不成为系统性能的一个瓶颈。Client与Chunk Server之间直接传输数据流,同时由于文件被分成多个Chunk进行分布式存储,Client可以同时访问多个Chunk Server,从而使得整个系统I/O高度并行,系统整体性能得到提高。相对于传统的分布式文件系统,GFS针对Google应用的特点从多个方面进行了简化,从而在一定规模下达到成本、可靠性和性能的最佳平衡。具体来说,它具有以下几个特点。1采用中心服务器模式GFS采用中心服务器模式来管理整个文件系统,可以大大简化设计,从而降低实现难度。Master管理了分布式文件系统中的所有元数据。文件划分为Chun
43、k进行存储,对于Master来说,每个Chunk Server只是一个存储空间。Client发起的所有操作都需要先通过Master才能执行。这样做有许多好处,增加新的Chunk Server是一件十分容易的事情,Chunk Server只需要注册到Master上即可,Chunk Server之间无任何关系。如果采用完全对等的、无中心的模式,那么如何将Chunk Server的更新信息通知到每一个Chunk Server,会是设计的一个难点,而这也将在一定程度上影响系统的扩展性。Master维护了一个统一的命名空间,同时掌握整个系统内Chunk Server的情况,据此可以实现整个系统范围内数据
44、存储的负载均衡。由于只有一个中心服务器,元数据的一致性问题自然解决。当然,中心服务器模式也带来一些固有的缺点,比如极易成为整个系统的瓶颈等。GFS采用多种机制来避免Master成为系统性能和可靠性上的瓶颈,如尽量控制元数据的规模、对Master进行远程备份、控制信息和数据分流等。2不缓存数据缓存机制是提升文件系统性能的一个重要手段,通用文件系统为了提高性能,一般需要实现复杂的缓存(Cache)机制。GFS文件系统根据应用的特点,没有实现缓存,这是从必要性和可行性两方面考虑的。从必要性上讲,客户端大部分是流式顺序读写,并不存在大量的重复读写,缓存这部分数据对系统整体性能的提高作用不大;而对于Ch
45、unk Server,由于GFS的数据在Chunk Server上以文件的形式存储,如果对某块数据读取频繁,本地的文件系统自然会将其缓存。从可行性上讲,如何维护缓存与实际数据之间的一致性是一个极其复杂的问题,在GFS中各个Chunk Server的稳定性都无法确保,加之网络等多种不确定因素,一致性问题尤为复杂。此外由于读取的数据量巨大,以当前的内存容量无法完全缓存。对于存储在Master中的元数据,GFS采取了缓存策略,GFS中Client发起的所有操作都需要先经过Master。Master需要对其元数据进行频繁操作,为了提高操作的效率,Master的元数据都是直接保存在内存中进行操作;同时采
46、用相应的压缩机制降低元数据占用空间的大小,提高内存的利用率。3在用户态下实现文件系统作为操作系统的重要组成部分,其实现通常位于操作系统底层。以Linux为例,无论是本地文件系统如Ext3文件系统,还是分布式文件系统如Lustre等,都是在内核态实现的。在内核态实现文件系统,可以更好地和操作系统本身结合,向上提供兼容的POSIX接口。然而,GFS却选择在用户态下实现,主要基于以下考虑。1)在用户态下实现,直接利用操作系统提供的POSIX编程接口就可以存取数据,无需了解操作系统的内部实现机制和接口,从而降低了实现的难度,并提高了通用性。2)POSIX接口提供的功能更为丰富,在实现过程中可以利用更多
47、的特性,而不像内核编程那样受限。3)用户态下有多种调试工具,而在内核态中调试相对比较困难。4)用户态下,Master和Chunk Server都以进程的方式运行,单个进程不会影响到整个操作系统,从而可以对其进行充分优化。在内核态下,如果不能很好地掌握其特性,效率不但不会高,甚至还会影响到整个系统运行的稳定性。5)用户态下,GFS和操作系统运行在不同的空间,两者耦合性降低,从而方便GFS自身和内核的单独升级。4只提供专用接口通常的分布式文件系统一般都会提供一组与POSIX规范兼容的接口。其优点是应用程序可以通过操作系统的统一接口来透明地访问文件系统,而不需要重新编译程序。GFS在设计之初,是完全
48、面向Google的应用的,采用了专用的文件系统访问接口。接口以库文件的形式提供,应用程序与库文件一起编译,Google应用程序在代码中通过调用这些库文件的API,完成对GFS文件系统的访问。采用专用接口有以下好处。1)降低了实现的难度。通常与POSIX兼容的接口需要在操作系统内核一级实现,而GFS是在应用层实现的。2)采用专用接口可以根据应用的特点对应用提供一些特殊支持,如支持多个文件并发追加的接口等。3)专用接口直接和Client、Master、Chunk Server交互,减少了操作系统之间上下文的切换,降低了复杂度,提高了效率。2.1.2 容错机制1Master容错具体来说,Master上保存了GFS文件系统的三种元数据。1)命名空间(Name Space),也就是整个文件系统的目录结构。2)Chunk与文件名的映射表。3)Chunk副本的位置信息,每一个Chunk默认有三个副本。首先就单个Master来说,对于前两种元数据,GFS通过操作日志来提供容错功能。第三种元数据信息则直接保存在各个Chunk Server上,当Master启动或Chunk Server