你正在下载：《

Google利器之Google Cluster.doc

》 [预览]

格式：DOC ，页数：4 ，大小：60.57KB ,
资源ID：6278385 下载积分：10 金币

快捷注册下载

登录下载

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

开通VIP

温馨提示：由于个人手机设置不同，如果发现不能下载，请复制以下地址【https://www.zixin.com.cn/docdown/6278385.html】到电脑端继续下载（重复下载【60天内】不扣币）。

已注册用户请登录：

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

三方登录：

1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，个别因单元格分列造成显示页码不一将协商解决，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时联系平台进行协调解决，联系【微信客服】、【QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”，意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：0574-28810668；投诉电话：18658249818。

本文（Google利器之Google Cluster.doc）为本站上传会员【xrp****65】主动上传，咨信网仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知咨信网（发送邮件至1219186828@qq.com、拔打电话4009-655-100或【微信客服】、【 QQ客服】），核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载【60天内】不扣币。【服务填表】

Google利器之Google Cluster.doc

1、 Google利器之Google Cluster 分类：分布式系统（Distributed System） 2009-02-03 22:334137人阅读评论(3)收藏举报最近花了不少功夫在Google发布的这些文章上。Google这几年发布了不少的论文来介绍它底层分布式的计算平台，其中最重要的有5篇，其中包括了大名鼎鼎的MapReduce，GFS，也有不那么出名的chubby： GoogleCluster： Chubby： GFS： BigTable： MapReduce：这里写的就是我看Google Cluster的一些笔记和心得。希望有时间也能把

2、其它的几篇都整理出来。这个图就是一个普通的Query所要经过的整个逻辑流程。首先，一个query（例如浏览器会通过DNS得到对应的的IP。由于整个google的service包含了几个分布在全球不同地方的cluster（每个包含上千台机器），DNS需要选择一个最合适的cluster（选择的标准要考虑到用户的地理位置等等）。于是，用户的浏览器将这个query以HTTP的方式发送到这个cluster。这个cluster的一个LoadBalancer会将query发送到其中的一个GoogleWebServer（GWS）机器上。这个GWS会协调整个query的执行过程

3、并将结果以HTML的方式返回给浏览器。而上面的这个图表示的正是query在一个cluster上的执行过程。这个执行过程又分为两部分。第一部分是对索引的查找。在信息检索中，所有的Document会被聚合成一个很大的倒排索引（inverted index），可以看成是一个很大的二维表。我们需要查找这个索引，找到哪些包含了query词的Document并计算出相似度（google用的是pagerank）。这个相似度决定了结果的排序。这个索引的查找在工程上是一个很大的挑战，因为整个倒排索引是非常大的（几十TB的级别）。google的解决思路是将整个index切分成许多小块，这样，

4、对于各个小块的查询就可以并行进行，最后再将结果汇总（MapReduce就是这样的...）。最后，查找得到的结果就是一列Document的ID号。第二部分则是对实际的Document的操作。使用第一部分得到的ID号，通过Document Server来找到对应的Document，这些Document需要进行一定的处理，例如Summary（我们搜索后得到的结果不就是一组网站的摘要么），然后将结果返回给用户。其中，使用ID查找对应Document的过程和第一部分类似，也是通过将整个Document集合切分成许多小份再分别进行查找。除了这两部分以外，可能还包括一些例如拼写检查或

5、者广告之类的模块。如图所示。从上面的整个query执行过程可以看出，google总是积极地将一个application尽可能的并行化，例如将index切成小份，或者将Document切成小份然后并行处理。在这种情况下，单纯的CPU的峰值计算能力就显得不那么重要了，因为可以通过增加更多的机器，从而将index切成更小份然后并行计算来提高计算能力。举个例子，一台计算能力是4的机器所能够达到的性能，在这种并行计算下可以通过4台计算能力为1的机器得到。正是因为如此，所以google在挑选cluster的机器的时候，考虑的并不是机器单纯的performance，而是考虑它的性价比（price

6、performance ratio）和它的能耗。这一点非常重要，很多人都知道google的cluster采用的就是我们常人所用的普通的PC机，但通过这篇文章我们可以知道，google之所以这样做并不是因为想标新立异，而是因为采用普通的PC机并不会带来性能的损失，而且整体费用甚至更低。此外，google cluster还有其它一些有趣的特性。例如，google cluster保存数据使用了大量的副本。一份数据在cluster中都有几份副本。这样做有几个好处，首先，可以提高吞吐量，因为多个副本就意味着对同一组数据可以同时进行操作，其次，还满足了容错性的需求。还有，从上面的que

7、ry过程我们可以发现，大部分的操作都是read-only的，update操作相对而言非常稀少。所以在一个副本的数据update的时候，可以将正在它上面进行的query操作转移走。也就说不存在对一个数据同时读和写的情况。这样做非常有意义，因为回避了一个在普通的DataBase中非常重要的问题，即数据的一致性（consistency）。 google cluster的容错也与众不同。它甚至都没有采用RAID这样的措施，所有的可靠性保障和容错性能都是基于software的。总结 google cluster的设计原则包括： 1. 软件层面的安全可靠保障。 2. 使用数据的副本。 3. 性价比甚于peak performance。 4. 采用日常的PC。不仅仅是google cluster，还包括MapReduce，GFS，他们之所以现在如此成功，我认为一个很重要的原因就在于需求非常的明确。在设计之初就没有遵循传统的方式，而是针对实际当中的要求给出了不同的思路，这种量身定制决定了他们的成功。 Google这篇文章的后部分主要描述了根据这些原则怎样去挑选合适的机器，包含了大量的实践和细节。有兴趣的可以看看。由于我自己也是刚刚开始接触这方面的知识，有任何理解不当之处欢迎批评指正。