ImageVerifierCode 换一换
格式:PPT , 页数:31 ,大小:2.10MB ,
资源ID:10846117      下载积分:12 金币
快捷注册下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/10846117.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

开通VIP折扣优惠下载文档

            查看会员权益                  [ 下载后找不到文档?]

填表反馈(24小时):  下载求助     关注领币    退款申请

开具发票请登录PC端进行申请

   平台协调中心        【在线客服】        免费申请共赢上传

权利声明

1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:0574-28810668;投诉电话:18658249818。

注意事项

本文(海量数据的高效存储-淘宝云梯极限存储的原理和实践PPT.ppt)为本站上传会员【精***】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4009-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

海量数据的高效存储-淘宝云梯极限存储的原理和实践PPT.ppt

1、单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,1,极限存储设计原理及实践,淘宝,-,数据平台与产品部 图海,2025年6月19日,1,2,场景,方案,效果,优化,2,云梯,1,前端,RDBMS,其他集群,点击流日志,LogServer,everyday,everytime,云梯的存储职责,DataX,TimeTunnel,DBSync,3,4,怎么办,?,怎么办,?,怎么办,?,删除历史数据,立竿见影,省力又省事,怎么办,?,20080101,20080102,20080103,20110720,商品表,500G,502G,505G,G,1000G,5

2、21,世纪核心的竞争是数据的竞争”,“谁拥有更多数据,谁就拥有未来”,前端交易系统、商品中心、用户中心等出于效率的考虑,不会长期保存大量历史数据,而数据平台作为企业数据分析及挖掘的基础设施,天生具有保存历史数据的职责,非但如此,如何快速、高效的获取历史上任意一天的快照数据也成为设计历史数据存放方式时的重要考量。,6,数据分类,商品表,:,商品,ID,商品名,商品状态,创建时间,所属类目,交易表,:,订单,ID,支付,ID,物流,ID,支付时间,订单状态,典型操作,:,新增商品,/,订单,(new),商品,/,订单状态变更,(update),商品下线,/,订单撤销,(delete),典型的

3、数据库增删改操作,数据特点,:,有业务主键,确保记录唯一性,全量快照数据量巨大,(1TB),,数据分析需要全量快照数据,每日变更量占比很少,(,远低于,5%),数据记录冗余度非常高,注,:,变更指发生增删改的记录,当时存量数据中,70%,属于此类特征的业务数据,且记录冗余度高,7,数据分类,评价增量表,:,评价,ID,用户星级,用户昵称,评价记录,商品名称,点击流日志,:,记录时间,IP,地址,引用链接,机器,ID,用户,ID,数据特点,:,没有业务主键,属于日志流水,每日新增数据,数据记录重复程度非常低,每条都基本唯一,数据记录冗余度基本为,0,存储总体占比不高,且数据冗余度较低,优化空间有

4、限,数据特点,:,有业务主键,确保记录唯一,数据只有新增操作,不会变更或删除,每天只需保留当天新增评价,数据记录冗余度基本为,0,8,思考,&,讨论,20100906,消失记录,(,包括被删除及被变更记录,),,占,2%,左右,20100906,和,20100907,未发生变更部分,占总体的,95%,以上,正是这部分的重复存储过多的消耗了存储成本,20100907,新增记录,(,包括纯新增及变更后记录,),,占,3%,左右,20100906,20100907,问题,:,如何设计方案达到以下效果,?,减少,/,去除冗余数据,降低存储成本,保证快照数据的快速访问,对业务应用透明或降低应用改造成本,

5、9,参考方案,增量数据,2010,年,4,月,2,日全量,latest,分区,2010,年,4,月,2,日失效分区,2010,年,4,月,1,日全量,2010,年,4,月,2,日,2010,年,4,月,1,日,2010,年,4,月,3,日全量,latest,分区,2010,年,4,月,3,日失效分区,2010,年,4,月,3,日,2010,年,4,月,30,日全量,latest,分区,2010,年,4,月,30,日失效分区,2010,年,4,月,30,日,增量数据,增量数据,注,:,类似于数据库系统中常见的增量备份或周期备份策略,优点,:,易于理解,在数据库备份中广泛应用,实现较为简单,缺点,

6、访问快照数据成本太高,无法直接反应删除,/,被变更数据,需要额外设计,应用改造成本较高,10,记录生命周期,数据天生以行进行分割,行数据在数据库中称为一条数据记录,(Record).,一,条记录对应可能有,Insert/Update/Delete,操作,Insert,通常对应一条全新的记录,意味着记录的新生,Delete,通常是原有的记录被删除,意味着记录的死亡,Update,是在原有的记录上修改某些字段,一条,Update,操作可以拆分为,Delete/Insert,原子对操作,即从记录的维度来看,相当于前一条记录死亡,后一条记录新生,因此,我们可以认为,任何一条记录,(,行数据,),必

7、定在历史上某天新生,(start),,并在其后的某一天死亡,(end),,而这个,start-end,对就定义为该记录的生命周期。,11,活跃数据和死亡数据,活跃数据,一条记录,在其产生之后直至当天仍旧存活,(,未被,Delete/Update),,那么我们认为它是一条活跃数据,对于活跃数据,其产生,(start),日期已经明确,但死亡,(end),日期并不确定,数据标签,:start-INFINITY(,无穷大,),如,20110401-INF,死亡数据,一条记录,在当天以前就被更改,(,被,Delete/Update),,那么我们认为它是一条死亡了的数据,对于死亡数据,其产生,(start

8、),和死亡,(end),日期都已经明确,数据标签,:start-end,如,20110401-200110423,12,INF,目录存放在某一天新增并且一直未曾被删除或修改的记录,(,即活跃数据,),此处省略一万字,0901-0902,0901-0903,0901-0904,0901-09.,0901-0930,0901-INF,0902-0903,0902-0904,0902-09.,0902-0930,0902-INF,0903-0904,0903-09.,0903-0930,0903-INF,09n-09(n+1),09n-0930,09n-INF,0929-0930,0929-INF,

9、0930-INF,极限存储,极限存储原理,三个结论,:,任意一条记录,由于其生命周期确定,必定对应唯一的一个数据标签,一个数据标签对应符合该生命周期的记录集合,(,该记录集合有为空的可能性,),历史上出现的所有记录,必然可以成功的划分到不同的生命周期数据标签里去,13,历史快照,原理,TimeLine,0413,0414 0415,0416 INF,INF,0414 ,INF,0201 0413,0313,0314 INF,0313,0314 0415,0416 INF,0413,0414 0416,0417 INF,0413,0414 0417,0418 INF,0414 INF,0201

10、0413,0313,0314 0414,0415 INF,0310,0311 0421,0422 INF,所有被蓝色线条经过的数据标签,其数据内容组合起来即为,0414,这天的数据全量快照,同理,历史上任意一天的数据快照均可以该方式获得,14,历史区间快照,原理,TimeLine,0413,0414 0415,0416 INF,INF,0414 ,INF,0201 0413,0313,0314 INF,0313,0314 0415,0416 INF,0413,0414 0416,0417 INF,0413,0414 0417,0418 INF,0414 INF,0201 0413,0313,0

11、314 0414,0415 INF,0310,0311 0421,0422 INF,所有在两条蓝色线条以内以及穿过任意一条蓝色线条的数据标签,其数据内容组合起来即为,0314-0415,的数据全量快照,15,方案,主体,逻辑,包含以下主要步骤:,1.通过主键关联对比昨天全量和今天全量的数据差异,并将这些数据,区,分为,活跃,(Lived),或,过期,(Expired),数据。,2.对于对比的结果数据进行统计,获得每个生命周期下实际的数据条数,,统计结果用来产生不同生命周期的记录到文件目录的映射。,3.使用mapreduce数据对第1步结果进行分发,相同生命周期的数据会被写入到对应的唯一的生命周

12、期目录下,(,依赖,2,的统计结果,),。,4.使用hive的双重分区映射生命周期目录,这样用户可以通过灵活的hive分区过滤来获得期望的数据。,5.数据验证,为了保证应用极限存储后结果的正确性,因此增加了数据条数对比的验证规则。,16,方案,主体,逻辑,记录生命周期标签云,0401-0402,0401-0403,0401-0404,0402-0403,0402-0404,2010,年,4,月,23,日全量,2010,年,4,月,22,日全量,(,极限存储,),20100401-20100423,20100402-20100423,2010,0,408-20100423,2010,0,422-

13、20100423,2010,0,423-INF,2010,0,409-20100423,数据分拣,Hive,介绍,全文对比,数据统计,数据分拣,分区映射,数据验证,17,遇到的问题,产生的目录,/,文件数非常多,产生目录数及文件数按日呈级数增长,一个月产生,465,个目录,一年产生,66795,个目录,文件数,=,目录数,*reduce,数,(,如,1000),对,NameNode,压力非常大,对应分区非常多,,Hive,元数据库压力也很大,文件大小不均匀,如何快速访问任意一天,/,一段时期的快照数据,分拣中运行出错会导致数据损坏或丢失,不同月份数据并行运行丢失数据问题,单个数据标签内数据损坏

14、/,丢失导致一段时期内快照不准,其他的一些保护机制,18,应用效果,迄今为止已有,30,余种业务数据完成应用,累积节省存储达,15PB,。,19,极限存储,使用方法,Hive:,取某天快照,:,select*from tb_users_exst where pt_start20100410,取某天快照,(UDF,方式,):,select*from tb_users_exst where,exst_pt,(pt_start,pt_end,20100410),取一段时间快照,:,select*from tb_users_exst where pt_start20100410,Hadoop:,在调

15、用,setInputDir,之前通过提供的方法获得生命周期目录列表,如下,:,List dateLists=DateListGenerator.generateExStoreListDirs(/group/taobao/taobao/hive/tb_users_exst,20100410);,20,极限存储,应用场景,查看一件商品,2011,年的变更历史,:,不使用极限存储,:,select*from tb_auctions where,pt=20110101 and pt,、,=20110401 and pt=20110430,获取,4,月份的所有分区,25,Hive,相关介绍,Hive,数

16、据在云梯,(Hadoop),上的存放形式,每个目录下有若干个数据文件,通常文件中每行数据对应,Hive,表的一条记录,列之前通过给定的分割符进行分割。,数据文件可以是压缩的,也可以是非压缩的,只要和,Hive,元数据中保存的分区信息一致即可。,pt=20100906,/group/taobao/taobao/hive/$table/pt=20100906,pt=20100907,/group/taobao/taobao/hive/$table/pt=20100907,pt=201009.,/group/taobao/taobao/hive/$table/pt=201009.,$table,返回

17、26,全,文,对比,通过Hive实现对相邻两天的数据全量对比,区分活跃与死亡数据,并同时获得其生命周期信息:,FROM,(,SELECT*FROM,tb_users,_,exst WHERE,pt_start,20100422,)o,FULL OUTER JOIN,(,SELECT*FROM,tb_users,WHERE pt=,20100423,000000,),n,ON,o.id=n.id,INSERT OVERWRITE TABLE t_ext,_,20100423,_,tb_users,PARTITION(pt=EXPIRED),SELECT o.pt_start,20100423,

18、WHERE,n.id IS NULL,OR(n.id o.id),OR(n.nick o.nick),INSERT OVERWRITE TABLE t_ext,_,20100423,_,tb_users,PARTITION(pt=LIVE),SELECT if(o.id IS NULL,OR(n.nick o.nick),20100423,o.pt_start)as birth_date,NULL as expired_date,WHERE,n.id IS NOT NULL,t_ext,_,20100423,_,tb_users,比,tb_users,多,了两个字段:,birth_date:记

19、录的产生日期,不可能为NULL,expired_date:记录的消亡日期,如果未死则为,NULL,返回,27,数据统计,通过Hive统计落在各个生命周期区间内的数据条数:,INSERT OVERWRITE TABLE t_exs_,tb_users,PARTITION(pt=,20100423,000000),SELECT,birth_date,expired_date,count(1),FROM,t_ext_,20100423,_,tb_users,GROUP BY,birth_date,expired_date,注,:,这里的统计信息主要用来为下一步mapreduce作业提供参考,比如计算

20、最终合理的文件数。,返回,28,数据分拣,经过前面的处理,t_ext_,20100423,_,tb_users,两个分区(LIVED,EXPIRED)下的数据其最后两列分别为birth_date和expired_date,即对应数据记录的产生和死亡日期,因此mapreduce可以根据这个信息得知该目录应该存放至那个生命周期目录下。,生命周期目录下云梯1上表现为如下形式:,s_bmw_usres_exst,-201004#每月数据存放在月份目录下,|-201004#该目录下存放本月新增且至今未死亡的数据,|-20100401#0401产生且未死亡,|-20100402,|-20100423#04

21、23产生且未死亡,|-20100401-20100402#0401产生且0402死亡(被删除或更新),|-20100401-20100403#0401产生且0403死亡(被删除或更新),|-20100401-20100404,|-20100421-20100423,-20100422-20100423,对于以下两条t_ext_,20100423,_,tb_users,表的记录,mapreduce会分别将其分发到/201004/20100403和/201004/20100403-20100405目录下。,Record1 20100403 NULL,Record2 20100403 2010040

22、5,返回,29,分区映射,极限存储目标表必定存在以下两个分区:,Pt_start:起始日期,一定是一个合法8位日期,Pt_end:死亡日期,,对于,活跃数据,其,值为$month_INFINITY,仍然以上页的说明为例,说明分区的映射方式:,s_bmw_usres_exst,-201004,|-201004,|-20100401#pt_start=20100401,pt_end=201004_INFINITY,|-20100402#pt_start=20100402,pt_end=201004_INFINITY,|-20100423#pt_start=20100423,pt_end=20100

23、4_INFINITY,|-20100401-20100402#pt_start=20100401,pt_end=20100402,|-20100401-20100403#pt_start=20100401,pt_end=20100402,|-20100401-20100404,|-20100421-20100423,-20100422-20100423#pt_start=20100422,pt_end=20100423,返回,30,数据验证,条数验证,:,SELECT,count(1),FROM,tb_users,_,exst WHERE pt_start ,20100423;,SELECT count(1)FROM tb_users WHERE pt=20100423000000;,内容验证,:,类似于方案第一步中的数据全文对比,对每条记录中的每个字段进行一致性比较,从而最终确保数据内容正确无误,返回,31,

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2026 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服