ImageVerifierCode 换一换
格式:DOCX , 页数:5 ,大小:254.26KB ,
资源ID:4738665      下载积分:5 金币
验证码下载
登录下载
邮箱/手机:
图形码:
验证码: 获取验证码
温馨提示:
支付成功后,系统会自动生成账号(用户名为邮箱或者手机号,密码是验证码),方便下次登录下载和查询订单;
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/4738665.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

开通VIP折扣优惠下载文档

            查看会员权益                  [ 下载后找不到文档?]

填表反馈(24小时):  下载求助     关注领币    退款申请

开具发票请登录PC端进行申请。


权利声明

1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4009-655-100;投诉/维权电话:18658249818。

注意事项

本文(详解大数据批流处理中的两大架构.docx)为本站上传会员【二***】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4009-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

详解大数据批流处理中的两大架构.docx

1、详解大数据批流处理中的两大架构导读:随着应用需求的不断开展,数据处理系统的能力也亟待提高。其中最为迫切的,便是 如何利用云边协同计算平台的环境优势,实现高效的批流融合处理系统,从而低延迟、高吞 吐地对全量历史数据与实时的流数据进行融合计算,为各行业的新型应用提供有力支撑。 OlLambda 架构 对于在云端的数据中心实现针对海量历史数据的批量计算(及优化),同时需要分 别在云端、边缘端实现针对流数据的实时处理的场景。换言之,为了到达全量数据 批处理的准确性与实时数据流处理的低延迟的兼具, Nathan Marz基于他在 Backtype和Twitter公司中对大数据处理系统的设计、开发

2、经验,于2013年提出了批流处理系统架构Lambdao Lambda架构是当前大数据中批流处理方向影响最为深刻、应用最为广泛的架构,主 要分为以下3个组成局部: (1)批处理层(batch layer)该层负责两方面的内容:1)管理“主数据库”,即保存有完整的历史数据、持久 化存储的、不可变的、仅支持追加的数据仓库;2)计算批处理视图,即通过批处 理的方式对全量数据进行分析所得出的视图。 可见,批处理局部类似于其他专用批处理系统,对大规模的数据在保证准确性和完 整性的前提下,利用批处理优化技术进行全局分析。 (2)服务层(serving layer)该层与批处理层一同工作,功能上作为应

3、用程序进行查询的服务器,负责对批处理 层中产生的批处理视图建立索引,以便应用程序能够根据用户的指定进行低延迟 的、点对点(ad-hoc)的查询。需要注意的是,这里的“低延迟”指的是用于进行 查询(query)时系统响应结果的延迟,这个时间会因为索引的建立而大大降低, 但并不会改变批处理层中对全量数据进行计算更新的时间开销。 (3)流处理层(speed layer)上述由批处理层与服务层组成的批处理局部能够对离线的历史数据进行完整的分 析,但如同传统的批处理专用系统,这个处理过程将会遍历所有已存在的数据,将 不可防止地造成较大的计算开销,并占用较长的处理时间。那么为了实现对实时数 据的流式处理

4、便需要“流处理层”与它相结合。流处理层即基于流式处理建立的 数据处理模块,弥补了批处理局部的高延迟更新缺陷,仅用于接收最近产生的流数 据,并根据它进行计算得出即时结果。这里的“计算”更准确而言应是“近似计算" 因为流处理局部并不能够获知全局的数据,而仅仅能够获取刚刚发生的事件及最近 的状态信息,但同时也由于这个原因,流处理层具备批处理模块无法到达的视图更 新速度,能够以高出数个数量级的响应效率,支撑用户对于最新数据的分析要求。 在上述批处理层、服务层和流处理层的基础上,Lambda架构的核心思想便是将数 据输入到了批处理、流处理两个数据链路中,分别并行地进行计算,并在用户进行 查询的阶段,

5、将两个数据链路产生的结果(视图)进行融合,返回给用户。这样, 一方面,批处理模块基于全量数据计算得出的结果保证了最终响应结果的完整性与 准确性;另一方面,流处理模块基于实时数据进行流处理获得的即时更新保证了用 户查询的极低延迟。 缺陷:设计和实现该架构的过程中,存在一些无法防止的问题,其中最为主要的便 是开发和维护的复杂性。对于开发人员而言,实现一个较为完善的分布式处理系统 需要付出很大的精力,这不仅表现在设计、编码的过程中,更表现在效率优化、后 期维护升级等方面,每一个细节的调整都可能会导致设计思路的转变,从而造成较 大的更新代价。 那么,是否能够在尽量防止同时开发批、流两个系统的复杂性

6、的同时,实现基于云 边协同平台的批流融合处理呢?换言之,能否改进批处理或流处理其中一个,以使 它缺乏的方面到达或接近另一模块的水平? 02Kappa 架构Kappa架构由来自于Linkedln公司的Jay Kreps在2014年提出,这一架构不仅大 大降低了开发人员的负担,而且更为重要的是,使得在更高程度边缘化的云边协同 平台上,利用边缘端的计算,使得批流一体化处理成为可能。 该架构提出输入数据只通过流计算一条链路进行处理-并生成待查询的视图。它的 核心是数据以日志(log)的形式,以追加(append-only)且不可变的方式,存储 在数据仓库中。换句话说,它要求长期存储的历史数据能够以

7、有序日志流重新流入 计算引擎,以备需要重新计算全局视图时,从数据仓库中取出这些数据进行全量计 算,直到该数据副本的进度赶上当前事件发生的进度,丢弃原有视图,将新的副本 视图作为主要结果。 利用这一架构,不仅能够在边缘端实现低延迟的流处理,同时也能够实现历史数据 的批量处理。这为主要依赖于边缘计算能力的诸多应用场景提供了有力的技术支 撑。 03其他技术在对基于云边协同环境下数据处理方案以及数据系统架构的研究外,相关的其他研 究也在不断尝试、探索。其中,一个方向便是将传统系统(例如MapReduce)中基 于硬盘的存储改进为基于内存的存储。一方面,借助内存在硬件上天生具有的低延 迟、高吞吐等特性,不管是实时的自动驾驶行车数据,还是短时高密度的健康行为 统计数据,都能够防止大量的I/O (输入/输出)开销,支撑批流数据处理的速度要 求;另一方面,通过检查点(checkpoint)备份算法、自动恢复(recovery)机制 等补充,实现硬盘持久化存储的稳定性,保证了数据的可追溯、可恢复。目前,相 关的研究人员已经在该研究方向上进行了长久的探索,并取得了较好的成效,实现了包括Spark在内的多个系统。

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4009-655-100  投诉/维权电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服