ImageVerifierCode 换一换
格式:PPT , 页数:34 ,大小:3.44MB ,
资源ID:7488062      下载积分:12 金币
快捷注册下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/7488062.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

开通VIP折扣优惠下载文档

            查看会员权益                  [ 下载后找不到文档?]

填表反馈(24小时):  下载求助     关注领币    退款申请

开具发票请登录PC端进行申请

   平台协调中心        【在线客服】        免费申请共赢上传

权利声明

1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:0574-28810668;投诉电话:18658249818。

注意事项

本文(第14章-大数据管理PPT.ppt)为本站上传会员【w****g】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4009-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

第14章-大数据管理PPT.ppt

1、单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,#,数据库系统概论,An Introduction to Database System,第,14,章 大数据管理,xxxxx,1,目录,大数据概述,大数据的应用,大数据管理系统,小结,2025/1/5 周日,大数据概述,什么是大数据?,2025/1/5 周日,什么是大数据,定义:,一般意义上,大数据是指无法在可容忍的时间内用现有,IT,技术和软硬件工具对其进行感知、获取、管理、处理和服务的数据集合。,还有专家给出的定义是,大数据通常被认为是,PB,(,TB,)或,EB,(,1 EB=,TB,)或更高数量级的数

2、据,包括结构化的、半结构化的和非结构化的数据。,2025/1/5 周日,什么是大数据,分类:,按大数据的应用类型将大数据分为海量交易数据(企业,OLTP,应用)、海量交互数据(社交网、传感器、全球定位系统、,Web,信息)和海量处理数据(企业,OLAP,应用)。,2025/1/5 周日,大数据的特征,巨量(,Volume,),多样(,Variety,),快变(,Velocity,),价值(,Value,),2025/1/5 周日,大数据的特征,巨量,大数据的首要特征是数据量巨大,而且在持续、急剧地膨胀。,大规模数据的几个主要来源有:科学研究、互联网应用和电子商务领域、传感器数据、网站点击流数据

3、移动设备数据、无线射频识别数据等。,2025/1/5 周日,大数据的特征,巨量,观点:大是相对的,是和当时的计算机处理能力相关的,超过了现有技术的能力。,但是,“大规模”又是大数据的基本要求。,80,年代,百万条记录就是,VERY LARGE DATA,00,年代,,TB,级别就是,DATA INTENSIVE,10,年代,,100T,以上,甚至,PB,级才能够算得上是大数据,从现在起,每,18,个月,新增的存储量等于有史以来存储量之和!,1998,年图灵奖获得者,Jim Gray,2025/1/5 周日,大数据的特征,多样,数据的多样性通常是指异构的数据类型、不同的数据表示和语义解释。,现

4、在,越来越多的应用所产生的数据类型不再是纯粹的关系数据,更多的是非结构化、半结构化的数据,如文本、图形、图像、音频、视频、网页、推特、和博客等。,2025/1/5 周日,大数据的特征,快变,大数据的快变性也称为实时性,一方面指数据到达的速度很快,另一方面指能够进行处理的时间很短,或者要求响应速度很快,即实时响应。,数据到达或者产生的速度太快,对系统处理造成巨大的压力。,例如,入库速度要求:,100GB/S,。,2025/1/5 周日,大数据的特征,快变,时间,交易额,描述,0,时,0,分,52,秒,超过,10,亿,一分钟超,10,亿的交易额,0,时,14,分,16,秒,超,19,亿,超过,20

5、12,年双十一全天交易额,1,时,突破,353,亿,超过,2013,年双十一全天交易额,6,时,54,分,53,秒,超,571,亿,超过,2014,年双十一全天交易额,15,时,19,分,13,秒,912,亿,超过,2015,年双十一全天交易额,24,时,超,1207,亿,交易额翻了一番,无线交易额占比,81.87%,,覆盖,235,个国家和地区,“现象级”应用:在某一个时期,对系统的压力突然暴增,极易导致系统的崩溃。,2025/1/5 周日,大数据的特征,价值,大数据的价值是潜在的、巨大的。大数据不仅具有经济价值和产业价值,还具有科学价值。这是大数据最重要的特点,也是大数据的魅力所在。,20

6、25/1/5 周日,大数据的应用,大数据的应用特征:,大数据作为一种新的战略资源,要重视对数据对象的管理、重视数据治理。,大数据作为一种新的研究方法,已经在许多学科领域取得成效在:第四研究范型,大数据作为一种新的信息化的思维,强调跨界应用,数据整合基础上的创新。,2025/1/5 周日,大数据的应用,应用案例:,感知现在 预测未来,互联网文本大数据管理与挖掘,数据服务 实时推荐,基于大数据分析的用户建模,2025/1/5 周日,互联网文本大数据管理与挖掘,互联网媒体文本大数据应用:时事探针,高速发展的互联网媒体在给人们获取信息带来便利的同时,也带来了新的挑战,其中之一便是“信息过载”问题。当一

7、个重要新闻事件发生后,各种互联网媒体会有大量相关报道。,时事探针系统可以实时监控、收集互联网媒体数据,并对数据进行深入的挖掘和分析。其主要功能包括动态数据抓取、历史数据保留、数据深度智能分析、数据可视化展示、敏感信息实时捕捉、预定阈值报警等。,2025/1/5 周日,互联网文本大数据管理与挖掘,互联网媒体文本大数据应用:时事探针,该系统可以有效地帮助用户、企业以及政府机构对所关注的新闻话题在互联网媒体中的报道进行感知、获取、跟踪、预警和深入分析,具有极大应用价值。,2025/1/5 周日,互联网文本大数据管理与挖掘,互联网文本大数据管理的挑战,无法事先预定义关系模式和值域,无法直接用关系型数据

8、进行存储和查询,可扩展性和实时性要求高,对于文本大数据处理,目前广泛使用的互联网搜索引擎只是对文本数据的简单索引和查找,不能满足用户对所关注的话题进行实时监测、深入分析以及决策支持等需求。,2025/1/5 周日,互联网文本大数据管理与挖掘,互联网文本大数据管理系统,时事探针系统,时事探针系统是一个面向互联网文本大数据的通用的管理和分析平台。整个系统分为离线处理和在线处理两个部分。其中离线部分是设计的重点,主要功能有:,多源异构网络大数据的感知和获取,文档理解及结构化数据抽取和集成,数据存储和索引,离线主题文本立方体建立及更新,2025/1/5 周日,互联网文本大数据管理与挖掘,互联网文本大数

9、据管理的特点:,互联网文本大数据蕴含着丰富的社会信息,可以看作是对真实社会的网络映射,实时、深入分析互联网文本大数据,帮助人们在海量数据中获取有价值的信息,发现蕴含的规律,可以更好地感知现在、预测未来,体现了第四范式数据密集型科学发现的研究方式和思维方式。,互联网文本大数据管理对大数据系统和技术的挑战是全面的、跨学科领域的,需要创新,也需要继承传统数据管理技术和数据仓库分析技术的精华。,2025/1/5 周日,基于大数据分析的用户建模,面向用户建模的大数据系统架构,面向大众的信息服务类应用在为大规模的用户提供信息服务的同时,通过用户原创内容(,User Generated Content,,,

10、UGC,)或者系统日志等方式不断地收集数据。这些数据与用户的行为紧密相关,被用来分析用户的兴趣特征,创建用户的描述文件,这就是基于大数据分析的用户建模。,2025/1/5 周日,基于大数据分析的用户建模,面向用户建模的大数据系统架构,用户建模的目标是为了准确地把握用户的行为特征、兴趣爱好等,进而较为精准地向用户提供个性化地信息服务或信息推荐。,2025/1/5 周日,基于大数据分析的用户建模,面向用户建模的大数据系统架构,上层应用(信息推荐等),数据服务(用户兴趣模型表),在线分析 离线分析,实时大数据,历史大数据,面向用户建模的大数据系统架构示意图,2025/1/5 周日,基于大数据分析的用

11、户建模,数据分析:用户建模的基础工具,一大类用户建模方法采用的是批处理方式的离线分析方法,对结构化或半结构化的历史日志数据进行,SQL,分析或者使用数据挖掘和机器学习的深度分析方法。,特点:当数据量很大时,很耗时;其次,这类离线分析方法复杂度高、处理代价巨大,不能够频繁调用;实时性较差。,主要适合分析那些通过大规模数据得出的相对稳定的用户属性。,2025/1/5 周日,基于大数据分析的用户建模,数据分析:用户建模的基础工具,另一大类用户建模方法则采用实时的在线分析方法,数据即来即分析,更强调数据的实时分析处理能力。,特点:实时性较好;当处理用户规模很大时,其代价是昂贵的。,这类方法适合于捕捉一

12、些时效性强的用户属性,比如用户当前的位置、手机信号强度等。,2025/1/5 周日,基于大数据分析的用户建模,数据服务:用户建模的价值体现,特点:,模型的建立来自对大数据的分析结果。建模的过程是动态的,随着实际对象地变化,模型也在变化。,数据处理既有对历史数据的离线分析和挖掘,又有对实时流数据的在线采集和分析,体现了大数据上不同层次的分析:流分析、,SQL,分析、深度分析的需求。,用户模型本身也是大数据,纬度高,信息稀疏,用户模型的存储、管理是数据服务的重要任务,要满足大规模应用需求的高并发数据更新与读取。,2025/1/5 周日,大数据管理系统,数据管理技术和系统是大数据应用系统的基础。为了

13、应对大数据应用的迫切需求,人们研究和发展了以,Key/Value,非关系数据模型和,MapReduce,并行编程模型为代表的众多新技术和新系统。,2025/1/5 周日,大数据管理系统,NoSQL,数据管理系统,NewSQL,数据库系统,Map Reduce,技术,大数据管理系统的新格局,2025/1/5 周日,大数据管理系统,NoSQL,数据管理系统,NoSQL,是以互联网大数据应用为背景发展起来的分布式数据管理系统。,NoSQL,有两种解释:一种是,Non-Relational,,即非关系数据库;另一种是,Not Only SQL,,即数据管理技术不仅仅是,SQL,。目前第二种解释更为流行

14、NoSQL,系统支持的数据模型通常分为,Key-Value,模型、,BigTable,模型、文档模型和图模型,4,种模型。,2025/1/5 周日,大数据管理系统,NewSQL,数据库系统,NewSQL,系统是融合了,NoSQL,系统和传统数据库事务管理功能的新型数据库系统。,2025/1/5 周日,大数据管理系统,系统名称,易用性,对事物的支持,扩展性,数据量,成本,代表系统,操作方式,一致性、并发控制,经典关系数据库系统,SQL,系统,易用,SQL,ACID,强一致性,10000,结点,PB,低,BigTable,PNUTS,New SQL,系统,SQL,ACID,10000,结点,P

15、B,低,VoltDB,Spanner,SQL,系统、,NoSQL,系统、,New SQL,系统的比较,2025/1/5 周日,大数据管理系统,MapReduce,技术,MapReduce,技术是,Google,公司于,2004,年提出的大规模并行计算解决方案,主要应用于大规模廉价集群上的大数据并行处理。,MapReduce,是一种并行编程模型。它把计算过程分解为两个阶段,即,Map,阶段和,Reduce,阶段。,2025/1/5 周日,大数据管理系统,大数据管理系统的新格局,面向操作型应用的关系数据库技术,面向分析型应用的关系数据库技术,面向操作型应用的,NoSQL,技术,面向分析型应用的,MapREduce,技术,2025/1/5 周日,小结,什么是大数据,两个大数据应用案例,数据管理技术和数据管理系统,2025/1/5 周日,习题,请阅读本章内容,请自主学习,请自主查找资料,没有作业,2025/1/5 周日,

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2026 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服