ImageVerifierCode 换一换
格式:PPT , 页数:31 ,大小:10MB ,
资源ID:12109808      下载积分:10 金币
快捷注册下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/12109808.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

开通VIP折扣优惠下载文档

            查看会员权益                  [ 下载后找不到文档?]

填表反馈(24小时):  下载求助     关注领币    退款申请

开具发票请登录PC端进行申请

   平台协调中心        【在线客服】        免费申请共赢上传

权利声明

1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:0574-28810668;投诉电话:18658249818。

注意事项

本文(大数据技术导论讲义.ppt)为本站上传会员【精****】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4009-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

大数据技术导论讲义.ppt

1、Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,大数据技术导论,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,大数据技术导论,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,大数据技术导论,大数据技术导论,什么是大数据,定义,1,:,大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合(维基百科定义),

2、Big data usually includes data sets with sizes beyond the ability of commonly-used software tools to capture,curate,manage,and process the data within a tolerable elapsed time.-Wiki,大数据技术导论,什么是大数据,定义,2,:,3V,Big Data are,high-volume,high-velocity,and/or high-variety,information assets that require,ne

3、w forms,of processing to enable enhanced decision making,insight discovery and process optimization-,Gartner,大数据技术导论,大数据的,4V,特性,V,olume,Volume,V,ariety,Volume,模态多样,V,eracity,Volume,真伪难辨,V,elocity,Volume,速度极快,体量巨大,文本,视频,图片,音频,到,2020,年,数据总量达,40ZB,,,人均,5.2TB,分享的内容条目超过,25,亿个,/,天,,增加数据超过,500TB/,天,大数据技术导论

4、大数据及其,4V,特征,海量数据规模(,volume,):,TB,级,PB,级,快速处理(,velocity,):,快速数据流转和动态数据体系,多样数据类型(,variety,):,数据类型繁杂,巨大数据价值(,value,):,价值稀疏、多样、不确定,值得关注的大数据的若干研究方向,分布式数据存储与管理:,对大数据进行存储与管理,数据挖掘与商务智能:,对大数据规律进行挖掘与发现,物联网与,CPS,:,产生与形成大数据,云计算及服务平台:,存储和处理大数据及其业务,关注点:,海量数据处理,=,分布式存储与管理,=,云计算,=,数据挖掘与分析,=,海量业务处理,=,大服务,大数据技术导论,什么

5、是大数据,定义,3:,当数据的,规模和性能要求,成为数据管理分析系统的,重要设计和决定因素,时,这样的数据就被称为大数据,不是简单地以数据规模来界定大数据,要考虑数据查询与分析的复杂程度,以目前计算机硬件的发展水平看,针对,简单查询,(如关键字搜索),数据量为,TB,至,PB,级,时可称为大数据,针对,复杂查询,(如数据挖掘),数据量为,GB,至,TB,级,时即可称为大数据,大数据技术导论,什么是大数据,定义,4:,大数据有两个基本特征不同于传统的数据集:,1.,大数据不一定存储于固定的数据库,而是分布在不同地方的网络空间,2.,大数据以半结构化或非结构化数据为主,具有较高的复杂性。,大数据技

6、术导论,内 容,什么是大数据,研究背景,深入思考,大数据技术导论,大数据技术导论,克强指数(,Li keqiang index,),:,耗电量,铁路货运量,银行贷款发放量,英国著名政经杂志,经济学人,认为:克强指数比官方,GDP,数字更能反映中国经济的现实状况。花旗银行在编制时将各自权重分别设定为,40%,、,25%,和,35%,。,大数据技术导论,大数据涉及诸多不同的领域,用户生成数据,Deep Web,数据,多模态内容数据,天文,气象,基因,医学,经济,物理,其他领域,网络与关系数据,大数据技术导论,大数据的价值,科研价值,1998,年图灵奖得主、数据库技术奠基人,Jim Gray,认为数

7、据驱动的研究将是第四种科学研究范式,”The Fourth Paradigm:Data-Intensive Scientific Discovery”,大数据已为多个不同学科的研究工作提供了宝贵机遇,经济价值,麦肯锡全球研究院:大数据可为世界经济创造巨大价值,提高企业和公共部门的生产率和竞争力,并为消费者创造巨大的经济利益,著名,Gartner,公司:到,2015,年,采用大数据和海量信息管理的公司将在各项财务指标上,超过未做准备的竞争对手,20%,工业价值,分析使用:揭示隐藏其中的信息,例如零售业中对门店销售、地理和社会信息的分析能提升对客户的理解,二次开发:创造出新产品和服务。例如,Fac

8、ebook,通过结合大量用户信息,定制出高度个性化的用户体验,并创造出一种新的广告模式,社会价值,例如:,2009,年淘宝网推出淘宝,CPI,来反映网络购物的消费趋势和价格动态,其他价值,Data is the next Intel Inside.,The future belongs to the companies and people that turn data into products.,-,著名出版公司,OReilly,的创始人,Tim OReilly,大数据技术导论,深网,挖掘,深空,探索,2012,年我国神州九号进入太空,深海,探测,2012,年我国蛟龙号探测水下,7000,

9、米,实现大数据价值的,深度挖据和高度利用,!,大数据的战略意义,大数据的深度资源挖掘与价值利用是国家战略,从,深空,+,深海,深网,大数据技术导论,大数据的现实需求:感知现在,14,感知现在,:历史数据与当前,数据的融合,,潜在线索与,模式的挖掘,,,事件、群体与社会发展,状态的感知,中国发展指数(物价、环境、健康),需求:,掌握现状,如淘宝,CPI,、环境指数,难点:,PB,级社会媒体数据,百亿级日志数据,结构与非结构数据关联,,历史与流式数据并存,犯罪线索挖掘,需求:,发现线索,如罪犯行为轨迹,难点:,PB,级日志数据、,EB,级监控数据中发现嫌疑人及其行为模式犹如,大海捞针,问题与挑战:

10、数据,规模巨大、模态,多样,、,关联复杂,、,真伪难,辨,现有数据处理方法,感知度量难、特征融合难,、,模式挖掘难,大数据技术导论,大数据的现实需求:预测未来,联合国“全球脉动”,(Global Pulse):,利用网络大数据预测失业率与疾病爆发,等现象,利用数字化的早期预警信号来提前指导援助项目。,问题与挑战:,数据,交互性强、实时性强,、动态演变,,导致传统数据计算方法:,数据生命周期的割裂、时效性,与准确,性难以兼顾、演变趋势难以预测,基于,Twitter,数据的选举结果预测,:,通过对,Twitter,等网上公开数据的实时感知、动态获取与综合分析,结合仿真调控,预测大选结果。,预测未

11、来:,全量数据、流式数据、离线数据,的关联分析,,态势与效应,的判定与调控,揭示事物发展的,演变规律,,进而,对事物发展趋势进行预测,大数据技术导论,美国的大数据规划,-,大数据上升为国家意志,2012,年,3,月,29,日,美国联邦政府整合,6,个部门宣布,2,亿美元的“,Big Data Research and Development Initiative,”,促进采集、存储、维护、管理、分析和共享海量数据的核心技术;,利用以上技术来加速科学与工程发现的步伐,强化国家安全,改变教育和学习;,培养开发和使用大数据技术的人力资源。,Core Technologies for Advancin

12、g Big Data Science&Engineering,Data to Decisions,1000 Genomes Project Data Available on Cloud,Scientific Discovery Through Advanced Computing,Big Data for Earth System Science,XDATA,大数据技术导论,欧盟的大数据规划,-,基础设施是先导,Horizon 2020-The Framework Programme for Research and Innovation,面向大数据的数据信息化基础设施(,E-Infrast

13、ructure,)是优先资助领域,GRDI 2020-Global Research Data Infrastructures,建立针对科研大数据的基础设施,实现数据管理系统、数字数据图书馆、研究图书馆、数据工具和研究团体的整合,FP7 Call 8 Intelligent Information Management -Big Data,预算,5,千万欧元,,2012-1-17,截止,目标:,提升发现、分析、开采、使用大数据及其基础设施的能力,通过对大数据收集与分析创造更大价值,探索基于大规模互联数据资源与专用基础设施的新型科学研究,面向大数据的人力资源开发,大数据技术导论,学术界对大数据的

14、关注,2012,年,1,月,,Nature Physics,上出版专刊“,Complexity,”,特别指出大数据为科学研究,特别是复杂性科学的研究提供了史无前例的机遇,2008,年,,Nature,出版专刊,“,Big Data,”,从互联网技术、互联网经济学、超级计算、环境科学、生物医药等多个方面介绍了大数据所带来的技术挑战,2011,年,,Science,刊登专刊“,Dealing with Data,”,讨论了数据洪流(,Data deluge,)所带来的挑战,也特别指出倘若能够更有效地组织和使用这些数据,人们将得到更多的机会发挥科学技术对社会发展的巨大推动作用,2012,年,4,月,

15、欧洲信息学与数学研究协会会刊,ERCIM News,上出版专刊“,Big Data,”,讨论了大数据时代的数据管理、数据密集型研究的创新数据库技术等问题,并介绍了欧洲科研机构开展的研究活动和取得的创新性进展,大数据技术导论,大数据会议,/Workshop,BDA:International Conference on Big Data Analytics,cs.du.ac.in/BDA2012/bda12.html,2012:12,月,24-26,日,印度;第,1,届,BigMine:Workshop on Big Data,Streams and Heterogeneous Source M

16、ining:Algorithms,Systems,Programming Models and Applications,www.big-data-mining.org/,2012:,与,SIGKDD,合办;,8,月,12,日,北京;第,1,届,Big Data Europe,系列会议,www.big-data-Vienna,Paris,Frankfurt,London,2013:Stockholm,Warsaw,Istanbul,Big Data Analytics 2012,www.whitehallmedia.co.uk/bda/,6,月,20,日,伦敦,学术会议,工业会议,大数据技术导

17、论,大数据技术导论,内 容,什么是大数据,研究背景,深入思考,大数据技术导论,大数据技术导论,大数据总量增长态势,大数据技术导论,目前大数据的规模,IDC,公司,发布的数字宇宙研究报告称:全球信息总量每两年就会增长一倍,,2011,年全球被创建和被复制的数据总量为,1.8ZB,(10,21,),。,IDC,认为,到下一个十年,(2020,年,),,全球所有,IT,部门拥有服务器的总量将会比现在多出,10,倍,,所管理的数据将会比现在多出,50,倍,。预计到,2020,年,全球将总共拥有,35ZB,的数据量,2011,年企业创造、采集、管理和储存信息的成本已经下降到,2005,年的,1/6,,而

18、同期企业关于数据的总投资自,2005,年以来却反而上升了,50%,。,数据成本的下降助推了数据量的增长,而新的数据源和数据采集技术的出现则大大增加了未来,数据的类型,,数据类型的增加导致现有数据空间,维度增加,,极大地增加了未来大数据的,复杂度,。,大数据技术导论,目前大数据规模示例,天文观测数据:,Sloan Digital Sky Survey:2000,年部署,几周收集的数据比历史上收集的数据还多,每晚收集,200G,的数据,已收集了,140TB=1.4x10,5,GB,的数据,Large Synoptic Survey Telescope:2016,年完成部署,每,5,天可收集,10,

19、5,GB,的数据,物理实验数据:,Large Hadron Collider:,2010,年一年产生,13PB=1.3x10,7,GB,数据,互联网数据,:,Facebook,:,用户超,7,亿,每月上传,10,亿照片,每天生成,3x10,5,GB,日志数据,淘宝:,有,3.7,亿会员,在线商品,8.8,亿,每天交易数千万,产生,2x10,4,GB,数据,IBM,估计,:,全球每天生成,2.5EB=2.5x10,9,GB,数据,,90%,的已有数据是过去两年生成的,Cisco,预测,:,到,2013,年,互联网上的数据将达到,667EB=6.67x10,11,GB,大数据技术导论,收集的数据还

20、没有实现高度共享和深度利用,2.,超大规模:为保证可靠性,需要存储数据副本,实际存储的数据量数倍于净数据量,3.,时空属性:包含时间与位置信息,4.,模糊高维:数据未必精确和完整:传感器误差,网络中断,5.,数据维度高:例如一次体检可以得到数百项生命体征数据,大数据特点,大数据技术导论,大数据与常规数据的对比,常规数据,范围广,模态多,增长快,关联繁,数据规模较小,模态属性受限,增长速度较慢,关联相对简单,稠密与稀疏共存,冗余与缺失并在,动态与静态互现,显式与隐藏均有,特性,问题,描述与存储的挑战,分析与理解的挑战,挖掘与预测的挑战,挑战,大数据,应用目标,相对比较明确,数据结构相对比较简单,

21、时序长,持续时间较短,处理方法通常为模型化、参数化,大数据技术导论,钱学森“综合集成”理论的启示,一个科学新领域,-,开放的复杂巨系统及其方法论,钱学森,-,戴汝为,:“,综合集成,”,(meta-synthesis),科学方法论,“,综合集成,”可以解读为,从定性到定量的科学研讨厅,(hall for workshop),“综合集成”方法论,:1+1 2,J.,自然杂志,1990,大数据技术导论,大数据时代的软件服务工程,拓新“综合集成的迭代整合”科学方法论,“,综合集成”可拓展为以,科研社交网络的民主形式,,从定性到定量的科研整合,“,定性,”:,是指面向领域或主题、运用专家的定性智慧,建

22、立大数据处理知识的,聚类,,形成少数几种可能的大数据价值服务的基本解决方案及其本体。,面向,领域或主题的大数据服务的共性需求解决方案,“,定量,”:,细化解决方案本体,对同类或异类方案之间的,关联,通过语义互操作构造与管理的,关联计算,建立大数据处理的基本知识,;随着时间与空间的变化,不断吸收,与,迭代整合,:,来自,历史大数据,的知识与基于运行时反射机理的,用户网页个性化标注的相关内容,动态,演化生长,形成面向领域或主题的大数据服务的富知识,从定性到定量整合的,科学研讨厅,(hall for workshop),:,支撑领域或主题大数据处理知识的规模化整合及其演化的,PaaS,(,平台作为服

23、务,),,并接入面向多样价值目标的异域异构大数据服务,SaaS,(,软件作为服务,),综合与互操作实现。,PaaS+SaaS,厚积簿发,:,面向领域或主题的富知识,实现在线流式大数据分析的,可伸缩、可选择的按需价值服务,科学家与鞋匠,所见,略同,“,定性,”,:,鞋匠按手工方式做鞋,因各人尺寸各异,觉得鞋子采用个案生产,天经地义;,但做到第,10000双时,感悟复杂中存在简单,几十种鞋码足以满足大众个性,他不再做鞋,开鞋厂去了,;,“鞋码”,,是一种“聚类”的定性感悟;,“,定性,”,到,“,定量,”,的整合,:,不仅是,“,鞋码,”,,还要考虑与市场竞争的关联、群体与时尚的技术整合,不断的累

24、进创新、可持续发展,大数据技术导论,科学范式的内涵,“,范式,”,是指特定的科学共同体从事某一类科学活动所必须,遵循的公认“模式”,,它包括共有的,世界观、基本理论、范例、方法、手段、标准等与科学研究有关的所有内容,。,科学革命的结构,库恩,1962,大数据技术导论,Jim Gray,2007,年,已故的图灵奖得主吉姆,格雷(,Jim Gray,)在他最后一次演讲中描绘了关于数据密集型科研发现的,“第四范式,(Fourth Paradigm),”,愿景。,第四范式,“综合集成的迭代整合”科学方法论,以大数据为基础的数据密集型科研,从定性到定量整合的科研厅,(hall for workshop)

25、如何从大数据中分析发现内在科学规律,?,形成面向大数据领域或主题的富知识支撑,如何发挥内在规律的价值,?,面向领域或主题富知识的按需价值服务,只有在领域或主题知识逐步丰富的前提下,再过渡到第三范,式的方法,将大数据科研从第三范式,(,计算机模拟,),中分离出来单独作为科研,第四范式,是因为其,研究方式不同于基于数学模型的传统研究方式,不仅是科研方式的转变,也是人们思维方式的大变化,对研究领域的深刻理解和数据量的积累,是一个迭代累进的过程,往往是,先采用第四范式,等领域知识逐步丰富了再过渡到第三范式,李国杰,“,大数据研究的科学价值”,中国计算机学会通讯,第,8,卷 第,9,期,2012,年,9,月,大数据技术导论,

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2026 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服