资源描述
Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,大数据技术导论,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,大数据技术导论,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,大数据技术导论,大数据技术导论,什么是大数据,定义,1,:,大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合(维基百科定义),Big data usually includes data sets with sizes beyond the ability of commonly-used software tools to capture,curate,manage,and process the data within a tolerable elapsed time.-Wiki,大数据技术导论,什么是大数据,定义,2,:,3V,Big Data are,high-volume,high-velocity,and/or high-variety,information assets that require,new forms,of processing to enable enhanced decision making,insight discovery and process optimization-,Gartner,大数据技术导论,大数据的,4V,特性,V,olume,Volume,V,ariety,Volume,模态多样,V,eracity,Volume,真伪难辨,V,elocity,Volume,速度极快,体量巨大,文本,视频,图片,音频,到,2020,年,数据总量达,40ZB,,,人均,5.2TB,分享的内容条目超过,25,亿个,/,天,,增加数据超过,500TB/,天,大数据技术导论,大数据及其,4V,特征,海量数据规模(,volume,):,TB,级,PB,级,快速处理(,velocity,):,快速数据流转和动态数据体系,多样数据类型(,variety,):,数据类型繁杂,巨大数据价值(,value,):,价值稀疏、多样、不确定,值得关注的大数据的若干研究方向,分布式数据存储与管理:,对大数据进行存储与管理,数据挖掘与商务智能:,对大数据规律进行挖掘与发现,物联网与,CPS,:,产生与形成大数据,云计算及服务平台:,存储和处理大数据及其业务,关注点:,海量数据处理,=,分布式存储与管理,=,云计算,=,数据挖掘与分析,=,海量业务处理,=,大服务,大数据技术导论,什么是大数据,定义,3:,当数据的,规模和性能要求,成为数据管理分析系统的,重要设计和决定因素,时,这样的数据就被称为大数据,不是简单地以数据规模来界定大数据,要考虑数据查询与分析的复杂程度,以目前计算机硬件的发展水平看,针对,简单查询,(如关键字搜索),数据量为,TB,至,PB,级,时可称为大数据,针对,复杂查询,(如数据挖掘),数据量为,GB,至,TB,级,时即可称为大数据,大数据技术导论,什么是大数据,定义,4:,大数据有两个基本特征不同于传统的数据集:,1.,大数据不一定存储于固定的数据库,而是分布在不同地方的网络空间,2.,大数据以半结构化或非结构化数据为主,具有较高的复杂性。,大数据技术导论,内 容,什么是大数据,研究背景,深入思考,大数据技术导论,大数据技术导论,克强指数(,Li keqiang index,),:,耗电量,铁路货运量,银行贷款发放量,英国著名政经杂志,经济学人,认为:克强指数比官方,GDP,数字更能反映中国经济的现实状况。花旗银行在编制时将各自权重分别设定为,40%,、,25%,和,35%,。,大数据技术导论,大数据涉及诸多不同的领域,用户生成数据,Deep Web,数据,多模态内容数据,天文,气象,基因,医学,经济,物理,其他领域,网络与关系数据,大数据技术导论,大数据的价值,科研价值,1998,年图灵奖得主、数据库技术奠基人,Jim Gray,认为数据驱动的研究将是第四种科学研究范式,”The Fourth Paradigm:Data-Intensive Scientific Discovery”,大数据已为多个不同学科的研究工作提供了宝贵机遇,经济价值,麦肯锡全球研究院:大数据可为世界经济创造巨大价值,提高企业和公共部门的生产率和竞争力,并为消费者创造巨大的经济利益,著名,Gartner,公司:到,2015,年,采用大数据和海量信息管理的公司将在各项财务指标上,超过未做准备的竞争对手,20%,工业价值,分析使用:揭示隐藏其中的信息,例如零售业中对门店销售、地理和社会信息的分析能提升对客户的理解,二次开发:创造出新产品和服务。例如,Facebook,通过结合大量用户信息,定制出高度个性化的用户体验,并创造出一种新的广告模式,社会价值,例如:,2009,年淘宝网推出淘宝,CPI,来反映网络购物的消费趋势和价格动态,其他价值,Data is the next Intel Inside.,The future belongs to the companies and people that turn data into products.,-,著名出版公司,OReilly,的创始人,Tim OReilly,大数据技术导论,深网,挖掘,深空,探索,2012,年我国神州九号进入太空,深海,探测,2012,年我国蛟龙号探测水下,7000,米,实现大数据价值的,深度挖据和高度利用,!,大数据的战略意义,大数据的深度资源挖掘与价值利用是国家战略,从,深空,+,深海,深网,大数据技术导论,大数据的现实需求:感知现在,14,感知现在,:历史数据与当前,数据的融合,,潜在线索与,模式的挖掘,,,事件、群体与社会发展,状态的感知,中国发展指数(物价、环境、健康),需求:,掌握现状,如淘宝,CPI,、环境指数,难点:,PB,级社会媒体数据,百亿级日志数据,结构与非结构数据关联,,历史与流式数据并存,犯罪线索挖掘,需求:,发现线索,如罪犯行为轨迹,难点:,PB,级日志数据、,EB,级监控数据中发现嫌疑人及其行为模式犹如,大海捞针,问题与挑战:,数据,规模巨大、模态,多样,、,关联复杂,、,真伪难,辨,现有数据处理方法,感知度量难、特征融合难,、,模式挖掘难,大数据技术导论,大数据的现实需求:预测未来,联合国“全球脉动”,(Global Pulse):,利用网络大数据预测失业率与疾病爆发,等现象,利用数字化的早期预警信号来提前指导援助项目。,问题与挑战:,数据,交互性强、实时性强,、动态演变,,导致传统数据计算方法:,数据生命周期的割裂、时效性,与准确,性难以兼顾、演变趋势难以预测,基于,Twitter,数据的选举结果预测,:,通过对,Twitter,等网上公开数据的实时感知、动态获取与综合分析,结合仿真调控,预测大选结果。,预测未来:,全量数据、流式数据、离线数据,的关联分析,,态势与效应,的判定与调控,揭示事物发展的,演变规律,,进而,对事物发展趋势进行预测,大数据技术导论,美国的大数据规划,-,大数据上升为国家意志,2012,年,3,月,29,日,美国联邦政府整合,6,个部门宣布,2,亿美元的“,Big Data Research and Development Initiative,”,促进采集、存储、维护、管理、分析和共享海量数据的核心技术;,利用以上技术来加速科学与工程发现的步伐,强化国家安全,改变教育和学习;,培养开发和使用大数据技术的人力资源。,Core Technologies for Advancing Big Data Science&Engineering,Data to Decisions,1000 Genomes Project Data Available on Cloud,Scientific Discovery Through Advanced Computing,Big Data for Earth System Science,XDATA,大数据技术导论,欧盟的大数据规划,-,基础设施是先导,Horizon 2020-The Framework Programme for Research and Innovation,面向大数据的数据信息化基础设施(,E-Infrastructure,)是优先资助领域,GRDI 2020-Global Research Data Infrastructures,建立针对科研大数据的基础设施,实现数据管理系统、数字数据图书馆、研究图书馆、数据工具和研究团体的整合,FP7 Call 8 Intelligent Information Management -Big Data,预算,5,千万欧元,,2012-1-17,截止,目标:,提升发现、分析、开采、使用大数据及其基础设施的能力,通过对大数据收集与分析创造更大价值,探索基于大规模互联数据资源与专用基础设施的新型科学研究,面向大数据的人力资源开发,大数据技术导论,学术界对大数据的关注,2012,年,1,月,,Nature Physics,上出版专刊“,Complexity,”,特别指出大数据为科学研究,特别是复杂性科学的研究提供了史无前例的机遇,2008,年,,Nature,出版专刊,“,Big Data,”,从互联网技术、互联网经济学、超级计算、环境科学、生物医药等多个方面介绍了大数据所带来的技术挑战,2011,年,,Science,刊登专刊“,Dealing with Data,”,讨论了数据洪流(,Data deluge,)所带来的挑战,也特别指出倘若能够更有效地组织和使用这些数据,人们将得到更多的机会发挥科学技术对社会发展的巨大推动作用,2012,年,4,月,欧洲信息学与数学研究协会会刊,ERCIM News,上出版专刊“,Big Data,”,讨论了大数据时代的数据管理、数据密集型研究的创新数据库技术等问题,并介绍了欧洲科研机构开展的研究活动和取得的创新性进展,大数据技术导论,大数据会议,/Workshop,BDA:International Conference on Big Data Analytics,cs.du.ac.in/BDA2012/bda12.html,2012:12,月,24-26,日,印度;第,1,届,BigMine:Workshop on Big Data,Streams and Heterogeneous Source Mining:Algorithms,Systems,Programming Models and Applications,www.big-data-mining.org/,2012:,与,SIGKDD,合办;,8,月,12,日,北京;第,1,届,Big Data Europe,系列会议,www.big-data-Vienna,Paris,Frankfurt,London,2013:Stockholm,Warsaw,Istanbul,Big Data Analytics 2012,www.whitehallmedia.co.uk/bda/,6,月,20,日,伦敦,学术会议,工业会议,大数据技术导论,大数据技术导论,内 容,什么是大数据,研究背景,深入思考,大数据技术导论,大数据技术导论,大数据总量增长态势,大数据技术导论,目前大数据的规模,IDC,公司,发布的数字宇宙研究报告称:全球信息总量每两年就会增长一倍,,2011,年全球被创建和被复制的数据总量为,1.8ZB,(10,21,),。,IDC,认为,到下一个十年,(2020,年,),,全球所有,IT,部门拥有服务器的总量将会比现在多出,10,倍,,所管理的数据将会比现在多出,50,倍,。预计到,2020,年,全球将总共拥有,35ZB,的数据量,2011,年企业创造、采集、管理和储存信息的成本已经下降到,2005,年的,1/6,,而同期企业关于数据的总投资自,2005,年以来却反而上升了,50%,。,数据成本的下降助推了数据量的增长,而新的数据源和数据采集技术的出现则大大增加了未来,数据的类型,,数据类型的增加导致现有数据空间,维度增加,,极大地增加了未来大数据的,复杂度,。,大数据技术导论,目前大数据规模示例,天文观测数据:,Sloan Digital Sky Survey:2000,年部署,几周收集的数据比历史上收集的数据还多,每晚收集,200G,的数据,已收集了,140TB=1.4x10,5,GB,的数据,Large Synoptic Survey Telescope:2016,年完成部署,每,5,天可收集,10,5,GB,的数据,物理实验数据:,Large Hadron Collider:,2010,年一年产生,13PB=1.3x10,7,GB,数据,互联网数据,:,Facebook,:,用户超,7,亿,每月上传,10,亿照片,每天生成,3x10,5,GB,日志数据,淘宝:,有,3.7,亿会员,在线商品,8.8,亿,每天交易数千万,产生,2x10,4,GB,数据,IBM,估计,:,全球每天生成,2.5EB=2.5x10,9,GB,数据,,90%,的已有数据是过去两年生成的,Cisco,预测,:,到,2013,年,互联网上的数据将达到,667EB=6.67x10,11,GB,大数据技术导论,收集的数据还没有实现高度共享和深度利用,2.,超大规模:为保证可靠性,需要存储数据副本,实际存储的数据量数倍于净数据量,3.,时空属性:包含时间与位置信息,4.,模糊高维:数据未必精确和完整:传感器误差,网络中断,5.,数据维度高:例如一次体检可以得到数百项生命体征数据,大数据特点,大数据技术导论,大数据与常规数据的对比,常规数据,范围广,模态多,增长快,关联繁,数据规模较小,模态属性受限,增长速度较慢,关联相对简单,稠密与稀疏共存,冗余与缺失并在,动态与静态互现,显式与隐藏均有,特性,问题,描述与存储的挑战,分析与理解的挑战,挖掘与预测的挑战,挑战,大数据,应用目标,相对比较明确,数据结构相对比较简单,时序长,持续时间较短,处理方法通常为模型化、参数化,大数据技术导论,钱学森“综合集成”理论的启示,一个科学新领域,-,开放的复杂巨系统及其方法论,钱学森,-,戴汝为,:“,综合集成,”,(meta-synthesis),科学方法论,“,综合集成,”可以解读为,从定性到定量的科学研讨厅,(hall for workshop),“综合集成”方法论,:1+1 2,J.,自然杂志,1990,大数据技术导论,大数据时代的软件服务工程,拓新“综合集成的迭代整合”科学方法论,“,综合集成”可拓展为以,科研社交网络的民主形式,,从定性到定量的科研整合,“,定性,”:,是指面向领域或主题、运用专家的定性智慧,建立大数据处理知识的,聚类,,形成少数几种可能的大数据价值服务的基本解决方案及其本体。,面向,领域或主题的大数据服务的共性需求解决方案,“,定量,”:,细化解决方案本体,对同类或异类方案之间的,关联,通过语义互操作构造与管理的,关联计算,建立大数据处理的基本知识,;随着时间与空间的变化,不断吸收,与,迭代整合,:,来自,历史大数据,的知识与基于运行时反射机理的,用户网页个性化标注的相关内容,动态,演化生长,形成面向领域或主题的大数据服务的富知识,从定性到定量整合的,科学研讨厅,(hall for workshop),:,支撑领域或主题大数据处理知识的规模化整合及其演化的,PaaS,(,平台作为服务,),,并接入面向多样价值目标的异域异构大数据服务,SaaS,(,软件作为服务,),综合与互操作实现。,PaaS+SaaS,厚积簿发,:,面向领域或主题的富知识,实现在线流式大数据分析的,可伸缩、可选择的按需价值服务,科学家与鞋匠,所见,略同,“,定性,”,:,鞋匠按手工方式做鞋,因各人尺寸各异,觉得鞋子采用个案生产,天经地义;,但做到第,10000双时,感悟复杂中存在简单,几十种鞋码足以满足大众个性,他不再做鞋,开鞋厂去了,;,“鞋码”,,是一种“聚类”的定性感悟;,“,定性,”,到,“,定量,”,的整合,:,不仅是,“,鞋码,”,,还要考虑与市场竞争的关联、群体与时尚的技术整合,不断的累进创新、可持续发展,大数据技术导论,科学范式的内涵,“,范式,”,是指特定的科学共同体从事某一类科学活动所必须,遵循的公认“模式”,,它包括共有的,世界观、基本理论、范例、方法、手段、标准等与科学研究有关的所有内容,。,科学革命的结构,库恩,1962,大数据技术导论,Jim Gray,2007,年,已故的图灵奖得主吉姆,格雷(,Jim Gray,)在他最后一次演讲中描绘了关于数据密集型科研发现的,“第四范式,(Fourth Paradigm),”,愿景。,第四范式,“综合集成的迭代整合”科学方法论,以大数据为基础的数据密集型科研,从定性到定量整合的科研厅,(hall for workshop),如何从大数据中分析发现内在科学规律,?,形成面向大数据领域或主题的富知识支撑,如何发挥内在规律的价值,?,面向领域或主题富知识的按需价值服务,只有在领域或主题知识逐步丰富的前提下,再过渡到第三范,式的方法,将大数据科研从第三范式,(,计算机模拟,),中分离出来单独作为科研,第四范式,是因为其,研究方式不同于基于数学模型的传统研究方式,不仅是科研方式的转变,也是人们思维方式的大变化,对研究领域的深刻理解和数据量的积累,是一个迭代累进的过程,往往是,先采用第四范式,等领域知识逐步丰富了再过渡到第三范式,李国杰,“,大数据研究的科学价值”,中国计算机学会通讯,第,8,卷 第,9,期,2012,年,9,月,大数据技术导论,
展开阅读全文