1、单击此处编辑母版样式,第二级,第三级,第四级,第五级,第六级,第七级,第八级,*,单击此处编辑母版标题样式,2013,中国电信智慧城市创新发展大会,大数据及其应用,倪光南编写,201,3,年,5,月,17,日 南京,1,2025/1/5 周日,从商业智能(,BI,)到大数据,大数据从数据挖掘、商业智能(,BI,)发展而来,经典实例如下:,“,啤酒与尿布,”,:,20,世纪,90,年代沃尔玛的超市管理人员分析销售数据时发现了一个令人难于理解的现象:在某些特定的情况下,,“,啤酒,”,与,“,尿布,”,两件看上去毫无关系的商品会经常出现在同一个购物篮中。这样,他们在尿布货柜附近放置了啤酒,结果销
2、量大幅上升。,美国第二大超市,Target,为了抓住含金量很高的一个顾客群体,孕妇,通过数据挖掘建立了一个模型,选出了,25,种典型商品的消费数据构建了,“,怀孕预测指数,”,,由此,它能在很小的误差范围内预测到顾客的怀孕情况,从而能早早地把孕妇优惠广告夹杂在其他一大堆与怀孕不相关的商品广告中发出去,有效地招揽了孕妇顾客群。这种优惠广告间接地令一个蒙在鼓里的父亲意外发现他高中生的女儿怀孕了,一时轰动全美。,2,2025/1/5 周日,怎样发展到大数据?,随着,互联网、移动互联网的发展,,1.,数据产生和发送的速度和频率急剧增长;,2.,数据源的数目和种类上升。全球范围内可用的数字数据从,200
3、5,年的,150EB,增长到,2010,年的,1200EB,。预计在以后一些年里将年增长,40%,,即相当于人口增长速度的,40,倍。这意味着数字数据从,2007,到,2020,将增长,44,倍,或每,20,个月翻一番。,这些,新的数字数据源包括搜索、新闻、博客、微博等社交网、移动电话和短信、热线电话、监控数据、遥测数据,,产生的新数据的特点是:一般以数字方式产生;往往是我们日常生活或与数字服务交互的副产品;一般是自动收集、有在数据产生时同时提取和存储它的系统;在地理上或短时期里可以跟踪,如手机位置数据或通话持续时间;可连续地进行实时或近乎实时的分析。,这些,新的情况再加上云计算的发展,为大数
4、据提供了合适的环境和处理能力,推动数据挖掘、商业智能发展到大数据。,3,2025/1/5 周日,商业智能和大数据的比较,名称,商业智能,大数据,数据量,不太大,常为,TB,量级,(,10,12,Byte,),大,常为,PB,量级,(,10,15,Byte,),数据特性,结构化信息,非实时信息,主要为非结构化信息,如文本、图形、音频、视频、遥感遥测信息,,大多是实时信息,数据来源,主要为企业交易数据,主要是社会日常运作和各种服务中实时产生的数字数据,如在线搜索、新闻、博客、微博等社交媒体、移动电话和短信、热线、电子商务交易、遥感遥测数据,应用领域,主要是自然科学范畴,主要是社会科学范畴,如经济学
5、和社会学应用、政治政策应用等,4,2025/1/5 周日,大数据的一些特性,大数据的“实时”性并不意味着真正的实时,而往往是近似的“实时”:,在一个相对短、相对新的时间里产生并可资利用;,在一个与场景有关的短时期里,即能容许作出响应,并判定效果的一个时间段里(即容许产生一个反馈过程)产生并可资利用。,新的数字数据源的特点:,从人们使用数字服务被动收集到的交易数据,联机数据,网页搜索、新闻媒体和社会媒体的交互数据,物理传感器数据,居民报告或群体源的主动数据,5,2025/1/5 周日,科学研究的第四范式,图灵奖获得者吉姆格雷(,Jim Gray,)基于,e-Science,的思路提出:大数据是科
6、学研究的第四范式(,the fourth paradigm,)。,e-Science,是英国科学技术局研究理事会前任会长约翰泰勒,(John Taylor),提出的,,它,实际上是一种基础设施,,它,提供了一种信息化的科学研究的环境和平台,使得不同学科领域的研究和科研活动能够有针对地开发特定的科学研究与应用。实际上,像现在的核反应模拟、航空航天设计、生命科学研究无一不依赖于高性能计算机及相应的数值计算方法,属于计算密集型科研。,第四范式的思想是和,e-Science,一脉相承的,第四范式,是从,计算密集型科研,发展到,以大数据为基础的数据密集型,科,研方法,从目前看来,它,将在越来越多领域的研
7、究中发挥重大的甚至是决定性的作用。,6,2025/1/5 周日,科学研究方法(范式)的发展,7,资料来源:潘柱廷,攻击大数据,科学研究范式(,paradigm,)的发展过程,最早是实验型科研(,Experimental Science,),这已有几千年的历史了,后来发展到理论型科研(,Theoretical Science,),这也有数百年的历史了,近几十年发展到计算型科研(,Computational Science,),现在则推进到第四范式以大数据为基础的数据密集型科研(,Data-intensive Science,)。,2025/1/5 周日,各种科学研究范式的关系,这几种范式在实际科
8、研中往往同时使用,相辅相成。,第一种范式即实验型科研是最基本的方法,因为任何科学都需要用实验来检验;理论在未经实验证实前,只能作为假设,所以第二种范式即理论型科研是以实验为基础并依赖于实验验证的;第三种范式即计算型科研往往需要利用第二种范式取得的成果,即需要在理论的指导下,利用计算能力发挥理论的作用;同样,第四种范式可以认为是第三种范式的延伸,它们都依赖于计算能力,只是第三种范式是在已知规律的情况下,运用计算能力发挥规律的作用,而第四种范式则是在未知规律的情况下,运用计算能力从大数据中发现规律并发挥规律的作用。,第四种范式,是否将成为基本的科研方法还有待于实践的进一步检验,但其重要性已毋庸置疑
9、8,2025/1/5 周日,www3.weforum.org/docs/WEF_TC_MFS_BigDataBigImpact_Briefing_2012.pdf,大数据生态系统,个人:,数据形式,:群体源信息、被吸取数据,动力,:价格,/,优惠、改进服务,要求,:隐私权标准、选择权,私人部门:,数据形式,:交易数据、消费和用户信息,动力,:改进客户知识和预测趋势能力,要求,:商业模式、保敏感信息,公共部门:,数据形式,:统计、保健、税收、经费信息、设施数据,动力,:改进服务保障、提升经费效率,要求,:隐私权标准、选择权,数据挖掘,和分析,对突发事件更快的跟踪和响应,对危机性质和变化的更
10、好了解,对需要服务地区的准确定位,对供求关系的预测能力,共享,数据,9,2025/1/5 周日,大数据的一个典型处理流程,10,资料来源:,Challenges and Opportunities with Big Data,典型的大数据处理流程包括:数据的获取和记录、数据的清洁,/,抽取,/,标注、数据的整合,/,聚类,/,表达、数据的分析,/,建模和数据解释等,5,个阶段。在处理的过程中,异构性、规模、即时性、复杂性和隐私权等问题是大数据想要创造价值所需解决的困难。,2025/1/5 周日,大数据和云计算,如果说大数据是一座蕴含巨大价值的矿藏,云计算则可以被看作是采矿作业的得力工具;,而且
11、云计算也是为了解决大数据等“大”问题而发展而来的技术趋势,没有大数据的,需求,,云计算的功用也将得不到完全发挥。因此,大数据与云计算是相辅相成的。,对于大数据而言,云计算的意义不仅在于通过相关技术解决各种具体问题,还在于通过云计算构建一种通用、高效和可靠的大数据支撑平台,掌握以数据流为中心的系统集成思想,在大数据应用层面探索更广阔的内容。,为了更好地利用大数据的价值,我们需要用一种新的思路来考虑支撑整个数据处理过程的体系架构,即把分层的思路从单一系统的架构中延展到整个平台范围,将整个数据处理平台按照分层的思路统一规划设计,依据系统不同组件的物理和逻辑特性在系统范围内分层。,11,2025/
12、1/5 周日,12,大数据支撑平台的分层思路,来源:姚宏宇,,大数据与云计算,2025/1/5 周日,数据可视化,13,数据可视化是,关于数据,之视觉表现形式的研究;其中,这种数据的视觉表现形式被定义为一种以某种概要形式抽提出来的信息,包括相应信息单位的各种属性和变量。数据可视化主要旨在借助于图形化手段,清晰有效地传达与沟通信息,并且早在大数据出现之前就已经被广泛地应用了;但在大数据领域,可视化技术具有了更大的作用。,美国全国枪击死亡情况,来源:可视化数据告诉你美国枪击案到底多严重,2025/1/5 周日,internet-,俄国,意大利,德国,荷兰,法国,巴西,印度,日本,西班牙,伊朗,美国
13、中国,可视化技术应用实例,14,2025/1/5 周日,关联性分析,、发现异常,很多时候,从新的数字数据源提供的数据中发现的关联性会正确地反映传统的官方统计,从而能提供更便宜、更快的、近似的预测。,发现相关性只是手段,重要目的是利用相关性以及其他手段来发现人类社会活动的异常,帮助制订正确的反应策略。,许多新数据源的价值不仅在于它的规模和速度,还在于它所包含信息的丰富性。在许多情况下,大数据不仅是官方统计数据的代替或作为它的近似,而且能对它进行补充,增加深度和细节。,定性的社会媒体信息越多,越有助于描绘出一个关于事件的全貌,便于做出快速响应。这里,大数据的规模、速度和数据本性的组合具有很大的价
14、值。,15,2025/1/5 周日,“,Google,登革热趋势,”,利用搜索数据近乎实时地估计登革热在全球的传播情况,(,蓝色,该系统估计数据,,,橙色,巴西官方数据,),Source:,www.google.org/denguetrends/about/how.html,16,2025/1/5 周日,美国流感传染率的官方数据与基于推特的数据比较,Source:You Are What You Tweet:Analyzing Twitter for Public Health.M.J.Paul and M.Dredze,2011.www.cs.jhu.edu/%7Empaul/files/2
15、011.icwsm.twitter_health.pdf,17,2025/1/5 周日,在印尼的推特上,讨论米价的信息和实际米价的关系,推特上关于米价的贴子,(每月),实际米价,18,2025/1/5 周日,观察社会媒体揭示了领先或滞后于失业高峰的某些标志,失业高峰,滞后标志,增加典押和出租,减少保健开支,取消度假,领先标志,降低汽车档次,减少杂品开销,多乘公共交通,19,2025/1/5 周日,大数据时代的,美国总统选举,奥巴马竞选活动经理,Jim Messina,:,“,我们要用数据去衡量这场竞选活动中的每一件事情。,”,芝加哥竞选总部还任命,Rayid Ghani,为,“,首席科学家,”
16、此人是埃森哲技术实验室的分析性研究带头人,新的大数据库能让竞选团队筹集到比他们曾预料到的更多的资金。,华盛顿那些基于直觉与经验决策的竞选人士的优势在急剧下降,取而代之的是数量分析专家与电脑程序员的工作,一位官员说:,“,在政治领域,大数据的时代已经到来。,”,20,2025/1/5 周日,21,2025/1/5 周日,国家信息中心:,中国政府网站发展数据报告,2012,用大数据指导政府网站建设,22,2025/1/5 周日,国家信息中心:,中国政府网站发展数据报告,2012,用大数据指导政府网站建设(续),23,2025/1/5 周日,大数据对决策者的意义,早期预警:早期检测居民使用数字设
17、备和服务中的异常可以在时间上快速响应危机;,实时感知:大数据可以描绘一幅关于现实情况的很细粒度的且当前的表述,它有助于制定行动计划和政策;,实时反馈:大数据具有实时监测居民的能力,使其可用来了解哪里政策和行动计划失效并作出必要的调整。,应当指出:实时的大数据信息不能代替政府决策时传统应用的定量的统计证据,但如正确理解的话,它可以表明哪里需要做进一步的调查(在时间不太紧要的情况下),或者哪里需要作出立即的响应(在发生自然灾难情况下),而这是其他手段无法做到的。,24,2025/1/5 周日,对大数据的挑战,应用大数据面临若干挑战;一方面关系到数据本身,包括它的获取、共享和消除对隐私的顾虑。另一方
18、面是它的分析。,隐私是最敏感的问题,涉及观念上、法律上以及技术上的问题。按照,ITU,的定义:隐私权是个人控制或影响关于他们自身的信息是否披露的权利。我们必须警惕新技术的兴起可能会对它造成损害并应设置必要的防护。,对新的数据源进行分析方面的挑战:如何得到合适的描述即对数据进行摘要;如何通过演绎,解释数据或使数据有意义;如何定义和检测异常,。,数据分析不当可能造成误导,表面的相关不一定表明真正的因果关系。,25,2025/1/5 周日,学术信誉,数据复制,跨领域互操作,法律支持,隐私权!,来源:,gking.harvard.edu/files/datarich.pdf,大数据的未来面临保护隐私权
19、等挑战,26,2025/1/5 周日,相关不一定意味着有因果关系:,(蓝色:增重,,红色:出租公寓,),27,2025/1/5 周日,把握大数据的机遇,当今世界进入大数据时代是一客观趋势,数据成为宝贵的资产,能否充分利用大数据关系到一个系统的智慧,一个企业的前途,一个机构的效率,一项决策的成败,。,市场研究公司,IDC,预测的,2013,年九大科技发展趋势,其中第七个趋势就是“大数据将发展壮大”。,IDC,认为,“就如,2012,年移动设备和云计算成为了每家公司的必需品那样,大数据将在,2013,年被每一个人所使用。”,IDC,表示,大数据市场的年增长率将达到,40%,,,2012,年该市场的
20、规模约为,50,亿美元,到,2013,年规模为,100,亿美元,到,2017,年规模将达到,530,亿美元,。,另,一家著名的咨询公司麦肯锡的全球研究所也认为,大数据是下一个创新、竞争和生产力提高的前沿,。,28,2025/1/5 周日,参考文献,1UN.Global Pulse:,Big Data for Development:Challenges&Opportunities,,,May 2012.,2Executive Office of the President:,Big Data Across the Federal Government,March 29,2012,3A comm
21、unity white paper developed by leading researchers across the United States,:,Challenges and Opportunities with Big Data,,,2012.,4国家信息中心网络政府研究中心课题组,:,中国政府网站发展数据报告2012,,,2012,5,涂子沛:大数据:正在到来的数据革命,广西师范大学出版社,,2012-07-01,6,邬贺铨:大数据的机遇与挑战,,2011-11-14,7,赛迪顾问股份有限公司:大数据产业生态战略研究(,2012,年),,2012.,8,百度文库,专业资料,IT/,计算机:啤酒与尿布,,2013.,9,吴迪:,商业巨头是怎么玩转大数据的?,商业价值,,,2012-10-21,10boxi,:,大数据时代,,2012/02/14,,,http/周日,谢 谢,!,30,2025/1/5 周日,






