资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,|135,1,大数据的产业价值及发展趋势,1,|135,一、重新理解大数据,2,|135,(一)大数据概念及其特点,3,|135,数据爆炸,知识贫乏,难以决策?,数据,知识,决策,关联,模式,趋势,相关,分类,市场定位,资金分配,产品选择,广告营销,时机选择,位置选择,行业细化,数字化,多媒体,多维度,大规模,细粒度,4,|135,1,、大数据概念的发展脉络,2008,2010,2011,Nature,推出了,Big Data,专刊;,2008,首次列入,“,维基百科,”,条目;,2010.4,Science,推出专刊,说明大数据对于科学研究的重要性;,2011.2,“,大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。,”,5,|135,2011,2012,麦肯锡全球研究院发布一份报告,大数据:创新、竞争和生产力的下一个新领域,;,2011.5,IBM,在产品发布会上主推大数据概念;,2011.11,美国国家科学基金发布大数据指南,指出大数据是海量、多样、分布的、异构的数据。,2012,“,大数据是指具有以下三个特征的数据:大数据量、快速增长及多数据来源及类型的数据。,4V,特性:,大规模、多样化、快速增长、潜藏价值。,6,|135,2,、大数据的构成,7,|135,大数据包括交易数据和交互数据集在内的所有数据集。,大数据,=,海量数据,+,复杂类型的数据,海量交易,数据,海量交互,数据,海量数据,处理,8,|135,海量交易数据,企业内部的经营交易信息,主要包括联机交易数据和联机分析数据,是结构化的、通过关系数据库进行管理和访问的静态、历史数据。通过这些数据,我们能了解过去发生了什么。,9,|135,海量交互数据,源于,Facebook,、,Twitter,及其他来源的社交媒体数据构成。包括呼叫详细记录,CDR,、设备和传感器信息、,GPS,和地理定位映射数据、通过管理文件传输,Manage File Transfer,协议传送的海量图像文件、,Web,文本和点击流数据、科学信息、电子邮件等等,可以预测未来。,10,|135,海量数据处理,大数据的涌现已经催生出了设计用于数据密集型处理的架构,例如具有开放源码、在商品硬件群中运行的,Apache Hadoop,。,11,|135,3,、大数据的基本概念,大数据是一种数据,具有可扩展性、多样性、复杂性的特点,需要一种新的架构、新的技术、新的算法以及新的分析工具去管理这些数据,同时从中抽取隐含在内的重要信息。(,“,Big Data,”,is data whose scale,diversity,and complexity require new architecture,techniques,algorithms,and analytics to manage it and extract value and hidden knowledge from it.,),12,|135,“,大数据,”,是指数据海量、计算复杂的数据集合,其在一定时间内难以依靠已有数据处理技术来进行有效的采集、管理和分析。大数据通常满足以下,“,4V,”,特点:,规模,巨大,产生,高速,形式多样,信息,价值,13,|135,大数据最核心的价值是,:,社交网络,让我们越来越多地从数据中观察到人类社会的复杂行为模式。社交网络,为大数据提供了信息汇集、分析的第一手资料。从庞杂的数据背后挖掘、分析用户的行为习惯和喜好,找出更符合用户“口味”的产品和服务,并结合用户需求有针对性地调整和优化自身,就是大数据的价值。,14,|135,15,|135,4,、大数据的特点,形式多样(,Variety,),信息价值,(,Value,),产生高速(,Velocity,),规模巨大(,Volume,),非结构化数据的超,大规模,比,结构化数据增长快,10,倍到,50,倍。,实时分析而非批量式,分析,数据输入,、处理与,丢弃,立竿见影,而非事后,见效。,异构性(,文本、图像、视频、机器数据,),模式不明显,语法语义不连贯。,大量的不相关,信息,对未来趋势与模式的深度复杂分析。,16,|135,非结构化数据,:,非结构化数据库是指其字段长度可变,并且每个字段的记录又可以由可重复或不可重复的子字段构成的数据库,用它不仅可以处理结构化数据(如数字、符号等信息)而且更适合处理非结构化数据(全文文本、图象、声音、影视、超媒体等信息),结构化数据,:,结构化数据,简单来说就是数据库。结合到典型场景中更容易理解,比如企业ERP、财务系统;医疗HIS数据库;教育一卡通;政府行政审批;其他核心数据库等。,大数据中90%的数据属于机器数据。除了来自于服务器、存储、网络中的传统IT数据以外,来自移动互联网、物联网中的大量非结构化数据也都属于机器数据。相比数据库数据,机器大数据具有数量大、增长速度快、复杂性高、多样化等特点,但是价值密度略低。,17,|135,规模巨大,互联网数据,2011,年全球数据产生量达到,1.8ZB,,以每本书,10MB,计算,相当于七百万个中国国家图书馆的容量。预计到2020年将达到35ZB,“,大数据,”,来敲门,.,医疗保健数据,海洋气象数据,基因工程,美国国立基因组研究所宣布,,“,千人基因计划,”,所产生的数据总量已达到,200TB,,成为世界上最大的人类基因变异数据集。,数据的度量尺度,:,1KB,=,10,3,B,1MB=,10,6,B,1GB=10,9,B,1TB=10,12,B,1PB=10,15,B,1EB=10,18,B,1ZB=10,21,B,1YB=10,24,B,18,|135,19,|135,产生高速,电信运营数据,中国联通上网记录每秒,83,万条,每月,1,万亿条(,300TB,)。,天文数据,美国大口径望远镜每两周对太空观测一遍,每天产生,16TB,数据,,5,年总数据量将达到,15PB,。,企业运行数据,2000,年全球新产生的数据量为,1000PB,到,2000PB,,到,2010,年仅仅全球企业一年新存储的数据量就超过了,7000PB,。,20,|135,形式多样,各种数据类型,现在的数据类型不仅是文本形式,,90%,是文字、图片、音频、视频、地理位置信息等非结构化数据,个性化数据占绝对多数。,文字,音频,视频,地理信息,图片,21,|135,Internet,上,1,分钟内发生了:,639TB IP,流量;,2,亿 封邮件;,70,万,Facebook,更新;,30,小时,YouTube,新增视频;,70,万,Google,搜索。,22,|135,信息价值,信息价值,以视频为例,,7X24,小时的全城监控视频中,可能有用的数据仅仅只有一两秒。可用信息在数据总量中的比例低,但其潜在价值巨大。,从视频中发现犯罪嫌疑人周克华,23,|135,2011,年,-2016,年中国大数据市场规模,全球未来,5,年,58%,的增速,,2017,年达到,500,亿美元。,中国,2013,年增速为,138%,,,2017,年市场达到,100,亿。,24,|135,25,|135,(二)相关概念与关系分析,26,|135,出租车,云广告,MH370,27,|135,维基百科定义:云计算是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需提供给计算机和其他设备。,我们认为:云计算是指服务的交付和使用模式,用户通过网络以按需、易扩展的方式获得所需的服务。,28,|135,云计算,海计算,框计算,风计算,。,神计算?,不是 概念,不是 操作,不是 口号,不是 超级计算,不是 网格计算,是 新的创新模式,是 新的商业模式,是 新的运营模式,是 成本、效用、应用至上,是 大众参与的舞台,是,不是,29,|135,云计算特点如下:,(1)超大规模,“云”具有相当的规模,Google云计算已经拥有100多万台服务器,Amazon、IBM、微软、Yahoo等的“云”均拥有几十万台服务器。企业私有云一般拥有数百上千台服务器。“云”能赋予用户前所未有的计算能力。,(2)虚拟化,云计算支持用户在任意位置、使用各种终端获取应用服务。所请求的资源来自“云”,而不是固定的有形的实体。应用在“云”中某处运行,但实际上用户无需了解、也不用担心应用运行的具体位置。只需要一台笔记本或者一个手机,就可以通过网络服务来实现我们需要的一切,甚至包括超级计算这样的任务。,30,|135,(3)高可靠性,“云”使用了数据多副本容错、计算节点同构可互换等措施来保障服务的高可靠性,使用云计算比使用本地计算机可靠。,(4)通用性,云计算不针对特定的应用,在“云”的支撑下可以构造出千变万化的应用,同一个“云”可以同时支撑不同的应用运行。,通俗的来讲,云计算就是让计算变成像水、电、煤气一样的基础设施,人们可以像购买水、电、煤气一样购买计算服务,因此可以说云计算重新定义了IT软硬件资源的设计和购买的方式,从而可能引发IT产业的大规模变革。,云计算主要分为四类:公共云、私有云、社区云及混合云。公共云是利用互联网,面向公众提供云计算服务;私有云是利用企业内网和专网,面向单一企业或组织提供云计算服务,这些服务是不提供于公众使用的;社区云是利用内网、专网及VPN,为多家关联部门提供云计算服务;混合云是上述两种或三种云的组合,31,|135,网络虚拟化,32,数据中心虚拟化(,vDC),云计算虚拟化资源,数据中心物理资源,存储虚拟化,计算虚拟化,云计算是以公开的标准和服务为基础,以互联网为中心,提供安全、快速、便捷的数据存储和网络计算服务,让互联网这片云成为每一个网民的数据中心和计算中心。IDC(国际数据资讯公司)预计2010年将是云端运算服务元年,认为云计算的增长速度将是传统IT行业增长率的6倍,未来5年云端服务的平均年增长率可望达到26%。在国内,云计算与物联网一道被列为将会给人们的生活带来变革,甚至会改变生活、生产方式的新技术,。,33,|135,中国家庭金融调查报告,中国的住房自有率是,89.68%,;,世界平均住房自有率是,60%,;,瑞士是,31%,紧随其后的是瑞典和德国;,住房自有率最高是亚美尼亚,在,1998,年时高达,96.3%,。,34,|135,住房自有率水平高的国家,几乎都是经济水平发展比较低的转轨国家,而住房自有率低的国家则大多为经济发达的国家。,发达国家人口流动性强,为了减少住房买卖的麻烦,很多人宁愿租房住而不是买房。相反,落后国家人口流动性较差,拥有自有住房的家庭,反而更可能居住在自己拥有的住房中。,35,|135,北京北五环买房:,120,平方米,600,万,投资理财:,5%-10%,利率(,30-60,万),租房:,租金,1,万,/,月,房子质量好,无须物业费、维修维护、折旧、可能的房产税,36,|135,住宾馆(,30-60,万):,未必每天都住;,弹性,按需;,客房服务、卫生、餐饮;,拎包入住。,云计算之,PaaS,、,SaaS,。,37,|135,点击添加文本,点击添加文本,点击添加文本,点击添加文本,云计算的基础设施、,安全设施非常完备,。,安全是把,双刃剑,放在云里面的数据,,对云的管理,而言又是不安全的。,38,|135,虚拟化,安全,去重,-,压缩,可靠,保密,绿色,节能,数据,保护,云计算的关键技术,39,|135,云计算面临的安全问题,关键技术视角,使用者视角,虚拟化技术带来全新安全威胁,数据集中存储引发的安全问题,云服务的管理和调度产生的安全问题,传统安全威胁的新特点,隐私保护和数据安全,运行环境的安全,内容安全,云计算的安全问题,40,|135,云计算关键技术,:,云计算是分布式处理、并行计算和网格计算等概念的发展和商业实现,其技术实质是计算、存储、服务器、应用软件等IT软硬件资源的虚拟化,云计算在虚拟化、数据存储、数据管理、编程模式等方面具有自身独特的技术。云计算的关键技术包括以下几个方向:虚拟机技术 虚拟机,即服务器虚拟化是云计算底层架构的重要基石。在服务器虚拟化中,虚拟化软件需要实现对硬件的抽象,资源的分配、调度和管理,虚拟机与宿主操作系统及多个虚拟机间的隔离等功能,目前典型的实现(基本成为事实标准)有Citrix Xen、VMware ESX Server 和Microsoft Hype-V等。,41,|135,数据存储技术,:,云计算系统需要同时满足大量用户的需求,并行地为大量用户提供服务。因此,云计算的数据存储技术必须具有分布式、高吞吐率和高传输率的特点。目前数据存储技术主要有Google的GFS(Google File System,非开源)以及HDFS(Hadoop Distributed File System,开源),目前这两种技术已经成为事实标准。数据管理技术,:,云计算的特点是对海量的数据存储、读取后进行大量的分析,如何提高数据的更新速率以及进一步提高随机读速率是未来的数据管理技术必须解决的问题。云计算的数据管理技术最著名的是谷歌的BigTable数据管理技术,同时Hadoop开发团队正在开发类似BigTable的开源数据管理模块。云计算的资源管理需要负责资源管理、任务管理、用户管理和安全管理等工作,实现节点故障的屏蔽,资源状况监视,用户任务调度,用户身份管理等多重功能。在云计算时代,SOA架构和以Web Service为特征的业务模式仍是业务发展的主要路线。云计算相关的安全技术,:,云计算模式带来一系列的安全问题,包括用户隐私的保护、用户数据的备份、云计算基础设施的防护等,这些问题都需要更强的技术手段,乃至法律手段去解决。,42,|135,43,|135,重设施,轻应用;,行业、地域特色要求云计算发展模式的差异化;,花钱买服务和服务意识有待加强;,安全隐私是大问题,安全意识、技术和立法方面有所欠缺;,云计算个性化和标准化矛盾。,44,|135,智慧城市带动,行业云发展,智慧城市需要,数据融合,智慧城市要求物联网和云计算的结合:,云计算是物联网的基础,物联网是一种应用;,云手机、云电视是终端多样化的体现;,云服务器、虚拟化是一种成本结构;,大数据的收集、存储、管理、分析离不开云计算。,45,|135,云计算,-,物联网,-,大数据,商业模式驱动,应用需求驱动,“,云,”,、,“,物,”,的核心是,“,数据,”,:,云计算,计算,/,业务模式,物联网,应用模式,大数据,财富、资产和隐性货币,46,|135,47,|135,二、大数据的产业价值,48,|135,O,NE,T,WO,20,世纪,瑞士心理学家荣格发现了,易经,筮法中蕴涵的一种不同于因果原理的普遍联系法则,这同大数据技术的复杂相关性有着相似的地方。,2012,年,3,月,奥巴马政府宣布投资,2,亿美元启动,“,大数据研究和发展计划,”,,并且定义为,“,未来的新石油,”,,希望增强政府收集、分析和,萃取,海量数据的能力。,49,|135,2012,年瑞士达沃斯论坛上发布,大数据大影响,报告,称数据已成为一种新的经济资产类别,就像货币或黄金一样,许多国家政府更是把大数据上升到战略层面。,2015,年,国务院办公厅发布,关于运用大数据加强对市场主体服务和监管的若干意见,(国办发,201551,号)。,50,|135,IDC,公司发布的数字宇宙研究报告称,:,全球信息总量每两年就会增长一倍,2011,年全球被创建和被复制的数据总量为,1.8ZB,。,IDC,认为,到下一个十年,(2020,年,),全球所有,IT,部门拥有服务器的总量将会比现在多出,10,倍,所管理的数据将会比现在多出,50,倍。预计到,2020,年,全球将总共拥有,35ZB,的数据量。,51,|135,2011,年企业创造、采集、管理和储存信息的成本下降到,2005,年的,1/6,而同期企业关于数据的总投资自,2005,年以来却反而上升了,50%,。,数据成本的下降助推了数据量的增长,而新的数据源和数据采集技术的出现则大大增加了未来数据的类型,数据类型的增加导致现有数据空间维度增加,增加了未来大数据的复杂度。,52,|135,Volume,PB+,数据处理,实时数据,流数据,非再现数据,TB,PB,EB,结构化,非结构化,半结构化,价值,Velocity,实时处理,Value,海量数据挖掘,Variety,多数据类型,交叉分析,53,|135,大数据分析技术是对大数据的产生、存储、挖掘和展现的全生命周期进行综合分析处理的过程。,科学家通过大数据分析,可以发现隐藏于其中的有价值的信息和知识。,54,|135,FBI,和警察局依赖于庞大的数据基础,包括媒体对马拉松赛报道的大量图片、视频,以及来自互联网用户上传的大量现场图像和视频,快速定位嫌疑人。,2013,年,4,月,15,日下午,2,时,50,分,科普里广场有两枚炸弹分别于终点线附近观众区及一家体育用品店先后被引爆。,美国波士顿于,4,月,15,日举行第,117,届波士顿马拉松大赛,现场大量观众、记者等通过手机、相机等设备拍照,产生了大量的视频、图片数据。,55,|135,Google,基于搜索数据和历史信息,预测流行性感冒的爆发与强烈等级。,2009,成功预测美国甲型,H1N1,爆发;,2013,年,1,月准确判定美国的流感活动等级为,“,强烈,”,。,2003,年美国华盛顿大学人工智能负责人开发了,Farecast,系统并成立公司,通过,2000,亿条数据记录帮助预测美国国内航班的票价。系统预测准确度达到,75%,以上,平均每张机票节省,50,美元。,56,|135,2012,年,1,月,23,日英国两名游客飞往美国,出发前在社交网站推特上发布:,“,提前八卦一下,这周过后,我要前往美国摧毁它。,”,美国国土安全部通过情报,分析技术发现,其言论,将其列为潜在威胁,怀疑他策划到美国实施犯罪。,这两人带着手提箱到达洛杉矶国际机场,持枪警卫立即将他们逮捕并没收了他们的护照。,57,|135,微软专家,David Rothschild,通过大数据分析,对第,85,届奥斯卡各奖项的归属进行成功预测。,除最佳导演外,其它各项奖预测全部命中。,58,|135,尿布,&,啤酒,沃尔玛,智能交通,-,交通蝴蝶效应,谷歌提前预测电影票房收入,麦肯锡强调大数据对零售商的影响,美国总统预测,59,|135,Intel中国研究院首席工程师吴甘沙在一次报告中透露:所谓啤酒加尿布的数据挖掘经典案例,其实是Teradata公司一位经理编出来的故事,历史上并没有发生过,在一家超市中,人们发现了一个特别有趣的现象:尿布与啤酒这两种风马牛不相及的商品居然摆在一起。但这一奇怪的举措居然使尿布和啤酒的销量大幅增加了。这可不是一个笑话,而是一直被商家所津津乐道的发生在美国沃尔玛连锁超市的真实案例。原来,美国的妇女通常在家照顾孩子,所以她们经常会嘱咐丈夫在下班回家的路上为孩子买尿布,而丈夫在买尿布的同时又会顺手购买自己爱喝的啤酒。这个发现为商家带来了大量的利润,但是如何从浩如烟海却又杂乱无章的数据中,发现啤酒和尿布销售之间的联系呢?这又给了我们什么样的启示呢?,60,|135,智能交通系统(Intelligent Traffic System,简称ITS)又称智能运输系统(Intelligent Transportation System),是将先进的科学技术(信息技术、计算机技术、数据通信技术、传感器技术、电子控制技术、自动控制理论、运筹学、人工智能等)有效地综合运用于交通运输、服务控制和车辆制造,加强车辆、道路、使用者三者之间的联系,从而形成一种保障安全、提高效率、改善环境、节约能源的综合运输系统。,谷歌票房预测模型的基础:电影相关的搜索量与票房收入的关联,谷歌的票房预测模型是大数据分析技术在电影行业的一个重要应用。随着互联网的发展,人们越来越习惯于在网上搜索电影信息。据谷歌统计,从2011到2012年,电影相关的搜索量增长了56%。谷歌发现,电影相关的搜索量与票房收入之间存在很强的关联。该模型能够提前一个月预测电影上映首周的票房收入,准确度高达94%。这在业内引起了强烈讨论,不少内人士认为该模型非常适合好莱坞电影公司通过预测票房来及时调整电影营销战略,61,|135,麦肯锡发布报告指出,随着国内利率市场化加快推进、经济增速放缓、国民收入和财富逐步上升,零售业务对银行收入及利润的贡献也日益增加,科学有效地引领零售业务持续增长,已成为国内领先银行的首要任务。,面对行业内外的严峻挑战,国内零售银行需积极破局,而互联网时代的大数据,则有望成为零售银行的制胜之道。事实上,国际领先零售银行以“大数据”为核心的管理工具已成功挖掘出“大价值”,包括大幅提升业绩、支持管理决策、优化运营流程、有效控制风险等。,报告指出,基于麦肯锡的经验,构建行之有效的数据营销体系,首先要形成一个环环相扣的数据化营销闭环。而这一闭环包括四个环节,即在前端了解客户信息、获取客户洞见;为客户匹配所需的产品、服务和营销活动;对营销执行过程进行管控;通过分析结果、收集前线及客户意见形成反馈信息,。,62,|135,几千年前:基于观察和经验,描述自然现象。,几百年前:基于理论和模型,解释自然现象。,几十年前:基于计算技术,模拟复杂现象。,当今:基于大数据分析,统一理论、实验和模拟。,大数据分析,科学研究的第四范式,63,|135,信息社会全面进入大数据时代,发布数据,用户产生数据,Web 1.0,250,000,网站,Web 2.0,发布数据,用户产生数据,Cyberspace,Any Person,Any Where,Any Time,5,年的信息量,增加,10,倍,!,全球每天通过,Internet,网络传输的电子邮件多达,2100,亿封。,Facebook,每月新增,10,亿照片和,1000,万个视频。,腾讯公司注册用户超过,7,亿,同时在线人数超过,1,亿。,某微博网站,4,亿多节点,12,亿次用户访问,,2TB,每天用户访问日志。,64,|135,大数据的全方位兴起,基于,SQL,语言,:,面对,OLAP,的传统行和列。,不基于,SQL,或,map-reduce,的,:,由谷歌率先发起。,数据流,:,基于运行商数据直接生成任意图形。,新平台技术,数据入口,/,汇聚,数据,平台,分析,不同范围的服务,传统交付模式,-,单片或基于设备的解决方案。,云,:,能够充分利用物理设施的弹性,以实现处理快速增长数据的能力。,“,数据库将演变成一个虚拟的,基于云计算,超级可扩展的分布式平台。,”,-Forrester analyst Jim Kobielus,新的传输方案,65,|135,66,美国,17,个经济部门中的,15,个部门,员工超过,1000,人的企业存储了平均,235,太字节的数据,超出了美国国会图书馆的藏书。,当下正是中国大数据市场元年,,2013,年大数据市场增速为,138.3%,,到,2016,年整个市场规模逼近百亿。,67,|135,大数据时代来临,美国政府已经把,“,大数据,”,上升到了国家战略的层面。,2012,年,3,月,29,日,奥巴马政府宣布投资,2,亿美元启动大数据研究和发展计划。,华尔街日报将大数据、智能制造和无线网络称作是当代三大技术变革。,商业价值,杂志将大数据比作未来世界的新石油。,68,|135,69,|135,大数据的商业价值挖掘方法,70,|135,大数据在,7,个行业的价值预估,71,|135,大数据价值发掘,72,|135,分析技术,处理技术,存储技术,解决方案,数据处理:自然语言处理技术,统计和分析:,top,排行榜;地域占比;文本情感分析,;,数据挖掘:关联规则分析;分类;聚类,;,模型预测:预测模型;机器学习;建模仿真,结构化数据:海量数据的查询、统计、更新等操作效率低,非结构化数据:图片、视频、,word,、,pdf,、,ppt,等文件存储,不利于检索、查询和存储,半结构化数据:转换为结构化存储或按照非结构化存储,73,|135,74,|135,三、技术发展趋势、问题及建议,75,|135,(一)大数据的发展趋势,76,|135,Gartner2012,年技术成熟度曲线,Cloud,Computing,Bigdata,IoT,77,|135,Gartner2013,年技术成熟度曲线,Cloud,Computing,Bigdata,IoT,78,|135,Gartner2014,年技术成熟度曲线,Bigdata,IoT,Cloud,Computing,79,|135,IoT,机器学习,自动驾驶汽车,Gartner2015,年技术成熟度曲线,80,|135,2-5年内成为主流,:,市民数据科学(,Citizen Data Science,);,混合云,计算(,Hybrid Cloud Computing,);,机器学习(Machine Learning),。,5-10内成为主流,:,自动驾驶汽车、物联网、物联网平台,;,信息安全、3D打印器官移植、智能咨询,;,虚拟个人助手、,软件定义安全以及小的数据中心等。,81,|135,O,NE,T,WO,大数据打破了企业传统数据的边界,改变了过去商业智能仅仅依靠企业内部业务数据的局面,而大数据则使数据来源更加多样化,不仅包括企业内部数据,也包括企业外部数据,尤其是和消费者相关的数据。,大数据应用已经凸显出了巨大的商业价值,触角已延伸到各行各业。未来大数据还将彻底改变人类的思考模式、生活习惯和商业法则,将引发社会发展的深刻变革,同时也是未来最重要的国家战略之一。,82,|135,(二)大数据存在的问题,我国缺乏核心技术,能否实现弯道超车有待努力;,人才缺口非常大,缺乏统计学人才和数据挖掘人才;,信息资源保护意识的缺失造成极大的安全隐患;,大数据利用的不开放性会带来新的垄断和社会资源浪费;,大数据时代的个人隐私难以得到保护。,83,|135,84,|135,Volume,容量大要求数据的高效管理、存储和压缩;,Velocity,Variety,组合运用结构化和非结构化数据寻找问题的答案;,Varacity,基本数据是准确、可靠、值得信赖的,并且具有一致性。,1s,界限;,数据的高效组织管理;,85,|135,大数据不再强调,“,大,”,;,大数据是机会,但不是终极解决方案,要结合云计算;,非结构化数据占比不断增大,但对结构化大数据的分析处理更重要;,组合运用结构化和非结构化数据寻找问题答案,是成功进行预测的基础;,大数据强调关联的同时,永远不会忽略因果;,相比数据抓取和存储,数据的管理更重要;,架构上,存储和,IO,依然是主要问题。,86,|135,(三)大数据发展的建议,统筹物联网、云计算以及智慧城市以及大数据建设,避免各立山头;,自然科学研究、环境保护、生物医药研究、教育以及国家安全等领域才是大数据技术突破的重点;,在扶持大数据在电商企业应用的同时,更要大力支持大数据在基础科学研究、国防以及若干关键领域的应用研究;,大数据的应用和推广,技术是关键,人才是保障。,87,|135,你以为我懂,我以为你懂,可能谁也不懂,却都在不懂装懂;,你说我忽悠,我说你忽悠,不知谁在忽悠,不忽悠白不忽悠;,能搞的人拿不到钱,拿到钱的人不再真心搞,没钱没权确实难搞;,企业在谈,政府在谈,专家教授也在谈,谈笑间风起云涌,但愿不再空谈。,88,|135,人与机器共同进化,89,|135,统计认识的误区:,11,统计不是万能的,2.,样本(窥一斑而知全豹观滴水而知沧海),3.,不回应误差(沉默不是金),4.,均值(会说谎的天平),5.,数据可视化(云想衣裳花想容),5.,点估计(统计学家比间谍干的更漂亮),6.,相关性分析(早起的鸟有虫吃),7.,绿色,GDP,90,|135,
展开阅读全文