1、标题,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,#,大数据安全与应用,.,目录,一、大数据的来源,四、成功案例,五、大数据安全,二,、什么是大数据,三、大数据的应用,引言,电影,永无止境,库珀能,在短时间掌握无数公司资料和背景,也就是将世界上已经存在的海量数据(包括公司财报、电视、几十年前的报纸、互联网、小道消 息等)挖掘出来,串联起来,甚至将,Face Book,、,Twitter,的海量社交数据挖掘得到普通大众对某种股票的感情倾向,通过海量信息的挖掘、分析,使一切内幕都不是内幕,使一切趋势都在眼前,结果在,10,天内他就赢得了,200,万美元
2、这部电影简直是展现大数据魔力的教材性电影,推荐没有看过的,IT,人士,看一看。,在,企业、行业和国家的管理中,通常只有效使用了不到,20%,的数据(甚至更少),,如果,剩余,80%,数据的价值激发起来,世界会变得怎么样呢,?,永无止境,是由尼尔,博格执导的悬疑电影,由布莱德利,库珀、罗伯特,德尼罗和安娜,弗莱尔等联袂出演,所讲述的,是一,位落魄的作家库珀,服用了一种可以迅速提升智力的神奇蓝色药物,然后他将这种高智商用于炒股。,数据本质是生产资料和资产,仅供开采,162,年,仅供开采,45,年,仅供开采,60,年,不可再生资源,VS,数据,过去,3,年数据总量比以往,4,万年还多,2020,年
3、全球信息量将超过,40ZB,全球数据的增长速度在每年,40%,左右,数据不再是社会生产的“副产物”,而是可被二次乃至多次加工的原料,从中可以探索更大价值,它变成了生产资料。,.,数据爆炸式增长(每分钟,),Twitter,上发布,98000+,新微博,13000+,个,iPhone,应用下载,Skype,上,37,万,+,分钟的语音通话,上传,6600,张新照片到,flickr,发出,1.68,亿,+,条,Email,YouTube,上上传,600+,新视频,淘宝光棍节,10680+,个新订单,Facebook,上更新,69.5,万,+,条新状态,12306,出票,1840,+,张,.,需要
4、不同,“,看,”,数据的方式,可视:结构化资料,15%,未视:半,/,非结构化数据,85%,DB/DW,主管们看的,战情数位仪表板,其实是残缺的,.,10,万,GB,10,万,TB,需要更高性价比的数据计算与储存方式,数据库,DB,数据仓库,DW,计算更快,存储更省,.,85,%,半,/,非结构化的,Log/Web page/Email/PDF/Image/Full-text/MS-Office file,需要,不同的数据管理策略,当我们想要扩充时,,才发觉:,架构只能,scale-up,,,scale-out,不易,处理时间过长,,time-to-value,受限,成本过高,,cost-e
5、fficiency,受,限,15%,结构化的,DB/DW,遗憾,残缺,每天几百,GB,、几,TB,的资料,且持续成长中,储存,Storing,在收数据的同时做必要的前置处理,(pre-processing),,并区分数据处理的优先等级,(prioritizing),计算,Processing,如何,有效的避免,因硬件毁坏所导致的资料损毁,管理,Managing,如何从中挖掘出所关注事件的,pattern,或,behavior,分析,Analyzing,超越企业现有,IT,的数据解决,能力,.,大数据的来源,适应新时代,解决新问题,.,目录,二,、什么是大数据,一、大数据的来源,四、成功案例,五
6、大数据安全,三、大数据的应用,更结构化,没有固定结构的数据,通常保存成不同类型的文件,举例:文本文档、,PDF,文档、图像和视频,具有不规则数据格式的文本数据,通过使用工具可以使之格式化,举例:包含不一致的数据值和格式的网站点击数据,具有可识别的模式并可以解析的文本数据文件,举例:自描述和具有定义模式的,XML,数据文件,包括预定义的数据类型、格式和结构的数据,举例:事务性数据和联机分析处理,什么是数据?,结构化,半结构化,“准”结构化,非结构化,.,12,Social Media,Machine/Sensor,DOC/Media,Web,Clickstream,Apps,Call Log,
7、Log,什么是数据,?,半结构化,/,非结构化数据,.,3/13/2012,4,什么是大数据?,.,何为大?数据度量,1Byte,=,8,Bit,1KB,=,1,024,Bytes,1MB,=,1,024,KB,=,1,048,576,Bytes,1GB,=,1,024,MB,=,1,048,576,KB,=,1,073,741,824,Bytes,1TB,=,1,024,GB,=,1,048,576,MB,=,1,099,511,627,776,Bytes,1PB,=,1,024,TB,=,1,048,576,GB,=1,125,899,906,842,624,Bytes,1EB,=,1,0
8、24,PB,=,1,048,576,TB,=,1,152,921,504,606,846,976,Bytes,1ZB,=,1,024,EB,=,1,180,591,620,717,411,303,424,Bytes,1YB,=,1,024,ZB,=,1,208,925,819,614,629,174,706,176,Bytes,3/13/2012,6,什么是大数据?,.,红楼梦含标点87万字(不含标点853509字),每个汉字占两个字节:1汉字=16bit,=,2*8位=2bytes,1GB,约等于,671部红楼梦,1TB,约等于,631,903,部,1PB,约等于,647,068,911部,
9、美国国会图书馆藏书(151,785,778册)(2011年4月:收录数据235TB,),中国国家图书馆:2631万册,1EB,=,4000倍,美国国会图书馆存储的信息量,600美元的硬盘就可以存储全世界所有的歌曲,MGI估计,全球企业,2010,年在硬盘上存储了超过,7EB(1EB,等于,10,亿,GB),的新数据,同时,消费者在,PC,和笔记本等设备上存储了超过,6EB,新数据,3/13/2012,7,数据没有办法在可容忍的时间下使用常规软件方法完成存储、管理和处理任务,什么是大数据?,.,对于“大数据”(,Big data,)研究机构,Gartner,给出了这样的定义,:,“大数据”是需要
10、新处理模式才能具有更强的决策力,、洞察,发现力和流程优化能力来适应海量、高增长率和多样化的信息,资产。,麦肯锡全球研究所给出的,定义:,一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大,特征,.,大数据的定义,大数据带来的思维变革,更好,不是因果关系而是相关关系,更多,不是随机样本而是全部数据,更杂,不是精确性而是混杂性,.,大数据带来的思维变革(更多),人口大普查,全数据模式,随机采样,样本模式,大数据应用,全,数据模式,是指在国家统一规定的时间内,按照统一的方法、统一的项目、统一的调查
11、表和统一,的,标准,时点,,对全国人口普遍地、逐户逐人地进行的一次性调查登记;,主要特点是调查组织高度集中性,普查对象的全面完整性;,人口大普查耗时耗费,一般来讲是十年一次,新中国成立以来共进行了,6,次人口大普查;,人口大普查是一种典型的全数据模式;,大数据时代,小数据时代,.,人口大普查,全数据模式,随机采样,样本模式,大数据应用,全,数据模式,人口大普查是一种耗时耗费的工程,一般是以十年为单位;,各国每年需要进行几百次的小规模人口调查,采取随机采样分析的方式,这是一种样本模式;,源于实用并且很好的创新!,随机采样分析是小数据时代的产物,;,大数据时代,小数据时代,大数据带来的思维变革(更
12、多),.,人口大普查,全数据模式,随机采样,样本模式,大数据应用,全,数据模式,我们已具备了大数据的各种技术能力,思维需要转换到大数据的全数据模式:样本,=,全部,;,大,数据不用随机分析法这样的捷径,而采用所有数据的方法;,这里的“大”是相对的,相扑,比赛所有数据存储还不需要一个,TB,,但是是所有的数据!,在大数据时代采用随机采样法,就像在汽车时代骑马一样,虽然特定情况下仍可采样随机采样法,但是慢慢地我们会放弃它;,大数据时代,小数据时代,大数据带来的思维变革(更多),.,大数据带来的思维变革(更多),Google,利用网络大数据预测流感,基于全数据进行相扑比赛的作弊分析,埃齐奥尼的,Fa
13、recast,有,10,万亿条数据预测机票价格,乔布斯的癌症抗争,自身所有,DNA,和肿瘤,DNA,排序,.,大数据带来的思维变革(更杂),从皮尺到哈勃望远镜,人类一直在追求测量的精确性,一方面源于对未知世界的认知;一方面也源于收集信息的有限性;,大数据的简单算法比小数据的复杂算法更有效;,IBM,的,机器翻译,VS Google,的机器翻译;,纷繁,的数据越多越好;,大,数据时代要求我们重新审视数据精确性的优略;,大,数据不仅让我们不再期待精确性,也让我们无法实现精确性;,错误,不是大数据固有的问题,而是一个需要我们去解决的问题,而且会将长期存在;,混杂,性,不是竭力避免,而是标准途径;,.
14、大数据带来的思维变革(更好),佛教,三世因果经,主要讲:一是人的命是自己造就的;二是怎样为自己造一个好命;三是行善积德与行凶作恶干坏事的因果循环报应规律。,佛教关于因果报应的解释,原因和结果是揭示客观世界中普遍联系着的事物具有先后相继、彼此制约的一对范畴。原因是指引起一定现象的现象,结果是指由于原因的作用而引起的现象,。,哲学范畴的因果关系,大,数据的相关关系,而不强调因果关系;(舍恩伯格),,,其实这个只是一种对无法探究因果的妥协,人类应该去探寻因果,因为世界存在客观的运转规律;,舍恩伯格对大数据的相关性解释,Kaggle,,一个为所有人提供数据挖掘竞赛的公司,在一次关于二手车的数据分析比
15、赛中得到,橙色汽车有质量问题的可能性是其它颜色汽车的一半。为什么?,探寻事物的因果关系是人类的本性,但是大数据时代可以做某种程度的妥协,可以只需要关注“是什么”,而忽略“为什么?”,.,大数据的构成,大数据,=,海量数据,+,复杂类型的数据,海量交易数据:,企业内部的经营交易信息主要包括联机交易数据和联机分析数据,是结构化的、通过关系数据库进行管理和访问的静态、历史数据。通过这些数据,我们能了解过去发生了什么。,大数据包括:,交易数据和交互数据集在内的所有数据集,海量交互数据:,源于各种网络和社交媒体。它包括了呼叫详细记录、设备和传感器信息、,GPS,和地理定位映射数据、通过管理文件传输协议传
16、送的海量图像文件、,Web,文本和点击流数据、评价数据、科学信息、电子邮件等等。可以告诉我们未来会发生什么。,.,大数据的,4V,特征,Volume,非结构化数据的超大规模和增长,总数据量的,8090%,比结构化数据增长快,10,倍到,50,倍,是传统数据仓库的,10,倍到,50,倍,Value,大量的不相关信息,对未来趋势与模式的可预测分析,深度复杂分析(机器学习、人工智能,Vs,传统商务,智能),Velocity,实时分析而非批量式分析,数据输入、处理与丢弃,立竿见影而非事后见效,Variety,大数据的异构和多样性,很多不同形式(文本、图像、视频、机器数据),无模式或者模式不明显,不连贯
17、的语法或句义,Big Data,大数据,TB,PB,EB,Streams,Real time,Near time,Batch,Structured,Unstructured,Semi-structured,All the above,.,大数据的,4V,特征(,Volume,),1B,ity,1KB,1MB,1GB,1TB,1PB,1EB,1ZB,1YB,1PB,相当于,50%,的全美学术研究图书馆藏书信息内容,5EB,相当于至今全世界人类所讲过的话语,1ZB,如同全世界海滩上的沙子数量总和,1YB,相当于,7000,位人类体内的微细胞总和,一般情况下,大数据是以,PB,、,EB,、,ZB,为
18、单位进行计量的,.,大数据的,4V,特征(,Velocity,),8,22,54,132,215,327,现在及未来几年内美国的移动网络数据流量增长(,PB/,月),源自英国,Coda,研究咨询公司,大数据的增长速度快,大数据的处理速度快,实时数据流处理,的,要求,是,区别大数据引用和传统数据仓库,技术,,BI,技术的关键差别,之一;,1s,是临界点,对于大数据应用而言,必须要在,1,秒钟内形成答案,否则处理结果就是过时和无效的,;,.,行业,/,企业内,数据,互联网数据,物,联网数据,大,数据,数据来源多,企业内部多个应用系统的数据、互联网和物联网的兴起,带来了微博、社交网站、传感器等多种来
19、源。,数据类型多,保存在关系数据库中的结构化数据只占少数,,7080%,的数据是如图片、音频、视频、模型、连接信息、文档等非结构化和半结构化数据。,关联性,强,数据之间频繁交互,比如游客在旅行途中上传的图片和日志,就与游客的位置、行程等信息有了很强的关联性。,大数据的,4V,特征(,Variety,),.,大数据的,4V,特征(,Value,),挖掘大数据的价值类似,沙里淘金,从,海量数据中挖掘稀疏但珍贵的,信息;,价值密度,低,是,大数据的一个典型,特征;,大数据不仅仅是技术,关键是产生价值,可以从各个层面进行优化,更要考虑整体,.,行业,数据处理方式,价值,银行,/,金融,贷款、保险、发卡
20、等多业务线数据集成分析、市场评估,新产品风险评估,股票等投资组合趋势分析,增加市场份额,提升客户忠诚度,提高整体收入,降低金融风险,医疗,共享电子病历及医疗记录,帮助快速诊断,穿戴式设备远程医疗,改善诊疗质量,加快诊疗速度,制造,/,高科技,产品故障、失效综合分析,专利记录检索,智能设备全球定位,位置服务,优化产品设计、制造,降低保修成本,加快问题解决,能源,勘探、钻井等传感器阵列数据集中分析,降低工程事故风险,优化勘探过程,互联网,/,Web2.0,在线广告投放,商品评分、排名,社交网络自动匹配,搜索结果优化,提升网络用户忠诚度,改善社交网络体验,向目标用户提供有针对性的商品与服务,政府,/
21、公用事业,智能城市信息网络集成,天气、地理、水电煤等公共数据收集、研究,公共安全信息集中处理、智能分析,更好地对外提供公共服务,舆情分析,准确预判安全威胁,媒体,/,娱乐,收视率统计、热点信息统计、分析,创造更多联合、交叉销售商机,准确评估广告效用,零售,基于用户位置信息的精确促销,社交网络购买行为分析,促进客户购买热情,顺应客户购买行为习惯,13,大数据商业价值,.,Volume,海量的数据规模,Variety,多样的数据类型,Streams,Real time,Near time,Batch,TB,PB,EB,Structured,Unstructured,Semi-structured
22、All the above,Value,Velocity,快速的数据流转,发现,数据价值,大数据技术要解决的问题,.,大数据技术被设计用于在成本可承受的条件下,,,通过,非常,快速,(,velocity,),地,采集、发现和分析,,,从大量,(,volumes,),、多类别,(,variety,),的数据中提取价值,(,value,),,,将是,IT,领域新一代的技术与架构,。,企业用以分析的数据越全面,分析的结果就越接近于真实。大数据分析意味着企业能够从这些新的数据中获取新的洞察力,并将其与已知业务的各个细节相融合,。,大数据技术要解决的问题,大数据产品,RDBMS,Analytical
23、DB,NoSQL DB,ERP/CRM,SaaS,Social Media,Web Analytics,Log Files,RFID,Call Data Records,Sensors,Machine-Generated,大数据管理,存储,处理,过滤,大数据终端使用,挖掘,分析,搜索,扩充,.,软件是大数据的引擎,和数据中心(,Data Center,),一样,软件是大数据的驱动力,.,软件改变世界,!,.,IBM,C&P,Industry,需求,海量数据存储技术,实时数据处理技术,数据高速传输技术,搜索技术,描述,分布式文件系统,流计算引擎,服务器/存储间高速通信,文本检索、智能搜索、实时搜
24、索,技术,Hadoop,x86/MPP,Map,Reduce,Streaming,Data,Infini,Band,Enterprise,Search,数据分析技术,Text,Analytics,Engine,自然语言处理、文本情感分析、,Visual,Data,Modeling,机器学习、聚类关联、数据模,型,大数据涉及的关键技术,.,基于,SQL,语言,:,面对,OLAP,的传统行和列,不基于,SQL,或,map-reduce,的,:,由谷歌率先发起,数据流,:,基于运行商数据直接生成任意图形,新平台技术,数据入口,/,汇聚,数据平台,分析,不同范围的服务,传统交付模式,-,单片或基于设
25、备的解决方案,云,:,能够充分利用物理设施的弹性,以实现处理快速增长数据的能力,“数据库将演变成一个虚拟的,基于云计算,超级可扩展的分布式平台。”,-Forrester analyst Jim Kobielus,新的传输方案,大数据涉及的关键技术,.,大数据(,Hadoop,),NoSQL,数据库,数据仓库,部署架构,水平扩展,水平扩展,大部分垂直扩展,少数水平扩展,大部分水平扩展,数据类型,文件存储,没有数据类型,简单数据类型,丰富的数据类型,丰富的数据类型,数据模型,非常简陋的数据模型,简单灵活数据模型,丰富的数据模型,完善丰富的数据模型,数据关系,没有数据关系描述,非常简单的数据关系描述
26、数据关系完善,数据关系完善,数据一致,无一致性,弱一致性,强一致性,强一致性,数据安全,安全性很弱,安全性很弱,安全性很高,安全性很高,计算类型,离线批量处理,只读,低并发,实时,CRUD,操作,,海量并发,实时,CRUD,操作,高,并发,离线批量处理,只读,,低并发,适用场景,低密度数据海量存储,数据预处理,预计算,高并发实时,在线交易,查询,报表,高价值数据统一存储,和计算平台,常见用例,日志处理,用户行为分析,搜索引擎,用户资料,微博,,金融反欺诈,金融账户,电信计费,税务等,企业数据仓库,11,大数据涉及的关键技术,.,数据采集,数据储存与管理,数据分析与挖掘,计算结果展示,ETL,
27、数据众包,(,CrowdSouring,),大数据涉及的关键技术,.,数据众包是一种新的数据采集方式,由企业方通过平台把数据采集任务外包给非特定的大众网络。,大,数据涉及的关键,技术,数据众包,.,数据采集,数据储存与管理,数据分析与挖掘,计算结果展示,ETL,数据众包,(,CrowdSouring,),结构化、非结构化和半结构化数据,分布式文件系统,关系数据库,非关系数据库,(,NoSQL,),数据仓库,云计算和云存储,实时流处理,大数据涉及的关键技术,.,分布式文件系统(,Distributed File System,)是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计
28、算机网络与节点相连。,大数据涉及的关键技术,分布式文件系统,.,Google,文件系统(,Google File System,,,GFS,)是一个可扩展的分布式文件系统,用于大型的、分布式的、对大量数据进行访问的应用。它运行于廉价的普通硬件上,将服务器故障视为正常现象,通过软件的方式自动容错,在保证系统可靠性和可用性的同时,大大减少了系统的成本。,大数据涉及的关键技术,分布式文件系统,.,GFS,将整个系统分为三类角色:,Client,(客户端)、,Master,(主服务器)、,Chunk Server,(数据块服务器)。,C,0,C,1,C,5,C,2,C,1,C,5,C,3,C,0,C,
29、5,C,2,GFS Master,GFS Master,Client,Client,Client,Client,Client,Replicas,Master,Chunkserver,2,Chunkserver,N,Chunkserver,1,GFS,Architecture,大数据涉及的关键技术,分布式文件系统,.,关系型数据库的局限性,难以满足高并发读写的需求,难以满足对海量数据高效率存储和访问的需求,难以满足对数据库高可扩展性和高可用性的需求,NoSQL,=,大数据涉及的关键技术,非关系型数据库,NoSQL,.,NoSQL,数据存储不需要固定的表结构,通常也不存在连接操作。在大数据存取上具
30、备关系型数据库无法比拟的性能优势。,关系型数据库中的表都是存储一些格式化的数据结构,每个元组字段的组成都一样,即使不是每个元组都需要所有的字段,但数据库会为每个元组分配所有的字段。,非关系型数据库以键值对存储,它的结构不固定,每一个元组可以有不一样的字段,每个元组可以根据需要增加一些自己的键值对,这样就不会局限于固定的结构,可以减少一些时间和空间的开销。,大数据涉及的关键技术,非关系型数据库,NoSQL,.,大数据涉及的关键技术,非关系型数据库,NoSQL,.,Bigtable,的设计目的是可靠地处理,PB,级别的数据,并且能够部署到上千台机器上。,Bigtable,已经在超过,60,个,Go
31、ogle,的产品和项目上得到了应用,包括,Google Analytics,、,GoogleEarth,等。,大数据涉及的关键技术,非关系型数据库,NoSQL,Cassandra,是一套开源分布式,NoSQL,数据库系统。它最初由,Facebook,开发,用于储存收件箱等简单格式数据,集,Google BigTable,的数据模型与,Amazon Dynamo,的完全分布式的架构于一身。,Facebook,于,2008,年将,Cassandra,开源,此后被,Digg,、,Twitter,等知名,Web 2.0,网站所采纳,成为了一种流行的分布式结构化数据存储方案。,.,大数据涉及的关键技术,
32、非关系型数据库,NoSQL,DynamoDB,是,Amazon,提供的共享式数据库云服务,可用性和扩展性都很好,性能也不错:读写访问中,99.9%,的响应时间都在,300ms,内。,DynamoDB,通过服务器把所有的数据存储在固态硬盘(,SSD,)上的三个不同的区域。如果有更高的传输需求,,DynamoDB,也可以在后台添加更多的服务器。,HBase Hadoop Database,,是一个分布式的、面向列的开源数据库,,HBase,在,Hadoop,之上提供了类似于,Bigtable,的能力,是,Hadoop,项目的子项目。,.,大数据涉及的关键技术,非关系型数据库,NoSQL,Mongo
33、DB,是一个基于分布式文件存储的数据库。由,C+,语言编写,是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。它 支持的数据结构非常松散,可以存储比较复杂的数据类型。它支持的查询语言非常强大,其语法有点类似于面向对象的查询语言,几乎可以实现类似关系数据库单表查询的绝大部分功能,而且还支持对数据建立索引。,.,云计算(,cloud computing,),是分布式计算技术的一种,其最基本的概念,是透过网络将庞大的计算处理程序自动分拆成无数个较小的子程序,再交由多部服务器所组成的庞大系统经搜寻、计算分析之后将处理结果回传给用户。透过这项技术,网络服务提供
34、者可以在数秒之内,达成处理数以千万计甚至亿计的信息,达到和“超级计算机”同样强大效能的网络服务。,云计算是一种资源交付和使用模式,指通过网络获得应用所需的资源(硬件、平台、软件)。提供资源的网络被称为“云”。,大数据涉及的关键技术,云计算和云存储,.,白云下面数据跑,蓝蓝的天上白云飘,如果数据是财富,那么大数据就是宝藏,而云计算就是挖掘和利用宝藏的利器。没有强大的计算能力,数据宝藏终究是镜中花;没有大数据的积淀,云计算也只能是杀鸡用的宰牛刀。,大数据涉及的关键技术,云计算和云存储,.,云存储是在云计算,(cloud computing),概念上延伸和发展出来的一个新概念,是指通过集群应用、网格
35、技术或分布式文件系统等功能,将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一个系统。,当云计算系统运算和处理的核心是大量数据的存储和管理时,云计算系统中就需要配置大量的存储设备,那么云计算系统就转变成为一个云存储系统,所以云存储是一个以数据存储和管理为核心的云计算系统。,大数据涉及的关键技术,云计算和云存储,.,数据采集,数据储存与管理,数据分析与挖掘,计算结果展示,ETL,数据众包,(,CrowdSouring,),结构化、非结构化和半结构化数据,分布式文件系统,关系数据库,非关系数据库,(,NoSQL,),数据仓库,云计算和云存储,实时
36、流处理,A/B Testing,关联规则分析,分类,聚类,遗传算法,神经网络,预测模型,模式识别,时间序列分析,回归分析,系统仿真,机器学习,优化,空间分析,社会网络分析,自然语言分析,MapReduce,R,语言,大数据涉及的关键技术,.,A/B,测试是可用性测试的一个方法,其核心为:同时实验两个元素或版本(,A,和,B,),确定哪个更好。,注册按钮由绿色改成红色提高转化率,34%,人性化的表格提高,11%,的转化率。,大数据涉及的关键技术,A/B Testing,.,数据采集,数据储存与管理,数据分析与挖掘,计算结果展示,ETL,数据众包,(,CrowdSouring,),结构化、非结构化
37、和半结构化数据,分布式文件系统,关系数据库,非关系数据库,(,NoSQL,),数据仓库,云计算和云存储,实时流处理,A/B Testing,关联规则分析,分类,聚类,遗传算法,神经网络,预测模型,模式识别,时间序列分析,回归分析,系统仿真,机器学习,优化,空间分析,社会网络分析,自然语言分析,MapReduce,R,语言,标签云,(,Tag Cloud,),聚类图,(,Clustergram,),空间信息流,(,Spatial information flow,),热图,(,Heatmap,),大数据涉及的关键技术,.,标签云(,Tag Cloud,)是一套相关的标签以及与此相应的权重。权值影
38、响标签的字体大小、颜色或其他视觉效果。典型的标签云有,30,至,150,个标签,用以表示一个网站中的内容及其热门程度。标签通常是超链接,指向分类页面。,大数据涉及的关键技术,标签云,.,聚类图(,Clustergram,)是指用图形方式展示聚类分析结果的技术,可以有助于判断簇数量不同时的聚类效果。,大数据涉及的关键技术,聚类图,.,空间信息流(,Spatial information flow,)是展示信息空间状态的一种可视化技术。,热图(,Heatmap,)是一项数据展示技术,将变量值用不同的颜色或高亮形式描绘出来。可以非常直观的呈现一些原本不易理解或表达的数据,比如密度、频率、温度等。,大
39、数据涉及的关键技术,空间信息流与热图,.,目录,一、大数据的来源,四、成功案例,五、大数据安全,三、大数据的应用,二,、什么是大数据,亚马逊“预测式发货”的新专利,可以通过对用户数据的分析,在他们还没有下单购物前,提前发出包裹。,这项技术可以缩短发货时间,从而降低消费者前往实体店的冲动。从下单到收货之间的时间延迟可能会降低人们的购物意愿,导致他们放弃网上购物。,所以,亚马逊可能会根据之前的订单和其他因素,预测用户的购物习惯,从而在他们实际下单前便将包裹发出。根据该专利文件,虽然包裹会提前从亚马逊发出,但在用户正式下单前,这些包裹仍会暂存在快递公司的转运中心或卡车里。,亚马逊为了决定要运送哪些货
40、物,亚马逊可能会参考之前的订单、商品搜索记录、愿望清单、购物车,甚至包括用户的鼠标在某件商品上悬停的时间。,消费大数据,在筹备过程中,奥巴马背后的数据分析团队一直在收集、存储和分析选民数据。,在这次的大选中,奥巴马竞选阵营的高级助理们决定将参考这一团队所得出的数据分析结果来制定下一步的竞选方案。利用在竞选中可获得的选民行动、行为、支持偏向方面的大量数据。,比如,在东海岸找到一位对女性群体具备相同号召力的名人,从而复制“克鲁尼效应”并为奥巴马筹集竞选资金。,“,Twitter,的政治指数”提供了一个衡量社会化媒体平台的用户如何评价候选人的方式。奥巴马积极的情绪指数是,59,,而罗姆尼的只有,53
41、政治大数据,回顾“老鼠仓”的查处过程,在马乐一案中,“大数据”首次介入。深交所此前通过“大数据”查出的可疑账户高达,300,个。,实际上,早在,2009,年,上交所曾经有过利用“大数据”设置“捕鼠器”的设想。通过建立相关的模型,设定一定的指标预警,即相关指标达到某个预警点时监控系统会自动报警。,而此次在马乐案中亮相的深交所的“大数据”监测系统,更是引起了广泛关注。深交所有几十人的监控室,设置了,200,多个指标用于监测估计,一旦出现股价偏离大盘走势,深交所利用大数据查探异动背后是哪些人或机构在参与。,证监会大数据,量化交易,程序化交易,高频交易是大数据应用比较多的领域。,全球,2/3,的股票
42、交易量是由高频交易所创造的,参与者总收益每年高达,80,亿美元。,其中,大数据算法被用来作出交易决定。现在,大多数股权交易都是通过大数据算法进行,这些算法越来越多地开始考虑社交媒体网络和新闻网站的信息来在几秒内做出买入和卖出的决定。,当一个产品可以在多个交易所交易时,会形成不同的定价,在这当中,谁能够最快地捕捉到同一个产品在不同交易所之间的显著价差,谁就能捕捉到瞬间套利机会,技术成为了重要因素,金融大数据,在摩托车生产厂商哈雷,戴维森公司位于宾尼法尼亚州约克市新翻新的摩托车制造厂,软件不停的在记录着微小的制造数据,如喷漆室风扇的速度等等。当软件察觉风扇速度、温度、湿度或其它变量脱离规定数值,它
43、就会自动调节机械。哈雷,戴维森同时还使用软件,还寻找制约公司每,86,秒完成一台摩托车制造工作的瓶颈。最近,这家公司的管理者通过研究数据,认为安装后挡泥板的时间过长。通过调整工厂配置,哈雷,戴维森提高了安装该配件的速度。,美国一些纺织及化工生产商,根据从不同的百货公司,POS,机上收集的产品销售速度信息,将原来的,18,周送货速度减少到,3,周,这对百货公司分销商来说,能以更快的速度拿到货物,减少仓储。对生产商来说,积攒的材料仓储也能减少很多。,制造业大数据,谷歌基于每天来自全球的,30,多亿条搜索指令设立了一个系统,这个系统在,2009,年甲流爆发之前就开始对美国各地区进行“流感预报”,并推
44、出了“谷歌流感趋势”服务。,谷歌在这项服务的产品介绍中写道:搜索流感相关主题的人数与实际患有流感症状的人数之间存在着密切的关系。虽然并非每个搜索“流感”的人都患有流感,但谷歌发现了一些检索词条的组合并用特定的数学模型对其进行分析后发现,这些分析结果与传统流感监测系统监测结果的相关性高达,97%,。,这也就表示,谷歌公司能做出与疾控部门同样准确的传染源位置判断,并且在时间上提前了一到两周。”,医疗大数据,国际大石油公司一直都非常重视数据管理。如雪佛龙公司将,5,万台桌面系统与,1800,个公司站点连接,消除炼油、销售与运输“下游系统”中的重复流程和系统,每年节省,5000,万美元,过去,4,年已
45、获得了净现值约为,2,亿美元的回报。,准确预测太阳能和风能需要分析大量数据,包括风速、云层等气象数据。丹麦风轮机制造商维斯塔斯,(Vestas Wind Systems),,通过在世界上最大的超级计算机上部署,IBM,大数据解决方案,得以通过分析包括,PB,量级气象报告潮汐相位、地理空间、卫星图像等结构化及非结构化的海量数据,优化风力涡轮机布局,有效提高风力涡轮机的性能,为客户提供精确和优化的风力涡轮机配置方案不但帮助客户降低每千瓦时的成本,并且提高了客户投资回报估计的准确度,同时它将业务用户请求的响应时间从几星期缩短到几小时。,能源大数据,UPS,最新的大数据来源是安装在公司,4.6,万多辆
46、卡车上的远程通信传感器,这些传感器能够传回车速、方向、刹车和动力性能等方面的数据。收集到的数据流不仅能说明车辆的日常性能,还能帮助公司重新设计物流路线。,大量的在线地图数据和优化算法,最终能帮助,UPS,实时地调配驾驶员的收货和配送路线。该系统为,UPS,减少了,8500,万英里的物流里程,由此节约了,840,万加仑的汽油。,交通大数据,与传统电视剧有别,,纸牌屋,是一部根据“大数据”制作的作品。制作方,Netflix,是美国最具影响力的影视网站之一,在美国本土有约,2900,万的订阅用户。,Netflix,成功之处在于其强大的推荐系统,Cinematch,,该系统基于用户视频点播的基础数据如
47、评分、播放、快进、时间、地点、终端等,储存在数据库后通过数据分析,计算出用户可能喜爱的影片,并为他提供定制化的推荐。,Netflix,发布的数据显示,用户在,Netflix,上每天产生,3000,多万个行为,比如暂停、回放或者快进,同时,用户每天还会给出,400,万个评分,以及,300,万次搜索请求。,Netflix,遂决定用这些数据来制作一部电视剧,投资过亿美元制作出,纸牌屋,。,Netflix,发现,其用户中有很多人仍在点播,1991,年,BBC,经典老片,纸牌屋,,这些观众中许多人喜欢大卫,芬奇,观众大多爱看奥斯卡得主凯文,史派西的电影,由此,Netflix,邀请大卫,芬奇为导演,凯文,
48、史派西为主演翻拍了,纸牌屋,这一政治题材剧。,2013,年,2,月,纸牌屋,上线后,用户数增加了,300,万,达到,2920,万。,文化传媒大数据,基于大数据的应用,威胁发现,技术,认证技术,数据真实性分析,安全,-,即,-,服务,大数据的应用,技术,基于大数据,企业可以更主动的发现潜在的安全威胁,相较于传统技术方案,大数据威胁发现技术有以下优点:,1,、分析内容的范围更大,2,、分析内容的时间跨度更长,3,、攻击威胁的预测性,4,、对未知威胁的检测,大数据的应用,基于大数据的威胁发现技术,身份认证:信息系统或网络中确认操作者身份的过程,传统认证技术只要通过用户所知的口令或者持有凭证来鉴别用户
49、传统技术面临的问题,:,1,、攻击者总能找到方法来骗取用户所知的秘密,或窃取用户凭证,2,、传统认证技术中认证方式越安全往往意味着用户负担越重,大数据的应用,基于大数据的认证技术,基于大数据的认证技术:收集用户行为和设备行为数据,对这些数据分析,获得用户行为和设备行为的特征,进而确定其身份。,1,、攻击者很难模拟用户行为通过认证,2,、减小用户负担,3,、更好的支持各系统认证机制的统一,1,、初始阶段的认证,,由于缺乏大量数据,,认证分析不准确,2,、用户隐私问题,优点,缺点,大数据的应用,基于大数据的认证技术,基于大数据的数据真实性分析被广泛认为是最为有效的方法,优势:,1,、引入大数据分
50、析可以获得更高的识别准确率,2,、在进行大数据分析时,通过机器学习技术,可以发现更多具有新特征的垃圾信息,面临的困难:虚假信息的定义、分析模型的构建等,大数据的应用,基于大数据的数据真实性分析,核心问题:如何收集、存储和管理大数据,对信息安全企业来说,现实的方式是通过某种方式获得大数据服务,结合自己的技术特色,对外提供安全服务,前景:以底层大数据服务为基础,各个企业之间组成相互依赖、相互支撑的信息安全服务体系,形成信息安全产业界的良好生态环境,大数据的应用,大数据与“安全,-,即,-,服务”,一、大数据的来源,四,、成功案例,五、大数据安全,三、大数据的应用,二,、什么是大数据,目录,塔吉特:






