收藏 分销(赏)

大数据应用分析技术与方法概述.ppt

上传人:快乐****生活 文档编号:6609849 上传时间:2024-12-16 格式:PPT 页数:37 大小:3.27MB
下载 相关 举报
大数据应用分析技术与方法概述.ppt_第1页
第1页 / 共37页
大数据应用分析技术与方法概述.ppt_第2页
第2页 / 共37页
大数据应用分析技术与方法概述.ppt_第3页
第3页 / 共37页
大数据应用分析技术与方法概述.ppt_第4页
第4页 / 共37页
大数据应用分析技术与方法概述.ppt_第5页
第5页 / 共37页
点击查看更多>>
资源描述

1、,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,大数据应用分析技术与方法,Big Data,目录,大数据概述,大数据的产生和发展,大数据与传统数据的区别,第一章:大数据是信息社会的宝贵资源,前言,作者维克托,迈尔,-,舍恩伯格,大数据时代的预言家,,科学,自然,等著名学术期刊最推崇的互联网研究者之一,,“,大数据商业应用第一人,”,,拥有在哈佛大学、牛津大学、耶鲁大学和新加坡国立大学等多个互联网研究重镇任教的经历。,前言,顾客,一次购买商品,1,面包、黄油、,尿布,、啤酒,2,咖啡、糖、小甜饼、鲑鱼,3,面包、黄油、咖啡、,尿布,、啤酒、鸡蛋,4,

2、面包、黄油、鲑鱼、鸡,5,鸡蛋、面包、黄油,6,鲑鱼、,尿布,、啤酒,7,面包、茶叶、糖、鸡蛋,8,咖啡、糖、鸡、鸡蛋,9,面包、,尿布,、啤酒、盐,10,茶叶、鸡蛋、小甜饼、,尿布,、啤酒,品种,计数项,:,品种,面包,6,啤酒,5,尿布,5,鸡蛋,5,黄油,4,糖,3,咖啡,3,鲑鱼,3,小甜饼,2,鸡,2,茶叶,2,盐,1,总计,41,前言,=,前言,大数据是未来的石油,习近平,政府管理不仅要讲究策略,还要讲究手段,比如大数据技术的,应用,,,2014,年,3,月,8,日,“,大数据,”,首次写入政府工作报告,奥巴马,“,将投入巨资拉动与大数据相关的产业,”“,数据为,“,未来的石油,“

3、,,是美国综合国力的一部分,是与陆权、海权、空权同等重要的,“,国家核心资产,”,。,李克强:,加快推进全国中小企业征信系统建设,通过大数据等技术优化中小企业征信资质。,李克强,经济数据和目标的进一步调整,中小企业将面临更大的压力,互联网金融除了解决便利性问题外,更重要的是如何围绕特有的大数据资源展开对实体经济的服务,汪洋,数据为王,财政工作离不开大数据,前言,*,2012年3月,美国奥巴马政府宣布投资2亿美元启动“大数据研发计划”,旨在提高和改进从海量和复杂数据中获取知识的能力,加速美国在科学和工程领域发明的步伐,增强国家安全。,这是继1993年美国宣布“信息高速公路”计划后的又一次重大科技

4、发展部署,由美国国家科学基金会、能源部等6个联邦部门共同投资。,美国的大数据战略,1.1,大数据概述,大数据的概念,大数据源于英文:,“,Big Data,”,如,“,海量数据,”“,信息爆炸,”,等。,麦肯锡,全球研究所给出的定义是:一种规模大到在获取、,存储,、管理、分析方面大大超出了传统,数据库,软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。,1.1,大数据概述,美国国家标准和技术研究院则认为:大数据是由于数据的容量、数据的获取速度或数据的表示限制了使用传统关系方法对数据的分析处理能力。需要使用扩展的机制来提高数据处理效率的技术,。,

5、1.1,大数据概述,大数据的特征,容量大,1,谷歌每月处理数据量在,400PB,,能处理千亿以上的网页数量,百度目前数据总量接近,1000PB,,存储网页数量近一万亿,每天处理,60,亿次搜索请求,一个,8Mbps,的摄像头一小时可产生,3.6G,数据,1.1,大数据概述,1Byte,=,8,Bit,1KB,=,1,024,Bytes,1MB,=,1,024,KB,=,1,048,576,Bytes,1GB,=,1,024,MB,=,1,048,576,KB,=,1,073,741,824,Bytes,1TB,=,1,024,GB,=,1,048,576,MB,=,1,099,511,627,

6、776,Bytes,1PB,=,1,024,TB,=,1,048,576,GB,=1,125,899,906,842,624,Bytes,1EB,=,1,024,PB,=,1,048,576,TB,=,1,152,921,504,606,846,976,Bytes,1ZB,=,1,024,EB,=,1,180,591,620,717,411,303,424,Bytes,1YB,=,1,024,ZB,=,1,208,925,819,614,629,174,706,176,Bytes,BB/NB/DB/CB,一个汉字两个字节,2byte,,,1Kb512,个汉字,1.1,大数据概述,红楼梦,含标点

7、,87,万字(不含标点,853509,字),每个汉字占两个字节:,1,汉字,=16bit=2*8,位,=2bytes,1GB,约等于,671,部红楼梦,1TB,约等于,631,903,部,1PB,约等于,647,068,911,部,美国国会图书馆藏书(,151,785,778,册)(,2011,年,4,月:收录数据,235TB,),1EB=4000,倍美国国会图书馆存储的信息量,1.1,大数据概述,种类多,大数据的特征,2,越来越多非结构化数据;工业、农业、音视频、天气、地理位置信息等多类型数据。,既有结构化数据也有非结构化数据,还有,HTML,和,XML,等半结构化数据。,1.1,大数据概述

8、,消费行业,金融服务,食品安全,医疗卫生,军事,交通环保,电子商务,气象,1.1,大数据概述,高速度,大数据的特征,3,大数据能够更快地满足实时性的需求。实时分析、要有立竿见影而非事后见效效果。对数据实时处理有着极高的要求,通过传统数据库查询方式得到的“当前结果”很可能已经没有价值。,1.1,大数据概述,This is an example text.Go ahead and replace it.,03,价值密度低,大数据的特征,4,数据量大并不意味着数据价值大,想得到有价值的数据就像大海捞针,因为有用的数据一般都是隐性的,所以大数据面临的考验就是怎么从海量的数据中发现规律,找出有用的数据。

9、,*,1.2,大数据的产生和发展,马云对未来的预测,是建立在对用户行文分析的基础上。,大数据的产生和发展,硬件成本的降低,网络带宽的提升,云计算的兴起,网络技术的发展,智能终端的普及,物联网,大数据产生的前提,:,大数据的产生和发展,什么是云计算?狭义的云计算是指,IT,基础设施的交付和使用模式,指通过网络以按需、易扩展的方式获得所需的资源,(,硬件、平台、软件,),。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的,并且可以随时获取,按需使用,随时扩展,按使用付费。这种特性经常被称为像水电一样使用,IT,基础设施。广义的云计算是指服务的交付和使用模式,指通过网络以按需、

10、易扩展的方式获得所需的服务。这种服务可以是,IT,和软件、互联网相关的,也可以是任意其他的服务。,举个例子:阿里云计算发布的,Matrix+,(码,+,)计划,通过连接全球,PC,、平板电脑、超便携设备和手机等设备,组建人类有史以来最为强大的计算网络,这些强大的计算能力将被用来搜索外星人。,大数据的产生和发展,云计算,(cloud computing),是一种基于因特网的超级计算模式,在远程的数据中心里,成千上万台电脑和服务器连接成一片电脑云。因此,云计算甚至可以让你体验每秒,10,万亿次的运算能力,拥有这么强大的计算能力可以模拟核爆炸、预测气候变化和市场发展趋势。用户通过电脑、笔记本、手机等

11、方式接入数据中心,按自己的需求进行运算。,大数据的产生和发展,Iaas,(基础设施即服务,Infrastructure as a Servic,),阿里云、亚马逊,AWS,、微软,Azure,Paas,(平台即服务,Platform-as-a-Service,),,GAE,(谷歌)、阿里,ACE,Saas,(软件即服务,Software-as-a-Service,),大数据的产生和发展,大数据的产生和发展,*,facebook,社交网络,淘宝、,ebuy,电子商务,微博、,Apps,移动互联,21,世纪是数据信息大发展的时代,移动互联、社交网络、电子商务等极大拓展了互联网的边界和应用范围,各种

12、数据正在迅速膨胀并变大。,互联网(社交、搜索、电商)、移动互联网(微博)、物联网(传感器,智慧地球)、车联网、,GPS,、医学影像、安全监控、金融(银行、股市、保险)、电信(通话、短信)都在疯狂产生着数据。,“,大数据,”,的诞生:,半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到了一个开始引发变革的程度。它不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快。信息爆炸的学科如天文学和基因学,创造出了,“,大数据,”,这个概念,*,。如今,这个概念几乎应用到了所有人类智力与发展的领域中。,1.2,大数据的,产生和发展,*,GB,TB,PB,EB,ZB,想驾驭这庞大的数据,我

13、们必须了解大数据的特征。,在,2006,年,个人用户才刚刚迈进,TB,时代,全球一共新产生了约,180EB,的数据;,在,2011,年,这个数字达到了,1.8ZB,。,而有市场研究机构预测:,到,2020,年,整个世界的数据总量将会增长,44,倍,达到,39.2ZB,(,1ZB=10,亿,TB,)!,1.2,大数据,的产生和发展,大数据的发展,大数据,的产生和发展,大数据的产生和发展,1.3,大数据与传统数据的区别,数据规模,:,GB,,,TB,,甚至是,PB,和,EB,为基本单位,数据类型,:结构化,半结构化,非结构化,模式和数据的关系,:先模式后数据与先数据后模式,处理对象,:数据作为处理

14、对象与作为资源的区别,存储方式,:关系型数据库存储与非关系型存储,*,数据的再利用:,由于在信息价值链中的特殊位置,有些公司可能会收集到大量的数据,但他们并不急需使用也不擅长再次利用这些数据。例如,移动电话运营商手机用户的位置信息来传输电话信号,这对以他们来说,数据只有狭窄的技术用途。但当它被一些发布个性化位置广告服务和促销活动的公司再次利用时,则变得更有价值。,大数据价值链的,3,大构成:数据本身、技能与思维,其中三者兼具的有谷歌公司,谷歌在刚开始收集数据的时候就已经有多次使用数据的想法。比方说,它的街景采集车手机全球定位系统数据不光是为了创建谷歌地图,也是为了制成全自动汽车以及谷歌眼镜等与

15、实景交汇的产品。,未来,企业会依靠洞悉数据中的信息更加了解自己,也更加了解客户。,大数据时代,传统行业最终都会转变为大数据行业,无论是金融服务业、医药还是制造业。,大数据的应用,未来,改变一切,又是崇山峻岭,又是长城,又是红色的中国地图,我的老天鹅!,这也太厉害了,大数据的应用(新的生活方式),购物:,不受时空限制,随时随地购物。,在看不到商品的情况下,口碑就是质量。,大数据的应用(新的生活方式),旅行:,足不出户,安排好一切。,大数据的风险,1.,安全问题,2.,数据的真实性和规律性问题,大数据的风险,根据,2012,年,6,月,16,号纽约时报的一篇报道介绍了一个美国的父亲很生气的找到美国,TARGET,公司,因为,TARGET,公司说她女儿怀孕了,而他的女儿才,15,岁。但是,1,个月后他又来到了,TARGET,公司道歉承认他的女儿确实怀孕了,,TARGET,是一家优惠券发行及网上零售公司,,TARGET,公司利用大数据发现怀孕的妇女有不同的购买习惯,比如怀孕,3,个月后会购买无香料的洗发水等,,5-6,个月后会买补品等,通过类似的搜索,发现相应的客户。,大数据的风险,大数据时代没有隐私,爱德华,斯诺登,谢谢,

展开阅读全文
部分上传会员的收益排行 01、路***(¥15400+),02、曲****(¥15300+),
03、wei****016(¥13200+),04、大***流(¥12600+),
05、Fis****915(¥4200+),06、h****i(¥4100+),
07、Q**(¥3400+),08、自******点(¥2400+),
09、h*****x(¥1400+),10、c****e(¥1100+),
11、be*****ha(¥800+),12、13********8(¥800+)。
相似文档                                   自信AI助手自信AI助手
搜索标签

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服