资源描述
大数据技术大数据技术1、什么是、什么是“数据数据”日程生活中,数据和信息经常混为一谈。日程生活中,数据和信息经常混为一谈。“数据是对事实、概念或指令的一种特殊表达形式,数据是对事实、概念或指令的一种特殊表达形式,这种特殊的表达形式可以用人工的方式或者用自动这种特殊的表达形式可以用人工的方式或者用自动化的装置进行通信、翻译、转换或进行加工处理化的装置进行通信、翻译、转换或进行加工处理”。-ISO信息是对信息是对“人人”有用的数据,可以影响人们的行为有用的数据,可以影响人们的行为和决策。和决策。信息处理的本质是数据处理,数据处理的目标是或信息处理的本质是数据处理,数据处理的目标是或的有用的信息。的有用的信息。-上述解释来自国际标准化组织的相关定义上述解释来自国际标准化组织的相关定义大数据技术大数据技术大数据技术2、什么是、什么是“数据库数据库”大数据技术数据多了,怎么办?大数据技术好雨知时节!好雨知时节!数据库技术产生了!始于上个世界数据库技术产生了!始于上个世界60年代中期年代中期 需求分析需求分析数据怎样规范表示?数据怎样规范表示?涉及哪些软件?涉及哪些软件?涉及哪些硬件?涉及哪些硬件?数据如何输入?数据如何输入?结果如何输出?结果如何输出?如何解决数据的访问冲突问题?如何解决数据的访问冲突问题?如何从大量的数据中发现一写潜在的应用规律?如何从大量的数据中发现一写潜在的应用规律?大数据技术基本概念数据库(DB):接受统一管理的相关数据的集合。数据库管理系统(DBMS):数据库系统中管理数据的软件系统,它是数据库系统中的核心组成部分,对数据库的一切操作,包括定义、查询、更新以及各种控制,都是通过DBMS进行。如甲骨文数据库系统(DBS):实现有组织地、动态地存储大量关联数据,方便多用户访问,由计算机软件、硬件和数据资源组成的系统。数据库技术:研究数据库的结构、存取、管理和使用的软件学科。大数据技术软件软件硬件硬件+数据本身数据本身大数据技术3 3、什么是、什么是“大数据大数据”?大数据技术 “大数据”概念的诞生2008年9月4日自然(Nature)刊登了一个名为“Big Data”的专辑2009年7月OReilly Media出版社出版了一本名为“Beautiful Data”的书2009年10月微软为纪念Jim Gray,出版了“第四范式数据密集的科学发现(The Fourth ParadigmData Intensive Scientific Discovery)”大数据技术 “大数据”概念的诞生2011年2月11日:Science刊登了一个 名为Dealing with Data的专辑,联合Science:Signaling、Science:Translational Medicine和Science Careers推出相关专题,讨论数据对科学研究的重要性同一天,在美国很受欢迎的智力竞答“危险边缘(Jeopardy)”电视节目中,IBM的“沃森”系统以绝对优势战胜两名人类顶级选手。和14年前的“深蓝”(战胜加里加里卡斯帕罗夫卡斯帕罗夫)相比,“沃森”除具有超群的计算能力外,更拥有超大规模的数据以及数据处理能力.大数据技术 “大数据”概念的诞生2012年3月29日,美国总统科技政策办公室OSTP(Office of Science and Technology Policy)宣布了每年投资两亿美元的“大数据研究计划”(Big Data R&D Initiative)同一天,我国科技部发布的“十二五国家科技计划信息技术领域2013年度备选项目征集指南”把大数据研究列在首位.大数据技术 “大数据”概念的诞生“大数据”主要讨论的是与科学发现有关的数据“大数据”很好地概括了当前数据管理领域问题的重要性和多样性数据问题在研究和应用上空前的深度和广度“大数据”成为一个时髦的术语(Buzzword),成为工业界与学术界共同关注的热点“大数据”是个合适的umbrella,较广的覆盖面应用驱动,将IT的重点转移到数据方面,超越传 统数据库的理念.大数据技术与大数据相关的几个热点问题非结构化数据:数据特点云计算与大数据:处理平台Hadoop 与大数据:主流的处理工具大数据技术 1、非结构化数据(结构化数据)=非结构化数据什么是结构化的数据?大数据技术结构化数据结构化数据任何一列的数据不可以再细分任何一列的数据不可以再细分任何一列的数据都有相同的数据类型任何一列的数据都有相同的数据类型大数据技术结构化数据很多.p 人力资源管理p 库存管理p 门诊挂号p 工资管理p 物流管理p 户籍管理p 各种票务管理p 印象:目前的数据管理技术和手段已经很完善了!印象:目前的数据管理技术和手段已经很完善了!现实:数据库管理技术确实在一些领域得到了完美的应用!现实:数据库管理技术确实在一些领域得到了完美的应用!大数据技术 数据库的三大成就关系模型p E.F.Codd(数据库领域第二个图灵奖获得者)事务处理p Jim Gray(数据库领域第三个图灵奖获得者)查询优化p 结构化(模式和实例分离)p 关系数据库理论(关系代数)p 物理存储(索引/统计)成功造就了数百亿美元的数据库产业大数据技术孔子登东山而小鲁,登泰山而小天下孔子登东山而小鲁,登泰山而小天下.大数据技术非结构化数据更多.非结构化数据的实例:非结构化数据的实例:文本、图片、网页、图像、音频、视频等等。文本、图片、网页、图像、音频、视频等等。这里的这里的“多多”,包括数据量,包括数据量“巨大巨大”和种类和种类“繁杂繁杂”!(结构化数据结构化数据)=)=非结构化数据非结构化数据大数据技术数据量数据量“巨大巨大”大数据技术种类种类“繁杂繁杂”!多媒体文件的基本要素:文字、声音、图像。多媒体文件的基本要素:文字、声音、图像。多媒体效果的组成过程:音频文件、视频文件、文字文多媒体效果的组成过程:音频文件、视频文件、文字文件(字幕),按照一定时间节点的合成。件(字幕),按照一定时间节点的合成。大数据技术更为科学的统计规律更为科学的统计规律世界上的数据80%是非结构化数据二/八定律大数据技术 两个世界(two universals).大数据技术 数据库世界.大数据技术 非数据库世界.大数据技术28大数据的评估指标大数据的评估指标11、数据规模可观、数据规模可观(入门标准入门标准)大数据最基本的要求当然是数据规模大,但很难给出一个绝大数据最基本的要求当然是数据规模大,但很难给出一个绝对的数字标准来确定大小,而只能用一些模糊的感觉来相对对的数字标准来确定大小,而只能用一些模糊的感觉来相对比较。例如,一个公司在年度预算中有了专门的,显著的数比较。例如,一个公司在年度预算中有了专门的,显著的数据存储和分析预算(例如,总预算的据存储和分析预算(例如,总预算的3-5%),有了独立的数),有了独立的数据处理和分析部门,有了比较完整的数据存储,安全和保密据处理和分析部门,有了比较完整的数据存储,安全和保密政策与管理流程,有了高度依赖数据分析结果的商业模式,政策与管理流程,有了高度依赖数据分析结果的商业模式,那么,可以说这个公司面临着利用大数据的机会或挑战了。那么,可以说这个公司面临着利用大数据的机会或挑战了。1 谢谢 文:看得见的未来文:看得见的未来十谈大数据时代十谈大数据时代(http:/www.china- 网络业一个常见现象就是随着数据量的增加,用户行为所产生的数据间的关系越来网络业一个常见现象就是随着数据量的增加,用户行为所产生的数据间的关系越来越不清晰,越来越难以捉摸,越来越相互孤立,也就是所谓的数据碎片化。这种碎越不清晰,越来越难以捉摸,越来越相互孤立,也就是所谓的数据碎片化。这种碎片化主要来自两个方面:一是网站结构碎片化,逻辑混乱化,各种产品与服务之间片化主要来自两个方面:一是网站结构碎片化,逻辑混乱化,各种产品与服务之间相互孤立化,因而导致数据之间关系断裂,关联度很低。例如,明明是同一个用户相互孤立化,因而导致数据之间关系断裂,关联度很低。例如,明明是同一个用户在一个网站上使用了十种不同的产品和服务,但由于其中五种无需注册使用,其他在一个网站上使用了十种不同的产品和服务,但由于其中五种无需注册使用,其他五种又需要分别注册使用,结果这十种网络行为的数据无法整合在一起,或者需要五种又需要分别注册使用,结果这十种网络行为的数据无法整合在一起,或者需要通过种种技术手段和工具进行高成本的数据整合,以至于入不敷出。这也就减少了通过种种技术手段和工具进行高成本的数据整合,以至于入不敷出。这也就减少了数据的含金量,降低了数据的可挖掘度,使得无论数据量如何大,结构如何复杂,数据的含金量,降低了数据的可挖掘度,使得无论数据量如何大,结构如何复杂,也形成不了大数据。反之,如果一个也形成不了大数据。反之,如果一个WEB2.0时代的开放平台,架构清晰,逻辑分时代的开放平台,架构清晰,逻辑分明,用户与用户,用户与用户行为,行为与行为之间都具有确定的关联性,那么这明,用户与用户,用户与用户行为,行为与行为之间都具有确定的关联性,那么这样的数据就具有极高的含金量,极高的分析挖掘价值,也就可以形成大数据样的数据就具有极高的含金量,极高的分析挖掘价值,也就可以形成大数据大数据技术结论结论“大数据”技术不能简单的认为是大的“数据”和大的“数据库技术”。严格意义上讲,技术本质上大数据技术和数据库技术是两个完全不同的技术体系!为什么呢?大数据技术324、大数据处理的工具与手段、大数据处理的工具与手段大数据技术33第一阶段:简单数字资源的产生和丰富第一阶段:简单数字资源的产生和丰富数字资源的产生和积累过程(数据库技术应运而生)可数字资源的产生和积累过程(数据库技术应运而生)可以理解成对应资本主义自由贸易的初级阶段以理解成对应资本主义自由贸易的初级阶段第二阶段:规范化数字资源的大规模集成应用第二阶段:规范化数字资源的大规模集成应用大规模结构化数字资源的管理与信息分析与提取,可以大规模结构化数字资源的管理与信息分析与提取,可以理解成跨国公司的形成过程理解成跨国公司的形成过程第三阶段:网络环境下异构数字资源的增值应用第三阶段:网络环境下异构数字资源的增值应用网络环境下结构化和非结构化数字资源共存的情况下,网络环境下结构化和非结构化数字资源共存的情况下,如何实现增值应用,可以理解成资本运作的高级阶段。如何实现增值应用,可以理解成资本运作的高级阶段。大数据产生的历史背景大数据产生的历史背景大数据技术34“生命的本质在于物质的组织形式,而不在于物质的自身”人工生命之父克里斯兰顿(Chris Langton).物品的生产与流通到资本的产生与流通,映射到数字资源的生产和管理到数字资源的增值与再生数据之间的泛在互联数据之间的泛在互联大数据技术需要什么样的工具与手段?p因为数据规模大,需要大容量的存储因为数据规模大,需要大容量的存储p因为数据结构复杂,需要高性能的计算能力因为数据结构复杂,需要高性能的计算能力p因为异构的数据之间关联度强,需要跨平台的协同处因为异构的数据之间关联度强,需要跨平台的协同处理能力理能力大数据技术方法论和工具方法论和工具方法论:MapReduce工具:Hadoop大数据技术Hadoop史前2003:GFS(Google文件系统)论文发表p Sanjay Ghemawat,Howard Gobioff,Shun-Tak Leung:The Google file system.SOSP 2003:29-432004:MapReduce论文发表p Jeffrey Dean,Sanjay Ghemawat:MapReduce:Simplified Data Processing on Large Clusters.OSDI 2004:137-1502006:BigTable论文发表p Fay Chang,Jeffrey Dean,Sanjay Ghemawat,et al:Bigtable:A Distributed Storage System for Structured Data.OSDI 2006:205-218大数据技术Hadoop诞生2004年:Doug Cutting和Michael J.Cafarella根据Google Lab论文实施,取名Hadoop。Cloudera公司,Hadoop商用版(Apache开源版)2005秋天:Hadoop 由Apache作为 Lucene的子项 目Nutch的一部分正式引入。2006年3月:Map/Reduce 和 Nutch Distributed File System(NDFS)分别被纳入 Hadoop 的项目中2006.1 2008:Web-scale Hadoop!(Yahoo!)大数据技术Hadoop诞生的背景用户对大数据存储、管理和分析需求迫切传统数据库对非结构化数据几乎无能为力利用传统数据库来对大数据进行处理时,会面临很多难以解决的问题。p 软、硬件平台的要求高,成本压力p 成本和收益不匹配的充分发掘和利用非结构化数据背后的商业 价值,用户希望能以更经济的方式、更好 的性能来处理数据,从而推动业务创新大数据技术Hadoop不能做什么?Hadoop在处理网页数据等方面取得巨大成 功,经过几年的发展,从一门边缘技术成 长为一种事实上的标准Hadoop自身的弱点p Hadoop是一个离线的、批量的数据处理系统,实 时在线(OLTP,高效分析)仍是数据库的擅长p HDFS存储的是大文件,数据移动频繁,查询响应 时间难以保证有尝试将Hadoop和数据库结合起来应对企 业大数据的挑战 大数据技术5 5、大数据技术、大数据技术在现代教育领域中的潜在应用在现代教育领域中的潜在应用大数据技术新技术的辩证认知新技术的辩证认知创新是一个民族进步的灵魂,是一个国家兴旺发创新是一个民族进步的灵魂,是一个国家兴旺发达的不竭动力。达的不竭动力。创新是在现有技术体系上的拔高,而不是摈弃原创新是在现有技术体系上的拔高,而不是摈弃原有的技术体系。有的技术体系。忘记过去意味着背叛!忘记过去意味着背叛!大数据技术什么是现代教育什么是现代教育工欲善其事,必先利其器!工欲善其事,必先利其器!利器已有,如何善工?利器已有,如何善工?大数据技术现代教育的内涵与外延现代教育的内涵与外延内涵:利用数字化技术实现知识更新与传播的高效与便捷。外延:受众与老师在知识接受与传播环节的数字化工具及网络虚拟化课堂。工具的更新与高效,是为了更好的实现教育不代表大数据技术现代教育时代的教学资源现代教育时代的教学资源大数据技术敬请指正谢谢!大数据技术
展开阅读全文