大数据技术原理与应用-ppt课件.ppt-资源下载-咨信网-让知识获取变得高效

大数据技术原理与应用-ppt课件.ppt

1、单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,.,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,.,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,.,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,.,*,单击此处编辑母版标题样式,单击此处编辑

2、母版文本样式,第二级,第三级,第四级,第五级,.,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,.,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,.,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,.,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,.,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,.,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,.

3、单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,.,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,.,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,.,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,.,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,.,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,.,*,单击此处编辑母版标题样式,单击此处编辑母版

4、文本样式,第二级,第三级,第四级,第五级,.,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,.,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,.,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,.,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,.,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,.,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,.,*

5、单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,.,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,.,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,.,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,.,*,大数据技术原理与应用,主讲教师：,课程特色,搭建起通向“大数据知识空间”的桥梁和纽带,构建知识体系、阐明基本原理,引导初级实践、了解相关应用,为学生在大数据领域“深耕细作”奠定基础、指明方向,内容提要,本课程系统介绍了大数据相关知

6、识，共有,13,章,系统地论述了大数据的基本概念、大数据处理架构,Hadoop,、分布式文件系统,HDFS,、分布式数据库,HBase,、,NoSQL,数据库、云数据库、分布式并行编程模型,MapReduce,、流计算、图计算、数据可视化以及大数据在互联网、生物医学和物流等各个领域的应用,在,Hadoop,、,HDFS,、,HBase,和,MapReduce,等重要章节，安排了入门级的实践操作，让学生更好地学习和掌握大数据关键技术,3,.,篇章安排,第一篇：大数据基础篇,第二篇：大数据存储篇,第三篇：大数据处理与分析篇,第四篇：大数据应用篇,4,.,第一篇：大数据基础篇,5,.,第二篇：大数据

7、存储篇,6,.,第三篇：大数据处理与分析篇,7,.,第四篇：大数据应用篇,8,.,各章内容,第一章大数据概述,第二章大数据处理架构,Hadoop,第三章分布式文件系统,HDFS,第四章分布式数据库,HBase,第五章,NoSQL,数据库,第六章云数据库,第七章,MapReduce,第八章流计算,第九章图计算,第十章数据可视化,第十一章大数据在互联网领域的应用,第十二章大数据在生物医学领域的应用（自学）,第十三章大数据的其他应用（自学）,9,.,第一,章大数据概述,提纲,1.1 大数据时代,1.2 大数据概念,1.3 大数据的影响,1.4 大数据的应用,1.5 大数据关键

8、技术,1.6 大数据计算模式,1.7 大数据产业,1.8 大数据与云计算、物联网的关系,1.1,大数据时代,1.1.1,第三次信息化浪潮,根据,IBM,前首席执行官郭士纳的观点，,IT,领域每隔十五年就会迎来一次重大变革,信息化浪潮,发生时间,标志,解决问题,代表企业,第一次浪潮,1980年前后,个人计算机,信息处理,Intel、AMD、IBM、苹果、微软、联想、戴尔、惠普等,第二次浪潮,1995年前后,互联网,信息传输,雅虎、谷歌、阿里巴巴、百度、腾讯等,第三次浪潮,2010年前后,物联网、云计算和大数据,信息爆炸,将涌现出一批新的市场标杆企业,表1-1 三次信息化浪潮,1.1.2信息科技为

9、大数据时代提供技术支撑,图1-,1,存储价格随时间变化情况,存储设备容量不断增加，速度不断提升，,价格却在不断下降,1.2信息科技为大数据时代提供技术支撑,来自斯威本科技大学（,Swinburne University of Technology,）的研究团队，在,2013,年,6,月,29,日刊出的,自然通讯（,Nature Communications,）,杂志的文章中，描述了一种全新的数据存储方式，可将,1PB,（,1024TB,）的数据存储到一张仅,DVD,大小的聚合物碟片上。,1.1.2信息科技为大数据时代提供技术支撑,图1-,3 CPU,晶体管数目随时间变化情况,2.CPU,处理能

10、力大幅提升,1.1.2信息科技为大数据时代提供技术支撑,摩尔定律：,CPU,性能每隔,18,个月提高一倍，,价格下降一半,图1-,4,网络带宽随时间变化情况,3.,网络带宽不断增加,1.1.2,信息科技为大数据时代提供技术支撑,1.1.3数据产生方式的变革促成大数据时代的来临,图1-,5,数据产生方式的变革,1.1.4 大数据的发展历程,阶段,时间,内容,第一阶段：萌芽期,上世纪90年代至本世纪初,随着数据挖掘理论和数据库技术的逐步成熟，一批商业智能工具和知识管理技术开始被应用，如数据仓库、专家系统、知识管理系统等。,第二阶段：成熟期,本世纪前十年,Web2.0应用迅猛发展，非结构化数据大量产

11、生，传统处理方法难以应对，带动了大数据技术的快速突破，大数据解决方案逐渐走向成熟，形成了并行计算与分布式系统两大核心技术，谷歌的GF,S,和MapReduce等大数据技术受到追捧，Hadoop平台开始大行其道,第三阶段：大规模应用期,2010年以后,大数据应用渗透各行各业，数据驱动决策，信息社会智能化程度大幅提高,表1-2 大数据发展的三个阶段,1.2大数据概念（,4V,）,1.2.1,数据量大,根据,IDC,作出的估测，数据一直都在以每年,50%,的速度增长，也就是说每两年就增长一倍（大数据摩尔定律）,人类在最近两年产生的数据量相当于之前产生的全部数据量,预计到,2020,年，全球将总共拥有

12、35ZB,的数据量，相较于,2010,年，数据量将增长近,30,倍,22,.,1.2.2,数据类型繁多,大数据是由结构化和非结构化数据组成的,10%,的结构化数据，存储在数据库中,90%,的非结构化数据，它们与人类信息密切相关,科学研究,基因组,LHC,加速器,地球与空间探测,企业应用,Email,、文档、文件,应用日志,交易记录,Web 1.0,数据,文本,图像,视频,Web 2.0,数据,查询日志,/,点击流,Twitter/Blog/SNS,Wiki,23,.,1.2.3,处理速度快,从数据的生成到消耗，时间窗口非常小，,可用于生成决策的时间非常少,1,秒定律：这一点也是和传统的数据挖

13、掘技术有着本质的不同,24,.,1.2.4,价值密度低,价值密度低，商业价值高,以视频为例，连续不间断监控过程中，可能有用的数据仅仅有一两秒，但是具有很高的商业价值,25,.,1.,3大数据的影响,图灵奖获得者、著名数据库专家,Jim Gray,博士观察并总结人类自古以来，在科学研究上，先后历经了实验、理论、计算和数据四种范式,实验,理论,计算,数据,1.,3大数据的影响,在思维方式方面，大数据完全颠覆了传统的思维方式：,全样而非抽样,效率而非精确,相关而非因果,1.3大数据的影响,在社会发展方面，,大数据决策逐渐成为一种新的决策方式,，,大数据应用有力促进了信息技术与各行业的深度融合,，,大

14、数据开发大大推动了新技术和新应用的不断涌现,在就业市场方面，大数据的兴起使得数据科学家成为热门职业,在人才培养方面，大数据的兴起，将在很大程度上改变中国高校信息技术相关专业的现有教学和科研体制,1.4大数据的应用,大数据无处不在，包括金融、汽车、零售、餐饮、电信、能源、政务、医疗、体育、娱乐等在内的社会各行各业都已经融入了大数据的印迹,典型的大数据应用实例,Kevin Spacey,David Fincher,英国同名小说,纸牌屋,风靡全球的美剧,纸牌屋,大数据分析,30,.,典型的大数据应用实例,从谷歌流感趋势看大数据的应用价值,“谷歌流感趋势”，通过跟踪搜索词相关数据来判断全美地区的流感情

15、况,31,.,1.5大数据关键技术,表,1-5,大数据技术的不同层面及其功能,技术层面,功能,数据采集,利用,ETL,工具将分布的、异构数据源中的数据如关系数据、平面数据文件等，抽取到临时中间层后进行清洗、转换、集成，最后加载到数据仓库或数据集市中，成为联机分析处理、数据挖掘的基础；或者也可以把实时采集的数据作为流计算系统的输入，进行实时处理分析,数据存储和管理,利用分布式文件系统、数据仓库、关系数据库、,NoSQL,数据库、云数据库等，实现对结构化、半结构化和非结构化海量数据的存储和管理,数据处理与分析,利用分布式并行编程模型和计算框架，结合机器学习和数据挖掘算法，实现对海量数据的处理和分析

16、对分析结果进行可视化呈现，帮助人们更好地理解数据、分析数据,数据隐私和安全,在从大数据中挖掘潜在的巨大商业价值和学术价值的同时，构建隐私数据保护体系和数据安全体系，有效保护个人隐私和数据安全,1.5大数据关键技术,分布式存储,分布式处理,GFSHDFS,BigTableHBase,NoSQL,（键值、列族、图形、文档数据库）,NewSQL,（如：,SQL Azure,）,MapReduce,大数据,两大核心技术,1.6大数据计算模式,大数据计算模式,解决问题,代表产品,批处理计算,针对大规模数据的批量处理,MapReduce、Spark等,流计算,针对流数据的实时计算,Storm、S4、Fl

17、ume、Streams、Puma、DStream、Super Mario、银河流数据处理平台等,图计算,针对大规模图结构数据的处理,Pregel、GraphX、Giraph、PowerGraph、Hama、GoldenOrb等,查询分析计算,大规模数据的存储管理和查询分析,Dremel、Hive、Cassandra、Impala等,表1-3 大数据计算模式及其代表产品,1.7大数据产业,大数据产业是指一切与支撑大数据组织管理和价值发现相关的企业经济活动的集合,产业链环节,包含内容,IT,基础设施层,包括提供硬件、软件、网络等基础设施以及提供咨询、规划和系统集成服务的企业，比如，提供数据中心解决

18、方案的,IBM,、惠普和戴尔等，提供存储解决方案的,EMC,，提供虚拟化管理软件的微软、思杰、,SUN,、,Redhat,等,数据源层,大数据生态圈里的数据提供者，是生物大数据（生物信息学领域的各类研究机构）、交通大数据（交通主管部门）、医疗大数据（各大医院、体检机构）、政务大数据（政府部门）、电商大数据（淘宝、天猫、苏宁云商、京东等电商）、社交网络大数据（微博、微信、人人网等）、搜索引擎大数据（百度、谷歌等）等各种数据的来源,数据管理层,包括数据抽取、转换、存储和管理等服务的各类企业或产品，比如分布式文件系统（如,Hadoop,的,HDFS,和谷歌的,GFS,）、,ETL,工具（,Infor

19、matica,、,Datastage,、,Kettle,等）、数据库和数据仓库（,Oracle,、,MySQL,、,SQL Server,、,HBase,、,GreenPlum,等）,数据分析层,包括提供分布式计算、数据挖掘、统计分析等服务的各类企业或产品，比如，分布式计算框架,MapReduce,、统计分析软件,SPSS,和,SAS,、数据挖掘工具,Weka,、数据可视化工具,Tableau,、,BI,工具（,MicroStrategy,、,Cognos,、,BO,）等等,数据平台层,包括提供数据分享平台、数据分析平台、数据租售平台等服务的企业或产品，比如阿里巴巴、谷歌、中国电信、百度等,数

20、据应用层,提供智能交通、智慧医疗、智能物流、智能电网等行业应用的企业、机构或政府部门，比如交通主管部门、各大医疗机构、菜鸟网络、国家电网等,1.8大数据与云计算、物联网的关系,云计算、大数据和物联网代表了,IT,领域最新的技术发展趋势，三者相辅相成，既有联系又有区别,1.8.1云计算,云计算实现了通过网络提供可伸缩的、廉价的分布式计算能力，用户只需要在具备网络接入条件的地方，就可以随时随地获得所需的各种IT资源,图,1-7,云计算的服务模式和类型,1.,云计算概念,1.8.1云计算,Infrastructure as a Service,Platform as a Service,Softwa

21、re as a Service,SaaS,PaaS,IaaS,Google Apps,Microsoft“Software+Services”,IBM IT factory,Google App Engine,F,Amazon EC2,IBM Blue Cloud,Sun Grid,Server,Storage,Server,Storage,Visualization,Infrastructure,Platform,Application,从一个集中的系统部署软件，使之在一台本地计算机上,(,或从云中远程地,),运行的一个模型。由于是计量服务，,SaaS,允许出租一个应用程序，并计时收费,Ia

22、aS,将基础设施,(,计算资源和存储,),作为服务出租,PaaS,类似于,IaaS,，但是它包括操作系统和围绕特定应用的必需的服务,SaaS,1.8.1云计算,云计算关键技术包括：虚拟化、分布式存储、分布式计算、多租户等,2.,云计算关键技术,1.8,.1云计算,云计算数据中心是一整套复杂的设施，包括刀片服务器、宽带网络连接、环境控制设备、监控设备以及各种安全装置等,数据中心是云计算的重要载体，为云计算提供计算、存储、带宽等各种硬件资源，为各种平台和应用提供运行支撑环境,全国各地推进数据中心建设,3.,云计算数据中心,1.8.1云计算,政务云上可以部署公共安全管理、容灾备份、城市管理、应急管理

23、智能交通、社会保障等应用，通过集约化建设、管理和运行，可以实现信息资源整合和政务资源共享，推动政务管理创新，加快向服务型政府转型,教育云可以有效整合幼儿教育、中小学教育、高等教育以及继续教育等优质教育资源，逐步实现教育信息共享、教育资源共享及教育资源深度挖掘等目标,中小企业云能够让企业以低廉的成本建立财务、供应链、客户关系等管理应用系统，大大降低企业信息化门槛，迅速提升企业信息化水平，增强企业市场竞争力,医疗云可以推动医院与医院、医院与社区、医院与急救中心、医院与家庭之间的服务共享，并形成一套全新的医疗健康服务系统，从而有效地提高医疗保健的质量,4.,云计算应用,1.8.1云计算,云计算产业

24、作为战略性新兴产业，近些年得到了迅速发展，形成了成熟的产业链结构，产业涵盖硬件与设备制造、基础设施运营、软件与解决方案供应商、基础设施即服务（,IaaS,）、平台即服务（,PaaS,）、软件即服务（,SaaS,）、终端设备、云安全、云计算交付,/,咨询,/,认证等环节,5.,云计算产业,1.8.1云计算,图,1-8,云计算产业链,5.,云计算产业,1.8.2物联网,物联网是物物相连的互联网，是互联网的延伸，它利用局部网络或互联网等通信技术把传感器、控制器、机器、人员和物等通过新的方式联在一起，形成人与物、物与物相联，实现信息化和远程管理控制,1.,物联网概念,1.8.2物联网,1.,物联网概念

25、图1-9 物联网体系架构,1.8.2物联网,物联网中的关键技术包括识别和感知技术（二维码、,RFID,、传感器等）、网络与通信技术、数据挖掘与融合技术等,2.,物联网关键技术,图1-10 矩阵式二维码,图1-11 采用RFID芯片的公交卡,图1-12 不同类型的传感器,1.8.2物联网,物联网已经广泛应用于智能交通、智慧医疗、智能家居、环保监测、智能安防、智能物流、智能电网、智慧农业、智能工业等领域，对国民经济与社会发展起到了重要的推动作用,3.,物联网应用,1.8.2物联网,完整的物联网产业链主要包括核心感应器件提供商、感知层末端设备提供商、网络提供商、软件与行业解决方案提供商、系统集成商

26、运营及服务提供商等六大环节,4.,物联网产业,1.8.2物联网,图1-8 物联网产业链,4.,物联网产业,1.8.3大数据与云计算、物联网的关系,云计算、大数据和物联网代表了,IT,领域最新的技术发展趋势，三者既有区别又有联系,图1-9 大数据、云计算和物联网之间的关系,本章小结,本章介绍了大数据技术的发展历程，并指出信息科技的不断进步为大数据时代提供了技术支撑，数据产生方式的变革促成了大数据时代的来临,大数据具有数据量大、数据类型繁多、处理速度快、价值密度低等特点，统称“,4V”,。大数据对科学研究、思维方式、社会发展、就业市场和人才培养等方面，都产生了重要的影响，深刻理解大数据的这些影响

27、有助于我们更好把握学习和应用大数据的方向,大数据在金融、汽车、零售、餐饮、电信、能源、政务、医疗、体育、娱乐等在内的社会各行各业都得到了日益广泛的应用，深刻地改变着我们的社会生产和日常生活,本章小结,大数据并非单一的数据或技术，而是数据和大数据技术的综合体。大数据技术主要包括数据采集、数据存储和管理、数据处理与分析、数据安全和隐私保护等几个层面的内容,大数据产业包括,IT,基础设施层、数据源层、数据管理层、数据分析层、数据平台层和数据应用层，在不同层面，都已经形成了一批引领市场的技术和企业,本章最后介绍了云计算和物联网的概念和关键技术，并阐述了大数据、云计算和物联网三者之间的区别与联系,第二

28、章大数据处理架构,Hadoop,53,.,提纲,2.1,概述,2.2 Hadoop,项目结构,2.3 Hadoop,的安装与使用,2.4 Hadoop,集群的部署与使用,2.1,概述,2.1.1Hadoop,简介,2.1.2Hadoop,发展简史,2.1.3Hadoop,的特性,2.1.4Hadoop,的应用现状,Hadoop,的标志,55,.,2.1.1 Hadoop,简介,Hadoop,是,Apache,软件基金会旗下的一个开源分布式计算平台，为用户提供了系统底层细节透明的分布式基础架构,Hadoop,是基于,Java,语言开发的，具有很好的跨平台特性，并且可以部署在廉价的计算机集群中,

29、Hadoop,的核心是分布式文件系统,HDFS,（,Hadoop Distributed File System,）和,MapReduce,Hadoop,被公认为行业大数据标准开源软件，在分布式环境下提供了海量数据的处理能力,几乎所有主流厂商都围绕,Hadoop,提供开发工具、开源软件、商业化工具和技术服务，如谷歌、雅虎、微软、思科、淘宝等，都支持,Hadoop,2.1.2 Hadoop,发展简史,Hadoop,最初是由,Apache Lucene,项目的创始人,Doug Cutting,开发的文本搜索库。,Hadoop,源自始于,2002,年的,Apache Nutch,项目,一个开源的网络

30、搜索引擎并且也是,Lucene,项目的一部分,在,2004,年，,Nutch,项目也模仿,GFS,开发了自己的分布式文件系统,NDFS,（,Nutch Distributed File System,），也就是,HDFS,的前身,2004,年，谷歌公司又发表了另一篇具有深远影响的论文，阐述了,MapReduce,分布式编程思想,2005,年，,Nutch,开源实现了谷歌的,MapReduce,2.1.2 Hadoop,发展简史,到了,2006,年,2,月，,Nutch,中的,NDFS,和,MapReduce,开始独立出来，成为,Lucene,项目的一个子项目，称为,Hadoop,，同时，,Do

31、ug Cutting,加盟雅虎,2008,年,1,月，,Hadoop,正式成为,Apache,顶级项目，,Hadoop,也逐渐开始被雅虎之外的其他公司使用,2008,年,4,月，,Hadoop,打破世界纪录，成为最快排序,1TB,数据的系统，它采用一个由,910,个节点构成的集群进行运算，排序时间只用了,209,秒,在,2009,年,5,月，,Hadoop,更是把,1TB,数据排序时间缩短到,62,秒。,Hadoop,从此名声大震，迅速发展成为大数据时代最具影响力的开源分布式开发平台，并成为事实上的大数据处理标准,2.1.3 Hadoop,的特性,Hadoop,是一个能够对大量数据进行分布式处

32、理的软件框架，并且是以一种可靠、高效、可伸缩的方式进行处理的，它具有以下几个方面的特性：,高可靠性,高效性,高可扩展性,高容错性,成本低,运行在,Linux,平台上,支持多种编程语言,2.1.3 Hadoop,的应用现状,Hadoop,凭借其突出的优势，已经在各个领域得到了广泛的应用，而互联网领域是其应用的主阵地,2007,年，雅虎在,Sunnyvale,总部建立了,M45,一个包含了,4000,个处理器和,1.5PB,容量的,Hadoop,集群系统,Facebook,作为全球知名的社交网站，,Hadoop,是非常理想的选择，,Facebook,主要将,Hadoop,平台用于日志处理、推荐系统

33、和数据仓库等方面,国内采用,Hadoop,的公司主要有百度、淘宝、网易、华为、中国移动等，其中，淘宝的,Hadoop,集群比较大,2.1.3 Hadoop,的应用现状,Hadoop,在企业中的应用架构,2.1.4 Apache Hadoop,版本演变,Apache Hadoop,版本分为两代，我们将第一代,Hadoop,称为,Hadoop 1.0,，第二代,Hadoop,称为,Hadoop 2.0,第一代,Hadoop,包含三个大版本，分别是,0.20.x,，,0.21.x,和,0.22.x,，其中，,0.20.x,最后演化成,1.0.x,，变成了稳定版，而,0.21.x,和,0.22.x,则

34、增加了,NameNode HA,等新的重大特性,第二代,Hadoop,包含两个版本，分别是,0.23.x,和,2.x,，它们完全不同于,Hadoop 1.0,，是一套全新的架构，均包含,HDFS Federation,和,YARN,两个系统，相比于,0.23.x,，,2.x,增加了,NameNode HA,和,Wire-compatibility,两个重大特性,2.1.4 Apache Hadoop,版本演变,Apache Hadoop,Hortonworks,Cloudera,（,CDH,：,Cloudera Distribution Hadoop,）,MapR,2.1.5 Hadoop,各

35、种版本,选择,Hadoop,版本的考虑因素：,是否开源（即是否免费）,是否有稳定版,是否经实践检验,是否有强大的社区支持,2.1.5 Hadoop,各种版本,2.2 Hadoop,项目结构,Hadoop,的项目结构不断丰富发展，已经形成一个丰富的,Hadoop,生态系统,2.2 Hadoop,项目结构,组件,功能,HDFS,分布式文件系统,MapReduce,分布式并行编程模型,YARN,资源管理和调度器,Tez,运行在,YARN,之上的下一代,Hadoop,查询处理框架,Hive,Hadoop,上的数据仓库,HBase,Hadoop,上的非关系型的分布式数据库,Pig,一个基于,Hadoop

36、的大规模数据分析平台，提供类似,SQL,的查询语言,Pig Latin,Sqoop,用于在,Hadoop,与传统数据库之间进行数据传递,Oozie,Hadoop,上的工作流管理系统,Zookeeper,提供分布式协调一致性服务,Storm,流计算框架,Flume,一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统,Ambari,Hadoop,快速部署工具，支持,Apache Hadoop,集群的供应、管理和监控,Kafka,一种高吞吐量的分布式发布订阅消息系统，可以处理消费者规模的网站中的所有动作流数据,Spark,类似于,Hadoop MapReduce,的通用并行框架,2.3

37、Hadoop,的安装与使用,2.3.1 Hadoop,安装之前的预备知识,2.3.2,安装,Linux,虚拟机,2.3.3,安装双操作系统,2.3.4,详解,Hadoop,的安装与使用,68,.,2.3.1 Hadoop,安装之前的预备知识,（一）,Linux,的选择,（,1,）选择哪个,Linux,发行版？,在,Linux,系统各个发行版中，,CentOS,系统和,Ubuntu,系统在服务端和桌面端使用占比最高，网络上资料最是齐全，所以建议使用,CentOS,或,Ubuntu,在学习,Hadoop,方面，虽然两个系统没有多大区别，但是推荐使用,Ubuntu,操作系统,（,2,）选择,32,位

38、还是,64,位？,如果电脑比较老或者内存小于,2G,，那么建议选择,32,位系统版本的,Linux,如果内存大于,4G,，那么建议选择,64,位系统版本的,Linux,2.3.1 Hadoop,安装之前的预备知识,（二）系统安装方式：选择虚拟机安装还是双系统安装,建议电脑比较新或者配置内存,4G,以上的电脑可以选择虚拟机安装,电脑较旧或配置内存小于等于,4G,的电脑强烈建议选择双系统安装，否则，在配置较低的计算机上运行,LInux,虚拟机，系统运行速度会非常慢,鉴于目前教师和学生的计算机硬件配置一般不高，建议在实践教学中采用双系统安装，确保系统运行速度,2.3.1 Hadoop,安装之前的预备

39、知识,（三）关于,Linux,的一些基础知识,Shell,是指“提供使用者使用界面”的软件（命令解析器），类似于,DOS,下的,command,和后来的,cmd.exe,。它接收用户命令，然后调用相应的应用程序,sudo,命令,sudo,是,ubuntu,中一种权限管理机制，管理员可以授权给一些普通用户去执行一些需要,root,权限执行的操作。当使用,sudo,命令时，就需要输入您当前用户的密码,2.3.1 Hadoop,安装之前的预备知识,输入密码,在,Linux,的终端中输入密码，终端是不会显示任何你当前输入的密码，也不会提示你已经输入了多少字符密码，读者不要误以为键盘没有响应,输入法中英

40、文切换,linux,中英文的切换方式是使用键盘“,shift”,键来切换，也可以点击顶部菜单的输入法按钮进行切换。,Ubuntu,自带的,Sunpinyin,中文输入法已经足够读者使用,Ubuntu,终端复制粘贴快捷键,在,Ubuntu,终端窗口中，复制粘贴的快捷键需要加上,shift,，,即粘贴是,ctrl+shift+v,2.3.1 Hadoop,安装之前的预备知识,（四）,Hadoop,安装方式,单机模式：,Hadoop,默认模式为非分布式模式（本地模式），无需进行其他配置即可运行。非分布式即单,Java,进程，方便进行调试,伪分布式模式：,Hadoop,可以在单节点上以伪分布式的方式运

41、行，,Hadoop,进程以分离的,Java,进程来运行，节点既作为,NameNode,也作为,DataNode,，同时，读取的是,HDFS,中的文件,分布式模式：使用多个节点构成集群环境来运行,Hadoop,2.3.2,安装,Linux,虚拟机,一、材料和工具,1,、下载,VirtualBox,虚拟机软件,2.,下载,Ubuntu LTS 14.04 ISO,映像文件,二、步骤,（一）确认系统版本,如果选择的系统是,64,位,Ubuntu,系统，那么在安装虚拟机前，我们还要进入,BIOS,开启,CPU,的虚拟化,2.3.2,安装,Linux,虚拟机,2.3.2,安装,Linux,虚拟机,(,二

42、),安装前的准备,1.,打开,VirtualBox,，点击“创建”按钮，创建一个虚拟机,2.,给虚拟机命名，选择操作系统，版本,3.,选择内存大小，这里设置的,1024M,4.,创建虚拟硬盘,5.,选择虚拟硬盘文件类型,VDI,6.,虚拟硬盘选择动态分配,7.,选择文件存储的位置和容量大小,8.,点击创建,2.3.2,安装,Linux,虚拟机,(,二,),安装前的准备,2.3.2,安装,Linux,虚拟机,(,三,),安装,Ubuntu,2.3.2,安装,Linux,虚拟机,(,三,),安装,Ubuntu,2.3.3,安装双操作系统,第一步：制作安装,U,盘,具体可参考百度经验文章,14.0

43、4,都可以用，默认,windows,优先启动,可以在电脑启动时，选择进入,Ubuntu,系统而不是,Windows,系统,2.3.4 Hadoop,的安装与使用（单机,/,伪分布式）,Hadoop,基本安装配置主要包括以下几个步骤：,创建,Hadoop,用户,SSH,登录权限设置,安装,Java,环境,单机安装配置,伪分布式安装配置,创建,Hadoop,用户,如果安装,Ubuntu,的时候不是用的“,hadoop”,用户，那么需要增加一个名为,hadoop,的用户,首先按,ctrl+alt+t,打开终端窗口，输入如下命令创建新用户,:,$sudo useradd m hadoop s/bin/

44、bash,上面这条命令创建了可以登陆的,hadoop,用户，并使用,/bin/bash,作为,shell,82,.,创建,Hadoop,用户,接着使用如下命令设置密码，可简单设置为,hadoop,，按提示输入两次密码：,$sudo passwd hadoop,可为,hadoop,用户增加管理员权限，方便部署，避免一些对新手来说比较棘手的权限问题：,$sudo adduser hadoop sudo,83,.,SSH,登录权限设置,SSH,是什么？,SSH,为,Secure Shell,的缩写，是建立在应用层和传输层基础上的安全协议。,SSH,是目前较可靠、专为远程登录会话和其他网络服务提供安全

45、性的协议。利用,SSH,协议可以有效防止远程管理过程中的信息泄露问题。,SSH,最初是,UNIX,系统上的一个程序，后来又迅速扩展到其他操作平台。,SSH,是由,客户端,和,服务端,的软件组成，服务端是一个守护进程,(daemon),，它在后台运行并响应来自客户端的连接请求，客户端包含,ssh,程序以及像,scp,（远程拷贝）、,slogin,（远程登陆）、,sftp,（安全文件传输）等其他的应用程序,84,.,SSH,登录权限设置,配置,SSH,的原因,：,Hadoop,名称节点（,NameNode,）需要启动集群中所有机器的,Hadoop,守护进程，这个过程需要通过,SSH,登录来实现。,

46、Hadoop,并没有提供,SSH,输入密码登录的形式，因此，为了能够顺利登录每台机器，需要将所有机器配置为名称节点可以无密码登录它们,85,.,安装,Java,环境,Java,环境可选择,Oracle,的,JDK,，,或是,OpenJDK,可以在,Ubuntu,中直接通过命令安装,OpenJDK 7,$sudo apt-get install openjdk-7-jre openjdk-7-jdk,还需要配置一下,JAVA_HOME,环境变量,具体请参考网络教程：,2,可以到官网下载，需要下载,hadoop-2.x.y.tar.gz,这个格式的文件，这是编译好的，另一个包含,src,的则是,H

47、adoop,源代码，需要进行编译才可使用,Hadoop 2,安装文件的下载,如果读者是使用虚拟机方式安装,Ubuntu,系统的用户，请用虚拟机中的,Ubuntu,自带,firefox,浏览器访问本指南，再点击下载地址，才能把,hadoop,文件下载虚拟机,ubuntu,中。请不要使用,Windows,系统下的浏览器下载，文件会被下载到,Windows,系统中，虚拟机中的,Ubuntu,无法访问外部,Windows,系统的文件，造成不必要的麻烦。,如果读者是使用双系统方式安装,Ubuntu,系统的用户，请进去,Ubuntu,系统，在,Ubuntu,系统打开,firefox,浏览器，再点击下载,单

48、机安装配置,选择将,Hadoop,安装至,/usr/local/,中,$sudo tar-zxf/,下载,/hadoop-2.6.0.tar.gz-C/usr/local#,解压到,/usr/local,中,$cd/usr/local/,$sudo mv./hadoop-2.6.0/./hadoop#,将文件夹名改为,hadoop,$sudo chown-R hadoop:hadoop./hadoop#,修改文件权限,Hadoop,解压后即可使用。输入如下命令来检查,Hadoop,是否可用，成功则会显示,Hadoop,版本信息：,$cd/usr/local/hadoop,$./bin/hado

49、op version,Hadoop,默认模式为非分布式模式（本地模式），无需进行其他配置即可运行。,伪分布式安装,配置,Hadoop,可以在单节点上以伪分布式的方式运行，,Hadoop,进程以分离的,Java,进程来运行，节点既作为,NameNode,也作为,DataNode,，同时，读取的是,HDFS,中的文件,Hadoop,的配置文件位于,/usr/local/hadoop/etc/hadoop/,中，伪分布式需要修改,2,个配置文件,core-site.xml,和,hdfs-site.xml,Hadoop,的配置文件是,xml,格式，每个配置以声明,property,的,name,和,v

50、alue,的方式来实现,89,.,伪分布式安装,配置,实验步骤：,修改配置文件：,core-site.xml,，,hdfs-site.xml,，,mapred-site.xml,初始化文件系统,hadoop namenode-format,启动所有进程,start-all.sh,访问,web,界面，查看,Hadoop,信息,运行实例,90,.,伪分布式安装,配置,修改配置文件,hdfs-site.xml,dfs.replication,1,dfs.namenode.name.dir,file:/usr/local/hadoop/tmp/dfs/name,dfs.datanode.data.di

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？