1、大数据导论第二章大数据的架构大数据应用人才培养系列教材2.1云计算2.2 大数据架构介绍2.3 Hadopp体系架构2.4 上机与项目实训习题2.1云计算第二章大数据的架构大数据与云计算大数据和云计算密不可分,由于大数据处理和应用需求急剧增长,学术界和工业界 不断推出新的或改进的计算模式和系统工具平台。云计算具有一体化的信息平台和运营平台,云计算以这种全新交 付模式对IT界产生着重大影响,尤其对传统的IT产业部门来说,将颠覆IT产业界,带来一场地震级的震撼。_J大数据可通过各种方式来存储、获取、处理和分析数据。每个 Z 数据来源都有不同的特征,包括数据的频率、量、速度、类型 2 和真实性。2.
2、1云计算第二章大数据的架构云计算的概念云是网络、互联网的一种比喻说法,通常在图中往往用云来表示电信网,后来也用云来表 示互联网和底层基础设施的抽象。云计算并不是对某一项独立技术的称呼,而是对实现云 计算模式所需要的所有技术的总称。,21云计算第二章大数据的架构维基百科NIST国务院政府云计算是一种基于 互联网的服务方式,提供动态可伸缩的 虚拟化的资源的计 算模式。通过这种 方式,共享的软硬 件资源和信息可以 按需求提供给计算 机和其他设备,他 就像我们日常生活 中用水和用电一样,按需付费,无需关 心水电是从哪里来 的。云计算是一种按使 用量付费的模式,这种模式提供可用 的、便捷的、按需 的网络
3、访问,进入 可配置的计算资源 共享池,这些资源 能够被快速提供,只需投入很少的管 理工作,或与服务 住应商进行很少的 基于互联网的相关 服务的增加、使用 和交付模式,通常 涉及通过互联网来 提供、动态易扩展 且经常是虚拟化的 资源。云计算是传 统计算机和网络技 术发展融合的产物,他意味着计算能力 也可作为一种商品 通过互联网进行流 通。,21云计算第二章大数据的架构云计算的特点I资源池弹性可扩张2需求服务自助化 3虚拟化 以网络为中心高可靠性和安全性2.1云计算第二章大数据的架构云计算的服务方式基础设施级服务,消费者通过Internet可以从完善的计算机基础。设施获得服务。laaS是把数据中心
4、、基础设施等硬件资源通过 laaS Web分配给用户的商业模式。平台级服务。PaaS实际上是指将软件研发的平台作为一种服一 务,以SaaS的模式提交给用户。因此,PaaS也是SaaS模式的 PaaS 一种应用。软件级服务。它是一种通过Internet提供软件的模式,用户无 需购买软件,而是向提供商租用基于Web的软件,来管理企 SaaS 业经营活动。2.1云计算第二章大数据的架构云平台架构图软件及服务 SaaS平台及服务PaaS础&施及服务 was云架构平台,21云计算第二章大数据的架构第二章大数据的架构大数据应用人才培养系列教材2.1云计算2.2 大数据架构介绍2.3 Hado op体系架构
5、2.4 上机与项目实训 习题大瞬架构 即幺?2.2大数据架构介绍第二章大数据的架构大数据架构大数据架构是一种结构化和基于模式的方法来简化定义完整的大数据架构的任务。而;同可.可Hadoop 是由 Apache 软 件基金会研发的一种开 源、高可靠、伸缩性强 的分布式计算系统,主 要用于处理大于1TB的 海量数据。其核心包括 系统HDFS和 MapReduce,这一结 构的实现十分有利于面 向数据的系统架构,因 此已经成为大数据技术 领域的事实标准。2.2大数据架构介绍第二章大数据的架构1.大数据的分类数据类型划分处理过程划分L传统企业数据(Traditionalenterprisedata):
6、包括MIS系统的数据,传统的 E R P数据库存数据以及财务账目 数据等。2、瀛和传感器数据(Machine-generated/sensordata):包括 呼叫记录(CallDetailRecords),智能仪表,工业设备传感器,设 备日志,交易数据等。3、社交数据(Socialdata):包括 用户行为记录,反馈数据等。如 Twitter,Facebook这样的社交 媒体平台。海量型数据。大数据计算中的数 据挖掘是通过挖掘海量的数据推 动科学知识的界限,数据集越大,结论越精确。响应型数据。响应型的数据集很 大,但它的价值围绕着很具价值 的分析结果影随型数据。影随型数据是一种 你拥有,但并
7、不容易拿到的数据。过程型数据。又称为操作数据。这是从生产设备、工业机械和其 他在商业建筑和工业厂房里找到 的信息。未宛逸攵据。未知型数据包括现 在可以能够拿到的、希望拿到的、第二章大数据的架构.大数据的分类工、少量企业应用产生 的数据,比如关系型数 据库中的数据和数据仓 库中的数据等。2、大量人产生的数据,比如微信、移动通信数 据、电子商务在线交易 日志数据、企业应用的 相关评论数据等。3、巨量机器产生的数 据,比如应用服务器日 志、图像和视频监控数 据、二维码和条形码扫 描数据等。、分析类型。判断进行数据分析时,无 还是批量分析。2、处理方法。用来处理数据的技术类型(如预测、分析、临时查询和
8、报告)。3、磬据频率和大小。预计有多少数据和数据到选白 1=1 夕同。4、数据类型。要处理数据的类型,如交易、历史、主数据 等。5、内容格式(传入数据的格式)结构化(例如RDMBS)、非结构化(例如音频、视频和图像)或半结构化。6、数据源即数据的来源(生成数据的地方),如Web和 社交媒体、机器生成、人类生成等。7、数据使用者。处理数据的所有可能使用者的情况列表。8、硬件。用来实现大数据解决方案的硬件类型,包括商用 硬件或最先进的硬件。2.2大数据架构介绍第二章大数据的架构1.大数据分类图may to on montHiy 3ee*l*y.hourly,(crminwte or per sec
9、orxSContent forma*Structured|maesjT*MtLJnstructor jViSeoScmi-s.tructurecf|Oocwmts text.vid*o audiocd Socunts on te of vp Structurfla ue,Liyturoci Aurrtr!generate|c,y dsouyT Biometricr das dataVid data provldors5。149t0 ora|t orInrdwnroComrvxxlitv St of rtKrcfwrKey catr(coxis for!*inintc ti K cimtn c
10、1 nsjs i Fic2.2大数据架构介绍第二章大数据的架构D 移动互联网,每天产生了大量的点击数据,这些数据被某些公司所有拥有,形 成用户大量行为数据2电子地图,它代表着一种行为、一种习惯,这些流数据经频率分析后会产生巨 大的商业价值3社交网络,它的出现,大量的互联网用户创造出海量的社交行为数据D 电子商务,它的崛起带来了大量的网上交易数据,这些数据的产生为大数据的 研究带来了很大的契机,其中隐藏了更大的商业价值。5传统的互联网入口转向搜索引擎之后,用户的搜索行为和提问行为聚集了海量 数据。单位存储价格的下降也为存储这些数据提供了经济上的可能性。2.2大数据架构介绍第二章大数据的架构分析大
11、数据时,四种参考数据类型2.2大数据架构介绍第二章大数据的架构2.数据类型采用大数据方案解决问题时,应熟悉项目的实际状况,熟悉项目的建设流程,弄清大数据 分析技术的原理,架构,设计理念,以及掌握大数据的关键技术,才可以从容不迫的对待 建设项目进行调研实施。2.2大数据架构介绍第二章大数据的架构2.架构概述架构,又称软件架构,是有关软件整体结构与组件的抽象描述,用于指导大型软件系统各个方面的设 计。软件系统的架构有两个要素:首先他是一个软件系统从整体到部分的最高层的的划分,再则一个 系统通常是由元件组成,而这些元件如何形成、相互之间怎样发生作用,就是这个系统本身结构的问 题了。所以说软件架构是平
12、衡的艺术。2.2大数据架构介绍第二章大数据的架构2.架构四大注意要素分解合并务用据 业应数 联动的业务高藕合的数据持续发展插件式扩展能力翡藕合易于剥离局部可优化调整可测试z稳定性高可用性负载均衡线性扩展可被监控,2.2大数据架构介绍第二章大数据的架构与Oracle性能关系最大的SGASGA包含三个部分:G 数据缓冲区,是SGA的一个高速缓存区 域,可避免重复读取常用的数据日志缓冲区,提升了数据增删改的速度,减少磁盘的读写而加快速度共享池,使相同的SQL语句不再编译,提升了 SQL的执行速度,共享池的大小(以字节为单位)由 init.ora 文件参数 SHARED_POOL_SIZE 决定。2.
13、2大数据架构介绍第二章大数据的架构数据库体系架构图-Instance(oracle实例)-x-SGA(Shared Global Area)全局区域用户进程(use Process)z-Share pool(共享池)亘 Data dictionary cache(数 据字典缓 存)Library cache(库 高速缓 存)Data buffer cache(数据高 速缓存)Redo log buffer(重做日志高 速缓存)z服务器进程(server process)调用缓存Oracle后台进程Parameter files(初始 化参数文 件)z-Oracle数据库Password fil
14、es(用户 口令文件)Data files(数据文 件)Control files(数 据控制文 件)Redo log(联机重 做日志文 件)Archived log files(归档日志 文件)2.2大数据架构介绍第二章大数据的架构整体系统架构图用 户乂而分析类产品UX报表类产品UX推荐类产品UX外部系统新一代编程语言应用计算中司件实时效果分析平台实时计算&查询引 辇系统历史数据查询&存 储层推荐&挖掘系统=yj-服 务或计 即里算樨 计算架 椎架专用分布式计算 平台任务管理&调度 系统元数据分析&优 化系统数据IDE工具2.2大数据架构介绍第二章大数据的架构整体逻辑功能架构图Web应用月艮
15、务器:Javascripts PHP,JAVA、ASP.NET、Peris Python.高并发通用搜索引擎服务器(一期)单服务器支撑50。并发连接,1亿条索引记录,1分钟内准实时更新调用:HTTP POST/GET(1)调用:HTTP POST/GET 速度:15。0次请求/秒nx.soNginx+PHP,Lemcache.so搜索查询接口(_search.php)搜索引擎数据索引层Sphinx索弓I服务(监听3312端口)定期合并主索弓I增量索弓I平均查询速度:0.00X0.0X秒/次搜索引擎数据存储层Tokyo Tyrant(监听 11211端口)读写速度:次请求/秒驿其Nginx+PH
16、P索弓I更新接口(updat e.php)类型:增加/册除/更新记录入队列11212 端口基于TT的高速队列3306 端口MySQLTableTable增量表主表一数据同步队列控制器他搜索服务器数据同步2.2大数据架构介绍第二章大数据的架构大数据架构关键技术大数据应用人才培养系列教材第二章大数据的架构2二1云计算2.2 大数据架构介绍2.3 Hadoop体系架构2.4 上机与项目实训 习题2.3Hadoop体系架构第二章大数据的架构Hadoop概述!|do序最初是型油Apa&e软件基%会研发的一种分布式计算机系绿,主整来螂木型哂的海量数据d H雷缗用 Java语言开发,其核心模块即I森盛文件系
17、统(HadoopDistri b富d 渺|誓%j呼罪2JDFS)和分布式计算框架MapRWiUdb喙储,MagReduce 为海量数据提供计算机整知毓舞算与存储的高度耦 合,成为大数据技术的事翳而成2.3Hadoop体系架构第二章大数据的架构SHadoop发展史12004年一最初的版本(现在称为HDFS和MapReduce)由Doug Cutting和Mike Cafarella开始实施。2005年12月一Nutch移顾IJ新的煤,Hadoop在20个节点上稳凝行。2006年2月一Apache Hadoop项目正式启动以支持MapReduce和HDFS的顺发展。2008年9月一Hive成为Ha
18、doop的子项目2009年3月一Cloudera推出CDH(Cloudera1 s Dsitribution Including Apache Hadoop)2009年7月一M叩Reduce 和 Hadoop Distributed File System(HDFS)成为Hadoop项目的独立子项目。2009年7月一Avro和Chukwa成为Hadoop新的子项目。2010年5月一Avr。脱离Hadoop项目,成为Apache顶级项目。2010年5月一HBase脱离Hadoop项目,成为Apache顶级项目。2010年9月一Hive(Facebook)脱离Hadoop,成为Apache顶级项目
19、。2010年9月一Pig脱离Hadoop,成为Apache顶级项目。2011年1月一ZooKeeper脱离Hadoop,成为Apache顶级项目。2011年3月一Apache Hadoop获得Media Guardian Innovation Awards o2011 年8月一Dell与Cloudera联合推出Hadoop解决方案-Cloudera Enterprise,Cloudera Enterprise基于Dell PowerEdgeC2100机架服务器以及Dell PowerConnect 6248以太网交蝴2012年3月一SHadoopl.0版的基础上发布Hadoopl.2.1稳定版
20、2013年10月一Hadoop2.2.0版本成功发布2014年11月一Hadoop已经发展到了 2.6.0版本2.3Hadoop体系架构第二章大数据的架构ofl 3Hadoop的五大优点1)高可靠性。Hadoop具有按位存储和处理数据的能力。2)高扩展性。Hadoop是在可 用的计算机集簇间分配数据并完 成计算任务的,可以方便地扩展 到其他节点中。3)高效性。Hadoop能够在节 点之间动态地移动数据,并保证 各个节点的动态平衡,具有较快 的处理速度。4)高容错性。Hadoop能够自动 保存数据的多个副本,并自动将失 败的任务重新分配。5)低成本。Hadoop是开源的,项目的软件成本因此会大大
21、降低。2.3Hadoop体系架构第二章大数据的架构2Hadoop的版本选择当前Hadoop版本比较混乱,让用户不知道怎样选 择,实际上,目前Hadoop只有两个版本:Hadoop 1.0和Hadoop 2.0o 其中,Hadoop L0由一个分布式文件系统HDFS和一个离线计算 框架Map Reduce组成,而Hadoop 2.0则由一个 支持NameNode横向扩展的HDFS,一个资源管 理系统YARN和一个运行在YARN上的离线计算框 架MapReduce。相比于Hadoop 1.0,Hadoop 2.0功能更加强大,且具有更好的扩展性,并支持 多种计算框架。我们在选择使用某个开源环境时,
22、通常会考虑几个因素:a.是否是免费的开源软件b.版本是否稳定c.是否有强大的实践验证及出现故障 后是否有一个强大的社区支持,快速获取问题的解 决方法。HADOOP 1.0MapReduce cluster resource management&data processing)HDFS(redundant reliable storagelHADOOP 2.0MapReduce Others(data processing)data processing)YARNIcluster resource management)HDFS(redundant,reliable storagel2.3Ha
23、doop体系架构第二章大数据的架构Hadoophe核心组件HDFSMapR educe其他Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。他是一个高度容错性 的系统,适合部署在廉价的机器上,能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。MapReduce是一种编程模型,MapReduce是面向大数据并行处理的计算模型、框架和平台,它隐含了以下 三层含义:1)是一个基于集群的高性能并行计算平台(Cluster Infrastructure);2)是一个并行计算与运 行软件框架(Software Framewor
24、k);3)是一个并行程序设计模型与方法(Programming Model&Methodology)oHBase:类似Google BigTable的分布式NoSQL列数据库;Hive:是基于Hadoop的一个数据仓库工具,可以将 结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以sql语句转换为M叩Reduce任务进行 运行;Zookeeper:分布式锁,提供类似Google Chubby的功能;Avro:新的数据序列化格式与传输工具,将逐步取代Hadoop原有的IPC机制;Pig:大数据数据流分析平台,为用户提供多种接口;Sqoop:在 HADOOP与传统的数据库间进行数
25、据的传递。大数据应用人才培养系列教材第二章大数据的架构2二1云计算2.2 大数据架构介绍2.3 Hadoop体系架构2.4 上机与项目实训习题)24上机与项目实训第二章大数据的架构上机与项目实训1)安装虚拟机和linux,虚拟机推荐使用vbox 或vmware,PC可以使用workstation,服务 器可以使用ESXi,在管理上比较方便。可以使 用复制虚拟机功能简化准备流程。如果只是实 验用途,内存分配可以在1G左右,硬盘大约预 留20-30G空间即可。2)以Centos为例,分区可以选择默认,安装选 项选择Desktop Gnome,以及Server、Server GUI即可。其它Linux,注意选项里应 包括ssh,vi(用于编辑配置文件),perl等(有些脚本里包含perl代码需要解析)3)到Oracle官网下载java jdk安装包4)安装 Linux 后一定要确认 iptables,selinux 等防火墙或访问控制机制已经关闭,否则实 验很可能受影响大数据应用人才培养系列教材第二章大数据的架构2.1 云计算2.2 大数据架构介绍2.3 Hadoop体系架构2.4 上机与项目实 习题习题:L云计算的特点?2.云计算的集中服务方式?3.大数据分类有哪些,请分别指出?4.列举3种大数据的解决方案?5.Hadoop核心技术是什么?感谢聆听