大数据实验平台解决方案.docx

资源描述

大数据实验室平台解决方案目录 1 概述 4 1.1 背景 4 1.2 问题分析 4 1.3 建设内容 5 2 大数据实验室平台方案设计 6 2.1 大数据实验一体机 6 2.2 架构设计 8 2.2.1 产品架构 8 2.2.2 Docker容器技术 9 2.2.3 Hadoop实验平台 14 2.2.4 主要功能介绍 19 2.3 配套资源 20 2.3.1 内容充实的课程体系 20 2.3.2 多元化的大数据资源包 21 2.3.3 实验数据提供 23 2.4 产品特点 23 2.4.1 沙箱机制 23 2.4.2 快速部署 24 2.4.3 多机实验环境 25 2.4.4 资源最大化利用 25 2.4.5 快速高效易扩展 26 2.4.6 低运维成本 26 2.4.7 教学体系完善 26 3 cDesktop桌面虚拟化云平台 26 3.1 平台整体架构 26 3.2 平台组件解析 27 3.3 平台价值体现 28 3.4 平台亮点解析 28 3.4.1 绝佳的用户体验 28 3.4.2 灵活的平台设计 30 3.4.3 从点到面的稳定性设计 32 3.4.4 最优的硬件资源投入 35 3.4.5 cDesktop桌面虚拟化平台优势 38 4 大数据主要实验介绍 38 4.1 快速搭建大数据实验环境 38 4.2 HDFS部署实验 42 4.3 YARN部署实验 43 4.4 MapReduce实验 45 4.4.1 单词计数实验 45 4.4.2 二次排序 47 4.4.3 计数器 48 4.4.4 join操作 49 4.4.5 分布式缓存 50 4.5 Hive实验 51 4.5.1 部署Hive 52 4.5.2 新建Hive表 53 4.6 Spark实验 55 4.7 综合实战实验 56 4.7.1 交通大数据实验 56 4.7.2 互联网数据处理 58 4.7.3 精确营销 62 4.7.4 环境大数据 66 4.7.5 智能硬件大数据托管 69 5 规格配置 75 1 概述 1.1 背景随着移动互联网、云计算、物联网的快速发展，特别是智能手机端博客、社交网络、位置服务（LBS）等信息发布方式的不断涌现，数据正以前所未有的速度在不断地增长和累积，全球在2010年正式进入ZB 时代，根据IDC监测，人类自有史以来所有数据量大约每 18 个月翻一番，意味着人类在最近18个月产生的数据量相当于之前产生的全部数据量，预计到 2020 年，全球将总共拥有 35ZB的数据量，是2010年的近30倍，大数据时代已经来到。在海量数据面前，大数据人才无疑是其中最关键环节之一，然而，不论国内外，大数据人才却紧缺相当稀缺，在未来5-10年，我国大数据市场规模年均增速将超过30%，而大数据人才缺口将突破150万，目前大数据人才平均月薪达1.5万，在BAT发布的招聘职位中，大数据人才超过60%，因此在高校开发云计算大数据科研平台，建立云计算大数据科研实验室、创设云计算大数据教学培训，实现高校教学科研一体化流程，将为高校增加学生就业机会和薪资水平，逐步培养当今互联网时代IT行业的大数据人才起到至关重要的作用。而大数据学科方向是一门交叉专业方向，与不同专业相结合可以发展成特定方向的专业或研究领域。经济金融、应用数学、统计学、计算机科学等传统专业方向与大数据学科方向相结合表现出多样化的差异特征，包括专业研究方向与社会需求岗位在内。除了课堂学习，通过实验来加深理解和提高实际应用操作能力也是主要途径。调查表明，当前大数据涉及到很多内容，如数据分析、数据挖掘、数据可视化等，其中的很多实验，都无法在我国高校现有的实验室中完成。因此，建设专门的大数据实验一体机就显得非常重要。 1.2 问题分析虽然目前各大高校都意识到开设大数据相关课程，但是在课程开设的过程中却遇到了诸多问题，具体总结为以下几类： l 课程体系待完善，大数据教学科研入门难各大高校的大数据专业处于起步阶段，人才培养课程体系缺乏系统性，大数据教学科研资源匮乏，可配置和指导实验环境的专业师资不足。 l 基础实验环境薄弱，大数据实训难开展目前高校的大数据教学科研大都卡在了实验环节，缺乏相应的基础实验环境，无法为每一个学生都提供一套实验集群，而虚拟化的网络配置与运维又十分复杂，同时大数据分布式软件系统安装、配置难度较大，在实验过程中很容易造成实验环境的破坏，实验数据、实验教案、实验手册缺乏，难以开展相关的实验教学。 l 项目实训缺失，教学效果与就业率打折扣在大数据教学过程中，缺乏相应的实训项目，只有理论教育，难以培养实用型人才所需的专业项目能力，存在专业学习与实际应用脱轨的情况，使得教学效果与就业率打折扣。 1.3 建设内容大数据实验室的建设致力于帮助高校打造大数据人才培养体系，解决国内的大数据人才荒状况，具体建设内容如下： 1）大数据实验室平台的设计： l 提供可供实验室内45位学生同时进行实验的大数据实验教学平台平台需基于Docker容器技术，从而可以以少量机器虚拟大量实验集群，可供大量学生同时拥有多套集群进行实验，而每个学生的实验环境不仅相互隔离，可方便高效地完成实验，而且实验彼此不干扰，即使某个实验环境被破坏，对其他人也没有影响，一键重启就可以拥有一套新集群。 l 完善大数据教学相关课程体系在《实战Hadoop2.0——从云计算到大数据》和实验手册的指导之下，BDRack大数据实验一体机解决方案涵盖大数据算法、接口、工具、平台等多方面内容，从大数据监测与收集、大数据存储与处理、大数据分析与挖掘直至大数据创新，帮助高校构建完善的大数据课程体系。 l 提供实训项目培养实战经验人才基于真实的企业基地实训经验，提供丰富的项目实训案例，结合高校各专业实际情况进行行业数据研究，培养实用型人才的专业项目能力。 l 增加高校硬实力和影响力大数据上升为国家战略，发改委明确组建13个国家级大数据实验室，通过BDRack大数据实验一体机的建设，帮助高校进行大数据实验室建设以及高层次大数据人才的深度培育，从理论与实践双管齐下提升高校信息化管理水平和实验项目研究水平，从而提高高校大数据专业就业率，提升高校硬实力和影响力。 2）大数据实验室桌面虚拟化的建设 l 提供提供可供实验室内45位学生桌面虚拟化基于“创新教学”的理念，通过桌面云教学平台，可以实现教师教学的充分便携性，创新地实现“桌面漫游”的教学理念，让教师能够更加灵活高效地开展教学工作。以云计算为基础架构来实施学校信息技术的集中维护管理，推行区域教育信息化的集中应用模式，以推动教育信息化的跨越发展。 2 大数据实验室平台方案设计 2.1 大数据实验一体机 BDRack大数据实验一体机通过应用容器技术，以少量机器虚拟大量实验集群，可供大量学生同时拥有多套集群进行Hadoop相关试验，而每个学生的实验环境不仅相互隔离，方便高效地完成实验，而且实验彼此不干扰，即使某个实验环境被破坏，对其他人也没有影响，一键重启就可以拥有一套新集群，大幅度节省了硬件和人员管理的投入成本。大数据实验一体机秉承“产、学、研、用”一体化的思路和模式，从教学、实践、科研和使用多方面注重专业人才和特色人才的培养。从理论与实践双管齐下，提升高校信息化管理水平和实验项目研究水平，真正在产业、学校、科研及实践项目中相互配合，发展优势，形成生产、学习、科学研究、实践运用的系统运作模式，从而建设大数据特色专业。大数据实验一体机实物图硬件方面大数据实验一体机采用cServer机架式服务器，其英特尔®至强®处理器E5产品家族的性能比上一代提升多至80%，并具备更出色的能源效率。通过英特尔E5家族系列CPU及英特尔服务器组件，可满足扩展I/O灵活度、最大化内存容量、大容量存储和冗余计算等需求。整机一体化交付，系统根据学校的专业人数规模进行不同规格的配置，可进行同时满足30人、60人、150人实验规模的选择。软件层面有Hadoop、HBase、Ambari、HDFS、YARN、MapReduce、ZooKeeper、Spark、Storm、Hive、Pig、Oozie、Mahout、R语言等不同的大数据应用组件供各大高校根据具体应用进行选择实验部署。此外，作为一个可供大量学生完成大数据与云计算实验的集成环境，大数据实验一体机同步提供了配套的培训服务，对于教学组件的安装、配置，教材、实验手册等具体应用提供一站式服务，有助于高校更好地满足课程设计、课程上机实验、实习实训、科研训练等多方面需求，并在一定程度上缓解大数据师资不足的问题。对于各大高校而言，即使没有任何大数据实验基础，该平台也能助其轻松开展大数据与云计算的教学、实验与科研。 2.2 架构设计 2.2.1 产品架构大数据实验一体机方案架构大数据实验一体机从软硬件、客户端及实验配套教材培训等方面考虑，针对大数据专业建设的课程体系不完善、基础实验环境薄弱、缺乏实训项目三大难题，为各大高校量身定制的大数据软硬件一体化的教学科研解决方案。 BDRack整体设计是基于Docker容器集群技术搭建的Hadoop实验平台，并针对大数据实验的需求提供了完善的使用环境，可一键创造随时运行的实验环境，其中采用Mesos+ZooKeeper+Mrathon架构管理Docker集群，Docker平台架构如下图所示： Docker容器设计架构其中，Mesos是Apache下的开源分布式资源管理框架，它被称为是分布式系统的内核；ZooKeeper用来做主节点的容错和数据同步；Marathon则是一个Mesos框架，为部署提供REST API服务，实现服务发现等功能。实验时，系统预先针对大数据实验内容构建好一系列基于CentOS7的特定容器镜像，通过Docker在集群主机内构建容器，充分利用容器资源利用率高的特点，为每个使用平台的用户开辟属于自己完全隔离的Hadoop实验环境。容器内部，用户完全可以像使用linu0078操作系统一样的使用容器，并且不会被其他用户的集群造成任何影响，仅仅使用几台机器，就可能虚拟出能够支持几十个甚至上百个用户同时使用的隔离集群环境。 2.2.2 Docker容器技术大数据实验一体机最核心的部分采用Docker容器技术，Docker 是一个开源的应用容器引擎，可以让开发者可以打包他们的应用以及依赖包到一个可移植的容器中，然后发布到任何流行的Linux机器上，也可以实现虚拟化，容器是完全使用沙箱机制，相互之间不会有任何接口。大数据实验一体机通过Docker在容器内部快速自动化部署应用，并通过内核虚拟化技术来提供容器的资源隔离与安全保障等，以此来为大量的学生虚拟创造出多个互相隔离的实验环境，及时实验环境破坏也不影响其他人的使用。同时由于Docker通过操作系统层的虚拟化实现隔离，所以Docker容器在运行时，不需要类似虚拟机（VM）额外的操作系统开销，提高资源利用率，并且提升诸如IO等方面的性能，使得大数据实验一体机可以通过少量服务器即可构建出供大量学生进行实验的实验环境。 2.2.2.1 Docker平台架构 Docker平台架构图如下： Docker使用客户端-服务器(client-server)架构模式，Docker客户端会与Docker守护进程进行通信。Docker守护进程会处理复杂繁重的任务，例如建立、运行、发布Docker容器。Docker客户端和守护进程可以运行在同一个系统上，当然也可以使用 Docker客户端去连接一个远程的Docker守护进程。Docker客户端和守护进程之间通过socket或者RESTful API进行通信。如下图所示： l Docker守护进程 Docker守护进程运行在一台主机上，用户并不直接和守护进程进行交互，而是通过Docker客户端间接和其通信，从来带来安全性和隔离性。 l Docker客户端 Docker客户端，实际上是docker的二进制程序，是主要的用户与Docker交互方式。它接收用户指令并且与背后的Docker守护进程通信，如此来回往复。 l Docker内部 Docker内部分为三大部件：Docker镜像 (Docker images)、Docker仓库 (Docker registeries)、Docker容器(Docker containers)。 Docker镜像是一个只读的模板，镜像是用来创建容器，Docker提供了简单的放来来建立新的镜像或者升级现有的镜像一个镜像可以包含一个运行在Apache上的Web应用和其使用的Ubuntu操作系统。 Docker仓库用来保存镜像，可以理解为代码控制中的代码仓库，分为公有和私有两种，提供了庞大的镜像集合供使用，这些镜像可以是自己创造的也可以在别人的镜像基础上进行创造。 Docker容器和文件夹很类似，一个Docker容器包含了所有的某个应用运行所需要的环境。每一个Docker容器都是从Docker镜像创建的。Docker容器可以运行、开始、停止、移动和删除。每一个Docker容器都是独立和安全的应用平台，Docker容器是Docker的运行部分。 l 工作模式 1) 构建镜像 Docker Image是一个构建容器的只读模板，它包含了容器启动所需的所有信息，包括运行哪些进程和配置数据。所有的镜像都会基于一个基本镜像构建，紧接着会根据Dockerfile中的指令创建模板，对于每个指令，在镜像上创建一个新的层。 2) 运行容器运行容器源于我们在第一步中创建的镜像。当一个容器被启动后，一个读写层会被添加到镜像的顶层；当分配合适的网络和IP地址后，最应用程序就可以在容器中运行了。 2.2.2.2 网络环境的搭建 Docker的原生态网络通信是通过NAT和Docker proxy来实现的；利用端口映射和修改宿主机的iptables规则实现了不同容器间、容器与外界的互相访问。然而，这样的NAT方式（SNAT和DNAT）不仅影响效率，同时还使得容器内所看的自己的IP地址和外部所见的该容器IP地址不一致，阻碍了很多集群化功能的实现（如Redis集群、Elastic Search集群的自动组播发现需要基于默认端口规则），使得一些现有的工具无法正常工作。例如，在一些自动服务注册和发现的应用中，容器中的应用在进行自动注册时只能看到自己内部的IP并将此IP注册，但是其他外部的模块却无法通过此IP来访问该容器应用。然而，大数据系统由于数据量大、计算量大的特性，必然需要由多个主机组成的一个集群来完成计算分析任务。因此，基于Docker来搭建一个大数据分析系统的必要前提就是保证多个Docker的跨主机通信能够畅通无阻、保持高效。为了解决Docker原生态网络通信的上述问题，在云计算生态圈里涌现了一些优秀的分布式Docker网络配置和管理工具，如flannel、weave、socketplane等，其总体思想是基于物理网络在容器间构造一个overlay网络。从Docker的1.9版本开始，Docker的网络部分自成一块（libnetwork），并支持复杂的Overlay模式。 Overlay网络的总体思想是对原生态的网络数据包进行封装，这里又可分为在用户层进行封装（如weave、flannel）和在内核层进行封装（如sockplane）。下面分别以flannel为例稍做讲解。 l Flannel的Overlay设计—镜像构建 Flannel在每个节点（主机）上运行一个守护进程（flanneld）。这个守护进程负责为每一个节点分配一个子网段。该分配信息存储在etcd中（一种分布式存储方案）。同时，每个节点上的Docker daemon会从该子网段中为主机上运行的容器分配一个IP地址，如图12-3所示。因此，在容器中的应用所看到的IP地址和外部所看到的该容器的IP地址是一致的。在转发报文时，Flannel支持不同的后端策略，例如，主机网管模式、UDP模式等。以UDP模式为例，flannel形成了一个Overlay网络，通过TUN设备对每个IP fragment进行UDP包头封装，流程如图12-3所示。 l 容器Overlay网络系统设计原理—容器运行介绍了Flannel工具后，我们透过现象看本质，讨论下设计一个Overlay网络系统的原理和要点。 Flannel的Overlay网络实现模式 ARP：在经典的物理网络中，当一个主机S访问另一个主机D的时候，S发出的第一个报文就是一个ARP请求的广播报文，交换机会在同一个子网内广播这个报文给所有的子网内节点。如果D在同一个子网内，它会接收到这个请求并将做出回复，使得S和D可以后续进行通信。在容器环境下，可以如实地把报文广播出去，并通过spanning tree等算法来避免广播回路。此外，还可以通过IP组播的功能来处理ARP请求和响应。最后，还可以基于SDN对全局的网络拓扑信息的把握，通过SDN控制器来实现ARP协议。 IP层互通：在解决了二层网络的通信问题后，还需要解决的就是容器与容器之间、容器与外网的互通。对于容器内的应用可以访问容器外的外网，一般可以采用NAT方式，使得容器最终使用物理宿主机的网关。为了保证容器能够对外提供服务，可以采用类似Docker的端口映射方式实现DNAT，并通过将容器连接到负载均衡设备从而对外提供服务。 2.2.2.3 Docker容器优势 Ø 运行速度快系统运行时的性能可以获取极大提升，其管理操作（启动，停止，开始，重启等等）都是以秒或毫秒为单位的，可以在一瞬间创建随时运行的实验环境。 Ø 部署简单将应用和系统“容器化”，不添加额外的操作系统，和虚拟机一样部署非常简单，支持一键创造和销毁实验集群，同时实验环境互不干扰，如果实验环境破坏，一键重启即可建立新集群 Ø 安全隔离采用Mesos+ZooKeeper+Mrathon架构管理集群，实验集群完全隔离。 Ø 轻量拥有足够的“操作系统”，仅需添加或减小镜像即可。在几台服务器上就可以虚拟出大量的实验环境，供上百师生进行教学实验工作。 Ø 成本低以容器化应用作为交付的标准，立足于云，为开发者和企业提供了一个快速构建、集成、部署、运行容器化应用的平台，帮助高校和企业提高应用开发的迭代效率，简化运维环节，降低运维成本。 Ø 云支持可以为不计其数的云服务提供创建和管理Linux容器框架。 2.2.3 Hadoop实验平台 2.2.3.1 Hadoop架构 Hadoop可以在大数据处理应用中广泛应用，得益于其自身在数据提取、变形和加载(ETL)方面上的天然优势。Hadoop的分布式架构，将大数据处理引擎尽可能的靠近存储，对例如像ETL这样的批处理操作相对合适，因为类似这样操作的批处理结果可以直接走向存储。Hadoop的MapReduce功能实现了将单个任务打碎，并将碎片任务(Map)发送到多个节点上，之后再以单个数据集的形式加载(Reduce)到数据仓库里。 Hadoop架构图通过上图我们可以看出，Hadoop 由许多元素构成。其最底部是 Hadoop Distributed File System（HDFS），它存储 Hadoop 集群中所有存储节点上的文件。HDFS（对于本文）的上一层是MapReduce引擎，该引擎由JobTrackers和TaskTrackers组成。通过对Hadoop分布式计算平台最核心的分布式文件系统HDFS、MapReduce处理过程，以及数据仓库工具Hive和分布式数据库Hbase的介绍，基本涵盖了Hadoop分布式平台的所有技术核心。 2.2.3.2 Hadoop关键技术下面我们将从HDFS、MapReduce、HBase三大部分详细介绍Hadoop的关键指数： 1. HDFS HDFS架构图对外部客户机而言，HDFS就像一个传统的分级文件系统。可以创建、删除、移动或重命名文件，等等。但是 HDFS 的架构是基于一组特定的节点构建的（参见图 1），这是由它自身的特点决定的。这些节点包括NameNode（仅一个），它在 HDFS 内部提供元数据服务；DataNode，它为 HDFS 提供存储块。由于仅存在一个NameNode，因此这是 HDFS 的一个缺点（单点失败）。存储在 HDFS 中的文件被分成块，然后将这些块复制到多个计算机中（DataNode）。这与传统的 RAID 架构大不相同。块的大小（通常为 64MB）和复制的块数量在创建文件时由客户机决定。NameNode可以控制所有文件操作。HDFS 内部的所有通信都基于标准的 TCP/IP 协议。 2. MapReduce MapReduce架构图 MapReduce主要功能如下： Ø 数据划分和计算任务调度系统自动将一个作业（Job）待处理的大数据划分为很多个数据块，每个数据块对应于一个计算任务（Task），并自动调度计算节点来处理相应的数据块。作业和任务调度功能主要负责分配和调度计算节点（Map节点或Reduce节点），同时负责监控这些节点的执行状态，并负责Map节点执行的同步控制。 Ø 数据/代码互定位为了减少数据通信，一个基本原则是本地化数据处理，即一个计算节点尽可能处理其本地磁盘上所分布存储的数据，这实现了代码向数据的迁移；当无法进行这种本地化数据处理时，再寻找其他可用节点并将数据从网络上传送给该节点（数据向代码迁移），但将尽可能从数据所在的本地机架上寻找可用节点以减少通信延迟。 Ø 系统优化为了减少数据通信开销，中间结果数据进入Reduce节点前会进行一定的合并处理；一个Reduce节点所处理的数据可能会来自多个 Map节点，为了避免Reduce计算阶段发生数据相关性，Map节点输出的中间结果需使用一定的策略进行适当的划分处理，保证相关性数据发送到同一个 Reduce节点；此外，系统还进行一些计算性能优化处理，如对最慢的计算任务采用多备份执行、选最快完成者作为结果。 Ø 出错检测和恢复以低端商用服务器构成的大规模MapReduce计算集群中，节点硬件（主机、磁盘、内存等）出错和软件出错是常态，因此MapReduce需要能检测并隔离出错节点，并调度分配新的节点接管出错节点的计算任务。同时，系统还将维护数据存储的可靠性，用多备份冗余存储机制提高数据存储的可靠性，并能及时检测和恢复出错的数据。 3. HBase HBace架构图 HBase即Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。上图描述Hadoop EcoSystem中的各层系统。其中,HBase位于结构化存储层，Hadoop HDFS为HBase提供了高可靠性的底层存储支持，Hadoop MapReduce为HBase提供了高性能的计算能力，Zookeeper为HBase提供了稳定服务和failover机制。此外，Pig和Hive还为HBase提供了高层语言支持，使得在HBase上进行数据统计处理变的非常简单。Sqoop则为HBase提供了方便的RDBMS数据导入功能，使得传统数据库数据向HBase中迁移变的非常方便。 2.2.3.3 Hadoop优势 Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点： 1) 高可靠性：按位存储和处理数据的能力值得人们信赖。 2) 高扩展性：在可用的计算机集簇间分配数据并完成计算任务的，这些集簇可以方便地扩展到数以千计的节点中。 3) 高效性：能够在节点之间动态地移动数据，并保证各个节点的动态平衡，因此处理速度非常快。 4) 高容错性：能够自动保存数据的多个副本，并且能够自动将失败的任务重新分配。 5) 低成本：与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比，Hadoop是开源的，项目的软件成本因此会大大降低。 2.2.4 主要功能介绍 2.2.4.1 统一管理云创大数据实验一体机为一体化实验平台，系统支持对系统中设备和资源进行统一的管理和控制，可实时监控集群使用量并进行调整，便于老师在实验教学过程中进行系统的宏观控制，把控教育资源。 2.2.4.2 用户管理系统具备完善的用户及权限管理功能，具有管理员、老师、学生三级角色管理功能，可根据不同的人员角色分配不同的账号，不同的角色账号具备不同的权限功能，老师角色由管理员进行注册，学生角色由老师角色进行账号分配，通过可进行相关权限的分配。 2.2.4.3 状态监控系统具备系统状态监控功能，可实时展示系统内的集群使用情况、人数上限和当前使用量情况，通过对实验平台状态的监控，以实现对资源的不断优化。 2.2.4.4 容器管理实验平台支持对外提供集群内容器资源的申请和访问入口以及相关集群端口资源的访问，支持用户对自身容器集群生命周期的管理，可一键开启和关闭容器，管理员或老师也可远程关闭所管理学生的容器资源。 2.2.4.5 镜像仓库系统可提供容器所需镜像仓库的存储，调度，查询等操作，可提供教学所需的镜像资源，包括Hadoop、HBase、Ambari、HDFS、YARN、MapReduce、ZooKeeper、Spark、Storm、Hive、Pig、Oozie、Mahout、R语言等不同的大数据应用组件。 2.3 配套资源作为一个可供大量学生完成大数据与云计算实验的集成环境，该平台同步提供了配套的培训服务，对于教学组件的安装、配置，教材、实验手册等具体应用提供一站式服务，有助于高校更好地满足课程设计、课程上机实验、实习实训、科研训练等多方面需求，并在一定程度上缓解大数据师资不足的问题。对于各大高校而言，即使没有任何大数据实验基础，该平台也能助其轻松开展大数据与云计算的教学、实验与科研。具体资源如下： 2.3.1 内容充实的课程体系在《实战Hadoop2.0——从云计算到大数据》和实验手册的指导之下，大数据实验一体机解决方案涵盖大数据算法、接口、工具、平台等多方面内容，从大数据监测与收集、大数据存储与处理、大数据分析与挖掘直至大数据创新，帮助高校构建完善的大数据课程体系。课程体系 2.3.2 多元化的大数据资源包 Ø 《实战Hadoop2.0》：国内第一本Hadoop编程书籍的升级版——《实战Hadoop2.0》及其配套PPT（国内知名云计算专家、中国信息协会大数据分会副会长刘鹏倾力打造）实战Hadoop2.0 Ø 综合42个大数据实验的实验手册及配套高清视频课程：涵盖原理验证、综合应用、自主设计及创新的多层次实验内容，每个实验呈现详细的实验目的、实验内容、实验原理和实验流程指导，配套相应的实验数据和高清视频课程，参照手册即可轻松完成每个实验。实验手册大纲 Ø 网站资源：国内专业领域排名第一的网站——中国大数据、中国云计算、中国存储、中国物联网、中国智慧城市等提供全线支持，一网打尽各类优质资源。 2.3.3 实验数据提供基于大数据实验需求，与大数据实验一体机配套提供的还有各种实验数据，其中不仅包含共用的公有数据，每一套大数据组件也有自己的实验数据，种类丰富，应用性强。实验数据将做打包处理，不同的实验将搭配不同的数据与实验工具，解决实验数据短缺的困扰，在实验环境与实验手册的基础上，做到有设备就能实验，有数据就会实验。 2.4 产品特点 2.4.1 沙箱机制云创大数据实验一体机采用Docker容器技术，容器之间采用沙箱机制，相互之间没有任何接口，因此通过大数据实验一体机创造出的实验环境是相互隔离的，即使由于部分学生的误操作导致实验环境被破坏，也不会影响到其他同学的实验，一键重启就可以拥有新的集群。 Docker统一平台示意图 2.4.2 快速部署云创大数据实验一体机可快速部署实验环境，支持一键创建和销毁实验集群，可在一瞬间创建出供大量学生同时实验的实验环境，同时实验环境可快速销毁和重建，可供老师简单便捷的进行大数据实验和教学工作，无需花大量时间进行每个学生的实验环境部署工作，大幅度的节省人员管理维护成本。一键创建和销毁实验集群 2.4.3 多机实验环境系统采用分布式集群架构，多节点冗余架构设计，可面向大数据的分布式系统，为每个学生提供多机实验环境，整个系统理论支持用户数量无上限，可为每个学生分配5套实验虚拟集群，可满足大量学生同时进行多个实验，并进行各实验的相互对比学习。多机实验环境 2.4.4 资源最大化利用大数据实验一体机通过对Docker容器技术的深度应用，可将服务器资源的利用率发挥到最大，通过几台服务器便可构建出可供上百学生同时实验的实验平台，大幅度的节省了硬件投入成本。 2.4.5 快速高效易扩展大数据实验一体机采用分布式架构，支持性能横向扩展，只需增加节点服务器即可实现同时上机人数的扩容，同时也可以通过减少节点服务来减少同时上机人数，以实现设备的最高效利用。 2.4.6 低运维成本云创大数据实验一体机可实现大数据实验集群的秒级创建、销毁，学生在校期间可独享自己的多个大数据集群；实验环境损坏只需销毁重建即可，无需专人维护，大数据实验一体机只需几台服务就可以构建，设备运维成本很低。 2.4.7 教学体系完善云创大数据实验一体机不仅提供可供上百学生同时实验的教学平台，还提供了国内第一本Hadoop编程书籍的升级版——《实战Hadoop2.0》及其配套PPT（国内知名云计算专家、中国信息协会大数据分会副会长刘鹏倾力打造），以及实验相关的实验手册，同时可提供实验所需的大数据资源和企业实训项目，帮助高校打造完善的大数据教学体系。 3 cDesktop桌面虚拟化云平台 3.1 平台整体架构整体桌面云方案是由云终端Thinclient、虚拟桌面控制器OVD、虚拟机管理平台OVP、服务器存储设备等组成，实现将企业员工的办公桌面统一部署于服务器上，员工的个人数据也集中存储，然后通过网络（局域网或广域网）将个人桌面系统快速交付给员工，员工可以通过各种不同类型的终端设备如瘦客户机、笔记本、手机及平板等随时随地接入办公，打造一种新型的桌面办公模式。图云创一站式桌面云平台架构 3.2 平台组件解析 cDesktop OVD桌面云平台以独享桌面的形式，将桌面作为一种按需服务随时随地交付给任何用户，利用独特的VDX桌面传输协议， OVD可以快速而安全地向企业内的所有用户交付整个桌面，不管他们是固定办公员工，还是移动办公员工。平台核心组件如下：虚拟机管理平台OVP：构建硬件资源可动态调度的服务器集群环境，通过虚拟机可承载Windows和Linux桌面操作系统和应用，实现桌面池的统一管理和性能监控。独有的对称式集群架构，可以登陆到任意一台服务器对整个集群进行管理，无需单独安装中央管理服务器，从而保证了管理平台的高可用性。虚拟桌面控制器OVD：与OVP协同工作，内置域服务提供集中式的桌面用户认证，自动化的桌面管理，控制OVP进行创建、更新、还原虚拟桌面等操作。在不依赖于虚拟机的网络情况下将虚拟桌面安全，快速，可靠地交付到Thinclient。云终端Thinclient：无论是体积小巧，功率低的瘦客户机，还是PC机，笔记本，智能终端，都能作为云终端Thinclient的软件载体，随时随地连接到虚拟桌面进行办公应用。 3.3 平台价值体现 l 运维成本大幅降低 5年可以节省40%以上的TCO。桌面云模式可以缩短80%的桌面上线周期，实现桌面环境快速就绪，还可以加快至少8倍的故障排查速度，从而让单个管理员可以轻松管理1000台以上的终端，极大地减少整体运维成本。 l 节能减排，绿色办公传统PC+显示器每小时耗电量为250W，而瘦客户机+显示器每小时仅为60W，在部署规模为1000台的时候，每单位时间可节省64%的电力消耗。按一天10小时、每年有240个工作日、每0.66元一度电折算成电力费用，每年至少可节省25万元。另外，瘦客户机的小巧、无污染、无噪音可为我们打造一个绿色的办公环境。 l 数据不落地，终端防泄密传统PC模式下，用户端与服务器将直接进行业务数据的交互，即使部署安全设备比如VPN也仅可以实现传输过程中的加密，依然无法保障端到端的数据安全。而桌面云给数据安全带来了一种新型的交互模式，将所有的数据集中存储在后端数据中心，业务数据的交互也只会在业务系统与桌面云架构之间，前端设备如笔记本、瘦客户机、智能终端等接入到桌面云架构不传输业务数据，仅传输图像和指令信息，实现数据不落地，保障信息安全。 l 桌面可携带，随身漫游传统PC将办公地点固定化，而当前业务环境下需要的是随时随地进行办公。而桌面云能较好地适应这种模式，通过多元化的终端设备，在任何地点都可以安全、高效地接入到企业办公桌面，从而提升员工的工作效率。 3.4 平台亮点解析 3.4.1 绝佳的用户体验 3.4.1.1 高清视频体验 cDesktop OVD桌面云平台中，由于从服务器到终端传输的是图像内容，并不是真正的应用数据，所以如何在有限的带宽下，高效地传输图像，就决定了用户在使用云桌面时的体验。在虚拟化服务器端采用的是云创独有的多媒体启发式识别算法，可以区别GIF动画广告，视频，窗口界面变化速度等，智能识别出真正的视频内容，进行特殊的视频压缩编码，发送到客户端，其余内容则按图片帧传输。简而言之，并不是只有视频文件的播放才需要走视频压缩编码，而且变化快的内容，被OVD识别为视频内容，通过特殊编码之后，这部分内容的传输与传统的图片帧方式相比，单位时间内传送的内容更多，同时传送到云终端后，利用云终端本身的GPU进行硬件解码，能够更快地在显示设备上展现，从而达到无限接近本地播放的效果。 cDesktop OVD支持1080P高清视频在虚拟桌面内的本地播放和在线播放，实际使用效果与PC机完全一致，从而让用户完全感觉不出来，是在使用云桌面，能够满足用户日常各种应用环境的使用。 3.4.1.2 与PC一致的使用习惯在用户从PC模式切换到云桌面模式时，势必会存在使用习惯的不一致问题，针对用户在实际使用过程中可能出现的常规操作，cDesktop OVD做了大量的使用体验改进工作。 l 允许修改登录用户密码在企业的客户中用户可以修改自己登陆虚拟桌面的密码，用户可以是本地域帐号和域里面的用户，从而更好地保障用户个人桌面的安全性。 l 用户关机/停止/启动自己的虚拟机对于一部分用户来说，如果虚拟机出现蓝屏或卡死等异常现象，无法登录到OVP管理控制台，则无法对属于自己的虚拟机进行杀掉重启或者关机，导致需要管理员的参与，给管理带来不便。传统PC模式下的关机重启操作，也可以在Thinclient客户端上完成，用户可以自由地控制自己的虚拟机运行状态。 l 云桌面不依赖本身网络，可禁用或修改网络配置用户在云桌面内禁用或者断开网络，不会与服务器断开，从而降低了因为用户误操作或者习惯性操作带来的使用问题。 l 云桌面可看到系统开机画面用户在启动或者重启虚拟桌面时，可以看到整个操作系统的开机画面，可以进入安全模式或者BIOS来进行操作，跟使用PC的开机体验完全一致。 l 云桌面开机自动连接云桌面可以选择开启开机自动连接，从而不需要重复输入账号密码，直接打开云终端，即可自动进入云桌面。 3.4.2 灵活的平台设计 3.4.2.1 全面的终端支持对于云终端的类型，除了瘦客户机之外，传统的PC机，笔记本电脑，移动终端等，均可作为桌面云客

展开阅读全文