资源描述
高校大数据专业教学科研平台建设方案
一、项目建设意义及目标
芝诺数据自主研发高校大数据教学科研平台以校企联合培养模式为手段,经过校企合作联合培养机制,让企业、行业深度参与人才培养过程,逐步实现校企共同制订培养目标、共同建设课程体系和教学内容、共同实施培养过程、共同把控培养质量,全方面提升学生应用实践能力。该平台以应用型人才培养为目标定位,在以处理现实问题为目标前提下,使培养学生有更宽广和跨学科知识视野,重视知识实用性,有创新精神和综合利用知识能力。重视培养学生含有在创新中应用、在应用中创新能力,让学生真正学会大数据行业各个岗位真正职业技能。
二、功效模块和建设思绪
芝诺大数据教学科研平台构建总体分为三大部分,一是平台硬件,二是教学和试验支撑系统(包含:芝诺数据综合分析ZDM平台、芝诺数据教学实训平台),三是产品服务体系。
具体以下:
组成部分
序号
名称
型号规格和说明
单位
数量
平台硬件
1
大数据教学科研一体机
大数据教学科研一体机作为芝诺大数据教育产品载体,是一体化大数据教育科研处理方案,采取新型技术体系架构,整合软硬件系统,涵盖数据存放、数据处理、数据展现等全步骤。
每套教育大数据一体机能够为40个用户提供计算支撑服务,面向用户业务需求,集海量数据存放、多源异构数据整合、统一数据目录、数据分析和挖掘、数据可视化等功效。
台
1
1.1
计算集群
Master 节点
24关键CPU/48G内存/900G SAS硬盘
台
2
1.2
计算集群 Slave 节点
24关键CPU/48G内存/900G SAS硬盘
台
3
1.3
机柜+交换机+配件
42U 千兆交换机
套
1
教学试验
支撑系统
2
芝诺数据综合
分析ZDM平台
芝诺数据综合分析ZDM平台是全方面基于Apache Hadoop及Apache Spark计算框架高性能大数据分析平台,提供一站式大数据开发环境和工具,包含数据存放、分布式计算、分析挖掘及数据可视化整套支持。用户能够在大数据综合分析处理平台上采集、存放、分析、挖掘海量数据及其内在价值。
套
1
2.1
大数据行业
应用数据包
超出 20 亿条以上含有商业价值
真实项目数据
套
1
3
芝诺数据
教学实训平台
芝诺数据教学实训平台能够为大数据教学及科研提供一个完整、一体化试验教学环境,从而打造出全方位专业大数据实训室。
学员登录平台后根据试验指南完成大数据教学实训,老师经过对学员学习情况进行大数据分析析,统计各个班级总体学习进度、每门课程学习进度、学生登录时间统计、全部学生学习情况统计。
套
1
3.1
大数据
实训项目试验
包含大数据系统和大数据应用2个方向累计60个试验项目,每个项目试验材料包含:试验数据、试验指导、试验原理、试验环境、试验考评等内容。
套
1
产品
服务体系
4
系统维护
提供软硬件平台系统维护。
年
1
5
师资培训
提供无偿师资培训机会(每套产品有2个无偿名额)。
年
1
6
案例支持
提供真实大数据项目实战案例,不停完善和补充。
年
1
7
数据提供
提供含有商业价值数据,每十二个月更新10%。
年
1
8
项目众包
提供大数据项目标技术支撑。
年
1
教学和试验支撑系统由芝诺数据综合分析ZDM平台和芝诺数据教学实训平台组成,教学和试验支撑系统布署在大数据教学科研一体机中。
二、项目建设目标及内容
1、项目建设目标
1)平台建设能让高校大数据专业和实际应用相结合,提升学生学习、实践和创新创业能力,能够培养实用性人才所需专业能力,提升教学效果和就业率,为“大数据时代”创新人才培养做出贡献。
2)平台建设将支撑大数据去冗降噪、大数据融合、大数据可视化等关键技术研究,能够服务于学校教学和科研,有利于大数据方向发展和自主创新,有利于创新团体培育和高水平研究结果积累,有利于提升老师教学和科研水平,推进教学和科研团体建设。
3)平台建设搭建能够发挥学校行业优势,表现学校办学特色,推进
和中国外高校、科研机构和企业间产学研合作,开展项目合作研究和人才培养,促进科研结果转化,促进产学研协同创新。
4)平台建设有利于促进学科交叉和融合。
2、项目建设内容
1)模块一:平台相关硬件建设
本模块关键包含:大数据教学科研一体机
技术参数:
作为一个可供大量学生完成大数据实训集成环境,该平台同时提供了配套培训服务,对于教学组件安装、配置、教材、试验手册等具体应用提供一站式服务,有利于高校愈加好地满足课程设计、课程上机试验、实习实训、科研训练等多方面需求,并在一定程度上缓解大数据师资不足问题。对于各大高校而言,即使没有任何大数据试验基础,该平台也能助其轻松开展大数据教学、试验和科研。
2)模块二:教学和实践支撑系统
芝诺大数据教学科研平台由芝诺数据综合分析ZDM平台及芝诺数据教学实训平台联合搭建。经过经典算法展示、算法实现结合大数据分析应用场景和案例对学生进行数据分析方面综合训练,从而实现专业试验教学由点及面、理论到应用、涵盖原理验证/综合应用/自主设计及创新多层次实践教学体系。
(1) 芝诺数据综合分析ZDM平台
芝诺数据综合分析ZDM平台是全方面基于 Apache Hadoop 及 ApacheSpark 计算框架高性能大数据分析平台,提供一站式大数据开发环境和工具,包含数据存放、分布式计算、分析挖掘及数据可视化整套支持。用户能够在大数据综合分析处理平台上采集、存放、分析、挖掘海量数据及其内在价值。
ZDM平台包含Hadoop生态组件:
① 平台组成:
i. Zeno Container分布式实时数据库:支持结构化、半结构化和非结构化数据存放;采取分布式存放,支持海量数据存放,支持高并发快速查询。
ii. Zeno Monitor 服务器监控套件:服务器监控是利用Ganglia和Nagios对集群机器进行资源监控,包含CPU内存,硬盘,网络资源等进行实时监控,方便用户实时掌握集群机器资源利用情况。 经过经典算法展示、算法实现结合大数据分析应用场景和案例对学生进行数据分析方面综合训练,从而实现专业试验教学由点及面、理论到应用、涵盖原理验证/综合应用/自主设计及创新多层次试验体系,以满足不一样学校实践需求。
iii. Zeno Mining 数据挖掘套件:支持多个数据挖掘工具相结合,支持Mahout,MLlib自带并行化高性能机器学习算法库;同时也致辞基于R自定义编程算法;也有强大主流数据统计个绘图语言R和Web图形化开发界面R-Studio。
iv. Zeno Analysis 数据分析套件:使用Sqoop和Flume支持数据迁移和采集;采取多计算框架模型,可满足不一样数据计算要求。及支持Hadoop离线大数据计算,也支持Stream实时流式处理,还支持Spak内存快速计算;支持多语言数据分析工作,支持SQL、Java、Python、Scala等。
v. Zeno Coop协作管理引擎:基于Zookeeper协调服务机制,采取Yarn管理模式,支持同时运行多个计算框架,可同时布署Hadoop、Storm、Spark等计算框架。
ZDM平台工作流:
②平台优点:
I 安装方便
友好图形化安装界面,使用户可在1小时内,零基础搭建基于Hadoop/Spark大数据存放、分析、监控及可视化平台。确保安装100%成功。
Ⅱ 功效完备
提供一站式大数据开发环境和工具,处理从数据源采集/清洗/存放/分析/挖掘/机器学习到数据流处理/可视化/集群监控等问题。 Stream分布式实时流处理引擎提供强大流计算能力,可支持复杂实时处理逻辑,满足企业实时告警、风险控制、在线统计和挖掘等应用需求
Ⅲ 性能保障
计算速度比传统关系型数据库快50-100倍。比如,一个集群包含13个Spark节点,每个256G内存服务器,1个计算任务30秒以内处理200M数据,处理过程包含数据入库、逻辑计算、结果展现。同时,系统可线性扩充存放容量或提升处理性能,只需要简单地向集群中增加机器,无需停机。
Ⅳ 使用方便
图形化数据分析和挖掘界面,令使用者不用理会Hadoop底层技术,只需专注于本身业务逻辑。
③ 基于HadoopZDM分布式存放和计算优点
Ⅰ高可扩展性
Hadoop是一个高度可扩展存放平台,能够存放和分发横跨数百个并行操作廉价服务器数据集群。不一样于传统关系型数据库系统不能扩展四处理大量数据,Hadoop是能给企业提供包含成百上千TB数据节点上运行应用程序。
Ⅱ成本效益
Hadoop还为企业用户提供了极具成本效益存放处理方案。传统关系型数据库管理系统并不符合海量数据处理器,不符合企业成本效益。很多企业过去不得不假设哪些数据最优价值,依据这些有价值数据设定分类,假如保留全部数据,那么成本就会过高。Hadoop架构则不一样,其被设计为一个向外扩展架构,能够经济存放全部企业数据供以后使用,节省费用是很惊人。
Ⅲ灵活性愈加好
Hadoop能够使企业访问新数据源,并能够分析不一样类型数据,从这些数据中产生价值,这意味着企业能够利用Hadoop灵活性从社交媒体、电子邮件或点击流量等数据源取得宝贵商业价值。
Ⅳ处理速度愈加快
Hadoop拥有独特存放方法,用于数据处理工具通常在和数据相同服务器上,从而造成能够愈加快处理器数据。假如处理大量非结构化数据,Hadoop能够在几分钟内处理TB级数据,而不是像以前全部需要以小时为单位。
Ⅴ容错能力更强
Hadoop一个关键优势就是它容错能力,Hadoop能够自动保留数据多个副本,而且能够自动将失败任务重新分配。。当数据被发送到一个单独节点,该数据也被复制到集群其它节点上,这意味着在故障情况下,存在另外副本可供使用。
④ ZDM平台安装界面截图:
ⅠZDM平台登陆界面
用户名密码登陆后,能够看到以下首页。
Ⅱ系统管理界面
在系统管理界面中,“用户管理”和“角色管理”中,能够定义角色(管理员、操作员等)、添加用户、修改用户密码等。另外,在“资源管理”页面中,能够为每一个用户指定许可安装组件或模块。
Ⅲ组件安装界面
在“组件安装”界面中,含有以下功效:基础信息配置(主机名映射)、Hadoop组件安装、Spark组件安装、数据挖掘工具安装、集群监控及HUE安装。以下逐一进行介绍。
ⅰ 基础信息配置
基础信息配置,也即主机名映射,在首次安装Hadoop集群前需要配置各服务器IP地址和主机名映射。点击“配置”按钮后,系统会在后台完成以下配置。
修改各服务器主机名,完成映射。
完成各服务器之间SSH互信。
完成各服务器java JDK环境配置。
ⅱ Hadoop基础组件
在Hadoop基础组件页面,能够点击各个Hadoop基础组件图标,完成对应组件安装及配置。
说明:因为组件之间有相互依靠关系,所以,假如某个组件前序依靠组件没有安装,系统会提醒用户安装前序依靠组件。
ⅲ Spark基础组件安装
在Spark基础组件页面,能够点击Spark基础组件图标,完成Spark集群(包含,Spark SQL,Spark Streaming,MlLib,GraphX)安装及配置。
ⅳ 数据挖掘工具安装
在数据挖掘工具安装页面,能够点击各个数据挖掘工具图标,完成对应工具安装及配置。
ⅴ 集群监控及HUE
在集群监控及HUE安装页面,能够点击对应图标,完成Ganglia及HUE安装及配置。
Ⅳ基础应用模块
在上述Hadoop集群及相关组件安装配置完成后,在基础应用模块,能够是用Rstudio,和查看Ganglia、HDFS、YARN监控页面。
ⅰ Rstudio
登陆后能够看到以下Rstudio页面。(用户名:hadoop,密码:hadoop)
ⅱ Ganglia监控页面
ⅲ HDFS监控页面
ⅳ YARN监控页面
Ⅴ定制应用模块
该模块使用系统自带数据,展示了大数据可视化三个应用效果。
ⅰ 静态报表展示
ⅱ 多维报表展示
ⅲ 动态实时报表展示
(2)大数据教学实训平台
芝诺数据教学实训平台包含大数据系统和大数据应用 2 个方向累计60 个试验项目,能够为大数据教学及科研提供一个完整、一体化试验教学环境,打造出全方位专业大数据实训室。
每个项目试验材料包含:
A 试验数据
B 试验指导
C 试验原理
D 试验环境
E 试验考评等内容。
该平台集学员实训学习和老师教学管理于一体,所以,对于学员和老师这两类不一样角色,能够经过不一样账号登陆,进入平台对应界面。
学员登录实训平台后,能够选择对应试验课程,并根据试验指南完成大数据处理和分析实操案例教学实训,并提交试验汇报。
老师登陆管理平台后,能够经过对班级和学员学习情况进行管理,统计各个班级总体学习进度、每门课程学习进度、查看学生试验汇报并批阅评分等。
以下就分别对学生和老师这两类不一样角色登陆平台后界面操作进行说明。
大数据实训管理平台登陆链接以下::8081/TPF
① 大数据实训管理平台--学生登陆
Ⅰ 学生登陆后课程界面
学生登陆后能够看到以下图所表示“我课程”界面。
大数据实训管理平台现在共有四门课程,分别为:
A数据分析员
B大数据分析师
C大数据挖掘工程师
D大数据系统工程师
Ⅱ点击课程,进入试验列表界面
点击上述四门课程任何一个,即可进入对应课程试验列表界面。比如,点击“大数据分析师课程”,就可进入以下试验列表。
Ⅲ 点击“开始试验”按钮,即可进入对应试验实训界面
因为不一样类型试验实训环境不一样,以下分别就RStudio和WebTerm环境分别说明。
ⅰ RStudio实训环境
该实训环境关键针对大数据统计分析和建模对应试验,也就是经过R语言来完成对应大数据统计分析试验。
比如,点击上述大数据分析师课程试验列表中,“R语言实现多元线性回归模型案例”,即进入以下实训平台界面。
说明:对R语言操作试验,需要登陆Rstudio,登陆用户名和密码和实训平台用户名和密码一致。
输入实训平台用户名和密码,登陆RStudio,登陆后界面以下。
在该实训界面中,学员就能够根据左侧试验指南,在RStudio环境中,完成该多元线性回归模型试验操作和练习。
ⅱ WebTerm实训环境
该实训环境关键用于大数据挖掘工程师和大数据系统工程师相关试验,能够在WebTerm环境下运行Linux系统及Hadoop大数据生态圈工具相关命令。
比如,进入“大数据系统工程师”课程,点击课程试验列表中,“Linux 基础命令操作实例”,即进入以下实训平台界面。
说明:对Linux命令操作试验,需要登陆WebTerm,登陆用户名和密码和实训平台用户名和密码一致。
输入实训平台用户名和密码,登陆WebTerm,登陆后界面以下。
在该实训界面中,学员就能够根据左侧试验指南,在WebTerm环境中,完成该试验操作和练习。
Ⅳ 下载试验资源
在RStudio或WebTerm环境实训页面中,假如该试验有附加软件安装包或数据文件等需要下载资源,全部能够点击“下载资源”按钮一键下载,下载资源文件为压缩ZIP文件。以下图所表示。
Ⅴ 提交试验汇报
每一个试验演示操作完成后,全部有一个试验作业,以下图所表示。
学生可依据该试验所练习内容,完成对应试验作业,并点击“试验汇报”按钮,就可进入以下试验汇报提交页面。在该页面中,能够“输入内容”、“上传图片”等。
Ⅵ 查看试验汇报
学生在完成试验练习并提交试验作业后,能够点击“我试验汇报”,查看已提交试验汇报列表,而且还能够对已提交试验汇报进行编辑。示意图以下所表示。
②大数据实训管理平台--老师登陆
Ⅰ老师登陆后管理界面
老师登陆大数据实训管理平台后,能够看到上图管理界面。老师账号关键有三方面功效:
创建和管理班级
批阅学生提交试验汇报
集群监控
以下对这三方面功效逐一进行介绍。
Ⅱ我班级
ⅰ 创建班级
在“我班级”页面,老师能够创建和编辑班级。
根据上述示意图操作,即可创建班级。创建班级后效果以下图所表示。
ⅱ 导入学员
在创建了班级后,能够对该班级学员进行管理。
点击上图“学员管理”按钮,即可进入以下学员管理。对于新创建班级,能够点击“下载学员模板”,依据模板导入该班级学员。
ⅲ 课程管理
能够经过“课程管理”为该班级学员分配对应课程。
点击上图中“课程管理”按钮,即进入课程分配页面,为该班级分配对应试验课程。
Ⅲ 批阅汇报
点击“批阅汇报”,能够筛选“专业”和“班级”,查看对应班级学生提交试验汇报,并进行批阅。
Ⅳ 集群监控
点击“集群监控”,能够进入分布式计算机集群监控页面,以下图所表示。
在该页面中,能够分别查看Hadoop集群、Spark集群、Ganglia集群监控,和,进程开启等监控信息。示意图以下。
Hadoop集群信息:
Spark集群信息:
Ganglia集群监控信息:
进程开启页面信息:
3、项目教学内容及数据库
(1) 芝诺数据教学课程
(2)实训平台试验教学纲领
(3)芝诺数据库
附:
部分学员作业(大数据应用分析汇报)展示
往期回顾
4、项目建设关键
因为本试验室建设思绪是侧重试验内容建设,所以我们在计划中突出了平台及大数据专业课程建设,在整个建设过程中,我们关键关键在于:
(1)以科学、节省为标准,合了处理试验室服务器问题。
(2)严格根据试验室建设进度安排实施。
(3)硬件及相关支撑平台以满足基础要求即可,关键引入跟我们大数据专业人才培养方案相关大数据课程内容及行业案例库,经过专业大数据课程和真实企业实训场景,大力培养学生应用创新能力。
(4)在整个试验室项目建设同时,着力加强大数据专业老师团体建设。
5、项目建设预期效益
本项目经过对芝诺数据教学实训平台和芝诺数据综合分析ZDM平台建设,支撑大数据去冗降噪、大数据融合、大数据安全和隐私保护等关键技术研究,形成以工程实训和创新拓展为主实践教学体系,培养学生良好科学素养和实践创新能力。同时,提升高校负担重大科研项目和实现自主创新能力。适应国民经济和社会发展信息化进程、信息化和工业化“两化”融合和新兴战略性产业快速发展,完善科研平台和教学试验平台体系建设,提升科技创新能力,推进产学研合作。预期达成以下效果:
(1)建立健全试验教学环境,为相关专业学生提供和产业界接轨、良好试验条件;
(2)模拟企业环境,引入以实际项目为蓝本实训项目,构建实训基地;
(3)为开设大数据类公共选修课提供试验环境;
(4)支撑高校科研项目标实施及科研论文发表;
(5)为学生在数学、统计、计算机类学科竞赛获奖提供教学试验环境支持。
展开阅读全文