1、高校大数据试验室建设方案一、 建设目标章鱼大数据试验室建设目标是作为大数据教学试验及科研平台,包含数据挖掘和大数据分析平台。试验室设计全方面落实“产、学、研、用”一体化思想和模式,从教学、实践、科研和使用多方面重视专业人才和特色人才培养。利用虚拟化教学资源,搭建教学系统和集群平台,将理论学习、实践教学和大数据项目实战融为一体,由难而易、循序渐进,逐步提升学生学习技能和实践水平, 提升“学”质量和成效。利用大数据分析主流软件框架,搭建和业界关键用户一致试验和科研环境,将理论课程中学到数据挖掘算法利用到实际数据分析过程中,提升学生动手操作和项目实践能力。使得学生所学和企业项目人才需求无缝衔接,和老
2、师科研工作紧密配合。 经过专业大数据分析计算资源搭建开放式大数据分析平台,能够充足融合老师科研需求,老师能够在开放平台环境下开展大数据科研工作,提升老师科研创新能力,充足提升“研”成效。二、 产品优势n 交互式学习模式提供体系完整、简单易用在线教学课堂;以基础知识学习、在线视频教学、习题、线上测试、评定等为根本一系列方法,确保学生在短时间内掌握大数据虚拟仿真试验、分析布署技能。n 真机试验训练试验训练体系设计成各模块相对独立形式,各模块交互式试验任务、大数据试验机、实际项目上机操作,经过多方位训练,最终灵活、渐进式地掌握大数据生态体系。n 大数据实战及案例分析提供试验数据,包含网站流量数据、租
3、房及二手房数据、电商商品交易数据、搜索引擎访问等多个行业数据,数据内容超出20TB,同时周期更新数据内容。n 充足支撑科研工作提供行业数据及案例解剖用于基础研究,提供数据分析方案及步骤,提供数据更新接口,能够对行业数据进行分析统计,按需求生成数据报表,为科研工作提供数据支撑。比如某地域经济数据分析、股市数据分析、全国地震数据分析、食品价格行业数据分析等。三、 建设规模根据60台大数据试验机容量进行同时在线使用进行建设为基础,整体系统提供快速扩容升级服务。四、 硬件配置采取十六台高性能品牌服务器作为大数据节点进行建设,采取企业级全千兆三层交换机进行网络数据交换。每台节点配置以下:处理器每节点支持
4、2个英特尔 至强 处理器 E5-2650 CPU高速缓存15MBQPI总线速率7.2GT/s内存提供12个内存插槽,标配192G内存,支持高级内存纠错,内存镜像,内存热备等高级功效磁盘标配4块3TB SATA硬盘标配2块120G SSD 硬盘300G 10000转SAS系统盘网络控制器集成1个高性能千兆以太网控制器(双口),支持虚拟化加速,网络加速,负载均衡,冗余等高级功效电源标配大功率高效白金级电源,1+1冗余虚拟化技术支持VMware vSphere、Docker、OpenStack等五、 软件平台介绍1、大数据教学管理系统1.1 专业管理提供对专业信息增加、删除、修改、查询功效。1.2
5、班级管理提供对专业下属班级增加、删除、修改、查询功效。1.3 学生管理提供对班级内学生管理,学生内容包含姓名、学号、所属班级、所属专业、联络手机、登录次数等内容。1.4 交流日志查阅对试验机分享交流内容进行查询,包含交流IP、相关学员、相关老师、试验机编号、交流内容等内容。1.5 成绩管理对于学习中心在线学习学习考评成绩进行管理,包含查询及删除等功效。1.6 学习统计提供每个学生在学习中心平台内学习课程学习统计,包含日期、计划、课程、章节、学习IP等。1.7 学习行为报表对全部学生课程学习统计进行统计,包含个体统计、班级统计、全体统计等。1.8 课程管理对学习课程进行查询、修改、删除等操作。1
6、.9 开通课程计划对于学习开课计划字段内容包含计划名称、讲课讲师、讲课时间段、开通状态、许可申请周期,许可申请人数等,功效提供绑定课程计划相关实训平台课程、讲课助教、云试验机绑定、试验任务绑定等功效。1.10 课程测验习题管理提供对课程相关习题管理,题型包含单选、多选、判定题等类型,对习题进行增、册、改、查操作。1.11 分级权限功效系统分为总管理员、助教等二级管理角色,总管理员进行管理全部功效点,助教能够进行班级管理、学生管理、开课计划制作、试验机远程帮助等。1.12 学生实训系统提供学生依据姓名、学号、密码登录系统进行实训操作,学生只需安装浏览即可进行试验任务操作;提供实训课程在线学习功效
7、、试验机在线操作、试验汇报提交、试验机界面截图、统计课程学习时长等。1.13 试验机桌面分享提供试验机桌面分享功效,如学生在学习、操作云试验机过程中,有问题能够向老师提议帮助请求,助教在收到请求时,能够远程访问学生试验机,并指导怎样操作。2、云试验机及试验任务22.1 云试验机提供基于Web浏览器试验机可视化操作,操作终端无需安装其它开发软件即可进行试验操作;云试验机能够依据学生编号、试验任务和环境要求自动创建,无需管理人员参与试验机创建操作过程。管理平台对云试验机能够进行停止、销毁操作。2.2 云试验机集群管理功效提供云试验机集群管理,对试验机所属服务器进行新增、删除等操作。2.3 云试验机
8、类型包含Hadoop试验机、Hive试验机、HBase试验机、R语言试验机、Scala试验机、Spark试验机、Kafka试验机、Sqoop试验机、Flume试验机、数据可视化试验机等。2.4 试验机运行监控系统系统提供对试验集群运行全部试验机进行监控,能够查询编号、所属服务器、创建时间、运行状态、开放端口等内容。2.5 试验任务管理提供对试验任务内容管理,包含任务课程、绑定试验机、设定任务成绩总分,排序值等,提供多个试验任务内容,比如Hadoop试验任务、Hive试验任务、HBase试验任务、Flume和kafka试验任务等。2.6 试验汇报审阅功效在试验任务过程中学生上交任务汇报进行审阅评
9、分,提供根据学生、试验任务等字段进行检索功效。2.7 云试验机桌面分享系统提供试验机桌面基于浏览器分享功效,许可学生和学生、学生和老师同时操作试验机桌面系统,提供基于浏览器交流功效。3、大数据实战平台系统33.1 大数据集群管理系统基于分布式集群管理系统,提供大数据集群管理系统,功效包含Hadoop、Hive、HBase、Sqoop、Flume、Spark等节点部属及管理,提供实时监控集群CPU、内存、硬盘等使用率及相关信息,能够对管理节点、计算节点进行开启、停止等操作管理。3.2 大数据作业工作流系统提供大数据相关作业上传、部属、步骤管理等功效,基于 Web 任务调度、兼容Hadoop、Sp
10、ark主流版本、失败任务、运行状态监控等。六、 大数据课程及行业案例试验平台提供100个课时Hadoop、Spark等大数据主流课程,课程和大数据试验机完美结合,学员在教学管理系统学习课程,随时进行实训操作,包含项目设计、数据采集、清洗、建模、技术实现等,快速提升实操技能,最终掌握大数据开发、数据分析和数据挖掘等大数据能力。部分案例图片:【电商大数据分析案例】【电商大数据分析架构】【房产大数据分析架构】【房产大数据分析可视化】【搜索大数据分析架构】【网站日志大数据分析架构】课程试验内容包含:课程名称课时课程内容介绍Hadoop基础10讲解Hadoop生态系统,包含操作和开发;具体讲解HDFS和
11、Map-Reduce功效及作用;了解MapReduce原理、运行步骤、压缩数据处理、作业调度、计算器等步骤。HDFS程序开发6讲解Hadoop文件系统HDFS JAVA API使用。掌握怎样使用HDFS Java API,读写文件、读写目录、和对文件进行压缩处理等。MapReduce开发6本课程针对Hadoop MapReduce开发进行讲解。课程以案例为基础,关键介绍MapReduce程序结构,和怎样使用MapReduce进行数据统计,去重,排序,Map端Join,Reduce端Join等关联操作,掌握MapReduce处理过程。Hive数据仓库24Hive是基于Hadoop构建数据仓库分析
12、系统,经过学习掌握Hive函数、Hive数据加载、HiveDDL操作、自定义函数(UDF)等内容,达成使用Hive进行查询、汇总、分析数据能力。分布式数据库HBase6HBase是Hadoop生态系统中关键一员,关键用于海量结构化数据存放;经过学习对HBase表设计、表操作、数据操作、Java API等内容,掌握对HBase系统开发及使用。数据迁移工具 Sqoop4Sqoop是关系型数据库和Hadoop生态系统之间进行数据转换关键工具;经过学习将mysql中数据导入到hdfs中、将数据导入到HBase中、定义导入导出任务等,掌握对数据迁移能力。分布式日志框架Flume4Flume对海量日志进行
13、采集、聚合和传输主流大数据工具;课程内容包含Flume应用场景、FlumeNG、FlumeOG、Flume关键组件、Flume架构、Flumesource、sink配置说明等。Kafka流式数据采集4Kafka是分布式消息队列,广泛应用于实时数据处理。学习内容包含Kafka体系结构、安装模式及安装布署、Topic、Producer、Consumer、公布订阅消息和Kafka JAVA开发等。Spark6Spark是一款高性能分布式计算框架,比MapReduce计算快百倍;本课程内容全方面涵盖了Spark生态系统、Spark和Hadoop对比、开发环境搭建、RDD、编程模型、Web监控等内容。S
14、park Streaming4Spark Streaming是用户结合流式、批处理和交互式查询应用实时计算框架;本课程内容具体讲解原理和特点、适用场景、Dstream操作、容错、性能优化和内存优化等。Spark SQL4Spark SQL出现,使得SQL-on-Hadoop性能相对于Hive有了显著提升。达成Spark兼容Hive功效。本课程具体讲解特点、运行架构、数据源、数据缓存、DataFrame等。实战案例搜索引擎日志数据统计分析6讲解Hadoop系统架构设计和项目分析步骤;经过对用户搜索统计数据清洗,分析指标内容,得出关键词排行榜、用户停留时间最高页面等。实战案例电子商务平台大数据分析
15、6讲解Spark系统架构设计和项目分析步骤;本课程关键讲解搭建电商数据处理平台、数据统计、分析及可视化技术应用开发步骤。七、 行业数据及案例提供大数据实战案例和行业数据,提供包含海量网站日志分析案例、租房及二手房大数据分析案例、电商商品交易大数据挖掘、搜索引擎关键词分析算法案例、汽车销售数据分析案例等案例讲解及实战作业工作流内容。数据名称数据描述更新地域房产数据包含二手房在售数据、出租房屋数据、经纪人评价数据等。每七天全国汽车数据包含中国不一样种类汽车具体配置信息、汽车使用评论数据、汽车销售数据和二手车数据等。可用于汽车行业市场行情分析。每个月法律咨询数据包含中国全部法律咨询服务机构数据、机构
16、评论数据、相关法律咨询话题数据。可用于法律咨询行业市场行情分析,社会治安情况分析。每七天疾病问答数据包含中国不一样种类疾病问题数据、医生回复数据、相关疾病常识等话题数据。每个月股票基金交易数据包含中国、港股、美股等中国外股票行情及交易数据、根据时间段提供具体数据;也包含证券投资基金、保险基金、信托投资基金等行情数据。每日天气、气象数据包含全国各个地域气象数据(气温、降水量、风、气压等)、气象观察产品数据。可用于气象业务、天气预报、气候估计和气象服务。每日人脸图像数据包含中国多个年纪段人脸图像数据。用于脸部特征分析、人脸识别、人脸检测等,每个人提供多个角度图片。每个月电商评价数据包含上百万条中国
17、著名电商平台产品评价数据。可用于用户购置产品意愿分析、个性化推荐和正确营销,进行商业舆情监控和产品市场行情分析。每七天北京生鲜食品价格数据包含历年北京市蔬菜、水果、肉禽蛋、水产等生鲜食品最低价、最高价和平均价和最新价格。利用大数据可进行生鲜食品行业分析。每日搜索引擎访问日志数据包含用户搜索统计数据。经过对用户搜索统计分析,能够分析用户行为特征,构建广告点击模型。每七天海量网站访问日志数据包含海量用户访问网站日志数据。经过对日志分析,我们能够知道获取网站每类页面PV值(PageView,页面访问量)、独立IP数,哪个网页最有价值等。每七天八、 安装配置1、大数据教学管理系统2、大数据实战集群及案例