收藏 分销(赏)

高校大数据实验室建设解决专项方案.docx

上传人:二*** 文档编号:4767170 上传时间:2024-10-12 格式:DOCX 页数:14 大小:2.21MB
下载 相关 举报
高校大数据实验室建设解决专项方案.docx_第1页
第1页 / 共14页
本文档共14页,全文阅读请下载到手机保存,查看更方便
资源描述
高校大数据试验室建设方案 一、 建设目标 章鱼大数据试验室建设目标是作为大数据教学试验及科研平台,包含数据挖掘和大数据分析平台。试验室设计全方面落实“产、学、研、用”一体化思想和模式,从教学、实践、科研和使用多方面重视专业人才和特色人才培养。 利用虚拟化教学资源,搭建教学系统和集群平台,将理论学习、实践教学和大数据项目实战融为一体,由难而易、循序渐进,逐步提升学生学习技能和实践水平, 提升“学”质量和成效。利用大数据分析主流软件框架,搭建和业界关键用户一致试验和科研环境,将理论课程中学到数据挖掘算法利用到实际数据分析过程中,提升学生动手操作和项目实践能力。使得学生所学和企业项目人才需求无缝衔接,和老师科研工作紧密配合。 经过专业大数据分析计算资源搭建开放式大数据分析平台,能够充足融合老师科研需求,老师能够在开放平台环境下开展大数据科研工作,提升老师科研创新能力,充足提升“研”成效。 二、 产品优势 n 交互式学习模式 提供体系完整、简单易用在线教学课堂;以基础知识学习、在线视频教学、习题、线上测试、评定等为根本一系列方法,确保学生在短时间内掌握大数据虚拟仿真试验、分析布署技能。 n 真机试验训练 试验训练体系设计成各模块相对独立形式,各模块交互式试验任务、大数据试验机、实际项目上机操作,经过多方位训练,最终灵活、渐进式地掌握大数据生态体系。 n 大数据实战及案例分析 提供试验数据,包含网站流量数据、租房及二手房数据、电商商品交易数据、搜索引擎访问等多个行业数据,数据内容超出20TB,同时周期更新数据内容。 n 充足支撑科研工作 提供行业数据及案例解剖用于基础研究,提供数据分析方案及步骤,提供数据更新接口,能够对行业数据进行分析统计,按需求生成数据报表,为科研工作提供数据支撑。比如某地域经济数据分析、股市数据分析、全国地震数据分析、食品价格行业数据分析等。 三、 建设规模 根据60台大数据试验机容量进行同时在线使用进行建设为基础,整体系统提供快速扩容升级服务。 四、 硬件配置 采取十六台高性能品牌服务器作为大数据节点进行建设,采取企业级全千兆三层交换机进行网络数据交换。 每台节点配置以下: 处理器 每节点支持2个英特尔® 至强® 处理器 E5-2650 CPU 高速缓存 15MB QPI总线速率 7.2GT/s 内存 提供12个内存插槽,标配192G内存, 支持高级内存纠错,内存镜像,内存热备等高级功效 磁盘 标配4块3TB SATA硬盘 标配2块120G SSD 硬盘 300G 10000转SAS系统盘 网络控制器 集成1个高性能千兆以太网控制器(双口),支持虚拟化加速,网络加速,负载均衡,冗余等高级功效 电源 标配大功率高效白金级电源,1+1冗余 虚拟化技术 支持VMware vSphere、Docker、OpenStack等 五、 软件平台介绍 1、大数据教学管理系统 1.1 专业管理 提供对专业信息增加、删除、修改、查询功效。 1.2 班级管理 提供对专业下属班级增加、删除、修改、查询功效。 1.3 学生管理 提供对班级内学生管理,学生内容包含姓名、学号、所属班级、所属专业、联络手机、登录次数等内容。 1.4 交流日志查阅 对试验机分享交流内容进行查询,包含交流IP、相关学员、相关老师、试验机编号、交流内容等内容。 1.5 成绩管理 对于学习中心在线学习学习考评成绩进行管理,包含查询及删除等功效。 1.6 学习统计 提供每个学生在学习中心平台内学习课程学习统计,包含日期、计划、课程、章节、学习IP等。 1.7 学习行为报表 对全部学生课程学习统计进行统计,包含个体统计、班级统计、全体统计等。 1.8 课程管理 对学习课程进行查询、修改、删除等操作。 1.9 开通课程计划 对于学习开课计划字段内容包含计划名称、讲课讲师、讲课时间段、开通状态、许可申请周期,许可申请人数等,功效提供绑定课程计划相关实训平台课程、讲课助教、云试验机绑定、试验任务绑定等功效。 1.10 课程测验习题管理 提供对课程相关习题管理,题型包含单选、多选、判定题等类型,对习题进行增、册、改、查操作。 1.11 分级权限功效 系统分为总管理员、助教等二级管理角色,总管理员进行管理全部功效点,助教能够进行班级管理、学生管理、开课计划制作、试验机远程帮助等。 1.12 学生实训系统 提供学生依据姓名、学号、密码登录系统进行实训操作,学生只需安装浏览即可进行试验任务操作;提供实训课程在线学习功效、试验机在线操作、试验汇报提交、试验机界面截图、统计课程学习时长等。 1.13 试验机桌面分享 提供试验机桌面分享功效,如学生在学习、操作云试验机过程中,有问题能够向老师提议帮助请求,助教在收到请求时,能够远程访问学生试验机,并指导怎样操作。 2、云试验机及试验任务 2 2.1 云试验机 提供基于Web浏览器试验机可视化操作,操作终端无需安装其它开发软件即可进行试验操作;云试验机能够依据学生编号、试验任务和环境要求自动创建,无需管理人员参与试验机创建操作过程。管理平台对云试验机能够进行停止、销毁操作。 2.2 云试验机集群管理功效 提供云试验机集群管理,对试验机所属服务器进行新增、删除等操作。 2.3 云试验机类型 包含Hadoop试验机、Hive试验机、HBase试验机、R语言试验机、Scala试验机、Spark试验机、Kafka试验机、Sqoop试验机、Flume试验机、数据可视化试验机等。 2.4 试验机运行监控系统 系统提供对试验集群运行全部试验机进行监控,能够查询编号、所属服务器、创建时间、运行状态、开放端口等内容。 2.5 试验任务管理 提供对试验任务内容管理,包含任务课程、绑定试验机、设定任务成绩总分,排序值等,提供多个试验任务内容,比如Hadoop试验任务、Hive试验任务、HBase试验任务、Flume和kafka试验任务等。 2.6 试验汇报审阅功效 在试验任务过程中学生上交任务汇报进行审阅评分,提供根据学生、试验任务等字段进行检索功效。 2.7 云试验机桌面分享系统 提供试验机桌面基于浏览器分享功效,许可学生和学生、学生和老师同时操作试验机桌面系统,提供基于浏览器交流功效。 3、大数据实战平台系统 3 3.1 大数据集群管理系统 基于分布式集群管理系统,提供大数据集群管理系统,功效包含Hadoop、Hive、HBase、Sqoop、Flume、Spark等节点部属及管理,提供实时监控集群CPU、内存、硬盘等使用率及相关信息,能够对管理节点、计算节点进行开启、停止等操作管理。 3.2 大数据作业工作流系统 提供大数据相关作业上传、部属、步骤管理等功效,基于 Web 任务调度、兼容Hadoop、Spark主流版本、失败任务、运行状态监控等。 六、 大数据课程及行业案例 试验平台提供100个课时Hadoop、Spark等大数据主流课程,课程和大数据试验机完美结合,学员在教学管理系统学习课程,随时进行实训操作,包含项目设计、数据采集、清洗、建模、技术实现等,快速提升实操技能,最终掌握大数据开发、数据分析和数据挖掘等大数据能力。部分案例图片: 【电商大数据分析案例】 【电商大数据分析架构】 【房产大数据分析架构】 【房产大数据分析可视化】 【搜索大数据分析架构】 【网站日志大数据分析架构】 课程试验内容包含: 课程名称 课时 课程内容介绍 Hadoop基础 10 讲解Hadoop生态系统,包含操作和开发;具体讲解HDFS和Map-Reduce功效及作用;了解MapReduce原理、运行步骤、压缩数据处理、作业调度、计算器等步骤。 HDFS程序开发 6 讲解Hadoop文件系统HDFS JAVA API使用。掌握怎样使用HDFS Java API,读写文件、读写目录、和对文件进行压缩处理等。 MapReduce开发 6 本课程针对Hadoop MapReduce开发进行讲解。课程以案例为基础,关键介绍MapReduce程序结构,和怎样使用MapReduce进行数据统计,去重,排序,Map端Join,Reduce端Join等关联操作,掌握MapReduce处理过程。 Hive数据仓库 24 Hive是基于Hadoop构建数据仓库分析系统,经过学习掌握Hive函数、Hive数据加载、HiveDDL操作、自定义函数(UDF)等内容,达成使用Hive进行查询、汇总、分析数据能力。 分布式数据库HBase 6 HBase是Hadoop生态系统中关键一员,关键用于海量结构化数据存放;经过学习对HBase表设计、表操作、数据操作、Java API等内容,掌握对HBase系统开发及使用。 数据迁移工具 Sqoop 4 Sqoop是关系型数据库和Hadoop生态系统之间进行数据转换关键工具;经过学习将mysql中数据导入到hdfs中、将数据导入到HBase中、定义导入导出任务等,掌握对数据迁移能力。 分布式日志框架Flume 4 Flume对海量日志进行采集、聚合和传输主流大数据工具;课程内容包含Flume应用场景、FlumeNG、FlumeOG、Flume关键组件、Flume架构、Flumesource、sink配置说明等。 Kafka流式数据采集 4 Kafka是分布式消息队列,广泛应用于实时数据处理。学习内容包含Kafka体系结构、安装模式及安装布署、Topic、Producer、Consumer、公布订阅消息和Kafka JAVA开发等。 Spark 6 Spark是一款高性能分布式计算框架,比MapReduce计算快百倍;本课程内容全方面涵盖了Spark生态系统、Spark和Hadoop对比、开发环境搭建、RDD、编程模型、Web监控等内容。 Spark Streaming 4 Spark Streaming是用户结合流式、批处理和交互式查询应用实时计算框架;本课程内容具体讲解原理和特点、适用场景、Dstream操作、容错、性能优化和内存优化等。 Spark SQL 4 Spark SQL出现,使得SQL-on-Hadoop性能相对于Hive有了显著提升。达成Spark兼容Hive功效。本课程具体讲解特点、运行架构、数据源、数据缓存、DataFrame等。 实战案例 搜索引擎日志 数据统计分析 6 讲解Hadoop系统架构设计和项目分析步骤;经过对用户搜索统计数据清洗,分析指标内容,得出关键词排行榜、用户停留时间最高页面等。 实战案例 电子商务平台 大数据分析 6 讲解Spark系统架构设计和项目分析步骤;本课程关键讲解搭建电商数据处理平台、数据统计、分析及可视化技术应用开发步骤。 七、 行业数据及案例 提供大数据实战案例和行业数据,提供包含海量网站日志分析案例、租房及二手房大数据分析案例、电商商品交易大数据挖掘、搜索引擎关键词分析算法案例、汽车销售数据分析案例等案例讲解及实战作业工作流内容。 数据名称 数据描述 更新 地域房产数据 包含二手房在售数据、出租房屋数据、经纪人评价数据等。 每七天 全国汽车数据 包含中国不一样种类汽车具体配置信息、汽车使用评论数据、汽车销售数据和二手车数据等。可用于汽车行业市场行情分析。 每个月 法律咨询数据 包含中国全部法律咨询服务机构数据、机构评论数据、相关法律咨询话题数据。可用于法律咨询行业市场行情分析,社会治安情况分析。 每七天 疾病问答数据 包含中国不一样种类疾病问题数据、医生回复数据、相关疾病常识等话题数据。 每个月 股票基金交易数据 包含中国、港股、美股等中国外股票行情及交易数据、根据时间段提供具体数据;也包含证券投资基金、保险基金、信托投资基金等行情数据。 每日 天气、气象数据 包含全国各个地域气象数据(气温、降水量、风、气压等)、气象观察产品数据。可用于气象业务、天气预报、气候估计和气象服务。 每日 人脸图像数据 包含中国多个年纪段人脸图像数据。用于脸部特征分析、人脸识别、人脸检测等,每个人提供多个角度图片。 每个月 电商评价数据 包含上百万条中国著名电商平台产品评价数据。可用于用户购置产品意愿分析、个性化推荐和正确营销,进行商业舆情监控和产品市场行情分析。 每七天 北京生鲜食品价格数据 包含历年北京市蔬菜、水果、肉禽蛋、水产等生鲜食品最低价、最高价和平均价和最新价格。利用大数据可进行生鲜食品行业分析。 每日 搜索引擎访问日志数据 包含用户搜索统计数据。经过对用户搜索统计分析,能够分析用户行为特征,构建广告点击模型。 每七天 海量网站访问日志数据 包含海量用户访问网站日志数据。经过对日志分析,我们能够知道获取网站每类页面PV值(PageView,页面访问量)、独立IP数,哪个网页最有价值等。 每七天 八、 安装配置 1、大数据教学管理系统 2、大数据实战集群及案例
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传
相似文档                                   自信AI助手自信AI助手

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4009-655-100  投诉/维权电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服