1、大数据挖掘(Big Data Mining)课程代码:5251058学分:3学时:48 (其中:课程教学学时:32,实验学时:16)先修课程:数据库原理、概率论与数理统计、SAS软件基础适用专业:计算机科学与技术教材:Oracle数据库应用与实践,方巍,文学志编著,清华大学出版社, 2014年8月第1版开课学院:计算机与软件学院一、课程性质与课程目标-)课程性质大数据挖掘是高等工科院校计算机类相关专业的一门专业选修课程。本课程主要介绍本 课程以数据挖掘为主要内容,讲述实现数据挖掘的各主要功能、挖掘算法和应用。(二)课程目标课程目标包括知识目标和能力目标,具体如下:课程目标1:能够针对相关问题选
2、取合适的数据挖掘算法分析数据,通过比照做出归纳 性的推理,从中挖掘出潜在的模式,帮助决策者做出正确的决策。课程目标2:提高对生活、学习和工作中产生的大数据的分析和处理能力。(三)课程目标与专业毕业要求指标点的对应关系本课程支撑专业培养计划中的毕业要求指标点4.2和5.2。毕业要求指标点42具有计算机软硬件及系统相关的工程基础能力,能够针对计算机 领域相关问题进行实验验证与实现,能够利用理论分析手段对实验数据进行解释与比照分析, 给出实验结论。毕业要求指标点5.2:在计算机领域复杂工程问题的建模、模拟或解决过程中,能够使 用恰当的技术、软硬件及系统资源和研发工具,提高解决复杂工程问题的能力和效率
3、。毕业要求箱派点、课程目标1课程目标2毕业要求11.3二、课程内容及教学要求(按章撰写)本课程教学内容包括:数据挖掘的基本理论、常用挖掘算法及其应用。本课程基本要求是:理解数据挖掘的基本概念和方法,掌握数据挖掘算法基本原理及其 实现,并能借助算法对数据进行分析和处理。学生能够借助SAS Enterprise Miner软件工具进行具体数据的挖掘分析,从中获取有价值的信息。第1章数据挖掘导论(一)教学内容1 .数据挖掘开展概述。2 .数据挖掘功能。3 .数据挖掘系统。(二)教学要求.了解数据挖掘基本概念。1 . 了解数据挖掘开展历程。2 .熟悉数据挖掘的基本功能。3 . 了解数据挖掘系统及分类。
4、(三)重点与难点.重点数据挖掘功能。1 .难点数据挖掘系统应用。第2章数据预处理(一)教学内容1 .数据清洗:噪声数据处理、不一致数据处理。2 .数据集成与转换。(二)教学要求.熟悉噪声数据处理方法。1 .熟悉不一致数据处理方法。2 .了解数据集成方法。3 . 了解数据转换方法。(三)重点与难点.重点数据清洗方法。1 .难点数据转换方法。第3章分类与预测(-)教学内容1 .分类与预测基本知识。2 .分类:基于决策树的分类、贝叶斯分类、支持向量机分类、神经网络分类、预测方 法。(二)教学要求1 .掌握分类的基础知识。2 .掌握预测的基础知识。3 .理解常用分类和预测方法。(三)重点与难点.重点支
5、持向量机分类方法。1 .难点神经网络分类方法。第4章聚类分析(一)教学内容聚类分析基础与应用:K-Means聚类方法、K-中心点聚类方法。(二)教学要求1 .掌握K-Means聚类方法原理、实现及应用。2 .掌握K-中心点聚类方法原理、实现及应用。(三)重点与难点.重点K-Means聚类方法。1 .难点K中心点聚类方法。三、本课程开设的实验工程编号实验工程名称学时类型要求支撑的课程目标1演化分析2综合必做课程目标12数据清洗2综合必做课程目标13数据集成与转换2综合必做课程目标14基于决策树的分类2综合必做课程目标1, 25贝叶斯分类2综合必做课程目标1, 26支持向量机分类2综合必做课程目标
6、1, 27K -Means聚类算法2综合必做课程目标1,28K一中心点聚类算法2综合必做课程目标1,2实验1:演化分析1 .实验目的及要求2 )熟悉演化分析的基本方法;3 )掌握演化分析软件使用方法。4 .实验主要内容使用SAS软件对数据集进行演化分析。5 .重难点SAS软件使用方法。实验2:数据清洗.实验目的及要求1)掌握噪声数据处理方法;2)掌握不一致数据处理方法。1 .实验主要内容使用SAS软件分别对噪声数据和不一致进行处理。2 .重难点噪声数据的处理。实验3:数据集成与转换.实验目的及要求1)掌握数据集成方法;2)掌握常用数据转换方法。3 .实验主要内容使用SAS软件分别完成数据的集成
7、和转换。4 .重难点数据转换。实验4:基于决策树的分类.实验目的及要求1)掌握ID3算法原理与实现;2)掌握C4.5算法原理与实现。5 .实验主要内容分别使用ID3算法和C4.5算法对给定的训练数据集创立决策树。6 .重难点C4.5算法创立决策树。实验5:贝叶斯分类实验目的及要求1)掌握贝叶斯算法分类原理;2)掌握贝叶斯算法的实现及应用:7 实验主要内容基于给定的训练样本集使用贝叶斯分类算法对给定数据进行分类。8 重难点贝叶斯分类准那么。实验6:支持向量机分类实验目的及要求1)掌握支持向量机的基本原理;2)熟悉支持向量机代码;3)掌握k-交叉验证法选取最正确参数方法。9 实验主要内容从网上下载
8、支持向量机代码和实验数据集,完成训练和测试过程。10 重难点k-交叉验证法选取最正确参数方法。实验7: KMeans聚类算法实验目的及要求1)掌握K-Means聚类算法原理;2)熟悉K-Means聚类算法代码及应用。11 实验主要内容对给定的实验数据集,使用K-Means聚类算法完成聚类操作。12 重难点聚类中心的更新及误差准那么函数计算。实验8: K中心点聚类算法实验目的及要求1)掌握K 中心点聚类算法原理;2)掌握K 中心点聚类算法代码及应用。13 实验主要内容对给定的实验数据集,使用K中心点聚类算法完成聚类操作。14 重难点中心点替换代价计算。注:本课程为专业方向课,授课对象为大三学生,
9、实验类型主要包括验证性和设计性实 验,均需要提交实验报告,实验报告主要包括实验目的、实验内容、预习内容、实验步骤、 实验结果以及总结。实验评价内容和评分细那么参见附录1。四、学时分配及教学方法章教学形式及学时分配主要教学方法支撑的课程目标课堂 教学实验上机课程 实践小计第1章数据挖掘导论88讲授、自学课程目标1第2章数据预处理8614讲授、自学、演示课程目标1, 2第3章分类与预测8614讲授、演示、自学、 讨论、实验课程目标1, 2第4章聚类分析8412讲授、演示、自学、 实验课程目标1,2合计321648注:1.课程实践学时按相关专业培养计划列入表格;2.主要教学方法包括讲授法、讨论法、演
10、示法、研究型教学方法(基于问题、工程、案例等教学方法)等。五、课程考核1.课程考核方式包括期末考试、平时作业和实验情况考核。考核形式考核要求考核权重备注平时作业 及阶段测 试课后完成10-15个习题,主要考核学生对每节课知识点 的复习、理解和掌握度,计算全部作业的平均成绩再按 15%计入总成绩;可让学生查阅资料,了解本课程相关 技术开展情况,自主学习并完成。15%根据平时作业得 分取平均值或结 合平时测试情况实验完成8个实验,主要训练学生应用所学知识构建实验系 统,并进行实验的能力,最后按15%计入课程总成绩。15%评分细那么见附录1课程论文课程论文的70%计入课程总成绩。其中考核对算法原理
11、的理解和分析占90%:考核能针对个人或职业开展的需 求,采用合适的方法,自主学习,适应开展占比10%。70%参照综述论文撰 写格式提交课程 论文六、参考书目及学习资料.张云涛、龚玲著,数据挖掘原理与技术,电子工业出版社,2004.1 .陈京民编著,数据仓库与数据挖掘技术,电子工业出版社,2002o.林杰斌主编,数据挖掘与OLAP理论与实务,清华大学出版社,2003.1o2 .朱明编著,数据挖掘,中国科学技术大学出版社,2002.2c3 . Richard J. Roiger, Michael W. Geatz著,翁敬农译,数据挖掘教程,清华大学出版 社,2003。4 . David Hand,
12、 Heikki Mannila, Padhraic Smyth 著,张银奎、廖丽、宋俊等译,数 据挖掘原理,机械工业出版社,2003。七、大纲说明1 .主要采用多媒体教学手段,主要知识点板书与多媒体相结合,多种教学手段综合运 用。2 .课后共需完成近15道习题作业,以评价学生对所学内容的理解和应用情况。附录1 :实验考核方式及评分细那么本实验以考查为.主,考核的内容包括实验过程的表现(其中包含分析与解决问题的能力)、 实验报告的质量等。分析与解决问题的能力采用提问和现场操作的方式进行。实验成绩中出 勒、预习占10%,实验过程表现占60%、实验报告及思考题占30%。成绩组成考核/评价环节分值考核/评价细那么对应的毕业要求指标点出勤、预 习10%出勤状况, 预习评价10能按时到勤,遵守实验规定,不损坏实验设备(占 5%);能够预习,并理解实验原理及目的(占5%)o4.2实验过程 60%实验中的表现60按照预设方案操作实验设备、仪表,正确完成实 验(占25%):实验结果的准确性(占20%);利 用所学知识分析解决问题的能力(占15%)。各个 实验在总分中所占权重系数以课时数为标准。4.2, 5.2实验报告 30%实验报告评价30主要考察学生对数据进行分析和处理的能力。要 求报告格式规范(占10%);操作准确(占10%); 并按要求完成相应思考题(10%)。4.2, 5.2