1、大数据挖掘原理实践(Theoretical Practice of Big Data Mining)课程代码:7251085学分:1学时:16 (其中:课程教学学时:0,课程实践学时:16)先修课程:数据库原理、概率论与数理统计适用专业:计算机科学与技术教材:David Hand, Heikki Mannila, Padhraic Smyth 著,张银奎、廖丽、宋俊等译,数据挖掘原理,机械工业出版社,2003开课学院:计算机与软件学院一、课程性质与课程目标(-)课程性质大数据挖掘原理实践是计算机类专业的算法实现及应用课程。课程实践的主要内容:分 别完成关联规那么挖掘系统、支持向量机分类系统以及
2、数据聚类系统的设计和实现。该门课程通过实践环节,使学生在了解大数据挖掘课程理论基础上,深入掌握大数据挖 掘的原理。使用理论课的基础知识的方法及步骤,进一步加深对大数据挖掘有关概念和理论 的理解,并且使学生能够提高运用大数据挖掘解决实际问题的能力,并为毕业设计做准备。(二)课程目标课程目标包括知识目标和能力目标,具体如下:课程目标1:通过对相关问题的分析,选取合适的数据挖掘方法,通过系统实现及公共 数据集得到相关的测试结果,并能对测试结果进行分析和有效性比拟。课程目标2:通过对算法在公共数据集上的测试结果比拟,能够分析算法的优点和局限 性。(三)课程目标与专业毕业要求指标点的对应关系本课程支撑专
3、业培养计划中的毕业要求指标点4.4和5.3。毕业要求指标点44针对设计或开发的解决方案,能够通过理论证明、实验仿真或者 系统实现等多种科学方法说明其有效性和合理性,并对解决方案的实施质量进行分析,通过 信息综合得到合理有效的结论。毕业要求指标点5.3:能够分析复杂工程问题所使用的技术、资源和工具的优势和缺乏, 理解其局限性。毕业要求输点、课程目标1课程目标2毕业要求4.4毕业要求5.3二、本课程开设的实验工程编号实验工程名称学时类型要求支撑的课程目标1关联规那么挖掘系统4综合性必做课程目标1, 22支持向量机分类系统6综合性必做课程目标13数据聚类系统6综合性必做课程目标1, 2实验1:关联规
4、那么挖掘系统1.实验目的及要求1)掌握Python GUI编程;2)理解关联规那么挖掘原理及实现方法;3)所有操作要求通过用户界面实现;4)关联规那么挖掘算法要求可从两种经典算法Apriori或FP-Growth中任意选取;5)可自行设置最小支持度计数和最小置信度参数值;6)输出:各个频繁项集、强关联规那么;7)课堂上提交系统代码并阐述设计思路。2 .实验主要内容自学Python GUI编程,设计并实现一个基于GUI的关联规那么挖掘系统。3 .重难点1)重点算法的实现方法。2)难点图形用户界面设计。实验2:支持向量机分类系统1.实验目的及要求1)理解支持向量机的原理;2)运用支持向量机解决分类
5、问题;3)训练过程采用K-交叉验证法选取最优参数组合;4)训练过程中可自行设置参数值及SVM参数的取值范围;5)要求输出:最正确参数组合值、分类准确率、虚警率、ROC曲线、AUC值;6)撰写完整的科技报告表述自己的算法设计、算法实现与算法评估过程,报告的内容 包括任务描述、问题分析、算法设计、算法实现以及程序运行结果及分析;7)提交源程序工程文件和课程设计报告。2 .实验主要内容自学Python GUI编程,设计并实现一个基于GUI的支持向量机分类系统。3 .重难点1)重点算法的实现方法。2)难点使用K-交叉验证法选取最优参数。实验3:数据聚类系统.实验目的及要求1)理解并掌握各种数据聚类算法
6、;2)灵活运用所学聚类方法解决实际问题;3)可自行选取聚类算法;4)不同的聚类算法要求使用不同的操作界面;5)可自行设置参数值;6)撰写完整的科技报告表述自己的算法设计、算法实现与算法评估过程,报告的内容 包括任务描述、问题分析、算法设计、算法实现以及程序运行结果及分析;7)提交源程序工程文件和课程设计报告。2 .实验主要内容分别使用K-means聚类算法和K-中心点聚类算法实现数据的聚类操作。3 .重难点1)重点图形用户界面设计。2)难点对不同的应用选取最正确距离度量函数。注:本课程为学科专业选修课,授课对象为大三的学生,实验类型主要是综合性实验, 最终提交的课程实践报告主要包括数据关联规那
7、么算法应用、支持向量机分类算法和聚类算法 应用。三、课程考核本课程采用考勤、实验完成情况与课程报告相结合的方式进行评价,成绩评 定采用百分制,其中考勤成绩占比20%,系统演示成绩占比40%,课程报告成绩 占比40%o考勤成绩评价方式、实验完成情况评价方式和课程报告评价方式如表 1所示。表1课程实践评价方法类别所占比例级别评分规那么考勤20%优满勤良缺勤1次中缺勤2次及格缺勤3次不及格缺勤次3次系统演示情况40%优能够按照GUI设计方案开发,系统功能完全实现。良能够按照GUI设计方案开发,系统功能略有欠缺。中能够基本按照GUI设计方案开发,系统功能略有欠 缺。及格能够基本按照GUI设计方案开发,
8、系统功能不完善。不及格不能够基本按照GUI设计方案开发,无演示效果。课程报告40%优报告格式规范;按要求及时提交。良报告格式基本规范;按要求及时提交。中报告格式基本规范,但GUI设计缺少图表等;按要 求及时提交。及格报告格式基本规范,但GUI设计缺少图表等;且没 有按要求及时提交。不及格报告格式不规范;没有按要求及时提交。表2实验工程与毕业要求指标点对照关系及分值分布表实验工程名称对应毕业要求指标点分值关联规那么挖掘系统4.4, 5.330支持向量机分类系统4.435数据聚类系统4.4, 5.335四、参考书目及学习资料.张云涛、龚玲著,数据挖掘原理与技术,电子工业出版社,2004o1 .陈京民编著,数据仓库与数据挖掘技术,电子工业出版社,2002o.林杰斌主编,数据挖掘与OLAP理论与实务,清华大学出版社,2003.1o2 .朱明编著,数据挖掘,中国科学技术大学出版社,2002.2o3 . Richard J. Roiger, Michael W. Geatz著,翁敬农译,数据挖掘教程,清华大学出版 社,2003 o4 . David Hand, Heikki Mannila, Padhraic Smyth 著,张银奎、廖丽、宋俊等译,数据 挖掘原理,机械工业出版社,2003o