1、大数据挖掘Big Data Mining一、课程基本情况课程类别:专业任选课课程学分:3学分课程总学时:48学时,其中讲课:32学时,实验(含上机):16学时课程性质:选修开课学期:第5学期先修课程:数据库原理、概率论与数理统计、SAS软件基础适用专业:计算机科学与技术教 材:David Hand, Heikki Mannila, Padhraic Smyth 张银奎、廖丽、宋俊等译,数据 挖掘原理,机械工业出版社,2003开课单位:计算机与软件学院计算机科学与技术系二、课程性质、教学目标和任务大数据挖掘课程是计算机应用技术专业的一门选修课,是目前人工智能和数据库领 域研究的热点,是指从大量数
2、据中提取或挖掘出隐含的、先前未知的并有潜在价值的信息, 是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视 化技术等,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮 助决策者调整市场策略,减少风险,做出正确的决策。本课程以数据挖掘为主要内容,讲述实现数据挖掘的各主要功能、挖掘算法和应用,并 通过对实际数据的分析更加深入地理解常用的数据挖掘模型。掌握大型数据挖掘软件SAS Enterprise Miner的使用,培养学生数据分析和处理的能力。数据挖掘技术经过十几年的发 展,已经取得一些重要成果,特别是在基本概念、基本原理、基本算法等方面开展的
3、越来越 清晰。因此,现在开设此课程具备基本的技术条件。本课程以介绍基本概念和基本算法为主, 以前沿问题的讨论与探索为辅,其目的是为学生将来研究和学习提供知识储藏。通过大数据挖掘课程的教学,使学生理解数据挖掘的基本概念和方法,学习和掌握 SAS Enterprise Miner中的数据挖掘方法。学生能够借助SAS Enterprise Miner软件工具进行具 体数据的挖掘分析。三、教学内容和要求第1章数据挖掘导论(8学时)1.1数据挖掘开展概述(3学时)(1)功能介绍(2)基本应用概述重点:数据挖掘的基本概念和功能难点:数据挖掘的原理L 2数据挖掘功能(3学时)(1)概念描述:定性与比照(2)
4、关联分析(3)分类与预测(4)聚类分析(5)异类分析(6)演化分析重点:关联分析难点:演化分析3数据挖掘系统(2学时)(1)系统分类(2)系统应用(3)数据挖掘在医学信息系统和社会保险领域的应用重点:系统分类难点:系统应用第2章数据预处理(8学时)1.1 数据清洗(4学时)(1)噪声数据处理(2)不一致数据处理重点:噪声数据处理难点:不一致数据处理2数据集成与转换(4学时)(1)数据集成处理(2)数据转换处理重点:数据集成处理难点:数据转换处理第3章分类与预测(8学时)1.2 分类与预测基本知识(2学时)(1)分类基础(2)预测基础重点:分类基础难点:预测基础分类(6学时)(1)基于决策树的分
5、类(2)贝叶斯分类(3)神经网络分类(4)预测方法重点:基于决策树的分类,贝叶斯分类难点:神经网络分类,预测方法第4章聚类分析(8学时)4.1聚类分析基础与应用(8学时)(1)聚类分析基本概念(2)聚类分析基本方法(3)聚类分析方法:KMEANS算法等重点:聚类分析基本概念与基本方法难点:聚类分析方法:KMEANS算法四、课程考核(1)课程论文:1篇;(2)考核方式:课程论文;(3)总评成绩计算方式:平时成绩和课程论文合计算;五、参考书目1、张云涛、龚玲著,数据挖掘原理与技术,电子工业出版社,20042、陈京民编著,数据仓库与数据挖掘技术,电子工业出版社,20023、林杰斌主编,数据挖掘与OLAP理论与实务,清华大学出版社,2003.14、朱明编著,数据挖掘,中国科学技术大学出版社,2002.25、Richard J. Roiger, Michael W. Geatz著,翁敬农 译,数据挖掘教程,清华大学出版社,2003 6、David Hand, Heikki Mannila, Padhraic Smyth著,张银奎、廖丽、宋俊等译,数据挖掘原 理,机械工业出版社,2003