1、数据挖掘基础
Introduction of Data Mining一、课程基本情况
课程类别:专业任选课课程学分:2学分
课程总学时:32学时,其中讲课:32学时课程性质:选修
开课学期:第5学期先修课程:程序设计、数据结构、数据库原理、人工智能、数理统计
适用专业:信息工程专业本科生教 材:数据挖掘概念与技术(原书第三版),机械工业出版社,(ill) Jiawei Han, Micheline Kamber 编;2012,第 3 版
开课单位:电子与信息工程学院 信息工程系二、课程性质、教学目标和任务
信息技术的迅速开展已从简单的批处理、联机事务处理的信息处理时代,进入了联机
2、分 析处理、数据仓库和数据挖掘的信息分析时代。数据仓库以数据库技术作为存储数据和资源 管理的手段,以联机分析处理技术和方法作为提取信息的有效手段,以数据挖掘和人工智能 的模型、算法作为发现知识和规律的途径。数据挖掘是数据库研究、开发和应用最活跃的分 支之一。本课程系统地介绍了数据挖掘的基本概念、基本方法和基本技术。要求学生通过本 课程的学习,认识数据仓库和数据挖掘在当今计算机应用中的重要作用,深入了解数据仓库 的原理和实现方法以及数据挖掘的整体结构,掌握数据挖掘技术(包括分类、预测、关联和 聚类的概念与技术),并且熟悉数据挖掘的基本原理和开展方向。通过课程作'也和课程实验, 要求学生能够将理论
3、与实践相结合。
三、教学内容和要求1、引言(2学时)
(1)理解数据挖掘的主要问题;
(2)掌握数据挖掘系统的分类;重点:什么是数据挖掘,在何种数据上进行数据挖掘,数据挖掘的主要问题。
难点:数据挖掘系统的分类。
2、数据预处理(4学时)
(1)理解为何进行数据预处理;
(2)掌握数据清理的方法;
(3)掌握数据离散化和概念分层生成;重点:数据清理的方法,数据集成和变换,数据规约。
难点:数据离散化和概念分层生成。
3、挖掘大型数据库中的关联规那么(8学时)
(1)掌握关联规那么适用的场合;
(2)理解事务数据库挖掘单维关联规那么;
(3)理解关联规那么到相关性分析;
4、
(4) 了解基于约束的关联挖掘方法;重点:关联规那么挖掘的方法,关联规那么到相关性分析。
难点:关联规那么挖掘的几种典型算法,如Apriori算法。
4、分类和预测(8学时)
(1)理解分类和预测的定义;
(2)掌握判定树归纳分类的方法;
(3)掌握贝叶斯分类方法;
(4)理解预测的方法;重点:分类和预防的主要问题,判定树分类方法,贝叶斯分类方法,预测方法。
难点:贝叶斯分类方法,预测方法。
5、聚类分析(8学时)
(1)理解聚类分析的定义;
(2)掌握聚类方法的分类;
(3)理解层次方法和划分方法;
(4) 了解基于密度的聚类方法,基于网格的聚类方法;重点:聚类方
5、法的分类,层次方法,划分方法。
难点:典型的聚类算法,如K-Means算法等。
6、应用与开展趋势(2学时)
(1)数据挖掘在各个行业中的应用;
(2)数据挖掘系统产品与研究原型;
(3)数据挖掘的其他主题;
(4)数据挖掘的开展趋势;重点:数据挖掘的应用,数据挖掘的开展趋势。
四、课程考核1、作业:4次;
2、考核方式:卷面考试或者课程论文1篇。
3、总评成绩计算方式:平时成绩20%、考试卷面成绩或课程论文成绩80%等综合计算。
五、参考书目1、《数据挖掘导论》人民邮电出版社,Pang-NingTan等著,范明等译;2011年,第2 版。
2、《数据挖掘:实用机器学习工具与技术》机械工业出版社,Ian H.Witten等著;2012 年,第3版。
3、《数据挖掘》中国科学技术大学出版社,朱明编;2008年,第2版;4、《数据挖掘原理》机械工业出版社,David Hand, Heikki Mannila, Padhraic Smvth编; 2003年,第1版。
5、《R语言与数据挖掘最正确实践和经典案例》机械工业出版社,YanchangZhao著,陈 建等译;2014年,第1版。