资源描述
商业数据挖掘
Business Data Mining
一、课程基本情况课程类别:专业方向课
课程学分:3学分课程总学时:48学时,其中讲课:26学时,上机:22学时
课程性质:选修开课学期:第4学期
先修课程:概率论与数理统计、数据库原理及应用、数据结构适用专业:信息管理与信息系统
教 材:数据挖掘概念与技术,机械工业出版社,Jiawei Han, Micheline Kamber著,范明 等译,2012年,第三版。
开课单位:经济管理学院信管系二、课程性质、教学目标和任务
数据挖掘是一门新兴的交叉性学科,是在信息技术领域迅速兴起的计算机技术,是数据 库研究、开发和应用最活跃的分支之一。本课程根据我校人才培养的特点和要求,面向信息 管理与信息系统本科专业,从企业实际应用出发,全面、系统地介绍数据挖掘的基本概念、 基本方法和基本技术以及数据挖掘的最新进展,使学生对数据挖掘的整体结构、概念和技术 有深入的认识和了解。通过对商业数据的分析使学生更加深入地理解常用的数据挖掘模型, 掌握大型数据挖掘软件SPSS Clementine的使用,培养学生将实际的商业问题转化为数据挖 掘目标,理解和收集数据,应用数据挖掘工具建模,评估模型以判断是否符合商业目的,并 将发现的结果组织成可读文本的能力,使学生的理论知识和实践技能得到共同开展。
三、教学内容和要求
1 .引言(2学时)
(1)掌握数据挖掘概念、数据挖掘功能;
(2)熟悉数据挖掘的数据对象;
(3)理解数据挖掘模式;
(4) 了解数据挖掘系统的分类;
(5)熟悉数据挖掘系统产品和研究原型;
(6)初步了解数据挖掘的应用。
重点:数据挖掘的概念和功能
难点:数据挖掘的功能
2.数据预处理(4学时)
(1)了解数据预处理的作用及原因;
(2)掌握数据预处理的各种形式;
(3)熟悉数据清理、数据集成和变换、数据归约的方法;
(4) 了解离散化和概念分层生成;
重点:数据预处理的形式
难点:离散化和概念分层生成
3 .挖掘大型数据库中的关联规那么(4学时)
(1)了解关联规那么的基本思想、概念和意义;
(2)掌握经典Apriori算法;
(3)理解相关分析的意义;
4 4) 了解由事务数据库挖掘多层关联规那么的方法步骤;
(5)初步了解由关系数据库和数据仓库挖掘多维关联规那么;
重点:关联规那么挖掘的aprior算法
难点:相关分析
5 .分类和预测(4学时)
(1)了解分类及预测的基本思想、概念和意义;
(2)掌握决策树归纳分类算法;
(3)理解贝叶斯分类;
(4)掌握常用的预测算法;
(5) 了解分类及预测挖掘的研究动态;
重点:决策树归纳算法
难点:决策树归纳算法的属性选择
5.聚类分析(4学时)
(1)了解聚类分析的基本思想、概念和意义;
(2)熟悉相异度的度量方法;
(3)掌握常用的聚类算法;
(4) 了解聚类分析的研究动态;
重点:k・means算法
难点:相异度计算
6. SPSS Clementine 基础(2 学时)
(1)初步了解 SPSS Clementine 的功能;
(2)掌握数据读入SPSS Clementine的一些方法
(3)学会使用SPSS Clementine中一些可用的数据处理技术,并使用这些技术清洗和精炼数 据
重点:数据读入SPSS Clementine的方法
难点:CLEM
7. SPSS Clementine 建模技术(6 学时)
(1)掌握SPSS Clementine的常用建模节点如aprior节点、C5.0节点、C&R树节点、k-means 节点、kohonen 节点等。
(2)理解数据建模的结果。
重点:SPSS Clementine的常用建模节点
难点:SPSS Clementine的常用建模节点四、课程考核
(1)作业等:作业:3次,课程论文:1篇;
(2)考核方式:课程论文
(3)总评成绩计算方式:平时成绩、实验成绩、期中考试成绩和期末考试成绩等综合计算五、参考书目
(1)数据挖掘:概念、模型、方法和算法,错误!未找到引用源。,(美)坎塔尔季奇著, 译,2013年,第2版。
(2)数据挖掘导论(完整版),人民邮电出版社(美)陈封能,(美)斯坦巴赫,(美)库玛 尔著,范明等译,2011年
(3)大数据:互联网大规模数据挖掘与分布式处理,,[美]Anand Rajaraman Jeffrey DavidUllman著,王斌译,2012年
(4)数据挖掘技术(第3版)一一应用于市场营销、销售与客户关系管理,美)等著,等 译,2013年。
展开阅读全文