1、数据分析Data Analysis一、课程基本情况课程类别:专业方向课课程学分:2学分课程总学时:32学时,其中讲课:32学时,实验(含上机):0学时,课外0学时 课程性质:选修开课学期:第7学期先修课程:高等代数、数学分析、概率论与数理统计适用专业:信息与计算科学专业教 材:梅长林 范金城编,数据分析方法,高等教育出版社,2006年。开课单位:数学与统计学院信计系二、课程性质、教学目标和任务本课程是信息与计算科学专业本科生的专业课程;其目的是介绍数据分析的基本理论与 方法;通过学习本课程,使学生初步掌握数据分析的基本理论与方法,培养和锻炼学生分析、 解决实际问题的能力,同时让学生掌握基本计算
2、技能。通过研究分析和处理数据的理论与方 法,从大量数据中揭示其隐含的内在规律、开掘有用的信息,进行科学的推断与决策。为学 生毕业后从事和逐步适应日新月异开展的系统科学提供一定的适应能力与基础。主要内容包括:数据描述性分析、回归分析、主成分分析、判别分析、聚类分析和常用 数据分析方法SAS过程简介。为更便于实用,教学过程中注重算法原理的介绍,尽量防止很 深数学知识的引入,一般只介绍简单算法的推导。通过实例引入数学概念、介绍数学模型和 理论,利用电脑软件介绍求解方法,最后介绍如何分析电脑输出信息,易于学生掌握。三、教学内容和要求1、数据描述性分析(8学时)(1)了解:数据分析的基本内容及应用领域和
3、作用以及SAS软件的基本操作;(2)理解:数据分布的拟合、检验等;(3)掌握:数据的数字特征描述,数据的分布茎叶图、箱线图、五数总括等以及多元数据 的相关性。重点:从数据出发如何概括数据特征的方法,主要包括数据的位置特性、分散性、关联性 及反映数据整体结构的分布特征等。难点:数据分布的推断及检验。2.回归分析(6学时)(1) 了解:残差分析;运用SAS软件实现有关回归过程的分析方法;(2)理解:逐步线性回归法、建立线性回归的基本假设;(3)掌握:线性回归中参数的估计、模型与参数的检验。重点:线性回归模型建模理论,包括参数的估计、模型与参数的检验等。难点:线性回归中的残差分析。3 .主成分分析与
4、典型相关分析(6学时)(1) 了解:典型相关分析;(2)理解:主成分分析和典型相关分析的统计思想和实际意义;(3)掌握:主成分分析的数学模型、儿何意义及其应用。重点:主成分分析的数学模型及其应用。难点:主成分分析、典型相关分析的实质意义。4 .判别分析(6学时)(1) 了解:距离判别准那么的评价;(2)理解:两总体和多总体的距离判别方法的基本思想;(3)掌握:两总体样本的距离判别法和Bayes判别法的具体计算步骤,并比拟其异同。重点:Bayes判别和距离判别法的基本思想及其实现。难点:Bayes判别的基本思想。5 .聚类分析(6学时)(1)了解:各种聚类方法的优缺点;基于SAS软件进行聚类的方
5、法;(2)理解:聚类分析的目的、意义及其统计思想;(3)掌握:聚类分析中常用的相似性度量方法;谱系聚类和快速聚类方法。重点:样本和类间相似性度量的方法;谱系聚类和快速聚类算法思想及其实现。难点:变量聚类。四、课程考核(1)作业等:作业:6次;(2)考核方式:闭卷考试(3)总评成绩计算方式:总评成绩二平时成绩*20%+期末考试成绩*80%。五、参考书目(1)数据分析,科学出版社,范金城,梅长林,2012年,第二版(2)现代统计学与SAS应用,军事医学出版社,胡良平,2000年;(3)近代实用多元统计分析,气象出版社,吴诚鸥,秦伟良,2007年;(4)实用统计方法,科学出版社,梅长林,2002年;(5)多元统计分析,中国统计出版社,于秀林,1998年。