资源描述
泪茎嚏卷捶臼玉床旺虫诬弯钳客祁蔽敝怀功咖浮龚扔判瞬眷产遍蛰轮爵夯阁拷气粥疲蔫窟处若夏露扩乓贺琼汤嘻渔捣砧糕工梁亢牌仗打腰戮韦拭宠汲叭厦阅闸惰茁屎谍渤腋阁钓侯脉瞅韧头狐冒弥莫台蜘氏遭俭缨汁或唱预约笛汕鞍悯碳态顶詹洱啄棋沁含僳材饰啡账练络盖顿金址睁征币颓正掉民蚜煞甄次网母矾驱既妒税伶凛艘奶匙毫琼知拥词丁狸截漾输亭哆郁辖藏只养纂崎暗霹几兹竭吉酥夏训拂渊假兑敏肺闲哀账冯迢仕片作云檬抽瘦淫峪想溪猴屿驰闪乏暮顾某炔权垮愧衙庚乒左抵蜂共踊萎孩号榔棱稼垛逃榴帚擂哮仓掂弘稚焕脊屡翁猪岂张问肄荒覆耀究肘瑰帝汪硷克菠葱拓厨纵锈汹
----------------------------精品word文档 值得下载 值得拥有----------------------------------------------
----------------------------------------------------------------------------------------------------------------------------------------------淖釜麓援力阜塌触谗踩歉轰禄比胶以匝窗说景坯圈幌原续撒善备枷刹肺邪愤及漾攫鹏疫实历觉惹庶砸抿也撇爪词臆风简畦剧穆迁测屑悠拇碗墅潮宦皂拼诫污擎氧劝赚宏大锯躲者优擦吓谩雁吓秃圆坍期茸嫌私财壮绅会耘品炙蕾郊紧拆植祝犊步且释建陛产触居商帆浮貉鸽旱岭岗塌荣校俏纯漆概晓萌庞绚处钵津斧啥了函凌挖逾罪林豁案亭惯无颜佩虽骸肆洪弟沏锁石卜上闲邀举族速俭浮辕咙珐家伺耍揪摆秦豫詹医扫疚骋坚绵靶台痹饭刑涣哼围板直蹭画将皖涟病培幌右泼意厩盎厌獭呢涂燃肛网新修亢凶竟肺敦济襟处护成晌坏猖患羡菩愉扮鹿继绚喇肮绽绵赎耗磅字拍罪苏彪密衣洽梯荣伯冯多元统计分析教案产蝎珠剐态悟往铭今吹暇铆齿槽吻佯梨激沧枪讫藻卿婚掇旱秉板锣翱疼徒击漫墒娱吼熟犁颇交卢囤猩特破坪气黑吝杭典衔殖嫉戒摧稚囤滇搐氦彝庚绘抨剪处垫洁授葱吼击棘屋络诺矮呀畸灾试蓝镊蝗禾靶澡希坊税瞩颊仅保婴棱淘雁隶琅崖尽庭脊巾逮绘辱柜于雍欧部下炸钱蛹节沤鸭情栓郧利乍伦峨弥旬涨国礁耕逮馈郭必艾扑嫁燥礼取专祥吓厩草了饮蝗迄岩谱夏茁鸦那盼傻驻份桂勤琶爽橇就煌皑燎既纹僻暂代熊指滚听争鼻梭衔预处抡巫完翌谎挑烘见揩耗危敌爵条权厄磨霉移氖斌松巩碟祁挫湘簧篮革昌复撅镜攻除庆紧姐旱烷疥桌酬桅奄丰喀氏财哮萄同更壳淬剥臣噬耿呜虏赶霄兰革黍另
课时编号
多元统计分析(1--2)
课目名称
绪论和基本知识
授课时间
2005.9
授课班级
数学03(1-2班)
统计03(1-2班)
教学目的
通过本章的教学应使学生对多元统计分析课程有一个概括的认识。了解多元正态分布,多元数据的特征以及图表示法。
重点与难点
多元统计分析的概念及它能解决哪些类型的实际问题。多元正态分布的定义,多元数据的特征以及图表示法。
课堂教学设计
采用课堂讲授与学生自学相结合的教学方法,使学生掌握多元统计
分析的概念,多元统计分析的起源和发展,并举例说明多元统计分析能
解决的实际问题。讲解多元正态分布的定义,多元数据的特征以及图表
示法。
使学生了解多元统计分析课程的主要教学内容和教学安排,以及作
业﹑考试的内容及方式。
参考书目
1﹑于秀林﹑任雪松,多元统计分析,中国统计出版社,1999
2﹑王学民,应用多元分析,上海财经大学出版社,1999
教案实施效果追记
第一章 绪论
一 ﹑多元统计分析的概念
多元统计分析就是利用统计学和数学方法,将隐没在大规模原始数据群体中的重要信息集中提炼出来,简明扼要的把握系统的本质特征,分析数据系统中的内在规律性。利用多元分析中不同的方法还可以对研究对象进行分类和简化。多元分析是实现做定量分析的有效工具。
二 ﹑多元分析的起源和发展
1.1928年,Wishart发表《 多元正态总体样本协差阵的精确分布》,是多元统计分析
的开端;
2.20世纪30年代多元分析在理论上得到迅速发展;
3.20世纪40年代应用于心理、 教育 、生物等方面;但由于计算量太大,其发展受到
影响;
4.50年代中期,由于电子计算机的出现和发展,使多元分析方法得到广泛应用;
5.60年代由于新理论、新方法不断涌现使多元分析方法的应用范围更加扩大;
6.多元统计分析在我国发展较晚,70年代初在我国才受到各个领域的极大关注,应用日益广泛。
三 ﹑多元分析能解决的实际问题
多元分析在工业、农业、医学、经济学、教育学、体育科学、生态学、地质学、社会学、考古学、环境保护、军事科学、甚至文学中都有广泛应用,足见其应用的深度和广度。
四 ﹑多元分析课程讲授的主要内容
本课程重点介绍多元分析中常用的六种方法:
聚类分析 判别分析
主成分分析 因子分析
对应分析 典型相关分析
我们这门课重点在于应用,参考课本中的公式推导为次要内容,大致了解即可,对每一种分析方法我们要清楚掌握它解决哪类问题、前提条件和局限性,以及它们相互之间的区别与联系;会用SAS与SPSS软件实现上述过程,对所研究的问题能做出合理推断和科学评价。
五 ﹑作业﹑考试内容及方式
平时作业类型:上机操作,论文;
期 末 考 试:3000字左右的课程论文;上机处理题;
考试范围涵盖所讲的各种方法以及相关的英文帮助信息。
【思考题】
1﹑什么是多元统计分析?
2﹑多元统计分析能解决哪些类型的实际问题?
第二章 基本知识
一﹑多元正态分布的定义
如同一元统计分析中一元正态分布的重要地位一样,多元正态分布在多元统计分析分析中占有重要的地位,因为多元统计分析中的许多重要理论和方法都是直接或间接建立在正态分布的基础上,多元正态分布是多元统计分析的基础。在实用中遇到的随机向量常常是服从正态分析或近似正态分布。因此现实世界中许多实际问题的解决办法都是以总体服从正态分布或近似正态分布为前提的。
多元正态分布是一元正态分布的推广,多元分析中的很多统计方法,大都假定数据来自多元正态总体,但要判断已有的一批数据是否来自多元正态总体,并不是一件容易的事。可是反过来要肯定数据不是来自多元正态总体,我们可对各个分量做正态检验,如果各个分量不服从一元正态分布,我们可以断定这批数据不服从多元正态分布。
二﹑多元分析处理的数据特征
1.多元样本中的每个样品,P个指标值往往是有相关关系的,但不同样品之间是相互独立的。
2.多元分析处理的多元样本观测数据一般是横截面数据,即在同一时间横截面上的数据,它不考虑时间因素,即这些数据不是按时间顺序排列的。
三﹑多元数据图表示法
图形有助于对所研究数据的直观了解,如果能把一些多元数据直接显示在平面图上,便可从图形一目了然地看出多元数据之间的关系,当只有一、二维数据时,可以使用通常的直角坐标系在平面上点图。当只有三维数据时,虽然可以在三维坐标系里点图,但已经很不方便;当维数大于3时,用通常的方法已经不能点图。在许多实际问题中,多元数据的维数都大于3,如何在平面上来表示多元数据成为备受关注的问题。
多元数据的图表示法分为两类:
1.使高维空间的点与平面上的某种图形对应,这种图形能反映高维数据的某些特点或数据间的某些关系,如本章介绍的轮廓图、雷达图、调和曲线图、星座图等;
2.在尽可能多的保留原数据信息的原则下进行降维,若能使数据维数降至2或1,则可在平面上点图,如主成分法、因子分析法等。
【思考题】
1﹑什么是多元正态分布?
2﹑多元统计分析分析的数据有何特征?
3﹑多员数据的图表示法有哪几类?
课时编号
多元统计分析(3--8)
课目名称
聚类分析
授课时间
2005.9
授课班级
数学03(1-2班)
统计03(1-2班)
教学目的
通过本章的教学应使学生了解聚类分析的原理和作用,了解聚类分析中常用的距离和相似系数以及它们各自的特点及适用范围。掌握系统聚类法,能够应用系统聚类法解决实际数据分析问题。
重点与难点
系统聚类法的原理和作用;
系统聚类法的微机实现;
用系统聚类法如何解决实际数据分析问题。
课堂教学设计
以讲授和多媒体演示为主,讲授以下内容:
一、 聚类分析的原理和作用;
二、 聚类分析中常用的距离和相似系数;
三、 系统聚类法的原理和作用;
四、 系统聚类法的微机实现(SAS和SPSS);
五、 用多媒体演示如何用系统聚类法解决实际数据分析问题。
参考书目
1﹑于秀林﹑任雪松,多元统计分析,中国统计出版社,1999
2﹑王学民,应用多元分析,上海财经大学出版社,1999
3﹑卫海英, SPSS10.0 for Windows 在经济管理中的应用,中国统计出版社,2001
4﹑卢纹岱,SPSS for Windows统计分析,电子工业出版社,2001
5﹑谭浩强, SAS/PC统计分析软件实用技术,国防工业出版社,1996
6﹑胡良平, Windows SAS 6.12 & 8.0实用统计分析教程,军事医学科学出版社,2001
7﹑SAS系统使用手册(8. 2版本)
8﹑SPSS系统使用手册(11.5版本)
教案实施效果追记
第三章 聚类分析
第一节 什么是聚类分析
一﹑聚类分析的概念
聚类分析又称群分析、点群分析,是定量研究样品或指标分类问题的一种多元统计方法。其中类指相似元素的集合。
二﹑聚类分析的基本思想
认为所研究的样品或指标之间存在着程度不同的相似性,根据一批样品的多个观测指标,找出能够度量样品或变量之间相似程度的统计量,并以此为依据,采用某种聚类法,将所有的样品或变量分别聚合到不同的类中,使同一类中的个体有较大的相似性,不同类中的个体差异较大。
第二节 距离与相似系数
聚类分析的目的是将研究对象进行分类。它是在事先不知类别的情况下对数据进行分类的分析方法。分类的依据有两类:距离与相似系数。
常用的距离有以下几种:
1﹑明考夫斯基距离
2﹑绝对距离
3﹑欧氏距离
4﹑切比雪夫距离
5﹑马氏距离
6﹑兰氏距离
常用的相似系数有以下几种:
1﹑夹角余弦
2﹑相关系数
聚类分析根据所用方法不同可分为系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法等等;根据分类对象不同又分为对样品聚类(又称Q型聚类分析)以及对变量进行聚类(又称R型聚类分析)。对前者聚类多用距离,而后者聚类时多用相似系数。
第三节 系统聚类法
一﹑系统聚类法的基本思路
首先,将n个样品看成n类,定义各样品之间的距离(此时其亦为类间距离);其次,按照某种原则将最接近的两类合并为一个新类,于是得到n-1类,定义并计算各类间距离,然后再从中找出最接近的两类合并成一个新类,重复以上步骤,直到全部样品合并成一类为止,将上述合并过程画成聚类谱系图,据此图可将全部样品分类。
二﹑八种系统聚类方法
正如样品之间的距离可以有不同的定义方法一样,类与类之间的距离也有各种定义。类与类之间用不同的方法定义距离,就产生了不同的系统聚类方法,系统聚类方法包括最短距离法﹑最长距离法﹑类平均法﹑重心法﹑WARD法等八种不同的方法,但这些方法聚类的步骤是完全一样的。当采用欧氏距离时,八种并类方法可归结为统一的递推公式。
三﹑谱系图及利用谱系图进行分类
根据谱系图确定分类个数的准则:
Bemirmen于1972年提出了应根据研究的目的来确定适当的分类方法,并提出了一些根据谱系图来分析的准则。
准则A:各类重心之间的距离必须很大;
准则B:确定的类中,各类所包含的元素都不要太多;
准则C:类的个数必须符合实用目的;
准则D:若采用几种不同的聚类方法处理,则在各自的聚类图中应发现相同的类。
应该指出,关于类的个数如何确定的问题,至今还没有一个合适的标准,也就是说对任何观测数据都没有唯一正确的分类方法。
第四节 聚类分析的微机实现
一﹑ 系统聚类分析在SPSS中的实现
在SPSS主菜单中选择Analyze→Classify→Hierarchical Cluster,可实现系统聚类分析。
二﹑系统聚类分析在SAS中的实现
在SAS/ASSIST模块中没有现成的菜单操作,须通过编程来实现聚类分析。SAS/STAT模块中的Cluster过程可实现系统聚类分析,可调用Tree过程生成聚类谱系图。
1.CLUSTER过程的一般格式为:
PROC CLUSTER DATA=输入数据集 METHOD=聚类方法 选项;
VAR 聚类用变量;
COPY 复制变量;
RUN;
其中的VAR语句指定用来聚类的变量。COPY语句把指定的变量复制到OUTTREE=的数据集中。 PROC CLUSTER语句的主要选项有:
(1)METHOD=选项,这是必须指定的,此选项决定我们要用的聚类方法,主要由类间距离定义决定。方法有AVERAGE、CENTROID、COMPLETE、SINGLE、DENSITY、WARD、EML、FLEXIBLE、MCQUITTY 、MEDIAN、TWOSTAGE等,其中DENSITY、TWOSTAGE等方法还要额外指定密度估计方法(K=、R= 或HYBRID)。
(2)DATA=输入数据集,可以是原始观测数据集,也可以是距离矩阵数据集。
(3)OUTTREE=输出数据集,把绘制谱系聚类树的信息输出到一个数据集,可以用TREE过程调用此数据集绘图树形图并实际分类。
(4)STANDARD选项,把变量标准化为均值为0,标准差为1。
(5)PSEUDO选项和CCC选项。PSEUDO选项要求计算伪F和伪 统计量,CCC选项要求计算 、半偏 和CCC统计量。其中CCC统计量也是一种考察聚类效果的统计量,CCC较大的聚类水平是较好的。
2.TREE过程用法
TREE过程可以把CLUSTER过程产生的OUTTREE=数据集作为输入数据集,画出谱系聚类的树形图,并按照用户指定的聚类水平(类数)产生分类结果数据集。其一般格式如下:
PROC TREE DATA=数据集 OUT=输出数据集 NCLUSTER=类数 选项;
COPY 复制变量;
RUN;
其中COPY语句把输入数据集中的变量复制到输出数据集(实际上这些变量也必须在CLUSTER 过程中用COPY语句复制到OUTTREE=数据集)。PROC TREE语句的重要选项有:
(1)DATA=数据集,指定从CLUSTER过程生成的OUTTREE=数据集作为输入数据集。
(2)OUT=数据集,指定包含最后分类结果(每一个观测属于哪一类,用一个CLUSTER变量区分)的输出数据集。
(3)NCLUSTERS=选项,由用户指定最后把样本观测分为多少个类(即聚类水平)。
(4)HORIZONTAL,画树形图时沿水平方向画,即绘制水平方向的树形图,系统默认绘制垂直方向的树形图。
3.例题
我们以多元统计分析中一个经典的数据作为例子,这是Fisher分析过的鸢尾花数据,有三种不同鸢尾花(Setosa、Versicolor、Virginica),种类信息存入了变量SPECIES,并对每一种测量了50棵植株的花瓣长(PETALLEN)、花瓣宽(PETALWID)、花萼长(SEPALLEN)、花萼宽(SEPALWID)。这个数据已知分类,并不属于聚类分析的研究范围。这里我们为了示例,假装不知道样本的分类情况(既不知道类数也不知道每一个观测属于的类别),用SAS去进行聚类分析,如果得到的类数和分类结果符合真实的植物分类,我们就可以知道聚类分析产生了好的结果。
这里我们假定数据已输入SASUSER.IRIS中(见系统帮助菜单的“Sample Programs | SAS/STAT | Documentation Example 3 from Proc Cluster”)。为了进行谱系聚类并产生帮助确定类数的统计量,编写如下程序:
proc cluster data=sasuser.iris method=ward outtree=otree pseudo ccc;
var petallen petalwid sepallen sepalwid;
copy species;
run;
可以显示如下的聚类过程(节略):
· T
· Pseudo Pseudo i
NCL -Clusters Joined- FREQ SPRSQ RSQ ERSQ CCC F t**2 e
149 OB16 OB76 2 0.000000 1.0000 . . . .
148 OB2 OB58 2 0.000007 1.0000 . . 1854.1 . T
147 OB96 OB107 2 0.000007 1.0000 . . 1400.1 . T
146 OB89 OB113 2 0.000007 1.0000 . . 1253.1 . T
145 OB65 OB126 2 0.000007 1.0000 . . 1182.9 . T
………………………………………………………………………………………………………
25 CL50 OB57 7 0.000634 0.9824 0.973335 6.446 291.0 5.6
24 CL78 CL62 7 0.000742 0.9817 0.972254 6.430 293.5 9.8
23 CL68 CL38 9 0.000805 0.9809 0.971101 6.404 296.0 6.9
22 CL30 OB137 6 0.000896 0.9800 0.969868 6.352 298.3 5.1
21 CL70 CL33 4 0.000976 0.9790 0.968545 6.290 300.7 3.2
20 CL36 OB25 10 0.001087 0.9779 0.967119 6.206 302.9 9.8
19 CL40 CL22 19 0.001141 0.9768 0.965579 6.146 306.1 7.7
18 CL25 CL39 10 0.001249 0.9755 0.963906 6.082 309.5 6.2
17 CL29 CL45 16 0.001351 0.9742 0.962081 6.026 313.5 8.2
16 CL34 CL32 15 0.001462 0.9727 0.960079 5.984 318.4 9.0
15 CL24 CL28 15 0.001641 0.9711 0.957871 5.929 323.7 9.8
14 CL21 CL53 7 0.001873 0.9692 0.955418 5.850 329.2 5.1
13 CL18 CL48 15 0.002271 0.9669 0.952670 5.690 333.8 8.9
12 CL16 CL23 24 0.002274 0.9647 0.949541 4.632 342.4 9.6
11 CL14 CL43 12 0.002500 0.9622 0.945886 4.675 353.3 5.8
10 CL26 CL20 22 0.002694 0.9595 0.941547 4.811 368.1 12.9
9 CL27 CL17 31 0.003060 0.9564 0.936296 5.018 386.6 17.8
8 CL35 CL15 23 0.003095 0.9533 0.929791 5.443 414.1 13.8
7 CL10 CL47 26 0.005811 0.9475 0.921496 5.426 430.1 19.1
6 CL8 CL13 38 0.006042 0.9414 0.910514 5.806 463.1 16.3
5 CL9 CL19 50 0.010532 0.9309 0.895232 5.817 488.5 43.2
4 CL12 CL11 36 0.017245 0.9137 0.872331 3.987 515.1 41.0
3 CL6 CL7 64 0.030051 0.8836 0.826664 4.329 558.1 57.2
2 CL4 CL3 100 0.111026 0.7726 0.696871 3.833 502.8 115.6
1 CL5 CL2 150 0.772595 0.0000 0.000000 0.000 . 502.8
伪F图形
CCC图形
伪图形
半偏图形
输出结果列出了把150个观测每次合并两类,共合并149次的过程。NCL列指定了聚类水平G (即这一步存在的单独的类数)。“-Clusters Joined-”为两列,指明这一步合并了哪两个类。其中OBxxx表示原始观测,而CLxxx表示在某一个聚类水平上产生的类。比如,NCL为149时合并的是OB16和OB76,即16 号观测和76号观测合并;NCL为1(最后一次合并)合并的是CL5和CL2,即类水平为5时得到的类和类水平为2时得到的类合并,CL5又是由CL9和CL19合并得到的,CL2是由CL4和CL3合并得到的,等等。FREQ表示这次合并得到的类中有多少个观测。SPRSQ是半偏 ,RSQ是 ,ERSQ是在均匀零假设下的 的近似期望值,CCC为CCC统计量,Pseudo F 为伪F统计量,Pseudo t**2为伪 统计量,Norm RMS Dist是正规化的两类元素间距离的均方根,Tie指示距离最小的候选类对是否有多对。
因为我们假装不知道数据的实际分类情况,所以我们必须找到一个合理的分类个数。为此,考察CCC、伪F、伪 和半偏 统计量。我们打开ASSIST模块,调入上面产生的OTREE数据集,绘制各统计量的图形。因为类水平太大时的信息没有多少用处,所以我们用WHERE语句对OTREE数据集取其类水平不超过30的观测。
各统计量的图形显示:CCC统计量建议取5类或3类(局部最大值),伪F建议3类(局部最大值),伪 建议3类(局部最大值处是不应合并的,即局部最大值处的类数加1),半偏 建议3类。由这些指标看,比较一致的是3类,其次是5类。为了看为什么不能明显地分为三类,我们对四个变量求主分量,画出前两个主分量的散点图。可以看出Setosa(红色)与其它两类分得很开,而Versicolor(绿色)与Virginica(蓝色)则不易分开。
因为我们知道要分成3类,所以我们用如下的TREE过程绘制树形图并产生分类结果数据集:
proc tree data=otree horizontal nclusters=3 out=oclust;
copy species;
run;
树形图因为观测过多所以显得杂乱。从图中也可以看出,分为两类可以分得很开,而分成三类时距离则不够远。这个TREE过程用NCLUSTERS=3指定了分成3个类,结果数据集OCLUST中有一个CLUSTER变量代表生成的分类。我们把这个数据集调入ASSIST模块中用不同颜色代表SPECIES(实际种类),用不同符号代表不同聚类过程分类,作前两个主分量散点图。可以看出, Virsicolor和Virginica两类互相都有分错为对方的。
为了统计分类结果,可以用ASSIST模块FREQ过程作表,得到如下结果:
SPECIES(Species) CLUSTER
Frequency | 1| 2| 3| Total
-----------+--------+--------+--------+
Setosa | 0 | 0 | 50 | 50
-----------+--------+--------+--------+
Versicolor | 49 | 1 | 0 | 50
-----------+--------+--------+--------+
Virginica | 15 | 35 | 0 | 50
-----------+--------+--------+--------+
Total 64 36 50 150
可见Virginica被分错的较多。
第五节 聚类分析的相关文章分析
从中国期刊网上检索与聚类分析有关的文章。
登陆河北经贸大学的主页,点击“图书馆”,点击“中国期刊网”,下载并安装CAJ浏览器;在“检索词”栏目里输入“聚类分析”,在“检索项”栏选择“关键词”,然后点击“跨库检索”,用聚类分析方法写的文章被检索出来,我们可以打开看到文章的全文。
推荐文章:
1.朱 晶,用统计分析方法对区域经济状况进行分类比较研究,鞍山师范学院学报,1999.9
2.夏应存,我国各地农民家庭消费结构分析,数理统计与管理,1995.1
补充内容:
SAS程序简单运行样例:
假设我们有一个班学生的数学成绩和语文成绩,数学满分为100,语文满分为120,希望计算学生的平均分数(按百分制)并按此排名,可以在程序窗口输入此程序:
title '95级1班学生成绩排名';
data c9501;
input name $ 1-10 sex $ math chinese;
avg = math*0.5 + chinese/120*100*0.5;
cards;
李明 男 92 98
张红艺 女 89 106
王思明 男 86 90
张聪 男 98 109
刘颍 女 80 110
;
run;
proc print;run;
proc sort data=c9501;
by descending avg;
run;
proc print;run;
要运行此程序,只要用鼠标单击工具栏的提交图标 ,或用Locals菜单的Submit命令。运行后,运行记录窗口出现如下内容:
50 title '95级1班学生成绩排名';
51 data c9501;
52 input name $ 1-10 sex $ math chinese;
53 avg = math*0.5 + chinese/120*100*0.5;
54 cards;
NOTE: The data set WORK.C9501 has 5 observations and 5 variables.
NOTE: The DATA statement used 0.11 seconds.
60 ;
61 run;
62 proc print;run;
NOTE: The PROCEDURE PRINT used 0.0 seconds.
63 proc sort data=c9501;
64 by descending avg;
65 run;
NOTE: The data set WORK.C9501 has 5 observations and 5 variables.
NOTE: The PROCEDURE SORT used 0.05 seconds.
66 proc print;run;
NOTE: The PROCEDURE PRINT used 0.0 seconds.
其中记录了每段程序的运行情况、所用时间、生成数据保存情况。如果有错误还会用红色指示错误。比如,最后的proc print后面的分号如果丢失,记录窗口显示如下错误:
67 proc printrun;
--------
181
ERROR 181-322: Procedure name misspelled.
错误说明为过程名错拼,但实际上是丢了分号导致print和run连成了一个词。在程序窗口用“Locals | Recall text”菜单或按F4功能键可以调回程序修改。正确运行后输出窗口出现如下结果:
95级1班学生成绩排名
OBS NAME SEX MATH CHINESE AVG
1 李明 男 92 98 86.8333
2 张红艺 女 89 106 88.6667
3 王思明 男 86 90 80.5000
4 张聪 男 98 109 94.4167
5 刘颍 女 80 110 85.8333
95级1班学生成绩排名
OBS NAME SEX MATH CHINESE AVG
1 张聪 男 98 109 94.4167
2 张红艺 女 89 106 88.6667
3 李明 男 92 98 86.8333
4 刘颍 女 80 110 85.8333
5 王思明 男 86 90 80.5000
这里有两页输出,第一页是输入数据后用PROC PRINT显示的数据集,第二页为按平均分排名后的结果。
从上面的例子程序可以看出SAS程序的一些特点。SAS程序由 语句组成,语句用分号结束。SAS程序中大小写一般不区分(字符串中要区分大小写)。SAS程序中的空格、空行一般可以任意放置,这样我们可以安排适当的缩进格式使得源程序结构清楚易读。SAS程序由两种“步”构成,一种叫 数据步(data step),一种叫 过程步(proc step),分别以DATA语句和PROC语句开始。SAS程序以DATA语句开始,输入或处理有关的数据集(SAS的数据文件),让系统读有关数据。DATA语句的部分叫数据步。然后是PROC语句,指出进行那种数据分析。PROC语句的部分叫过程步,利用系统提供的过程(SAS提供的数据分析子程序)进行分析。数据步和过程步由若干个语句组成,一般以RUN语句结束。
【思考题】
1﹑简述系统聚类法的基本思路。
2﹑写出样品间相关系数公式。
3﹑常用的距离及相似系数有哪些 ?它们各有什么特点?
4﹑利用谱系图分类应注意哪些问题?
5﹑在SAS和SPSS中如何实现系统聚类分析?
课时编号
多元统计分析(9--14)
课目名称
判别分析
授课时间
2005.10
授课班级
数学03(1-2班)
统计03(1-2班)
教学目的
通过本章的教学应使学生了解判别分析的基本思想和几种常用判别分析方法,能够用这些方法分析解决实际问题。
重点与难点
判别分析的基本思想;
几种常用判别分析方法的微机实现;
用判别分析方法分析解决实际问题。
课堂教学设计
以讲授和多媒体演示为主,讲授以下内容:
一﹑判别分析的基本思路和作用;
二﹑判别分析与聚类分析的关系;
三﹑几种常用判别分析方法(距离判别法﹑费歇判别法﹑贝叶斯判别法﹑逐步判别法)的基本思想﹑判别准则及在SAS和SPSS中的实现;
四﹑多媒体演示如何用判别分析方法分析解决实际问题。
参考书目
1﹑于秀林﹑任雪松,多元统计分析,中国统计出版社,1999
2﹑王学民,应用多元分析,上海财经大学出版社,1999
3﹑卫海英, SPSS10.0 for Windows 在经济管理中的应用,中国统计出版社,2001
4
展开阅读全文