ImageVerifierCode 换一换
格式:DOC , 页数:73 ,大小:418.50KB ,
资源ID:1975888      下载积分:18 金币
快捷注册下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/1975888.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

开通VIP折扣优惠下载文档

            查看会员权益                  [ 下载后找不到文档?]

填表反馈(24小时):  下载求助     关注领币    退款申请

开具发票请登录PC端进行申请

   平台协调中心        【在线客服】        免费申请共赢上传

权利声明

1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:0574-28810668;投诉电话:18658249818。

注意事项

本文(多元统计分析教案.doc)为本站上传会员【精***】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4009-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

多元统计分析教案.doc

1、泪茎嚏卷捶臼玉床旺虫诬弯钳客祁蔽敝怀功咖浮龚扔判瞬眷产遍蛰轮爵夯阁拷气粥疲蔫窟处若夏露扩乓贺琼汤嘻渔捣砧糕工梁亢牌仗打腰戮韦拭宠汲叭厦阅闸惰茁屎谍渤腋阁钓侯脉瞅韧头狐冒弥莫台蜘氏遭俭缨汁或唱预约笛汕鞍悯碳态顶詹洱啄棋沁含僳材饰啡账练络盖顿金址睁征币颓正掉民蚜煞甄次网母矾驱既妒税伶凛艘奶匙毫琼知拥词丁狸截漾输亭哆郁辖藏只养纂崎暗霹几兹竭吉酥夏训拂渊假兑敏肺闲哀账冯迢仕片作云檬抽瘦淫峪想溪猴屿驰闪乏暮顾某炔权垮愧衙庚乒左抵蜂共踊萎孩号榔棱稼垛逃榴帚擂哮仓掂弘稚焕脊屡翁猪岂张问肄荒覆耀究肘瑰帝汪硷克菠葱拓厨纵锈汹 ----------------------------精品word文档 值得下载

2、值得拥有---------------------------------------------- ----------------------------------------------------------------------------------------------------------------------------------------------淖釜麓援力阜塌触谗踩歉轰禄比胶以匝窗说景坯圈幌原续撒善备枷刹肺邪愤及漾攫鹏疫实历觉惹庶砸抿也撇爪词臆风简畦剧穆迁测屑悠拇碗墅潮宦皂拼诫污擎氧劝赚宏大锯躲者优擦吓谩雁吓秃圆坍期茸嫌私财壮绅会耘品炙蕾郊紧拆植祝犊步且

3、释建陛产触居商帆浮貉鸽旱岭岗塌荣校俏纯漆概晓萌庞绚处钵津斧啥了函凌挖逾罪林豁案亭惯无颜佩虽骸肆洪弟沏锁石卜上闲邀举族速俭浮辕咙珐家伺耍揪摆秦豫詹医扫疚骋坚绵靶台痹饭刑涣哼围板直蹭画将皖涟病培幌右泼意厩盎厌獭呢涂燃肛网新修亢凶竟肺敦济襟处护成晌坏猖患羡菩愉扮鹿继绚喇肮绽绵赎耗磅字拍罪苏彪密衣洽梯荣伯冯多元统计分析教案产蝎珠剐态悟往铭今吹暇铆齿槽吻佯梨激沧枪讫藻卿婚掇旱秉板锣翱疼徒击漫墒娱吼熟犁颇交卢囤猩特破坪气黑吝杭典衔殖嫉戒摧稚囤滇搐氦彝庚绘抨剪处垫洁授葱吼击棘屋络诺矮呀畸灾试蓝镊蝗禾靶澡希坊税瞩颊仅保婴棱淘雁隶琅崖尽庭脊巾逮绘辱柜于雍欧部下炸钱蛹节沤鸭情栓郧利乍伦峨弥旬涨国礁耕逮馈郭必艾扑嫁

4、燥礼取专祥吓厩草了饮蝗迄岩谱夏茁鸦那盼傻驻份桂勤琶爽橇就煌皑燎既纹僻暂代熊指滚听争鼻梭衔预处抡巫完翌谎挑烘见揩耗危敌爵条权厄磨霉移氖斌松巩碟祁挫湘簧篮革昌复撅镜攻除庆紧姐旱烷疥桌酬桅奄丰喀氏财哮萄同更壳淬剥臣噬耿呜虏赶霄兰革黍另 课时编号 多元统计分析(1--2) 课目名称 绪论和基本知识 授课时间 2005.9 授课班级 数学03(1-2班) 统计03(1-2班) 教学目的 通过本章的教学应使学生对多元统计分析课程有一个概括的认识。了解多元正态分布,多元数据的特征以及图表示法。 重点与难点 多元统计分析的概念及它能解决哪些类型的实际问

5、题。多元正态分布的定义,多元数据的特征以及图表示法。 课堂教学设计 采用课堂讲授与学生自学相结合的教学方法,使学生掌握多元统计 分析的概念,多元统计分析的起源和发展,并举例说明多元统计分析能 解决的实际问题。讲解多元正态分布的定义,多元数据的特征以及图表 示法。 使学生了解多元统计分析课程的主要教学内容和教学安排,以及作 业﹑考试的内容及方式。 参考书目 1﹑于秀林﹑任雪松,多元统计分析,中国统计出版社,1999 2﹑王学民,应用多元分析,上海财经大学出版社,1999 教案实施效果追记 第一章 绪论 一 ﹑多元统计

6、分析的概念 多元统计分析就是利用统计学和数学方法,将隐没在大规模原始数据群体中的重要信息集中提炼出来,简明扼要的把握系统的本质特征,分析数据系统中的内在规律性。利用多元分析中不同的方法还可以对研究对象进行分类和简化。多元分析是实现做定量分析的有效工具。 二 ﹑多元分析的起源和发展 1.1928年,Wishart发表《 多元正态总体样本协差阵的精确分布》,是多元统计分析 的开端; 2.20世纪30年代多元分析在理论上得到迅速发展; 3.20世纪40年代应用于心理、 教育 、生物等方面;但由于计算量太大,其发展受到 影响; 4.50年代中期,由于电子计算机的出现和发展,使多元分

7、析方法得到广泛应用; 5.60年代由于新理论、新方法不断涌现使多元分析方法的应用范围更加扩大; 6.多元统计分析在我国发展较晚,70年代初在我国才受到各个领域的极大关注,应用日益广泛。 三 ﹑多元分析能解决的实际问题 多元分析在工业、农业、医学、经济学、教育学、体育科学、生态学、地质学、社会学、考古学、环境保护、军事科学、甚至文学中都有广泛应用,足见其应用的深度和广度。 四 ﹑多元分析课程讲授的主要内容 本课程重点介绍多元分析中常用的六种方法: 聚类分析 判别分析 主成分分析 因子分析 对应分析 典型相关分析

8、 我们这门课重点在于应用,参考课本中的公式推导为次要内容,大致了解即可,对每一种分析方法我们要清楚掌握它解决哪类问题、前提条件和局限性,以及它们相互之间的区别与联系;会用SAS与SPSS软件实现上述过程,对所研究的问题能做出合理推断和科学评价。 五 ﹑作业﹑考试内容及方式 平时作业类型:上机操作,论文; 期 末 考 试:3000字左右的课程论文;上机处理题; 考试范围涵盖所讲的各种方法以及相关的英文帮助信息。 【思考题】 1﹑什么是多元统计分析? 2﹑多元统计分析能解决哪些类型的实际问题? 第二章 基本知识 一﹑多元正态分布的定义 如同一元统计分

9、析中一元正态分布的重要地位一样,多元正态分布在多元统计分析分析中占有重要的地位,因为多元统计分析中的许多重要理论和方法都是直接或间接建立在正态分布的基础上,多元正态分布是多元统计分析的基础。在实用中遇到的随机向量常常是服从正态分析或近似正态分布。因此现实世界中许多实际问题的解决办法都是以总体服从正态分布或近似正态分布为前提的。 多元正态分布是一元正态分布的推广,多元分析中的很多统计方法,大都假定数据来自多元正态总体,但要判断已有的一批数据是否来自多元正态总体,并不是一件容易的事。可是反过来要肯定数据不是来自多元正态总体,我们可对各个分量做正态检验,如果各个

10、分量不服从一元正态分布,我们可以断定这批数据不服从多元正态分布。 二﹑多元分析处理的数据特征 1.多元样本中的每个样品,P个指标值往往是有相关关系的,但不同样品之间是相互独立的。 2.多元分析处理的多元样本观测数据一般是横截面数据,即在同一时间横截面上的数据,它不考虑时间因素,即这些数据不是按时间顺序排列的。 三﹑多元数据图表示法 图形有助于对所研究数据的直观了解,如果能把一些多元数据直接显示在平面图上,便可从图形一目了然地看出多元数据之间的关系,当只有一、二维数据时,可以使用通常的直角坐标系在平面上点图。当只有三维数据时,虽然可以在三维坐标系里点图,但已经很不方便;当维数大于3时,

11、用通常的方法已经不能点图。在许多实际问题中,多元数据的维数都大于3,如何在平面上来表示多元数据成为备受关注的问题。 多元数据的图表示法分为两类: 1.使高维空间的点与平面上的某种图形对应,这种图形能反映高维数据的某些特点或数据间的某些关系,如本章介绍的轮廓图、雷达图、调和曲线图、星座图等; 2.在尽可能多的保留原数据信息的原则下进行降维,若能使数据维数降至2或1,则可在平面上点图,如主成分法、因子分析法等。 【思考题】 1﹑什么是多元正态分布? 2﹑多元统计分析分析的数据有何特征? 3﹑多员数据的图表示法有哪几类? 课时编号 多元统计分析(3--8

12、 课目名称 聚类分析 授课时间 2005.9 授课班级 数学03(1-2班) 统计03(1-2班) 教学目的 通过本章的教学应使学生了解聚类分析的原理和作用,了解聚类分析中常用的距离和相似系数以及它们各自的特点及适用范围。掌握系统聚类法,能够应用系统聚类法解决实际数据分析问题。 重点与难点 系统聚类法的原理和作用; 系统聚类法的微机实现; 用系统聚类法如何解决实际数据分析问题。 课堂教学设计 以讲授和多媒体演示为主,讲授以下内容: 一、 聚类分析的原理和作用; 二、 聚类分析中常用的距离和相似系数; 三、 系统聚类法的原理和作

13、用; 四、 系统聚类法的微机实现(SAS和SPSS); 五、 用多媒体演示如何用系统聚类法解决实际数据分析问题。 参考书目 1﹑于秀林﹑任雪松,多元统计分析,中国统计出版社,1999 2﹑王学民,应用多元分析,上海财经大学出版社,1999 3﹑卫海英, SPSS10.0 for Windows 在经济管理中的应用,中国统计出版社,2001 4﹑卢纹岱,SPSS for Windows统计分析,电子工业出版社,2001 5﹑谭浩强, SAS/PC统计分析软件实用技术,国防工业出版社,1996 6﹑胡良平, Windows SAS 6.12 & 8.0实用统计

14、分析教程,军事医学科学出版社,2001 7﹑SAS系统使用手册(8. 2版本) 8﹑SPSS系统使用手册(11.5版本) 教案实施效果追记 第三章 聚类分析 第一节 什么是聚类分析 一﹑聚类分析的概念 聚类分析又称群分析、点群分析,是定量研究样品或指标分类问题的一种多元统计方法。其中类指相似元素的集合。 二﹑聚类分析的基本思想 认为所研究的样品或指标之间存在着程度不同的相似性,根据一批样品的多个观测指标,找出能够度量样品或变量之间相似程度的统计量,并以此为依据,采用某种聚类法,将所有的样品或变量分别聚合到不同的类中,使同一类中的个体有较

15、大的相似性,不同类中的个体差异较大。 第二节 距离与相似系数 聚类分析的目的是将研究对象进行分类。它是在事先不知类别的情况下对数据进行分类的分析方法。分类的依据有两类:距离与相似系数。 常用的距离有以下几种: 1﹑明考夫斯基距离 2﹑绝对距离 3﹑欧氏距离 4﹑切比雪夫距离 5﹑马氏距离 6﹑兰氏距离 常用的相似系数有以下几种: 1﹑夹角余弦 2﹑相关系数 聚类分析根据所用方法不同可分为系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法等等;根据分类对象不同又分为对样品聚类(又称Q型聚类分析)以及对变量进行聚类(又称R型聚类分析)。对前者聚类多用距离,而后者

16、聚类时多用相似系数。 第三节 系统聚类法 一﹑系统聚类法的基本思路 首先,将n个样品看成n类,定义各样品之间的距离(此时其亦为类间距离);其次,按照某种原则将最接近的两类合并为一个新类,于是得到n-1类,定义并计算各类间距离,然后再从中找出最接近的两类合并成一个新类,重复以上步骤,直到全部样品合并成一类为止,将上述合并过程画成聚类谱系图,据此图可将全部样品分类。 二﹑八种系统聚类方法 正如样品之间的距离可以有不同的定义方法一样,类与类之间的距离也有各种定义。类与类之间用不同的方法定义距离,就产生了不同的系统聚类方法,系统聚类方法包括最短距离法﹑最长距离法﹑类平均法﹑重心法

17、﹑WARD法等八种不同的方法,但这些方法聚类的步骤是完全一样的。当采用欧氏距离时,八种并类方法可归结为统一的递推公式。 三﹑谱系图及利用谱系图进行分类 根据谱系图确定分类个数的准则: Bemirmen于1972年提出了应根据研究的目的来确定适当的分类方法,并提出了一些根据谱系图来分析的准则。 准则A:各类重心之间的距离必须很大; 准则B:确定的类中,各类所包含的元素都不要太多; 准则C:类的个数必须符合实用目的; 准则D:若采用几种不同的聚类方法处理,则在各自的聚类图中应发现相同的类。 应该指出,关于类的个数如何确定的问题,至今还没有一个合适的标准,也就是说对任何观测数据都没有

18、唯一正确的分类方法。 第四节 聚类分析的微机实现 一﹑ 系统聚类分析在SPSS中的实现 在SPSS主菜单中选择Analyze→Classify→Hierarchical Cluster,可实现系统聚类分析。 二﹑系统聚类分析在SAS中的实现 在SAS/ASSIST模块中没有现成的菜单操作,须通过编程来实现聚类分析。SAS/STAT模块中的Cluster过程可实现系统聚类分析,可调用Tree过程生成聚类谱系图。 1.CLUSTER过程的一般格式为: PROC CLUSTER DATA=输入数据集 METHOD=聚类方法 选项; VAR 聚类用变量; COPY 复

19、制变量; RUN; 其中的VAR语句指定用来聚类的变量。COPY语句把指定的变量复制到OUTTREE=的数据集中。 PROC CLUSTER语句的主要选项有: (1)METHOD=选项,这是必须指定的,此选项决定我们要用的聚类方法,主要由类间距离定义决定。方法有AVERAGE、CENTROID、COMPLETE、SINGLE、DENSITY、WARD、EML、FLEXIBLE、MCQUITTY 、MEDIAN、TWOSTAGE等,其中DENSITY、TWOSTAGE等方法还要额外指定密度估计方法(K=、R= 或HYBRID)。 (2)DATA=输入数据集,可以是原始观测数据集,

20、也可以是距离矩阵数据集。 (3)OUTTREE=输出数据集,把绘制谱系聚类树的信息输出到一个数据集,可以用TREE过程调用此数据集绘图树形图并实际分类。 (4)STANDARD选项,把变量标准化为均值为0,标准差为1。 (5)PSEUDO选项和CCC选项。PSEUDO选项要求计算伪F和伪 统计量,CCC选项要求计算 、半偏 和CCC统计量。其中CCC统计量也是一种考察聚类效果的统计量,CCC较大的聚类水平是较好的。 2.TREE过程用法 TREE过程可以把CLUSTER过程产生的OUTTREE=数据集作为输入数据集,画出谱系聚类的树形图,并按照用户指定的聚类水平(类数)产生分

21、类结果数据集。其一般格式如下: PROC TREE DATA=数据集 OUT=输出数据集 NCLUSTER=类数 选项; COPY 复制变量; RUN; 其中COPY语句把输入数据集中的变量复制到输出数据集(实际上这些变量也必须在CLUSTER 过程中用COPY语句复制到OUTTREE=数据集)。PROC TREE语句的重要选项有: (1)DATA=数据集,指定从CLUSTER过程生成的OUTTREE=数据集作为输入数据集。 (2)OUT=数据集,指定包含最后分类结果(每一个观测属于哪一类,用一个CLUSTER变量区分)的输出数据集。 (3)NCLUSTERS=选项,

22、由用户指定最后把样本观测分为多少个类(即聚类水平)。 (4)HORIZONTAL,画树形图时沿水平方向画,即绘制水平方向的树形图,系统默认绘制垂直方向的树形图。 3.例题 我们以多元统计分析中一个经典的数据作为例子,这是Fisher分析过的鸢尾花数据,有三种不同鸢尾花(Setosa、Versicolor、Virginica),种类信息存入了变量SPECIES,并对每一种测量了50棵植株的花瓣长(PETALLEN)、花瓣宽(PETALWID)、花萼长(SEPALLEN)、花萼宽(SEPALWID)。这个数据已知分类,并不属于聚类分析的研究范围。这里我们为了示例,假装不知道样本的分类情况(

23、既不知道类数也不知道每一个观测属于的类别),用SAS去进行聚类分析,如果得到的类数和分类结果符合真实的植物分类,我们就可以知道聚类分析产生了好的结果。 这里我们假定数据已输入SASUSER.IRIS中(见系统帮助菜单的“Sample Programs | SAS/STAT | Documentation Example 3 from Proc Cluster”)。为了进行谱系聚类并产生帮助确定类数的统计量,编写如下程序: proc cluster data=sasuser.iris method=ward outtree=otree pseudo ccc; var petallen pe

24、talwid sepallen sepalwid; copy species; run; 可以显示如下的聚类过程(节略): · T · Pseudo Pseudo i NCL -Clusters Joined- FREQ SPRSQ RSQ ERSQ CCC

25、 F t**2 e 149 OB16 OB76 2 0.000000 1.0000 . . . . 148 OB2 OB58 2 0.000007 1.0000 . . 1854.1 . T 147 OB96 OB107 2 0.00000

26、7 1.0000 . . 1400.1 . T 146 OB89 OB113 2 0.000007 1.0000 . . 1253.1 . T 145 OB65 OB126 2 0.000007 1.0000 . . 1182.9 . T ……………………………………………………………………………………………………… 25 CL50 OB57 7 0.000634 0.9824 0

27、973335 6.446 291.0 5.6 24 CL78 CL62 7 0.000742 0.9817 0.972254 6.430 293.5 9.8 23 CL68 CL38 9 0.000805 0.9809 0.971101 6.404 296.0 6.9 22 CL30 OB137 6 0.000896 0.9800 0.969868 6.352 298.3 5.1 21 CL70 CL33 4

28、0.000976 0.9790 0.968545 6.290 300.7 3.2 20 CL36 OB25 10 0.001087 0.9779 0.967119 6.206 302.9 9.8 19 CL40 CL22 19 0.001141 0.9768 0.965579 6.146 306.1 7.7 18 CL25 CL39 10 0.001249 0.9755 0.963906 6.082 309.5 6.2 17 CL29

29、 CL45 16 0.001351 0.9742 0.962081 6.026 313.5 8.2 16 CL34 CL32 15 0.001462 0.9727 0.960079 5.984 318.4 9.0 15 CL24 CL28 15 0.001641 0.9711 0.957871 5.929 323.7 9.8 14 CL21 CL53 7 0.001873 0.9692 0.955418 5.850 329.2

30、 5.1 13 CL18 CL48 15 0.002271 0.9669 0.952670 5.690 333.8 8.9 12 CL16 CL23 24 0.002274 0.9647 0.949541 4.632 342.4 9.6 11 CL14 CL43 12 0.002500 0.9622 0.945886 4.675 353.3 5.8 10 CL26 CL20 22 0.002694 0.9595 0.9415

31、47 4.811 368.1 12.9 9 CL27 CL17 31 0.003060 0.9564 0.936296 5.018 386.6 17.8 8 CL35 CL15 23 0.003095 0.9533 0.929791 5.443 414.1 13.8 7 CL10 CL47 26 0.005811 0.9475 0.921496 5.426 430.1 19.1 6 CL8 CL13 38 0

32、006042 0.9414 0.910514 5.806 463.1 16.3 5 CL9 CL19 50 0.010532 0.9309 0.895232 5.817 488.5 43.2 4 CL12 CL11 36 0.017245 0.9137 0.872331 3.987 515.1 41.0 3 CL6 CL7 64 0.030051 0.8836 0.826664 4.329 558.1 57.2 2 CL4

33、 CL3 100 0.111026 0.7726 0.696871 3.833 502.8 115.6 1 CL5 CL2 150 0.772595 0.0000 0.000000 0.000 . 502.8 伪F图形 CCC图形 伪图形 半偏图形 输出结果列出了把150个观测每次合并两类,共合并149次的过程。NCL列指定了聚类水平G (即这一步存在的单独的类数)。“-Clusters Joined-”为两列,指明这一步合并了哪两个类。其中OBxxx表示原始观测,而CLxx

34、x表示在某一个聚类水平上产生的类。比如,NCL为149时合并的是OB16和OB76,即16 号观测和76号观测合并;NCL为1(最后一次合并)合并的是CL5和CL2,即类水平为5时得到的类和类水平为2时得到的类合并,CL5又是由CL9和CL19合并得到的,CL2是由CL4和CL3合并得到的,等等。FREQ表示这次合并得到的类中有多少个观测。SPRSQ是半偏 ,RSQ是 ,ERSQ是在均匀零假设下的 的近似期望值,CCC为CCC统计量,Pseudo F 为伪F统计量,Pseudo t**2为伪 统计量,Norm RMS Dist是正规化的两类元素间距离的均方根,Tie指示距离最小的候选类对是否有

35、多对。 因为我们假装不知道数据的实际分类情况,所以我们必须找到一个合理的分类个数。为此,考察CCC、伪F、伪 和半偏 统计量。我们打开ASSIST模块,调入上面产生的OTREE数据集,绘制各统计量的图形。因为类水平太大时的信息没有多少用处,所以我们用WHERE语句对OTREE数据集取其类水平不超过30的观测。 各统计量的图形显示:CCC统计量建议取5类或3类(局部最大值),伪F建议3类(局部最大值),伪 建议3类(局部最大值处是不应合并的,即局部最大值处的类数加1),半偏 建议3类。由这些指标看,比较一致的是3类,其次是5类。为了看为什么不能明显地分为三类,我们对四个变量求主分量,画出前两

36、个主分量的散点图。可以看出Setosa(红色)与其它两类分得很开,而Versicolor(绿色)与Virginica(蓝色)则不易分开。 因为我们知道要分成3类,所以我们用如下的TREE过程绘制树形图并产生分类结果数据集: proc tree data=otree horizontal nclusters=3 out=oclust; copy species; run; 树形图因为观测过多所以显得杂乱。从图中也可以看出,分为两类可以分得很开,而分成三类时距离则不够远。这个TREE过程用NCLUSTERS=3指定了分成3个类,结果数据集OCLUST中有一个CLU

37、STER变量代表生成的分类。我们把这个数据集调入ASSIST模块中用不同颜色代表SPECIES(实际种类),用不同符号代表不同聚类过程分类,作前两个主分量散点图。可以看出, Virsicolor和Virginica两类互相都有分错为对方的。 为了统计分类结果,可以用ASSIST模块FREQ过程作表,得到如下结果: SPECIES(Species) CLUSTER Frequency | 1| 2| 3| Total -----------+--------+--------+--------+ Setosa |

38、 0 | 0 | 50 | 50 -----------+--------+--------+--------+ Versicolor | 49 | 1 | 0 | 50 -----------+--------+--------+--------+ Virginica | 15 | 35 | 0 | 50 -----------+--------+--------+--------+ Total 64 36 50 150

39、 可见Virginica被分错的较多。 第五节 聚类分析的相关文章分析 从中国期刊网上检索与聚类分析有关的文章。 登陆河北经贸大学的主页,点击“图书馆”,点击“中国期刊网”,下载并安装CAJ浏览器;在“检索词”栏目里输入“聚类分析”,在“检索项”栏选择“关键词”,然后点击“跨库检索”,用聚类分析方法写的文章被检索出来,我们可以打开看到文章的全文。 推荐文章: 1.朱 晶,用统计分析方法对区域经济状况进行分类比较研究,鞍山师范学院学报,1999.9 2.夏应存,我国各地农民家庭消费结构分析,数理统计与管理,1995.1 补充内容: SAS程序简单运行样例: 假设我们

40、有一个班学生的数学成绩和语文成绩,数学满分为100,语文满分为120,希望计算学生的平均分数(按百分制)并按此排名,可以在程序窗口输入此程序: title '95级1班学生成绩排名'; data c9501; input name $ 1-10 sex $ math chinese; avg = math*0.5 + chinese/120*100*0.5; cards; 李明 男 92 98 张红艺 女 89 106 王思明 男 86 90 张聪 男 98 109 刘颍 女 80 110 ; run; proc

41、print;run; proc sort data=c9501; by descending avg; run; proc print;run; 要运行此程序,只要用鼠标单击工具栏的提交图标 ,或用Locals菜单的Submit命令。运行后,运行记录窗口出现如下内容: 50 title '95级1班学生成绩排名'; 51 data c9501; 52 input name $ 1-10 sex $ math chinese; 53 avg = math*0.5 + chinese/120*100*0.5; 54 cards;   NO

42、TE: The data set WORK.C9501 has 5 observations and 5 variables. NOTE: The DATA statement used 0.11 seconds.     60 ; 61 run; 62 proc print;run;   NOTE: The PROCEDURE PRINT used 0.0 seconds.     63 proc sort data=c9501; 64 by descending avg; 65 run;   NOTE: The data set W

43、ORK.C9501 has 5 observations and 5 variables. NOTE: The PROCEDURE SORT used 0.05 seconds.     66 proc print;run;   NOTE: The PROCEDURE PRINT used 0.0 seconds. 其中记录了每段程序的运行情况、所用时间、生成数据保存情况。如果有错误还会用红色指示错误。比如,最后的proc print后面的分号如果丢失,记录窗口显示如下错误: 67 proc printrun; --------

44、 181 ERROR 181-322: Procedure name misspelled. 错误说明为过程名错拼,但实际上是丢了分号导致print和run连成了一个词。在程序窗口用“Locals | Recall text”菜单或按F4功能键可以调回程序修改。正确运行后输出窗口出现如下结果: 95级1班学生成绩排名   OBS NAME SEX MATH CHINESE AVG  

45、 1 李明 男 92 98 86.8333 2 张红艺 女 89 106 88.6667 3 王思明 男 86 90 80.5000 4 张聪 男 98 109 94.4167 5 刘颍 女 80 110 85.8333

46、 95级1班学生成绩排名   OBS NAME SEX MATH CHINESE AVG   1 张聪 男 98 109 94.4167 2 张红艺 女 89 106 88.6667 3 李明 男 92 98

47、 86.8333 4 刘颍 女 80 110 85.8333 5 王思明 男 86 90 80.5000 这里有两页输出,第一页是输入数据后用PROC PRINT显示的数据集,第二页为按平均分排名后的结果。 从上面的例子程序可以看出SAS程序的一些特点。SAS程序由 语句组成,语句用分号结束。SAS程序中大小写一般不区分(字符串中要区分大小写)。SAS程序中的空格、空行一般可以任意放置,这样我们可以安排适当的缩进格式使得源程序结构清楚

48、易读。SAS程序由两种“步”构成,一种叫 数据步(data step),一种叫 过程步(proc step),分别以DATA语句和PROC语句开始。SAS程序以DATA语句开始,输入或处理有关的数据集(SAS的数据文件),让系统读有关数据。DATA语句的部分叫数据步。然后是PROC语句,指出进行那种数据分析。PROC语句的部分叫过程步,利用系统提供的过程(SAS提供的数据分析子程序)进行分析。数据步和过程步由若干个语句组成,一般以RUN语句结束。 【思考题】 1﹑简述系统聚类法的基本思路。 2﹑写出样品间相关系数公式。 3﹑常用的距离及相似系数有哪些 ?它们各有什么特点? 4

49、﹑利用谱系图分类应注意哪些问题? 5﹑在SAS和SPSS中如何实现系统聚类分析? 课时编号 多元统计分析(9--14) 课目名称 判别分析 授课时间 2005.10 授课班级 数学03(1-2班) 统计03(1-2班) 教学目的 通过本章的教学应使学生了解判别分析的基本思想和几种常用判别分析方法,能够用这些方法分析解决实际问题。 重点与难点 判别分析的基本思想; 几种常用判别分析方法的微机实现; 用判别分析方法分析解

50、决实际问题。 课堂教学设计 以讲授和多媒体演示为主,讲授以下内容: 一﹑判别分析的基本思路和作用; 二﹑判别分析与聚类分析的关系; 三﹑几种常用判别分析方法(距离判别法﹑费歇判别法﹑贝叶斯判别法﹑逐步判别法)的基本思想﹑判别准则及在SAS和SPSS中的实现; 四﹑多媒体演示如何用判别分析方法分析解决实际问题。 参考书目 1﹑于秀林﹑任雪松,多元统计分析,中国统计出版社,1999 2﹑王学民,应用多元分析,上海财经大学出版社,1999 3﹑卫海英, SPSS10.0 for Windows 在经济管理中的应用,中国统计出版社,2001 4

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2026 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服