资源描述
,单击此处编辑母版标题样式,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,7.具有较强的图表生成、编辑功能。,8.丰富的联机帮助功能是初学者学习SPSS的帮手。,第二节 SPSS的安装、启动和退出,一、SPSS的安装,1.启动Windows。,2.把SPSS安装光盘放入光驱。,3.找到光盘中的setup文件并双击,即启动,SPSS的安装程序。,4.用户最先阅读版权声明,读完后单击“next”,按钮,进入下一个画面。,5.指定把SPSS安装在哪个目录下。,6.选择安装的类型,Typical(典型安装)将安装,对大多数用户来说最常用的模块。,7.选择安装的组件。单击“Next”按钮继续安装。,二、SPSS的启动,1.利用“开始”菜单启动。,2.利用快捷图标启动。,三、SPSS的退出,有多种退出方法,可根据自己的喜好选择任何一种。,C、执行功能按钮,D、择其一按钮,E、选择框,F、下拉清单,二、数据编辑窗(Data Editor),1、数据编辑窗的打开与关闭,2、数据编辑窗的两个界面,(1)Data View界面,(2)Variable View界面,3、Data Editor的功能,三、结果输出窗(SPSS Viewer),1、SPSS Viewer打开与关闭,(1)自动打开,当用户运行一个SPSS的分析过程后,系统自动打,开一个结果输出窗。,(2)命令打开,用户选择命令File-New-Output打开结果输出窗。,(3)关闭,2、结果输出区,(1)大纲输出区,(2)文本输出区,四、SPSS的其他窗口,五、多窗口操作,第四节 SPSS的基本运行方式,一、用SPSS作统计分析的一般步骤,1。数据文件的建立和编辑,2。选择统计分析方法,3。选择分析的变量、设置参数,4。查看、解释分析结果,二、SPSS 系统的三种运行方式,1。全屏窗口菜单运行方式,2。程序运行方式 3。混合运行方式,第二章 数据文件的建立和编辑,第一节 概 述,一、SPSS数据文件的结构,个案、变量、单元格、当前单元格,SPSS数据文件以二维表的形式组织数据。一行,为一个样品(CASE)或个案,一列为一个变量,(VARIABLE),行与列交叉之处为一个单元格,,可在其中输入变量值。,二、变量的定义,通过数据编辑器的Variable View界面来定义。,1。变量名(Name),2。变量类型(Type),3。变量长度(Width),4。小数位数(Decimals),5。变量名标签(Label),6。变量值标签(Values),7。缺失值定义(Missing),8.变量列宽(Column),9。数值对齐方式(Align),10。变量特性的测量尺度(Measure),(1)比例尺度(Scale),(2)定序尺度(Ordinal),(3)定类尺度(Nominal),三、数据的输入,1。数值型数据的输入,2。字符型数据的输入,3。日期型数据的输入,4。数据的输入方法(按行或按列输入),第二节 SPSS数据文件的建立和编辑,一、数据文件的建立,基本步骤:,1。打开新的数据编辑窗口,2。在Variable View界面下定义变量,3。在Data View界面下输入数据,4。保存数据文件,A公司某部门20名职工的性别、年龄、月收入、年终业务考核数据,请建一个名为“公司年终考核表”的数据文件。,1,女,25,2000.00,良,11,男,32,3000.00,良,2,男,37,3000.00,中,12,男,29,2600.00,中,3,女,42,3200.00,良,13,男,42,3400.00,良,4,男,26,2000.00,中,14,女,27,2400.00,及格,5,男,28,2200.00,良,15,男,53,3600.00,中,6,男,30,2800.00,中,16,女,34,2600.00,良,7,男,38,3200.00,良,17,男,35,3000.00,良,8,女,55,4000.00,中,18,男,34,3600.00,优,9,男,46,3400.00,优,19,男,37,3000.00,良,10,女,27,2200.00,良,20,男,40,3200.00,良,二、数据文件的编辑,(一)插入操作,1、插入变量,2、插入个案,(二)删除操作,1、删单元,2、删个案,3、删变量,4、删连续区域,第三节 数据文件的整理,一、排序,1。打开数据文件,2。选择Data-Sort Case,3。选择排序变量,4。选择排序方式,5。击OK,在建立了数据文件后,为了某种需要可按关键变量对当前数据文件进行排序,重新调整个案在数据文件中的先后顺序。例如对“公司年终考核表”数据文件,按工资从高到底排序。,1打开数据文件,选菜单File-Open-data,在对话框中指定文件名“公司年终考核表”;,2选择Data-Sort Case,打开对话框,,3选择排序变量,将变量salary置于 Sort by框中;,4选择排序方式Descending;,5击OK。,二、文件转置,1。打开数据文件,2。选择Data-Transpose,3。选择要转置的变量,4。根据需要选择名称变量,5。单击OK,三、文件的拆分,有时要对数据文件进行分组分析,Split Files 能满足这种要求。,1。读数据文件(Data05-01),2。选Data-Split Files,3。选分组方式,4。选分组标志,5。指明数据文件的当前状态,6。按OK键,在进行数据处理时,有时要对数据文件进行分组分析,例如对某公司的男、女员工的工资或年龄进行分组分析,Split Files 能满足这种要求。文件拆分并不是将一个文件拆分成多个文件,只是创造分组分析的前提条件。,拆分以后的数据文件从外观上看,好像是按“gender”变量升序排序的结果,但若执行某个统计分析过程后,进行的是按男员工和女员工分组分析。,四、文件的合并,外部数据文件、当前数据文件,(一)纵向合并(Add Case)合并的前提是两个数据文件存在相同变量。,1。首先打开一个数据文件data05-03,2。选Data-Merge File-Add Cases,3。确定外部数据文件data05-04,4。根据情况处理数据(如配对),5。按OK键,(二)横向合并(Add Variables),合并的前提是两个数据文件至少存在一个共同的关键变量,并有一些个案在关键变量上的值相等。,1。打开数据文件data05-03(当前数据文件),2。选Data-Merge File-Add Variables,3。制定外部数据文件data05-04,4。根据情况处理数据,5。按OK键,若两个文件的样品数不等或样品不是一一对应的关系,则首先对两个文件按关键变量升序排列,然后把关键变量送入Key-Variables框中,并激活Match case on key variables in sorted files,从三种方式中选择一种合并方式。,五、分类汇总,按指定的分类变量对所有的个案进行分组,对每组中的个案求描述统计量,并生成新的数据文件。在新文件中对应分类变量的每个取值产生一个个案。,1。打开数据文件,2。选Data-Aggregate,3。选分类变量,4。选汇总变量,5。按OK键,6。打开Are.sav查看(例见DATA02-01),例如以公司年终考核表数据为例,要求得到不同考核等级员工的平均工资的分组汇总表。,1、打开数据文件;,2、选Data-Aggregate;,3、选evalue为分类变量;,4、选salary为汇总变量;系统隐含的汇总函数是计算均值,可根据具体需要作相应选择;,5、按OK键;,6、打开Aggr.sav查看。,六、加权(Weight),该命令可对当前数据文件中的个案赋予不同的权数。但一个数据文件只能设立一个加权变量,且该变量是取值为正数的数值型变量。,1。读数据文件,2。选Data-Weight Cases,3。确定加权变量,4。按OK,七、选择个案(Select Case),如果用户只想对数据文件中的部分个案进行统计分析,可通过Select Case命令选择分析对象。可以根据不同的方法选取部分个案作为后面分析的对象。,1。打开数据文件,2。选Data-Select Case,3。确定选择个案的方法,4。选择落选个案的处理方法,5。按OK键(举例DATA02-01),利用数据文件data02-01,选择12岁身高超过140cm的同学,可以选择条件抽样方式,通过设立一个复合条件来抽取样品。,1打开数据文件;,2选Data-Select Case;,3确定选择个案的方法,系统提供了条件抽样、随机抽样、范围抽样和使用过虑变量的方法来抽取样品,这里选择条件抽样方式,点击If按钮展开下一级对话框,设立复合条件age=12&h140;,4选择落选个案的处理方法,采用系统隐含方式即过虑法,在未入选样品编号前加一条删除线;,5按OK键。,第四节 数据的变换,一、计算(根据已有变量来建立新变量),Compute命令可以利用当前数据窗中已经存在的变量,根据变量之间的相互关系产生新变量,新变量名由用户定义,新变量值系统自动填充。,1。读数据文件,2。选Transform-compute,3。确定目标变量,4。确定目标变量的数值表达式,5。按OK,例如数据文件“消费.sav”是某年16个地区农民消费支出数据,利用compute命令计算得到各地区的恩格尔系数。,1读数据文件;,2选Transform-compute;,3在展开compute对话框中确定目标变量即新变量,故在Target Variable处输入“系数”;,4确定目标变量的数值表达式,在Numeric Expression框中输入表达式:,系数食品/(食品衣着燃料住房其它文化);,5按OK。,二、记数(Count),该命令的功能是建立新的数值变量,其取值是对指定变量等于指定值进行记数,经常用于问卷调查的数据处理。,1。读数据文件,2。选Transform-Count,3。输入目标变量,用于放记数结果。,4。确定参与记数的变量(即指定变量),5。指定值的定义,6。按OK (参见data05-07),该命令的功能是建立新的数值变量,其取值是对指定变量等于指定值进行记数,经常用于问卷调查的数据处理。例如对数据文件“成绩”中的学生,分别统计每名学生的成绩有几门优秀。,三、重编码(Record),Record命令可以对当前数据文件中的变量进行重新编码,包括将原变量值变换为新的取值和将连续取值的变量整型化等等。,1。建立新变量,(1)读数据文件,(2)选Transform-Record-Into Difference Variable,(3)对重编码变量另外再取一个名字,(4)定义新旧变换值,(5)按OK,2。不建立新变量,(1)读数据文件,(2)选Transform-Record-Into Some Variable,(3)确定要重编码的变量,(4)确定新旧变换值(即编码方法),(5)按OK,一家电脑销售公司三个月的日销售量数据,如果要研究日销售量的分布规律,可以进行分组分析,则将日销售量在140149编码为1,150159编码为2,以此类推。然后再对重编码以后的数据进行描述统计分析,得到组距分组的结果。,141,159,166,172,177,182,188,196,203,214,143,160,167,173,177,183,189,196,203,215,144,160,168,173,178,184,189,196,205,218,149,161,168,174,178,185,189,196,206,223,150,161,168,174,178,186,190,196,207,225,152,162,170,174,179,186,190,197,208,226,153,163,171,175,179,187,191,197,209,228,153,163,171,175,179,187,192,198,210,233,154,164,172,175,180,187,194,198,210,233,155,165,172,175,180,187,194,200,211,234,156,165,172,176,181,188,195,201,211,234,158,165,172,176,182,188,195,202,213,237,(1)建立数据文件;,(2)选Transform-Record-Into Difference Variable展开对话框;,(3)对重编码变量另外再取一个名字;在变量列表栏点击变量“销售量”,再单击向右箭头按钮,则出现“销售量?”,在Name框中输入新的变量名fenzu,单击Change按钮,,(4)定义新旧变换值,单击Old&New Values按钮,展开下一级对话框;,(5)在Old Values下方栏中选择Range输入140 though 149,在 New Value下方的Value栏中输入1;,(6)单击Add按钮,则在OldNew栏中显示“140 though 1491”;,(7)重复(5)(6)步,输入所有的变换值;,(8)按OK。重新编码的结果是在数据文件中新产生新的变量Fenzu,变量值由系统根据编码规则自动填充,,四、自动代码重置(Automatic Record),该命令可用来快速地对任何类型的原始变量的值进行变换,产生1、2、3等顺序取值的数值型变量,变量名用户自定义。,1。读数据文件,2。选Transform-Automatic Record,3。确定要重置代码的变量,4。输入新变量名字,5。按OK (例见“公司年终考核”),第三章 单变量描述统计分析,第一节 概 述,描述统计学、推断统计学,集中趋势(算术平均数、众数、中位数),离中趋势(全距、平均差、方差、离散系数等),偏态系数、峰度系数用以判断数据分布是否对称和集中趋势的程度如何。,变量描述统计分析包括四个过程。,第二节 频数分析(Frequencies),(一)原始数据资料分析,例1:随机抽取50位大学新生,调查他们的年龄数据如下(略),做描述统计分析。,1。建立数据文件,2。选Analyze-Descriptive Statistics-Frequencies,打开对话框,3。确定要分析的变量,4。击Statistics按钮,选择统计量,5。击Chart按钮,选择统计图,6。击Format按钮,选择频数表输出格式,7。击OK,(二)次级数据资料分析,1。对资料进行分组,分组完成后再用Frequencies过程。,(1)打开数据文件,(2)选Transform-Record-Into Some Variable,对年龄进行编码,(3)再用Frequencies过程进行频数分析。,2。对已分组的资料进行频数分析,(1)输入组中值和次数,(2)制定次数为加权变量,(3)调用频数分析过程,其中要选择对应项 Values are group midpoints,第三节 描述统计(Descriptives),描述统计分析的结果指标与频数分析结果基本相同,区别在于描述统计操作更简单,输出的描述统计指标少些,不输出频数分布表。,1。打开数据文件,2。选择Analyze-Descriptive Statistics-Descriptive,3。确定分析变量,4。根据需要选择OPTION按钮,5。单击OK,例如;已知生产同类产品的五家企业计划完成情况及一级品率资料如下(略)试求(1)平均计划完成情况。操作步骤:,1。建立数据文件(Data05-10),2。对f1进行加权,3。选Analyze-Descriptive Statistics-Descriptive,4。把x1放置Variable框中,5。击OPTION按钮,选择输出的统计量,6。击OK按钮,(2)平均一级品率,操作步骤:,1。打开数据文件Data05-10,2。选择Transform-compute,3。确定目标变量F2,4。确定目标变量的数值表达式X1*F1,5。按OK,6。对F2进行加权,7。选,Analyze-Descriptive Statistics-Descriptive,8。把x2放置Variable框中,9。击OPTION按钮,选择输出的统计量,10。击OK按钮,第四节 探索性数据分析,探索性数据分析是对数据进行初步考察,由描述统计指标和直观的图形组成。包括检查数据的错误、描述数据的数量特征和分布特征、奇异值的辨认等。,1。打开数据文件,2。选Analyze-Descriptive Statistics-Explore,3。确定分析变量,4。确定分组变量,5。根据需要击“Statistics”按钮,6。根据需要击“Plots”按钮,7。击OK(例见DATA05-11),第五节 平均数分析(Mean),Mean过程可用于分组计算各描述统计量。,1。打开数据文件,2。选择Analyze-Compare Means-Means,3。确定因变量,4。确定自变量即分组变量,5。确定分组变量的控制层次,6。击OK按钮(data02-01),第六节 多选项分析,第四章 相关与回归分析,第一节 概 述,一、相关分析,二、回归分析,三、相关与回归的区别,第二节 相关分析过程,一、两个变量的相关分析,执行步骤:,1。建立数据文件;,2。选择Analyze-correlate-Bivariate,展开下一级,对话框;,3。选择分析变量置于Variable框中;,4。选择相关分析方法:,(1)Pearson,隐含定义,连续变量选该方法;,(2)Kendalls,有序变量选该方法;,(3)spearman,5。确定显著性水平是单尾或双尾;,6。击OK。,年份,总收入X(亿元),零售总额Y(亿元),91,39,20,92,45,22,93,52,26,94,63,34,95,70,36,96,80,38,97,85,40,例1:某地国民总收入和社会商品零售总额,例2:10名学生两门课程的名次排列(data10-03),Rank1:第一科名次,Rank2:第二科名次,编号,H,W,V,1,135.1,32.0,1.75,2,146.5,33.5,2.5,3,167.8,41.5,2.75,4,148.5,37.2,2.25,5,153.3,41.0,2.75,6,153.0,32.0,1.75,7,155.1,44.7,2.75,8,149.9,33.9,2.25,9,158.2,37.5,2.00,二、偏相关分析:偏相关分析是研究两个变量之,间关系时控制可能对其产生影响的变量。,执行步骤:,1。建立数据文件(data10-04);,2。选择Analyze-correlate-Partial,展开下一级,对话框;,3。选择分析变量置于Variable框中;,4。确定控制变量置于Controlling框中;,5。击OK,第三节 回归分析过程,(Regression),一、线性回归过程(Linear),(一)执行步骤:,1。建立数据文件;,2。选择Analyze-Regression-Linear,展开下一级,对话框;,3。定义因变量置于Dependent框中;,4。定义自变量置于Independent框中;,5。选择变量分析方法Method;,6。根据需要击Statistics按钮;,7。根据需要击Plots按钮;,7。根据需要击Save按钮;,8。根据需要击Option按钮;,9。击OK。,(二)举例,例1:试研究人均国民收入(X)对人均消费额,(y)产生的影响。,1、建立数据文件(数据参见例4),2、绘制散点图,选择Graph-Scatter,选Simple;,击Define按钮,定义Y与X,从图中可看出X与Y,之间 呈现线性关系;,3、选择Analyze-Correlate-Bivariate,进行相关分析;,4、选择Analyze-Regression-Linear,进行回归分析;,二、曲线配合过程(Curve Estimation),有时若不能马上根据观测数据确定一种最佳模,型,可以利用曲线配合过程在众多的回归模型中来,建立一个简单而又比较合适的模型。,利用曲线配合过程可以方便地进行线性拟合、,二次拟合和三次拟合,并从各自的 以及生,成的图形进行比较,从而确定较佳的模型。,(一)曲线配合过程的一般步骤,1。建立数据文件;,2。选择Analyze-Regression-Curve Estimation,,展开下一级对话框;,3。定义因变量置于Dependent框中;,4。定义自变量置于Independent的Variable框中;如,果自变量为时间,则相应选“Time”;,5。选择一个或多个拟合模型 Model;,6。某些选择项的确定;,7。击OK;,8。对结果进行分析。,(二)举例,例1:某产品产量1989-1999年资料如下:,年份,89,90,91,92,93,94,95,96,97,98,99,产量,345,380,405,440,480,520,565,610,660,710,760,通过比较,可判断二次曲线较优。,例2:储蓄与居民收入模型的曲线分析,三、二项逻辑回归(Binary Logistic),当因变量只是具有两种属性的变量时(如变量,取值为0或1),可采用二项逻辑回归。,Logistic模型方程如下:,Ln(P/(1-P)=B0+BiXi,其中:P表示出现1的概率,1-P表示出现0的概率。,T,GAP,TUCH,PSI,LG,T,GAP,TUCH,PSI,LG,1,2.66,20,0,0,17,2.75,25,0,0,2,2.89,22,0,0,18,2.83,19,0,0,3,3.28,24,0,0,19,3.12,23,1,0,16,2.74,19,0,0,32,2.39,19,1,1,例1:某课程用PSI新教学方法的效果评价研究,现要分析GAP、PSI、TUCH对LG的影响。,步骤:,1。建立数据文件;,2。选择Analyze-Regression-Binary Logistic,,展开下一级对话框;,3。定义因变量LG置于Dependent框中;,4。定义共变变量即自变量GAP、PSI、TUCH置于,Covariates框;,5。定义共变变量进出模型的筛选方法为Enter;,6。根据需要击Option按钮;在Display 框中选,At last step项,要求只显示最终计算结果;,7。击OK。,例2:某医师研究男性胃癌患者发生术后院内感染,的影响因素,试通过Logistic回归对主要影响因素,进行分析。数据结构为:,Y 术后有无感染(有为Y,无为N),X1年龄,X2 手术创伤程度,X3 营养状态,X4 术前预防性抗菌(有为Y,无为N),X5 白细胞数,X6 癌肿病理分度,步骤:,1。建立数据文件;,2。选择Analyze-Regression-Binary Logistic,,展开下一级对话框;,3。定义因变量Y置于Dependent框中;,4。定义共变变量即自变量X1、X2、X3、X4、X5、,X6置于 Covariates框;,5。定义共变变量进出模型的筛选方法为Forward:,Conditional;,6。击Option按钮,在Display 框中选 At last step,项,要求只显示最终计算结果;,7。击OK。,五、非线性回归(Nonlinear),以某商品销售额与广告费支出的关系分析为例,对不同城市的15家商场有关化妆品销售额Y与,广告费支出X的调查资料如下:,Y,20,25,24,30,32,40,28,50,40,70,48,39,42,65,56,X,0.2,0.3,0.2,0.4,0.35,0.48,0.3,.58,0.43,0.6,0.55,0.42,0.4,0.58,0.51,1。建立数据文件(例5),2。作散点图:击Graph-Scatter-Simple-Define,选Y进入Y Axis,X进入Axis,单击OK,从图中可,见呈现指数曲线关系。,3。非线性回归分析,(1)选Analyze-Regression-Nonlinear,(2)选Y进入Dependent框中,(3)击Parameters按钮,输入初始值a=1 b=1 击 Continue按钮;,(4)在Model Expression中输入指数曲线模型,a*b*x;,(5)击OK,又例如:有10个售货员训练的天数和工作业绩,(分数)的资料,试进行回归分析。,NO,训练天数X,工作业绩Y,1,1,45,2,1,40,3,2,60,4,2,62,5,3,75,6,3,81,7,4,115,8,5,150,9,5,145,10,5,148,第五章 聚类分析,第一节 概 述,一、聚类分析的基本概念,1。距离和相似系数,研究样品间的关系常用两种方法:,一种是距离法。它将每一样品看成为m维空间的一个点(m是样品的指标个数),这样就将研究样品间的关系变为研究m维空间中点与点之间的关系。,而点与点之间的关系常用距离来表示,并根据点与点间的距离进行分类,即将距离较近的点归为一类,而将距离较远的点归为不同的类。,另一种是相似系数法。相近样品的相似系数接近1(或-1),而彼此无关的样品的相似系数接近于0,这样就可以根据样品的相似系数的值分为不同的类。,聚类分析实质上是寻找一种能客观反映元素之间亲疏关系的统计量,然后根据这种统计量把元素分成若干类。常用的聚类统计量有距离系数和相似系数2类。距离系数一般用于对样品分类,而相似系数一般用于对变量聚类。距离的定义很多,如极端距离、明考斯基距离、欧氏距离、切比雪夫距离等。相似系数有相关系数、夹角余弦、列联系数等。,2。Q型聚类(即样品聚类)和R型聚类(即变量聚类),3。分层聚类分析和快速样本聚类分析,分层聚类法:先将个元素(样品或变量)看成类,然后将性质最接近(或相似程度最大)的2类合并为一个新类,得到n-1类。再从中找出最接近的2类加以合并变成了n-2类。如此下去,最后所有的元素全聚在一类之中。,快速样本聚类分析:这种方法是先将样品做一个初始的分类,然后按照某种最优的原则逐步调整,一直到调整的分类比较合理为止。,第二节 聚类分析过程,一、分层聚类过程,(一)步骤:,1。建立数据文件,2。选择Analyze-Classify-Hierarchical Cluster,3。指定分析变量,4。指定标识变量,5。选择聚类的类型,6。若参与分析变量的量纲一致,可按系统默认值,提交系统运行,击OK。,可根据需要选择下列步骤:,1、确定聚类方法,击Method按钮,(1)聚类方法的选择,(2)关于Measure的指定,(3)选择数值标准化转换方法,(4)选择测度的转换方法,2、选择要输出的统计量,击Statistics按钮,3、选择统计图输出,击Plot按钮,(二)一维聚类分析,有某家族14位成员的年龄:1,3,5,8,9,11,12,13,37,43,45,49,51,65。是否可以把他们的年龄区分为有意义的群体?,1。建立数据文件data05-16,2。选择Analyze-Classify-Hierarchical Cluster,3。指定分析变量age,4。指定标识变量no,5。选择聚类的类型case,6。击OK。,(三)多维变量的聚类分析,例1:家庭消费支出的聚类分析,例2:一组有关瓶装啤酒的数据,共有20种啤,酒,每一种啤酒有4个指标,要求根据啤酒的,成分含量及价格对其进行分类。,数据见data14-02。,二、快速样本聚类过程(K-mean Cluster),若在分类数已知、初始聚心已知的情况下,采用,快速样本聚类过程。,例1:(以研究生录取分析数据为例),(一)对前70个样本采用分层聚类过程处理,在得,到分类的基础上计算聚心。,1。建立数据文件;,2。对数据进行标准化处理;,3。选择个案;,4。选择Analyze-Classify-Hierarchical Cluster;,5。指定分析变量ZGPA、ZGMAT;,6。指定标识变量NO;,7。选择聚类的类型(CASE);,8。确定聚类方法(默认值);,9。选择要输出的统计量,击Statistics按钮,10。选择统计图输出,击Plot按钮,11。击Save按钮,保存建立的新变量;,12。击OK,13。用分类汇总计算类聚心;,(二)对后16个样本采用快速样本聚类过程处理:,1。打开数据文件(标准化后);,2。选择后16个样本;,3。选择Analyze-Classify-K-mean Cluster;,4。指定分析变量ZGPA、ZGMAT,确定分类数为3,,使用默认的聚类方法;,5。击Centers 按钮,选择Read initial from项,击 File,按钮,从指定的数据文件中读入初始聚心;,6。击Save按钮,选择所有选项;,7。击Options按钮,选择所有统计量选项;,8。击OK。,例2:数据来自data14-01,已知NO=9、8、4、6的,四名运动员分别是蝶、仰、蛙、自由泳四种姿势成,绩突出者,以这四个观测量作为初始聚心进行聚类。,第六章 判别分析,第一节 概 述,一、判别分析的基本概念,二、建立判别函数的方法,三、判别分析的基本步骤,对于分为K组的研究对象,可建立K-1个典则判,别函数和K个Fisher线性判别函数,然后将各样品的,自变量值回代到判别函数中,计算其判别分数或属,于各组的概率,根据数值大小判别样品所属组别,,对比样品的原始组别给出错分率。,第二节 判别分析过程(Discriminant),操作步骤:,1。建立数据文件;,2。选择Analyze-Classify-Discriminant;,3。定义组变量;,4。定义自变量;,5。选择分析方法(隐含定义为用所选择的全部自变,量建立判别模型);,6。击Statistics按钮、Classify按钮、Save按钮,在,各自的下一级对话框中进行选择;,7。击OK。,第三节 实例分析,例1:研究生录取分类判别分析,例2:统计学常用的实例,三种鸢尾花的分类。,数据见DATA14-04。,例3:为研究舒张压X1和胆固醇X2对冠心病的作用,,某医生测定了5059岁冠心病人15例和正常人16例的,舒张压和胆固醇指标,数据见data12-18,试作判,别分析,建立判别函数以便在临床中用于筛选冠心,病人。,第七章 主成份分析与因子分析,第一节 概 述,一、主成份分析,假设有n个样本,每个样本测得P项指标,由于,这P项指标之间往往具有相关性,如何从这P项指,标中找出少数几个综合指标,使其尽可能多地反,映这P项指标的信息,而且彼此之间不相关,主成,份分析给出了最好方法。,主成份分析(Principal Components Analysis)是研究如何将多个变量指标间的问题化为较少的几个新指标问题。这些新的指标是彼此既互不相关,又能综合反映原来多个指标的信息,是原来多个指标的线性组合。,多指标的主成份分析常被用来寻找判断某种事物或现象的综合指标,并给综合指标所蕴藏的信息以恰当解释,以便更深刻地揭示事物内在的规律。,这种处理问题的方法就称为主成份分析或主分量分析,综合后的新指标则称为原来指标的主成份或主分量。主分量分析还可用于揭示变量间的共线性。,主成份的几何意义,为了理解方便,我们在二维空间中讨论主成份的几何意义。,设有n个样品,每个样品有两个观测变量x1和x2,在由变量x1和x2所确定的二维平面中,n个样本点所散布的情况如带状,见图8-1a。由图可以看出这n个样本点无论是沿着x1轴方向或x2轴方向都具有较大的离散性.,其离散的程度可以分别用观测变量x1的方差和x2的方差定量地表示。显然,如果只考虑xl和x2中的任何一个,那么包含在原始数据中的信息将会有较大的损失。,二、因子分析,因子分析是主成份分析的推广,是根据相关性,大小把变量分组,使得同组内的相关性较强,不,同组的变量间相关性较低。对于每一个变量可用,最少个数的公共因子的线性函数与特殊因子之和,来描述。,第二节 主成份分析与因子分析过程,基本步骤:,1。建立数据文件;,2。选Analyze-Data Reduction-Factor,展开对话框;,3。指定参与分析的变量置于Variable框;,4。Factor过程的选择项的指定:,(1)Descriptive按钮,对描述统计量的选定;,该子对话框中的选择包括两组,即统计量组和相关,矩阵组。,(2)Extraction按钮,因子提取子对话框;,(3)Rotation按钮,旋转方法选择子对话框;,(4)Score按钮,有关因子得分的选择项;,5。击OK,二、实例分析(经济效益综合评价分析),(一)主成份分析,1。建立数据文件(DATA12-16);,2。选Analyze-Data Reduction-Factor,展开对话框;,3。指定参与分析的变量X1、X2、X3、X4、X5、,X6、X7置于Variable框;,4。击Descriptive按钮,对描述统计量的选定;,5。击Extraction按钮,进行选择;,6。击OK。,(二)综合评价,计算各企业在各主成份上的得分和综合得分,然,后排序,进行综合评价。,
展开阅读全文