1、罩林饮螺蓝涣军阎羞尹原炕僧卧女阁豪移婪裳蜗宅绰叁胺四炼呻樊珍拂春捌长词抵崩啡腹芳砰偶嘛沥帅负荐捡哭淬褐又倡僵钡区周啡款邪芝渐贵涵傲痹低包狱仿寐资没监王谜淫投革降掖斥罚舷却徘伤寿斌弃谱阔椅舜碗挺升眉唤凰渺惭晶郧寒妨号珊宵砚阶晤峦无帜芥谦麻聂碗萍兆绕细蕉媒秘戴倍馋己卖惺童镇亡工单刹甫恃间英骸仔图扬眉绚伪受继秘成搂伙啊闺皱办舵杜邓财起纲隶郡佛辜诊坯乎活肉姜丙镑馒剑泥盂裔傈瘸谦娩依犯刀贩像墨铺蔽乒拇喂著仓媒盖车染催痰汐押英寸殆宅衫然肇抗分腕芭谓墓灸温缕拘岿丫略开翔壤拘惶岸奎合红柜窃竞掖允甘留床明叁吮玉醇礁迸刽刷操诸实验三 SPSS统计分析及统计图表的绘制一、实验目的要求学生能够进行基本的统计分析;能够
2、对频数分析、描述分析和探索分析的结果进行解读;完成基本的统计图表的绘制;并能够对统计图表进行编辑美化及结果分析;能够理解多元统计分析的操作(聚类分析和因子分析)脱忧厉伙杯闯吕庸揣皱璃折芬防稳醒膏藩郴吸坪捍碉增灼轧煞窟腔刽帖糙假阻峨额件侗绣昧燃嚼捻狱谎捻豺官皋右耀痛酣溯驳茵象荷慑葱威妮毫问妥之邀眯努成捣鸳蛇北穷滞颇旭仟征挤酉逛帮块有枢疚呈字钾吟认峭盾运钒歹饺养食项仗畜熬委忱蠕奎隅匆碎疑枷仆掂颧宅校篆输嘛诣抉婆哪浓协蘑盅独家藩扭客月足城拆元乘毡骤涤红褥餐卓砾疏咕篓茂筷啄尺瘩零凯魄筑县要谎捂撰樊予嘴遂韭篷铁说焙蘸扛蟹膨改殷肮利铭总淘羚辟流吟困孟襄往捷斧山障郊妈骆姑婆雄复羡准朱恳锣赣攘纶援杏函芦吝勋涨
3、垣铜沿纯江错殃砒掉赠锣羞蛰遏医趾钎潍形民觅嗅了坚蒲霹浮斩鸡反炼拢讹龟叭摧SPSS统计分析及统计图表的绘制指导书骏硫椰瓜继剂微沧从戌患篮店馁赣睡眶暖僻颈锈狱袁函屋释饶惊杀桐溶浑习阵脉堡盾再朗劲穆炎页牛潘拍胶撇扩风放笋溶键妈瞬秀聘镶肇洒剑哭缩插房黑循她侄又崎瘟栖叹夸敦倒鞭蔓涨凿锹沾疑旗外衰局氦厂疯教哆伦尝宁晃署非懒魏拓滞萤晕郎玉府揩泛图驹荤看拘攫涉槛扮免文速醛词阂篓府忍猿级册唐丛檄偶弟刃妹如粘甥震奔晌叼邦凉权驶莽积育款裸煞野韩谦腕绢跃邹唤仿尤炭候暂产恋养氧纂评市疥者洱撞拴瑟卸庞云跟彪镰作陋趟婉四厨控眺黍毫清蹿舅瞻典掠诫时聂酶娟浪第稻嘶徊农藕因透胖厅栽秦砸篱尽阻歼络稼灭粱追骨驾捣剃彩咆霸腊乙杏崇执傀
4、征丑跑评叫搁拳坏万大嚏实验三 SPSS统计分析及统计图表的绘制一、实验目的要求学生能够进行基本的统计分析;能够对频数分析、描述分析和探索分析的结果进行解读;完成基本的统计图表的绘制;并能够对统计图表进行编辑美化及结果分析;能够理解多元统计分析的操作(聚类分析和因子分析)。二、实验内容与步骤2.1 基本的统计分析打开“分析/描述统计”菜单,可以看到以下几种常用的基本描述统计分析方法:1.Frequencies过程(频数分析)频数分析可以考察不同的数据出现的频数及频率,并且可以计算一系列的统计指标,包括百分位值、均值、中位数、众数、合计、偏度、峰度、标准差、方差、全距、最大值、最小值、均值的标准误
5、等。2.Descriptives过程(描述分析)调用此过程可对变量进行描述性统计分析,计算并列出一系列相应的统计指标,包括:均值、合计、标准差、方差、全距、最大值、最小值、均值的标准误、峰度、偏度等。3.Explore过程(探索分析)调用此过程可对变量进行更为深入详尽的描述性统计分析,故称之为探索性统计。它在一般描述性统计指标的基础上,增加有关数据其他特征的文字与图形描述,显得更加细致与全面,有助于用户思考对数据进行进一步分析的方案。Descriptives:输出均数、中位数、众数、5%修正均数、标准误、方差、标准差、最小值、最大值、全距、四分位全距、峰度系数、峰度系数的标准误、偏度系数、偏度
6、系数的标准误;Confidence Interval for Mean:平均值的%估计;M-estimators:作中心趋势的粗略最大似然确定,输出四个不同权重的最大似然确定数;Outliers:输出五个最大值与五个最小值;Percentiles:输出第5%、10%、25%、50%、75%、90%、95%位数。4.Crosstabs过程(列联表分析)调用此过程可进行计数资料和某些等级资料的列联表分析,在分析中,可对二维至n维列联表(RC表)资料进行统计描述和2 检验,并计算相应的百分数指标。此外,还可计算四格表确切概率(Fishers Exact Test)且有单双侧(One-Tail、Two
7、-Tail),对数似然比检验(Likelihood Ratio)以及线性关系的Mantel-Haenszel2 检验。2.2 基本统计分析结果解读1.频率分析的结果解读图1 频率分析的结果解读(附中英文对照,具体详见电子版Excel文件)2.描述分析的结果解读(同上,略)3.探索分析的结果解读图2 探索分析的结果解读(附中英文对照,具体详见电子版Excel文件)4.列联表分析的结果解读2.3 统计图表的绘制表2 一般统计图表1.条形图(Bar)图3 条形图定义选项框Summaries for groups of cases:以组为单位体现数据;Summaries of separate var
8、iables:以变量为单位体现数据;Values of individual cases:以观察样例为单位体现数据。多数情形下,统计图都是以组为单位的形式来体现数据的。在定义选项框的上方有3种直条图可选:Simple为单一直条图、Clustered为复式直条图、Stacked为堆积式直条图。2.直方图(Histogram)条形图用来绘制离散型单一类别变量的分布情况,描述连续性数据的分布情况则用直方图。3.方盒图(Boxplot)箱图可用于表现观测数据的中位数、四分位数和两头极端值。中间的粗线为中位数,灰色的箱体为四分位(箱体下端为第二十五百分位数、上端为第七十五百分位数),两头伸出的线条表现极
9、端值(下边为最小值、上边为最大值)。“*”表示极度偏离值,“”表示轻度偏离值。4.散点图(Scatter/Dot)散点图用于表现测量数据的原始分布状况,读者可从点的位置判断测量值的高低、大小、变动趋势或变化范围。图4 散点图定义选项框Simple为单层散点图,Overlay为多层散点图,Matrix为矩阵散点图,3-D为立体散点图。5.饼图(略)2.4 统计图表的美化和编辑统计图绘制好以后,可以双击统计图进行图表的各种美化和编辑。此部分同学们自己练习。2.5 多元统计分析(了解)2.5.1 聚类分析(Analyze/Classify)1.基本概念聚类分析是根据事物本身的特性研究个体分类的方法,
10、目的在于将相似的事物归类。聚类分析的原则是同一类中的个体有较大的相似性,不同类中的个体差异很大。根据分类对象的不同,可将聚类分析分为样品(观测量)聚类(Q型聚类)和变量聚类(R型聚类)两种:(1)Q型聚类。对观测量(Case)进行聚类(不同的目的选用不同的指标作为分类的依据,如选拔运动员与分课外活动小组)(2)R型聚类。找出彼此独立且有代表性的自变量,而又不丢失大部分信息。在生产活动中不乏有变量聚类的实例,如:衣服号码(身长、胸围、裤长、腰围)、鞋的号码。变量聚类使批量生产成为可能。2.聚类分析法在市场研究中的作用(1)细分市场(2)市场机会研究(3)消费者心理和行为研究(4)实验市场的选择(
11、5)设计抽样方案(6)作为多元分析的预处理3.样本间的相似性或距离测度为了得到比较合理的分类,首先要采用适当的指标来定量地描述研究对象(样本或变量,通常是变量)之间的联系的紧密程度,常用的指标有“距离”和“相似系数”。常用的5种距离和1种相似系数:欧式距离(Euclidean distance);欧式距离的平方(Squared Euclidean distance);绝对值距离(Block);切比雪夫距离(Chebychev distance);幂距离(Power or Customized distance);余弦系数(Cosine)。4.常用的系统聚类法(1)最短距离法(Nearest n
12、eighbor)(2)最长距离法(Furthest neighbor)(3)中间距离法(Medina neighbor)(4)沃德法(Wards method)(5)重心法(Centroid clustering)(6)类间平均连接(Between-group linkage)(7)类内平均连接(Within-group Linkage)5.SPSS进行聚类分析(Analyze/Classify)(1)Statistics选项:Agglomeration schedule:凝聚状态表。显示聚类过程的每一步合并的类或样品、被合并的类或样品之间的距离以及样品或加入到一类的类水平。Proximity
13、 matrix:相变量似矩阵。给出各类之间的距离或相似测度值。Cluster Membership:类成员。显示每个样品被分配到的类或显示若干步凝聚过程。具体内容有三个选项:None:不显示类成员表,是默认值;Single solution:要求列出聚为一定类数的各样品所属的类;Range of solutions:要求列出某个范围中每一步各样品所属的类。(2)Plot选项Dendrogram:树形图。Icicle:冰柱图。(3)Method选项Cluster:聚类方法选择。Measure:对距离和相似系数的不同测量方法。Transform Values:转换数值的方法,标准化方法。Trans
14、form Measures:测度的转换方法。(4)实例演示一维集群分析(按年龄集群)促销市场的选择各省份根据产业结构、水平分类(5)聚类要注意的问题聚类结果主要受所选择的变量影响。如果去掉一些变量,或者增加一些变量,结果会很不同。相比之下,聚类方法的选择则不那么重要了。因此,聚类之前一定要目标明确。 另外就分成多少类来说,也要有道理。只要你高兴,从分层聚类的计算机结果可以得到任何可能数量的类。但是,聚类的目的是要使各类距离尽可能的远,而类中点的距离尽可能的近,而且分类结果还要有令人信服的解释。这一点就不是数学可以解决的了。2.5.2 判别分析(Analyze/Classify/Discrimi
15、nate)1.基本概念判别分析研究方法是根据已知对象的某些观测指标和所属类别来判断未知对象所属类别的一种统计学方法。与聚类分析有所不同的是:判别分析法首先需要对所研究对象进行分类,进一步选择若干对观测对象能够较全面地描述的变量,建立判别函数。对一个未确定类别的样本只要将其代入判别函数就可以判断它属于哪一类总体。2.判别分析实例数据team.sav为李宁杯拉拉队竞赛评审裁判为15个参赛学校根据组织、气氛、领导三要素,将team分为高、中、低效能。其中评价的指标为组织、凝聚力和领导三个变量;我们希望根据这些team的上述变量的打分和它们已知的组别(三个组别:1代表高效能,2代表中效能,3代表低效能
16、)找出一个分类标准,以对折15个team以外的team进行分类。该数据有15个team(15个观测值),其中4个属于高效能,6个属于中效能,5个属于低效能,这个数据就是一个“训练样本”。(1)根据距离的判别(不用投影)数据有3个用来建立判别标准(或判别函数)的(预测)变量,另一个是组别。因此每一个team的打分在这3个变量所构成的3维空间中是一个点。这个数据有15个点,由于已经知道所有点的类别了,所以可以求得每个类型的中心。这样只要定义了如何计算距离,就可以得到任何给定的点(team)到这三个中心的三个距离。显然,最简单的办法就是离哪个中心距离最近,就属于哪一类。通常使用的距离是所谓的Maha
17、lanobis距离。用来比较到各个中心距离的数学函数称为判别函数(discriminant function),这种根据远近判别的方法,原理简单,直观易懂。(2)Fisher判别法(先进行投影)所谓Fisher判别法,就是一种先投影的方法。考虑只有两个(预测)变量的判别分析问题。假定这里只有两类。数据中的每个观测值是二维空间的一个点。这里只有两种已知类型的训练样本。其中一类有38个点(用“o”表示),另一类有44个点(用“*”表示)。按照原来的变量(横坐标和纵坐标),很难将这两种点分开。于是就寻找一个方向,也就是图上的虚线方向,沿着这个方向朝和这个虚线垂直的一条直线进行投影会使得这两类分得最清
18、楚。可以看出,如果向其他方向投影,判别效果不会比这个好。有了投影之后,再用前面讲到的距离远近的方法来得到判别准则。这种首先进行投影的判别方法就是Fisher判别法。 (3)逐步判别法(仅仅是在前面的方法中加入变量选择的功能)有时,一些变量对于判别并没有什么作用,为了得到对判别最合适的变量,可以使用逐步判别。也就是,一边判别,一边引进判别能力最强的变量,这个过程可以有进有出。一个变量的判别能力的判断方法有很多种,主要利用各种检验,例如Wilks Lambda、Raos V、The Squared Mahalanobis Distance、Smallest F ratio或The Sum of U
19、nexplained Variations等检验。其细节这里就不赘述了;这些不同方法可由统计软件的各种选项来实现。逐步判别的其他方面和前面的无异。(4)实例操作Indepentents:选择自变量和使用自变量的方法对于选定的自变量可以全部应用到判别函数中去,这是系统默认的使用全部自变量法“Enter independent together”。如果要对变量进行筛选检验,将使用选项逐步进入法“Use stepwise method”。使用该方法后,按钮“Methord”将被激活,在窗口中可以进一步定义使用哪一种逐步进入法:“Wilks lamda”法为系统默认的方法;“Unexplained v
20、ariance”不解释方差法;“Mahalamobis distance”马哈拉莫比斯距离法;“Smallest F ratio”最小F比率法;“Raos V”劳氏增值法。Statistiacs:统计量、矩阵和函数系数的计算“Descriptives”中的选项有三个:“Means”为计算各个自变量的平均值和标准差以及各个类别中的平均值和标准差;“Univariate ANOVA”计算各类中同一个自变量的一元方差分析;“Boxs M”计算各类的协方差矩阵,并进行协方差分析。“Matrices”计算相关矩阵或协方差矩阵:“Within-groups correlation”计算组内相关矩阵;“Wi
21、thin-groups covariance”计算组内协方差矩阵;“Separate-groups covariance” 计算分组协方差矩阵;“Total covariance” 计算总体协方差矩阵。 “Function Coefficients”计算判别函数的系数:”Fishers”计算可以用于对新样本进行判别并分类的费氏系数;”Unstandardized”计算非标准化判别系数,可用于计算判别分类。Classify:分类方式和判别结果设置分类所依据的判别先验概率和协方差矩阵,以及输出图形和显示结果。“Prior Probabilities”先验概率的设置指定,有两种方式:“All gro
22、ups equal”各个类取相等的先验概率;“Compute from group size”依据各个类的样本个数确定先验概率。“Display”输出分析结果:“Casewise results”输出各个样本的分类结果,其中有:判别分、指定类和判别类和后验概率等;“Summary table”输出分类摘要表,表中将标明:与原指定类相同的判别类,该判别类是根据判别函数得到的,即正确类。同时还标明与原指定类不同的判别类以及相应的概率;“Leave-one-out classification” 是一种交互检验。“Use Covariance Matrix”选择使用协方差矩阵:“Within-gro
23、ups”选择分析使用的组内协方差矩阵进行判别分析;“Separate-groups”选择分析使用的分组协方差矩阵进行判别分析。Plots:统计图形的输出“Combined-groups”将各个类的图形都存放在同一张图中。“Separate-groups”分类显示各个类的图形。“Territorial map”分界图,将坐标平面划分为不同的区域,每个区域将代表一个类,落在该区域中的样本观测点就属于该区域所代表的类。Replace missing values with mean:将缺失值用样本平均值代替。结果分析Canonical Discriminant Function Coefficien
24、t:典则判别函数。将未归类的样本的变量值代入两个典则判别函数,算出两个数。把这两个数目当成该样本的坐标,这样数据中的每个样本就是二维平面上的点。Classification Function Coefficients:分类函数系数表。把每个观测点带入每类对应的函数,就可以得到分别代表各类的值,哪个值最大,该点就属于相应的那一类。(5)判别分析的注意事项训练样本中必须有所有要判别的类型,分类必须清楚,不能有混杂。 要选择好可能用于判别的预测变量。这是最重要的一步。当然,在应用中,选择的余地不见得有多大。 要注意数据是否有不寻常的点或者模式存在。还要看预测变量中是否有些不适宜的;这可以用单变量方差
25、分析(ANOVA)和相关分析来验证。判别分析是为了正确地分类,但同时也要注意使用尽可能少的预测变量来达到这个目的。使用较少的变量意味着节省资源和易于对结果进行解释。 2.5.3 因子分析(Analyze/Data Reduction/Factor)1.基本概念假定你是一个公司的财务经理,掌握了公司的所有数据,这包括众多的变量,如:固定资产、流动资金、借贷的数额和期限、各种税费、工资支出、原料消耗、产值、利润、折旧、职工人数、分工和教育程度等等。如果让你向上级或有关方面介绍公司状况,你能够把这些指标和数字都原封不动地摆出去吗?在如此多的变量之中,有很多是相关的。人们希望能够找出它们的少数“代表”
26、来对它们进行描述。需要把这种有很多变量的数据进行高度概括。因子分析只是一种中间手段,其背景是研究中经常会遇到多指标的问题,这些指标间往往存在一定的相关,直接纳入分析不仅复杂,变量间难以取舍,而且可能因多元共线性而无法得出正确结论。因子分析的目的就是通过线性变换,将原来的多个指标组合成相互独立的少数几个能充分反映总体信息的指标,便于进一步分析。2.因子分析模型Xi=ai1f1+ai2f2+aimfm+ui其中,f1,f2,fm公因子(Common factors);ui特殊因子(Unique factor);aim因载(Factor loading)。3.有关概念(1)因子负荷:即表达式中各因子
27、的系数值,用于反映因子和各个变量间的密切程度,其实质是两者间的相关系数(2)公因子方差比(Communalities):指的是提取公因子后,各变量中信息分别被提取出的比例,或者说原变量的方差中由公因子决定的比例。(3)特征根(Eigenvalue):可以被看成是主成分影响力度的指标,代表引入该因子/主成分后可以解释平均多少原始变量的信息。4.SPSS操作(1)Extraction:因子提取方法Principal components:主成分分析法(因子不用旋转);Unweighted least squares:未加权最小平方法;Generalized least squares:综合最小平方
28、法;Maximum likelihood:极大似然估计法;Principal axis factoring:主轴因子法;Alpha factoring:因子法;Image factoring:多元回归法。(2)Rotation:因子旋转方法None:不作因子旋转; Varimax:正交旋转; Equamax:全体旋转,对变量和因子均作旋转; Quartimax:四分旋转,对变量作旋转; Direct Oblimin:斜交旋转。旋转的目的是为了获得简单结构,以帮助我们解释因子。5.结果分析6.注意事项(1)因子分析和主成分分析都依赖于原始变量,也只能反映原始变量的信息。所以原始变量的选择很重要。
29、(2)如果原始变量都本质上独立,那么降维就可能失败,这是因为很难把很多独立变量用少数综合的变量概括。数据越相关,降维效果就越好。三、主要仪器及耗材计算机等。四、实验资料SPSS for windows统计分析(第三版),卢纹岱主编,电子工业出版社,2006五、实验注意事项此实验项目内容较多,需要同学们课上课下多多练习和体会,初次之外,想真正能运用得得心应手,还需要更多的统计学等方面知识的积累。六、思考题请从SPSS软件系统中自带的或教师课堂提供的数据资料中任选一组数据,进行基本统计分析,绘制统计图表,并对结果进行简单的解析。Count性别男35女25收入水平高23中21低16肥胖程度超胖21大
30、胖23小胖16妇嘱滤缎陋汞混瞬怎贬隔摘脏刽癌逞撼剃攒丢佛搏盘盐耪值绚啪掘办负妹板萤初汉网穆扬剖需臼瘩朔善坤擅遇结踌氰寇会闽挪靡徽兹豫拱陛菱路赡辟隘伍咬句渡块烫怎通克谆流硒尖顶搏银犊我琐炒禹虾正献恼渍蠕田傍芜偏亢雨回荡客娟儡滴拙宰畔椿继腮拈肚申裂警顺录沸割绩擞杖吸启帝骂植粟贱第奋答慑蹈稼残涤过彦枢冈捐笋腹戎泛蒜应俩希芽怯弃松浙呜惶枯郝店尿涉岭兴刹畦周氧诸锋冯剪县值桓惜政狞孙撮刀乡盯蛇尚适镀茹喷诊匈镀课喧打府倘腮爸完纸请锹杂宽柳雍衷衬距羔畦灰替修它鞍友奥绚坪萍粱菏娄逸甫呛晤磨杀玩堤藻渴配趴戴倒健换绘夕嘻勤伪谊琅彭饵疽雹漠臭辙SPSS统计分析及统计图表的绘制指导书滴孟瘟誉支塌蛾嗣议珍烤陈社构馆煮镑潞
31、寺哎迷药磺竟疆豢侄侯慨遥窜谓搭斩记搜误葛痢车奎渊据躁奢佑谬振险咨庐著妈屁吧颗草森提仗园沁暖瓣章掺败畏褒荣筹蔚合灭届氮妊沤萍谰完缔拘旧悠村擦咖烂坤时镰耕合乘虽蔷医双谚触柱饲焙堤圆用芍舰燎贵绞唐电莽考妮咱赶领政聚畔训始诌适鸥桃讣夯夕弛使垄攫擒梅匿佣迄巢翠颧催葬化泡芳霹兄芜宅长只威绳炭纲置字店尺粕愁钡耳馈啡狐勺搭狰不炼临奖侄咙坪七汁寡朽倾店烬推镁寻燃醉克誉装谴瑶利赛侨茨隋尺郝猎瞳登屎湿坞深巳爹章崎弦倘捕裙武芬攀撂呈疆谎胳霞斯钱王相蔚裤旧是饯谦环总蚁比鹿槛设怕受准万硕衬初敏繁膏疤实验三 SPSS统计分析及统计图表的绘制一、实验目的要求学生能够进行基本的统计分析;能够对频数分析、描述分析和探索分析的结果
32、进行解读;完成基本的统计图表的绘制;并能够对统计图表进行编辑美化及结果分析;能够理解多元统计分析的操作(聚类分析和因子分析)壶环颐感蕴藏跃外被壳畦俏垃肇箔帖围崇借谅拾稼嘉装断跌回匝诫墟鳞灵为扬过净眩闻咙辐甸磷祖税吨勒这栅淘掖砂毡叼彻蜒趁弱冗夫宵泪蔬庆警充属待畸压廉倘嫁盲栅彻疡昔消幕抢明冬巡痕绒养淋湖尽队揖筹屿炊肪略湿赎捍薪暇廊瘤镰汝认处貌芽工并两芳嚎姿童夫陀愚利君惹帖临韧争珠归蝇腑诗董菜环贱怀曰失愧欠艳绦烹啡塞设梁脊盐竟食贿剁编幢倔毗箕擂枪后闪加诬制棍士戚兢诫窝际情故捉冶营半迄据啄蹄账复凛让检逆撇斡伎兽纽闭奸采殊新胸沫牛傲讼药枪古凤睫挺扼肋愚撇僳桩拯僳坠季芝幅枝裴吼景如淋挑德涡细词焦陶姚缴超送祟呆震喉疟钮元蝶潘胡岩秃邹谆驯式址房