1、第1章 统计分析与SPSS软件概述习题与思考题(一)填空题1.定性数据,定序数据,定距数据,定比数据2.主成分分析,因子分析,聚类分析,判别分析,对应分析等3.数据清理,数据转换,缺失数据插补,数据的合并汇总拆分4.完全窗口菜单运行方式,程序运行方式5.SPSS Base(二)选择BADAD(三)判断(四)简答题1.目前常用的统计分析工具或软件有哪些?你使用过哪些?它们之间的区别在哪里?解:常用的统计分析工具有SPSS、SAS、STATA、Python等。2.试检查自己的SPSS软件共有几个模块,其中包括了哪些基本功能,并思考平时的统计分析需要哪些模块才能满足需要。 解:SPSS软件共有11个
2、模块,分别是SPSS Base、SPSS Advance、SPSS Categories、SPSS Complex Sample、SPSS Conjoint、SPSS Exact Test、SPSS Maps、SPSS Missing Value Analysis、SPSS Regression、SPSS Tables和SPSS Trends。其中SPSS Base是必需的,SPSS的整体框架、基本数据的获取、数据准备和整理等基本功能都集中在这一模块上,其他模块必须在该模块的基础上才能工作。3.阐述定性、定序、定距、定比数据,并各举1例。 解:定性变量又称为名义变量。这是一种测量精度最低、最粗
3、略的基于“质”因素的变量,它的取值只代表观测对象的不同类别,如“班级”。定序变量又称为有序变量、顺序变量,它取值的大小能够表示观测对象的某种顺序关系(等级、方位或大小等),也是基于“质”因素的变量,如“满意度”。定距变量又称为间隔变量,它的取值之间可以比较大小,可以用加减法计算出差异的大小,如“重量”。定比变量又称为比率变量,它与定距变量意义相近,差别在于定距变量中的“0”值只表示某一取值,定比数据变量表示“没有”,如“年龄”。4.sav,.spv,.sps分别是spss哪类文件的扩展名? 解:“.sav”是SPSS的数据文件的扩展名,“.spv”是SPSS的结果输出文件扩展名,“.sps”是
4、SPSS的程序文件扩展名。5.简述统计分析基本流程。任何一个数据分析项目,都要经过项目计划、数据获取与准备、概括性描述统计分析、探索性统计推断、统计模型精准分析和结果报告6个阶段。(1)项目计划的内容包括确定研究问题和研究对象、样本抽取方法、样本量、数据搜集方式、数据分析方法和分析工具、项目预算等内容。(2)按照项目计划搜集数据。(3)概括性描述统计分析阶段是对数据进行的初步探讨,是通过参数估计输出相关统计量,并辅以统计表或统计图,从而对数据的集中趋势、离散趋势、分布特征等信息有详细的了解。(4)探索性统计推断阶段,主要对数据进行深层次的分析尝试,通过探索分析、方差分析,相关分析等方法,对不同
5、变量数据的内在联系进行探讨,为后续的精准模型分析奠定基础。(5)统计模型精准分析阶段,选择最优的统计模型,寻求变量间数据信息的完美呈现和解释。(6)统计报告阶段将整个数据分析项目的结果以合适的方式表达出来,从而使得决策者或者读者快速理解和掌握核心内容,并能据此做出科学决策。第2章 数据的获取与管理习题与思考题(一)填空题1.查找和替换2.拆入变量3.计算变量4.原始数据组织方式,频数数据组织方式5.指定加权变量(二)选择题DDCDC(三)判断(四)简答题1.试述“个案排序”和“个案排秩”两种排序操作的区别。 解:“个案排序”操作会改变原有样本的排列顺序。“个案排秩”会在原有数据的基础上形成一个
6、新的变量,用于存储样本的秩序号。2.如何进行变量集的定义和使用? 解:变量集的定义在“实用程序”菜单中的“定义变量集”命令。变量集定义之后,在“实用程序”菜单中选择的“使用变量集”命令,在 “选择要应用的变量集”框中选择想要使用的变量集。3.简述数据排序在数据分析过程中的目的。 解:数据排序是数据整理的关键步骤,在很多的统计分析过程中,如数据文件的合并等,都需要先对原始数据按照一定的规则进行排序。排序后的数据文件更便于进行相关的统计分析。4.对于缺失值,如何利用SPSS进行科学替代?解:SPSS提供了5种缺失值的替代方式:序列平均值:用该变量的所有非缺失值的均数作替代。临近点的平均值:用缺失值
7、相邻点的非缺失值的均数作替代,取多少个相邻点可任意定义。临近点的中间值:用缺失值相邻点的非缺失值的中位数作替代,取多少个相邻点可任意定义。线性插值:用缺失值相邻两点的非缺失值的中点值作替代。临近点的线性趋势:用线性拟合方式确定替代值。5.在计算数据的加权平均数时,如何对变量进行加权? 解:数据的加权在“数据”菜单中的“个案加权”命令,其中,“不对个案加权”项表示不作加权,是SPSS系统默认选项,也可用于取消加权操作;“个案加权依据”项表示选择一个变量作加权变量。案例分析题1.根据下述调查问卷中的题目,完成变量的设置和编码。“4.请问您的家庭月收入: a.3000以下 b.30004999 c.
8、50006999 d.70009999 e.10000以上”2.请根据下列数据建立SPSS数据文件,并完成相关数据操作。表2-2 数据ID年龄体重(公斤)性别12569.0男22768.5男31948.3女42951.6女51945.9女62270.5男72348.6女82266.7男92467.3男102650.2女(1)请采用多种方法根据体重指标值对样本进行排序(升序排列)。升序排列方式1:方式2:(2)对“性别”变量设置变量值标签,使其对应0和1值。3.现有自由格式的文本文件,其中包含4个样本,每个样本为一行,每个样本测度6个指标,如下所示,请将文本文件数据信息导入到SPSS软件中,并对
9、数据文件进行保存。 23;45;3;46;65;12 46;89;56;12;4;1355;1;23;61;41;2041;20;61;20;1;30第3章 描述统计分析及SPSS实现习题与思考题(一)填空题1.探索分析2.分析-描述统计-描述3.离散程度4.均值、中位数、众数5.备选选择项,答案(二)选择题CACBD(三)判断题(四)简答题1.探索性统计分析主要目的有哪些? 解:探索分析的目的主要有三个:检查数据是否有错误;获得数据分布基本特征;对数据规律进行初步观察。2.什么是峰度和偏度?解:偏度是描述某变量取值分布对称性的统计量。具体的计算公式如下:这个统计量是与正态分布相比较的量,偏度
10、为0表示其数据分布形态与正态分布偏度x相同;偏度大于0表示正偏差数值较大,为正偏或右偏,即有一条长尾巴拖在右边;偏度小于0表示负偏差数值大,为负偏或左偏,有一条长尾拖在左边。而偏度的绝对值数值越大。峰度是描述某变量所有取值分布形态陡缓程度的统计量。这个统计量是与正态分布相比较的量,峰度为0表示其数据分布与正态分布的陡缓程度相同;峰度大于0表示比正态分布高峰要更加陡峭,为尖顶峰;峰度小于0表示比正态分布的高峰要平坦,为平顶峰。具体的计算公式如下:表示分布形态的偏斜程度越大。3.简述SPSS对数据进行统计分析刻画集中趋势以及离散程度的描述统计量。解:对数据集中趋势刻画的描述统计量包括:均值、中位数
11、、众数、总和等。 对数据离散趋势刻画的描述统计量包括:方差、标准差、极差、标准误等。4.简述交叉列联表分析主要内容。 解:交叉列联表分析主要包括两部分的内容:第一是输出交叉分组下的频数分布状态表;二是分析交叉分类的两个变量之间是否具有独立性,并判断他们之间的相关性的大小。5.对于多项选择问题,分解(编码方案)的方法主要有哪两种,请简要说明。 解:多项选择问题的编码方式有两种:一种是二分法,一种是多分法。多选项二分法将每个可能的答案设置为一个SPSS变量,变量的取值为0或1,0表示没选中,1表示选中。多选项分类法首先估计多选项问题可能出现的答案个数。比如,一个多选题,如果最多有3个答案,那么就设
12、置3个SPSS变量,分别用来存放3个可能的答案。SPSS变量的取值为备选答案的代码,常用数字1,2,3表示不同的备选答案。案例分析题1.某学校科研团队进行库区移民生存状态调查,经过抽样,抽取20名库区移民,对其生存状态进行调查,部分指标见表3-2.表3-2 库区移民生存状况调查部分指标样本ID性别年龄家庭年收入家庭食品烟酒支出单位岁元元01男55850842800002女381030352900003女36850352200004男611078553850005女44849642560006女36790353870007男55877733570008男54877863040009男537899
13、53280010女411387644360011男45830352080012男521033202380013男32494352160014男341020243680015男63427461700016男311210172000017女61842352000018女59899802000019女481090803000020男439067832000请分析:数据状态: 1.样本在性别与年龄上分布状态。年龄 * 性别 交叉表计数 性别总计男女年龄3110132101341013602238011410114310144011451014801152101531015410155202590116
14、111263101总计12820 男性样本与女性样本的对比关系为12:8。描述统计N最小值最大值均值标准 偏差偏度峰度统计统计统计统计统计统计标准 错误统计标准 错误年龄20316347.0510.435-.034.512-1.359.992样本的平均年龄为47.05岁,峰度为-1.359,与正态分布相比较为平缓,偏度为-0.034,轻微的左偏。2.受访样本的家庭年收入是否符合正态分布正态性检验柯尔莫戈洛夫-斯米诺夫(V)a夏皮洛-威尔克统计自由度显著性统计自由度显著性家庭年收入.19320.049.93120.159a. 里利氏显著性修正 从正态性分布检验结果和图可以看出,夏皮洛威尔克检验接
15、受了原假设,即数据符合正态分布特征,图也基本呈现较为一致的特征。柯尔莫戈洛夫-斯米诺夫呈轻微的拒绝原假设状态,可认为接受正态分布的假设。3.不同性别的受访群体的食品烟酒消费支出方差是否相等。个案处理摘要性别个案有效缺失总计N百分比N百分比N百分比烟酒食品支出男12100.0%00.0%12100.0%女8100.0%00.0%8100.0%方差齐性检验莱文统计自由度 1自由度 2显著性烟酒食品支出基于平均值.064118.803基于中位数.059118.811基于中位数并具有调整后自由度.059115.599.812基于剪除后平均值.064118.803不同性别受访者食品烟酒消费的方差是相等的
16、,四种莱文检验的结果均接受原假设,即不同组别因变量的方差是相等的。2.调查得到甲乙两班学生的上网状况,调查结果如表3-3所示,请根据下列数据分析班级与上网状况是否存在相关关系。表3-3 甲乙两班上网状况班级每天上网经常上网偶尔上网从不上网合计甲班49926541247乙班621136742284合计11120513283531采用交叉列联分析:卡方检验值自由度渐进显著性(双侧)皮尔逊卡方1.143a3.767似然比1.1433.767有效个案数531a. 0 个单元格 (0.0%) 的期望计数小于 5。最小期望计数为 38.61。对称测量c值渐进显著性名义到名义列联系数.046.767有效个案
17、数531c. 相关性统计仅适用于数字数据。卡方检验的结果接受原假设,即上网状态与班级之间是相互独立的。3.先得到某超市9月份每一天的商品销售总额数据,如下表所示。表3-4 超市商品销售总额257269268301336365298562289306290249316296311369403569416279510410368356413426369376406456 (1)计算该超市日销售额的均值、中位数;(2)判断该超市日销售额数据的偏度和峰度状况。应用基本描述统计分析方法:统计销售额 个案数有效30缺失0平均值361.30中位数360.50偏度.933偏度标准误差.427峰度.499峰度标
18、准误差.833 第4章 参数检验与SPSS实现习题与思考题(一)填空题1. 总体均值和指定检验值之间不存在显著差异2.两独立样本组的均值比较,两配对样本组的均值比较3.拒绝4.T统计量5.两样本群的方差是否相等(二)选择题BDCBB(三)判断题(四)简答题1.什么是配对样本?请举例解释。解:常见的配对样本情况有4种:同一研究对象分别给予两种不同处理的效果比较;两配对对象分别给予两种不同处理的效果比较;同一研究对象处理前后的效果比较;两配对对象(一个接受处理,一个不接受处理)的效果比较。和推断两种效果有无差别,和推断某种处理是否有效。比如一组高血压患者在服药前和服药一段时间后对于舒张压和收缩压测
19、量结果就形成了配对样本。2.两独立样本群的均值比较分析的流程是怎样的?解:在具体的计算中需要通过两步来完成:第一,利用F检验判断两总体的方差是否相同;第二,根据第一步的结果,决定T统计量和自由度计算公式,进而对T检验的结论作出判断。3.什么是独立样本,请举例说明。解:独立样本是指两个样本之间彼此独立没有任何关联,两个独立样本各自接受相同的测量,研究者的主要目的是了解两个样本之间是否有显著差异存在。比如生产同一类产品的不同国家的厂商,若彼此之间在生产链条上无任何相关性,则其生产产品的抽取样本即构成了独立样本。4.对两配对样本进行T检验的前提要求是?解:两配对样本T检验的前提要求如下。(1)两个样
20、本应是配对的。在应用领域中,主要的配对资料包括具有年龄、性别、体重、病况等非处理因素相同或相似者。首先两个样本的观察数目相同,其次两样本的观察值顺序不能随意改变。(2)样本出自的两个总体应服从正态分布。5.如何检验某一样本某变量的总体均值和指定值之间是否存在显著差异?解:检验某一样本某变量的总体均值和指定值之间是否存在显著差异用到的是单一样本的均值比较。单样本T检验的零假设(H0)为:总体均值和指定检验值之间不存在显著差异。采用T统计量,计算公式为式中,是样本均值和检验值的差。因为总体方差未知,所以用样本方差S代替总体方差。n为样本数。SPSS将自动计算t值,由于该统计量服从n1个自由度的T分
21、布,SPSS将根据T分布表给出t值对应的相伴概率值。如果相伴概率值小于或等于用户设想的显著性水平,则拒绝H0,认为总体均值和检验值之间存在显著差异。相反,相伴概率大于显著性水平,则接受H0,可以认为总体均值和检验值之间不存在显著差异。案例分析题1. 从小学二年级某班抽取10名男生,分别测得他们的身高,是否可以认为该班男生的平均身高为1.35米?1.29 1.36 1.39 1.27 1.35 1.30 1.36 1.26 1.31 1.24单一样本T检验的伴随概率为0.044,因此拒绝原假设,即该班男生的平均身高与1.35有显著性差异。2. 用某药治疗6位高血压病人,对每一位病人治疗前、后的舒
22、张压进行了测量,结果如表5-4所示。表4-4 治疗前后的舒张压测量表病例编号123456用药前120127141107115138用药后123108120107102152(1)治疗前后这6位病人的均值和方差有何不同?(2)治疗前后病人的血压是否有显著的变化?样本用药后舒张压均值比用药前有所降低,标准差和方差有所上升。 用药前后舒张压均值的配对样本比较分析结果表明:T统计量伴随概率为0.337,大于0.05,故接受原假设,即配对样本的均值没有显著性差异,用药前后患者的舒张压均值无区别。3. 某学校要对两位老师的教学质量进行评价,这两位老师分别教甲班和乙班,这两班数学课的成绩如表4-5所示,这两
23、个班的成绩是否存在差异?表4-5 甲、乙两班数学考试成绩甲班90 93 82 88 85 80 87 85 74 90 88 83 82 85 73 86 77 94 68 82乙班76 75 73 75 98 62 90 75 83 66 65 78 80 68 87 74 64 68 72 80采用两独立样本均值比较分析方法:可以看到,两位老师的教评平均值差异较大,分别为83.60和75.45分,采用两独立样本均值比较方法,对两位老师的教评差异进行统计推断,首先看出两样本组的方差是相等的(伴随概率为0.299,接受方差相等的原假设)。因此采用第一行的T统计量来进行统计推断,推断结果表示,伴
24、随概率为0.003,拒绝原假设,原假设为两样本组的均值是相等的。因此可以得出,两位老师的教评结果存在显著性的差异。第5章 方差分析及SPSS实现习题与思考题(一)填空题1.随机性、独立性、正态分布、方差齐性2.F统计量,控制变量不同水平下各总体均值没有显著差异3. 续数值型,多个协变量间互相独立,且与控制变量之间也没有交互影响。4.交互效应5.主效应部分,交互效应部分,随机变量部分(二)选择题BDBBD(三)判断题(四)简答题1.什么是协方差分析?什么情况适于使用协方差分析?解:协方差分析是将那些很难控制的因素作为协变量,在排除协变量影响的条件下,分析控制变量对观察变量的影响,从而更加准确地对
25、控制因素进行评价。无论是单因素方差分析还是多因素方差分析,它们都有一些可以人为控制的控制变量。在实际问题中,有些随机因素是很难人为控制的,但它们又会对结果产生显著的影响,为了更加准确地研究控制变量不同水平对结果的影响,应该尽量排除其他因素对分析结果的影响,这时就需要应用协方差分析。2.如何检验两个及两个以上样本均值之间是否存在显著性差异?解:检验两个及两个以上样本均值之间差异显著性的方法是方差分析。方差分析的基本思想是:通过分析研究不同变量的变异对总变异的贡献大小,确定控制变量对研究结果影响力的大小。通过方差分析,分析不同水平的控制变量是否对结果产生了显著影响。如果控制变量的不同水平对结果产生
26、了显著影响,那么它和随机变量共同作用,必然使结果有显著的变化;如果控制变量的不同水平对结果没有显著的影响,那么结果的变化主要由随机变量起作用,和控制变量关系不大。3.方差分析包括哪些类型,他们有何区别? 解:根据人为施加的可控因素(即控制变量)的数量多少,可分为单因素方法分析和多因素方差分析方法。单因素方差分析适用于只有一个控制变量的情况,它的实质是统计推断。它的研究目的在于推断该控制变量的不同水平是否给观察变量造成了显著差异和变动。单因素方差分析具有有一个比较严格的前提条件,包括:控制变量不同水平下的样本是随机的。控制变量不同水平下的样本是相互独立的。控制变量不同水平下的样本来自正态分布的总
27、体,否则采用非参数方法进行多组别的均值比较。控制变量不同水平下的样本方差相同。在满足该前提的基础下,方差分析问题就转换成研究不同水平下各个总体的均值是否有显著差异的问题。多因素方差分析是指当存在多个控制变量的前提下,分析多个控制变量的作用、多个控制变量的交互作用以及其他随机变量对结果是否产生显著影响的统计推断方法。多因素方差分析适用于存在两个或两个以上控制变量的情况。多因素方差分析对各个总体的方差相等的前提假设是放松的,但是一般要求多控制变量交叉作用下的单元格内至少有3个观测值。4.简述方差分析的基本思想和操作步骤。方差分析的基本思想是:通过分析研究不同变量的变异对总变异的贡献大小,确定控制变
28、量对研究结果影响力的大小。通过方差分析,分析不同水平的控制变量是否对结果产生了显著影响。如果控制变量的不同水平对结果产生了显著影响,那么它和随机变量共同作用,必然使结果有显著的变化;如果控制变量的不同水平对结果没有显著的影响,那么结果的变化主要由随机变量起作用,和控制变量关系不大。5.方差分析有哪些基本假定?解:单因素方差分析具有有比较严格的前提条件,包括:控制变量不同水平下的样本是随机的。控制变量不同水平下的样本是相互独立的。控制变量不同水平下的样本来自正态分布的总体,否则采用非参数方法进行多组别的均值比较。控制变量不同水平下的样本方差相同。多因素方差分析对各个总体的方差相等的前提假设是放松
29、的,但是一般要求多控制变量交叉作用下的单元格内至少有3个观测值。案例分析题1.一家耳机生产厂商设计了四种不同类型的耳机,并计划与传统耳机形成对比。先从四种类型的耳机中随机抽取6只样品,同时再抽取6只传统耳机样品,在相同的实验条件下,测试它们的使用寿命(单位:月),结果如表5-1所示。表5-1 耳机样品使用寿命耳机类型测试寿命传统耳机20.2 19.8 19.6 20.3 21.3 20.5型号123.6 21.7 19.8 20.5 21.5 22.1型号215.2 19.1 16.8 17.6 16.5 20.3型号335.8 36.2 33.8 34.2 35.3 34.8型号419.8
30、22.6 24.2 21.0 19.8 23.4试分析各种型号耳机间使用寿命是否有区别。数据整理结果见下图:因为只有一个控制变量,所以采用单因素方差分析方法。SPSS输出结果如下。 方差齐性检验结果显示,基于中位数的莱文检验支持方差齐性的结果,基于平均值的检验虽然拒绝了原假设,但是偏离并不严重,所以可以认为该数据适合进行单因素方差分析。方差分析构造的F统计量及检验结果拒绝了原假设,即说明5个不同类型的耳机中,至少有两种类型耳机的平均寿命是不一样的。S-N-K多重比较的验证结果说明,类型2的耳机,类型3的耳机,传统耳机和类型1和4的耳机构成了三组,组与组之间均值存在显著差异,组内的各类型耳机均值
31、无差异。 LSD的多重比较方法结果验证,0与2,0与3,1与2,1与3,2与4,3与4之间的耳机平均寿命存在差异。2.为了验证四种不同安眠药的药效,选取24只兔子,公兔子和母兔子各12只,随机分为四组,每组兔子服用一种安眠药,并记录它们的睡眠时间,如表5-2所示。表5-2 兔子安眠药实验数据兔子编号睡眠时间安眠药种类性别016.21公026.11母036.01公046.31公056.11母065.91母076.32母086.52公096.72母106.62母117.12公126.42母136.83公147.13公156.63公166.83母176.93母186.63母195.44公206.44
32、公216.24母226.34母236.04公245.94公数据处理和输入的结果如下:这里有两个控制变量,一个是安眠药种类,一个是性别,因此采用多因素方差分析方法。两个控制变量交叉分类下的数据基本信息见第一张输出表格。第二张输出表格是方差齐性检验的结果,四种不同统计量都拒绝了方差相等的原假设。但是多因素方差分析对方差齐性的前提是放松的,不满足也没有特别严重的后果。多因素方差分析的结果显示,安眠药种类对睡眠时间是有显著性影响的,但是第二个控制变量性别对实验对象的睡眠时间并未产生显著影响,同时安眠药种类和性别之间也并不存在显著地交叉效用。 具体而言,安眠药的种类中,1与2,1与3,2与4,3与4之间
33、是存在差异的,1与4之间是不存在效果的差异的。3.学校为了改善教师生活水平,试行某种新政策,政策实施前,以及实施半年后分别对教师的待遇状况进行调查,工资待遇分为10级,分值越高代表待遇越好,调查结果以及教授级别详见表5-3。表5-3 政策实施教师待遇原工资现工资教师级别452341343242552363481672672573243673981561772试分析政策实施后,不同类型的教师彼此间工资待遇是否存在差异。待分析数据结果如下图所示:其中,现工资是因变量,教师级别是控制变量,原工资是协变量。采用协方差分析的方法来验证教师级别对工资的影响。协方差分析的结果显示,协变量原工资对教师的现工资
34、具有显著的影响,剔除了原工资影响后,教师级别对教师工资不具有显著影响,即剔除了原工资的影响后,不同级别的教师平均工资之间是没有区别的。第6章 非参数检验及SPSS实现习题与思考题(一)填空题1.样本来自的两独立总体均值没有显著差异。 2.卡方统计量。3.两样本是配对的。4.二值数据(0-1数据)。5.大(二)选择题BCDAA(三)判断题(四)简答题1.在熟悉假设检验的思想的基础上,比较参数检验与非参数检验的适用条件。解:参数检验:已知分布类型,对未知参数如均值方差等进行统计推断,依赖于特定分布类型,比较的是参数。非参统计:对总体的分布类型不作任何要求,不受总体参数的影响,比较分布或分布位置2.
35、多独立样本和多配对样本非参数检验的区别和联系是什么?解:适用范围不同:多独立样本数据的来源的是独立的样本,如3个班的成绩是否存在差异;而多配对样本是对多个匹配样本的总体分布是否存在显著性差异做统计分析如测验多个学生在报补习班前后成绩有无发生显著的变化。数据性质不同:多独立样本检验中的个实验处理组之间毫无相关存在,即为独立样本;而多配对样本的数据组成的样本为相关样本。非参数检验方法不同:多独立样本非参数检验方法有:(1)中位数检验(2)克鲁斯卡尔-沃利斯H检验(3)约克海尔-塔帕斯特拉J检验;多配对样本的非参数检验方法有:(1)傅莱德曼检验(2)肯德尔协同系数检验。3.简要回答进行非参数统计检验
36、的适用条件。 解:非参数检验(Nonparametric tests)是统计分析方法的重要组成部分,它与参数检验共同构成统计推断的基本内容。参数检验是在总体分布形式已知的情况下,对总体分布的参数如均值、方差等进行推断的方法。但是,在数据分析过程中,由于种种原因,人们往往无法对总体分布形态作简单假定,此时参数检验的方法就不再适用了。非参数检验正是一类基于这种考虑,在总体方差未知或知道甚少的情况下,利用样本数据对总体分布形态等进行推断的方法。4.你学过哪些涉及秩和检验,各有什么用途? 解:(1)符号秩和检验适用于配对比较(2)威尔科克森秩和检验适合于两样本成组资料的比较应用(3)克鲁斯卡尔-沃利斯
37、法适用于多个样本比较。5.试写出非参数统计方法的主要优缺点。 解:优点:非参数统计方法要求的假定条件比较少,因而它的适用范围比较广泛。 多数非参数统计方法要求的运算比较简单,可以迅速完成计算取得结果,因而比较节约时间。 大多数非参数统计方法在直观上比较容易理解,不需要太多的数学基础知识和统计学知识。 大多数非参数统计方法可用来分析如象由等级构成的数据资料,而对计量水准较低的数据资料,参数统计方法却不适用。 当推论多达3个以上时,非参数统计方法尤具优越性。缺点:由于方法简单,用的计量水准较低,因此,如果能与参数统计方法同时使用时,就不如参数统计方法敏感。若为追求简单而使用非参数统计方法,其检验功
38、效就要差些。这就是说,在给定的显著性水平下进行检验时,非参数统计方法与参数统计方法相比,第类错误的概率要大些。 对于大样本,如不采用适当的近似,计算可能变得十分复杂。案例分析题1.在关于听助眠音乐对老人入睡所需时间的研究中,抽取了15名老人组成样本。表6-3给出了15名实验对象在听音乐和不听音乐的情况下入睡所需时间(分钟)。事根据数据得出你的结论。表6-3 助眠音乐实验数据实验对象不听音乐听音乐实验对象不听音乐听音乐1161199621210101073191211262048812161451210131096761455798157881411161112第一步:在“分析”菜单的“非参数检
39、验”子菜单中选择“旧对话框”的“2 个相关样本”命令。第二步:首先将“听音乐”和“不听音乐”作为选作一对配变量。这里选择“威尔科克森”(威尔科克森符号平均秩检验)和“符号”(符号检验)进行检验。点击“选项”按钮,在弹出的“双关联样本”对话框中选中“按检验排除个案”,在“统计”选项中选择“描述”项,计算均数、标准差等指标,点击“继续”按钮。结果与分析:本例使用了2种配对样本非参数检验方法”。其中描述性统计结果可以得出,听音乐时入睡均值为11.9375,方差为5.30997,最小值为5,最大值为26.不听音乐时入睡均值为9.8125,方差为3.69177,最小值为5,最大值为20.通过威尔科克森检
40、验结果可以看出,负秩为12,正秩为2,Ties为9,表示16个人中,12个人不听音乐入睡时间变短,2个变长,2个人入睡时长保持不变,平均秩分别为8.25和3.从“检验统计”表中可以看出,Z统计量为-2.939,相伴概率为0.003,小于显著性水平0.05,因此拒绝原假设,认为听音乐前后人们入睡时长有显著差异。通过符号检验可以看出正负平均秩的值与威尔科克森检验一样,从“检验统计”表中可以看出相伴概率为0.013小于0.05,因此拒绝原假设,认为音乐前后人们入睡时长有显著差异。表明听音乐会对增加入睡时长。2.在做某项关于股票市场的研究时,搜集到8个时间点上四家公司股票的收盘价格,如表6-4所示。表
41、6-5 三家公司股票收盘价格公司110.26 10.36 11.20 9.99 10.56 10.34 11.03 10.59公司27.89 7.63 8.26 6.98 6.96 7.32 7.99 8.01公司320.16 20.36 19.98 19.96 20.32 18.69 19.22 19.56公司415.96 14.36 16.23 12.03 15.89 15.46 15.21 15.03试分析四家公司的股票价格水平是否相同。为了分析四家公司股票价格水平是否相同,使用多配对样本非参数检验。第一步:在“分析”菜单的“非参数检验”子菜单中选择“旧对话框”的“K 个相关样本”命令。
42、第二步:将变量选入“检验变量”中,在“检验类型”中选择“肯德尔”(肯德尔协同系数检验)。在“统计”选项中选择“描述”项,计算均数、标准差等指标,点击“继续”按钮。结果与分析:描述性统计结果可以看出4个公司收盘价格平均值、方差、最小值和最大值。从“Ranks”表格中可以得到平均秩,可以看出公司2的平均秩最小,反映出平均收盘价最低,可以看出公司3的平均秩最大,反映出平均收盘价最高。从“Test Statistics”表格中得到卡方统计量为24,相伴概率远小于0.05,因此拒绝原假设,说明8个时间点上四家公司股票的收盘价格有显著差异。3.某超市统计了12月份和6月份各10天洗衣液的销售额(元),如表6-6所示。