资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,SPSS,统计分析,1,SPSS,一、,SPSS,概述,二、,SPSS,数据创建,三、,SPSS,统计分析,1,、基本统计分析,2,、方差分析,3,、相关分析,4,、回归分析,5,、聚类分析,2,SPSS,Statistical Package for the Social Sciences,社会科学统计软件包,Statistical Product and Service Solutions,统计产品与服务解决方案,1968,年开发,,1975,年成立,SPSS,公司,,2009,年,IBM,收购,目前到,IBM SPSS20.0,版,3,一、,SPSS,概述,1,、,SPSS,简介,2,、,SPSS,窗口,4,1 SPSS,简介,大多数操作可通过鼠标拖曳、点击“菜单”、“按钮”和“对话框”来完成。,无需掌握统计分析的各种复杂的数学运算过程,只需掌握各种方法的应用,分析结果的解释。,功能强大,完整的数据输入、编辑、统计分析、报表、图形制作等功能。提供从简单的统计描述到复杂的多因素统计分析方法。,能非常方便地与其他软件的数据进行转换,图表功能强大,输出结果美观漂亮,5,2 SPSS,窗口,标题栏,菜单栏,观测序号,工具栏,编辑栏,变量名栏,窗口切换标签,6,2 SPSS,窗口,变量序号,名称可变,观测序号,变量序号,变量属性名称,7,二、统计数据创建,数据属性及定义、编辑,SPSS,数据创建,案例:,SPSS,数据创建,8,1,数据属性及定义编辑,SPSS,数据特点:,结构化,(数据内容、数据结构),变量名、变量类型、变量名标签、变量值标签、缺失值的定义、度量的尺度、数据的显示属性(显示宽度、列宽度、对齐方式),9,1.1,变量名(名称),首字符必须是字母或汉字,后面可以是除,(!、?*),之外的任意字符。,变量名的结尾不能是圆点、句点、下划线,变量名必须唯一,并且不区分大小写,如不指定变量名,则系统默认变量名以,VAR,开头后面跟,5,个数字。如,VAR00001,、,VAR0002,等,数据视图,变量视图,10,1.2,变量类型,变量取值的类型,数值型、字符型,(,不能进行算术运算)、日期型,11,1.3,标签,标签是对变量名的进一步解释,12,1.4,值,值是对变量取值含义的进一步解释,13,1.5,缺失值,缺失值两种情况:,数据中存在漏填数据,数据中存在明显错误或明显不合理的数据(如年龄,130,),如果直接进行数据分析,,SPSS,将把缺失数据作为正常数据,造成非常大的误差,缺失数据处理步骤:,1,、指定缺失数据,指明哪些数据属于缺失数据,空缺数据,首先填一个特定标记数据,(如,99999,,区别于该变量其他非缺失数据),2,、统计分析时对缺失数据进行一定处理,选择缺失数据处理方法,14,2,、,SPSS,数据创建,直接录入,1,、定义数据属性;,2,、输入数据,打开现有数据,(,sav,、,excel,、,SAS,、,txt,),15,三、,SPSS,统计分析,SPSS,基本统计分析,均值的比较与检验,方差分析,相关分析,线性回归分析,聚类分析,16,1,、基本统计分析,基本统计分析,描述性统计分析是统计分析的第一步,做好这第一步是下面进行正确统计推断的先决条件。,SPSS,的许多模块均可完成描述性分析,但专门为该目的而设计的几个模块则集中在描述菜单中,包括,:,17,1.1,频数分析,频数分析目的:基本统计分析往往从频数分析开始。通过频数分析能够了解变量取值的状况,对把握数据的分布特征是非常有用的。,基本任务,(,1,)编制频数分布表,频数:,即变量值落在某个区间(或某个类别)中的次数,百分比:,即各频数占总样本数的百分比,有效百分比:,即各频数占有效样本数的百分比,有效样本数总样本缺失样本数,累计百分比,:即各百分比逐级累加起来的结果。最终取值为,100,。,(,2,)绘制统计图,18,1.1,频数分析,频数分析的基本操作,(,1,)分析,描述统计,频率,(,2,)将频数分析变量选择到变量框中,(,3,)单击表格按钮选择绘制统计图形,,选择饼图,19,1.1,频数分析,20,1.2,描述分析,描述分析目的:获取数据的均值、标准差、峰度等数据,进一步把握数据的,集中趋势,、,离散程度,和,分布形状,。,基本描述统计量,刻画集中趋势的统计量,刻画离散程度的统计量,刻画分布形态的统计量,21,1.2,描述分析,刻画集中趋势的统计量,集中趋势指一组数据向某一中心值靠拢的倾向。计算刻画集中趋势的统计量正是要寻找能够反应数据一般水平的“代表值”或“中心值”。,常用统计量:,均值,、,中位数,、,众数,均值:即算术平均数,是反映某变量所有取值的集中趋势或平均水平的指标。如某企业职工的平均月收入。,中位数:即一组数据按升序排序后,处于中间位置上的数据值。,众数:即一组数据中出现次数最多的数据值。,22,1.2,描述分析,刻画离散程度的统计量,离散程度,是指一组数据远离其“中心值”的程度。,如果数据都紧密地集中在“中心值”的周围,数据的离散程度较小,说明这个“中心值”对数据的代表性好;相反,如果数据仅是比较松散地分布在“中心值”的周围,数据的离散程度较大,则此“中心值”说明数据特征是不具有代表性的。,常用统计量:,全距、方差、标准差,全距:也称极差,是数据的最大值与最小值之间的绝对离差。,23,1.2,描述分析,刻画分布形态的描述统计量,数据分布形态主要指数据分布,是否对称,,,偏斜程度,如何,,分布陡峭程度,等。,常用统计量:,偏度、峰度,偏度:描述变量取值分布形态对称性的统计量。,当分布为对称分布时,正负总偏差相等,偏度值等于,0,;当分布为不对称分布时,正负总偏差不相等,偏度值大于,0,或小于,0,。偏度值大于,0,表示正偏差值大,称为正偏或右偏;偏度值小于,0,表示负偏差值大,称为负偏或左偏。偏度绝对值越大,表示数据分布形态的偏斜程度越大。,峰度:描述变量取值分布形态陡峭程度的统计量。,当数据分布与标准正态分布的陡峭程度相同时,峰度值等于,0,;峰度大于,0,表示数据的分布比标准正态分布更陡峭,为尖峰分布;峰度小于,0,表示数据的分布比标准正态分布平缓,为平峰分布。,24,1.2,描述分析,计算基本描述统计量的操作,(,1,)分析,描述统计,描述,(,2,)将分析变量选择到变量框中,(,3,)单击选项按钮指定基本统计量,25,1.2,描述分析,26,练习例题,某医师收集了,80,例重症监护病人的有关情况:年龄,(,岁,),、,ICU,时间,(,天,)APACHEIII,评分、手术及预后等指标。试分析年龄及手术的评述分布情况。,结果输出:手术方式统计表和,APACHEIII,评分频数分布图,27,28,描述性统计,试对资料中年龄和,APACHEIII,评分进行简单的描述性分析,29,30,探索性分析输出结果,31,32,33,34,35,36,37,38,具体操作步骤:打开数据文件,加权个案,39,具体操作步骤:,40,41,42,43,三、,均值的比较与检验,T,检验是检验差异显著性的十分重要的统计工具,这种差异显著性的检验是,样本均值间,的比较。因此,T,检验也可以称为一种均值比较分析,。,它包括单样本,T,检验、独立样本,T,检验、配对样本,T,检验。,来自,正态总体,的两个样本进行均值比较常使用,T,检验的方法。,T,检验要求两个被比较的样体来自正态总体。,两个样本,方差相等与不等,时使用的计算,t,值,的公式不同。,44,1,.,单,样本,T,检验,检验单个变量的均值是否与给定的常数之间存在差异。样本均数与总体均数之间的差异显著性检验属于单一样本,T,检验。,45,46,47,2,.,两,独立样本,T,检验,进行独立样本,T,检验,要求被比较的两个样本彼此独立,即没有配对关系。要求样本均来自正态总体,而且均值对于检验是有意义的描述统计量。,独立样本,T,检验和配对样本的,T,检验均使用,T test,过程,但是使用的菜单,不同;对于,数据文件结构的要求和所使用的命令语句也有区别。,48,49,50,练习题,某克山病区测得,11,例急性克山病患者与,13,名健康人的血磷值如下,:,患者,:2.60,3.24,3.73,3.73,4.32,5.18,4.73,5.58,5.78,6.40,6.53,健康人,:1.67,1.98,1.98,2.33,2.34,2.50,3.60,3.73,4.14,4.17,4.57,4.82,5.78,问该地区急性克山病患者与健康人的血鳞值是否不同,?,51,配对样本,T,检验实际上是先求出每对测量值之差值,对差值求均值。检验配对变量均值之间差异是否显著。,其实质检验的假设实际上是差值的均值与零均值之间差异的显著性,。如果差值均值与,O,均值无显著性差异说明配对变量均值之间无显著性差异。,3.,配对样本均数,T,检验,52,3.,配对样本均数,T,检验,53,54,练习题,10,例矽肺患者经治疗前后的,血红蛋白量见,下表,问治疗对血红蛋白量有无作用?,治疗前,11.3,15.0,15.0,13.5,12.8,10.0,11.0,12.0,13.0,12.3,治疗后,14.0,13.8,14.0,13.5,13.5,12.0,14.7,11.4,13.8,12.0,55,Thanks,56,
展开阅读全文