1、SPSS在医学统计学中的应用公共卫生学院流行病与卫生统计教研室刘艳梅 1.常用的统计软件SAS(Statistics Analysis System),最早由北卡罗来纳大学的两位生物统计学研究生编制,并于1976年成立了SAS软件研究所,正式推出了SAS软件。R语言 主要用于统计分析、绘图的语言和操作环境。R本来是由来自新西兰奥克兰大学的Ross Ihaka和Robert Gentleman 开发(也因此称为R),现在由“R开发核心团队”负责开发。SPSS(Statistical Product and Service Solutions)2.简介SPSS(Statistical Produc
2、t and Service Solutions),“统计产品与服务解决方案”软件。最初软件全称为“社会科学统计软件包”(Solutions Statistical Package for the Social Sciences),但是随着SPSS产品服务领域的扩大和服务深度的增加,SPSS公司已于2000年正式将英文全称更改为“统计产品与服务解决方案”,标志着SPSS的战略方向正在做出重大调整。之后推出了一系列用于统计学分析运算、数据挖掘、预测分析和决策支持任务的软件产品及相关服务,有Windows和Mac OS X等版本。3.SPSS是世界上最早的统计分析软件,由美国斯坦福大学的三位研究生N
3、orman H.Nie、C.Hadlai(Tex)Hull 和 Dale H.Bent于1968年研究开发成功,同时成立了SPSS公司,并于1975年成立法人组织、在芝加哥组建了SPSS总部。1984年SPSS总部首先推出了世界上第一个统计分析软件微机版本SPSS/PC+,开创了SPSS微机系列产品的开发方向,极大地扩充了它的应用范围,并使其能很快地应用于自然科学、技术科学、社会科学的各个领域。世界上许多有影响的报刊杂志纷纷就SPSS的自动统计绘图、数据的深入分析、使用方便、功能齐全等方面给予了高度的评价。4.2009年7月28日,IBM公司宣布将用12亿美元现金收购统计分析软件提供商SPSS
4、公司。如今SPSS已出至版本22.0,而且更名为IBM SPSS。5.1.基本特点2.主要窗口及功能3.运行环境一、SPSS的概述6.1.操作简便 SPSS软件基本操作通过点击鼠标就可以完成,有一定的统计学基础、熟悉Windows的基本操作就可以自学使用,除了数据录入需要使用键盘,常见的统计分析方法完全可以通过菜单、对话框的操作来完成,不需要编程。基本特点7.2.数据管理功能强大SPSS集成了数据录入、转换、检索、统计分析、作图、制表及编程功能,也可以从外部导入数据,如通过Excel表格、txt文本读入数据库。8.3.统计分析方法比较全面SPSS统计过程包括了常用的、较为成熟的统计分析方法,提
5、供了从简单的描述统计到复杂的多因素统计分析方法,例如数据的探索性分析、一般统计描述、简单列联表分析、均数比较、一般线性模型、混合模型、相关回归、对数线性模型、聚类和判别、因子和对应分析、非参数检验以及生存分析等等等等。9.SPSS主要由三大窗口:数据编辑窗口(data editor)结果输出窗口(view editor)程序编辑窗口(syntax editor)主要窗口及其功能10.数据编辑窗口:在“数据视图”中可以输入变量;“变量视图”中可以设定不同变量的属性。11.1.数值:标准数值型变量,系统默认2.逗号:带逗点的数值型变量,千进位用逗号分隔3.点:圆点数值型变量,小数与整数间用圆点分隔
6、 4.科学计数法 5.日期型变量 6.带美元符号的数值型变量 7.自定义型8.字符型变量12.变量值标签的添加方法13.语法编辑窗口:编辑语法、运行由语法组成的过程文件。14.二、数据文件的建立、导入与导出15.结果输出窗口:输出程序运算结果及各种操作的记录16.通过数据编辑窗口输入数据17.文件的建立、调用和保存可以在文件菜单的指引下操作。18.19.sav-数据文件-数据编辑.spo-输出结果文件-结果编辑.sps-命令程序文件-语法编辑SPSS主要的存储类型20.1.数据编辑2.数据搜索3.变量的插入与删除4.观察单位的插入与删除5.观测值排序6.数据文件的拆分与合并7.变量加权三、数据
7、文件整理21.数据操作在数据编辑窗口中的“Data View”视窗下进行。可以对选定的操作对象进行剪切、拷贝、粘贴等操作。可以直接用鼠标右键进行操作,也可以用“编辑”下拉菜单中的选项进行操作,还可以用键盘上的快捷键来完成操作“control”+“X”(剪切)、“control”+“C”(拷贝)、“control”+“V”(粘贴)1.数据编辑22.1.搜索指定的记录编号:从“编辑”菜单中选择“转至个案”,只要在弹出的“个案数”中键入欲搜索的记录编号,光标就会自粽跳到该记录上。2.搜索指定变量中的指定数据的单元格:打开数据文件,光标移到变量所在的任意单元格,单击,然后从“编辑”菜单中选择“查找”,
8、在弹出的对话框中键入需要查找的数据,然后点击“查找下一个”,光标会自动跳入该值所在的单元格。2.数据搜索23.3.变量的插入与删除4.观察单位的插入与删除5.观测值排序以上三项操作均可以通过在选定变量或个案后,点击鼠标右键来完成操作24.在进行数据的处理时,经常要对文件中的观察单位进行分组分析,例如,按男性、女性计算“年龄”的平均值,因此在进行分析计算是要对数据文件进行拆分。注意:此处的“拆分”并不是物理结构上,将数据库拆分为两个数据文件,仅为运算形式上的拆分。6.数据文件的拆分与合并25.26.2.增加变量:从外物数据文件增加变量到当前数据文件,成为横向合并或追加变量,合并后的数据文件包含相
9、同的观察量。27.数据文件的合并包括两种方式:1.增加观察单位:从外部数据文件中增加观察单位到当前数据文件中,称为纵向合并或追加观察单位,这种合并方式要求两个数据文件中的变量相同。28.统计分析中经常要用到变量加权,如计算加权平均数,在选择加权变量时,应该注意:加权变量中含有零、负整数、或者缺失值的记录将会被排除在外;分数值有效;一旦对数据进行了加权处理,那么在以后的分析中加权处理一直有效,直到关闭加权处理过程或者选择其他的加权变量进行加权处理。操作步骤:“数据”“加权个案”“频率变量”8.变量加权29.1.新变量的建立2.变量的重新赋值3.观察单位的排秩4.缺失值的替代四、数据转换30.在医
10、学科研实践中,仅使用原始数据新型分析处理往往是不够的,应根据统计分析的需要,对原始数据进行转换,生成新的变量或进行重新编码等。SPSS的数据转换功能主要通过“转换”菜单来实现。31.SPSS提供了14类180多种函数,用户可以根据需要,利用这些函数建立一些新的变量,常用函数如下:1.算数函数2.统计函数3.缺失值函数4.字符型函数5.日期、时间函数6.逻辑函数7.分布函数1.新变量的建立32.操作步骤:“转换”“计算变量”33.以年龄分组为例:将数据文件中的年龄分成几个年龄组,以5岁为一组,将分组后的各组相应的赋值为1,2,3,4,5菜单选择:“转换”“重新编码为不同变量”2.变量的重新赋值3
11、4.35.36.37.某些统计分析过程需要对变量的秩进行分析,例如秩和检验,需要先对变量进行排秩。SPSS提供了该功能菜单选择:“转换”“个案等级排序”3.观察单位的排秩38.39.SPSS的某些统计过程会因为数据文件带有缺失值而无法执行,例如在进行时间系统的统计分析时,要求相邻观测量中的变量值是在相等的时间间隔内测得,不能将带有缺失值的观测量排除掉,SPSS提供了多种方法估计并替换缺失值。菜单选择:“转换”“替换缺失值”。4.缺失值的替代40.41.1.频数分布分析2.描述性统计分析3.探索性分析五、统计描述42.统计分析包括两个方面:统计描述;统计推断。统计描述指选用恰当的统计指标,通常称
12、为统计量,选用合适的统计表与统计图,对资料的数量特征及其分布规律进行测定和描述。SPSS中用于统计描述的统计量主要由以下几类:1.描述集中趋势的指标:算数均数、几何均数、中位数2.描述离散趋势的指标:极差、四分位数间距、方差、标准差3.百分位数指标4.描述数据分布的统计量:偏度系数、峰度系数43.SPSS中的“描述统计”菜单可以完成上述各种统计量并可以绘制统计图表,主要包含以下几大模块:“频率”过程:主要用于产生频数表;“描述”过程:对变量进行描述性统计分析,计算统计指标;“探索”过程:对变量进行更为深入的描述性统计分析。44.频数分布分析可以产生详细的频数表,并可以按要求给出条图、直方图以及
13、集中趋势和离散趋势的各种统计量,描述数据的分布特征。以书后练习2.1为例1.建立数据文件1.频数分布分析45.2.统计分析:“分析”“描述统计”“频率”“statistic”/“图表”“确定”46.47.48.3.主要输出结果49.描述性统计分析主要用以描述集中趋势和离散趋势的各种统计量,还有一个特殊功能,就是可以对变量进行标准化处理。以书后练习2.1为例1.打开数据文件2.描述性统计分析50.2.统计分析:“分析”“描述统计”“描述”“选项”“确定”51.52.3.主要输出结果53.标准差与标准误的区别:标准差能反映一个数据集的离散程度。标准误用来衡量抽样误差。标准误越小,表明样本统计量与总
14、体参数的值越接近,样本对总体越有代表性,用样本统计量推断总体参数的可靠度越大。54.探索性分析的目的是对数据进行初步检查,判断有无奇异值和极端值;判断变量是否服从正态分布;对数据进行初步考察。以书后练习2.1为例1.打开数据文件3.探索性分析55.2.统 计 分 析:“分 析”“描 述 统 计”“探 索”“statistic”56.3.主要输出结果57.1.单样本均数比较2.配对设计均数比较3.完全随机设计两均数比较六、两个均数比较的t检验58.SPSS在“分析”菜单中的“比较均值”选项提供的t检验方法过程有单样本t检验、配对样本t检验、独立样本t检验。单样本均数比较的t检验即已知样本均数与已
15、知总体均数的比较。本法是检验单个样本均数所代表的未知总体均数与已知总体均数是否有差别的参数检验方法过程。1.单样本均数比较59.例:某医生测得36名男性矿工的血红蛋白含量为:112,137,129,126,88,90,105,178,130,128,126,103,172,116,125,90,96,62,157,151,135,113,175,129,165,171,128,128,160,110,140,163,100,129,116,127(g/L),问,这36名矿工的血红蛋白含量与正常男性(平均值为140g/L)有无不同?1.建立数据库建立数据库文件时,产生一个变量“Hb”,类型为数值
16、型,共36行1列。(ex-6.2)60.统计分析:“分析”“比较均值”“单独样本T检验”61.不要忘记62.统计量t=-2.596,自由度df=35,双侧检验p=0.014,差值的均数为-11.944,95%可信区间为(-21.29,-2.6),按=0.05水准,可认为矿工的血红蛋白与正常男性有差别,结合本例,可认为矿工的血红蛋白比正常男性低。63.配对设计均数比较简称配对t检验,使用与:1.量同质收拾对象配成对子分别接受两种不同的处理;2.同一受试对象分别接受两种不同处理;3.同一受试对象接受(一种)处理前后。2.配对设计均数比较64.建立数据文件时,产生两个反应变量x1正常组,x2缺乏组,
17、均为数值型。以书后练习6.2为例,首先建立数据文件65.66.两组相关系数的假设检验p=0.129,说明两组的差别没有统计学意义。67.完全随机设计两组均数比较的t检验又称成组t检验,适用于完全随机设计两样本均数的比较。两组完全随机设计是将受试对象完全随机分配到两个不同处理组。3.完全随机设计两均数比较68.建立数据文件时,取两个变量,一个为分组变量group,字符型,1=新药组,2=常规药组;一个为反应变量X,数值型,共20行2列。以书后练习6.3,首先建立数据文件69.70.方差齐性检验F=1.697,p=0.209,可认为方差为齐性,选择“采用相等变异系数”时的值,t=1.019,自由度
18、df=18,双侧检验p=0.321,按=0.05水准,不能认为新药和常用药有差别。71.1.完全随机设计资料的方差分析2.随机区组设计资料的方差分析七、多个均数比较的方差分析72.方差分析多用于多个样本均数的比较,其应用条件为:1.各样本均是相互独立的随机样本;2.均服从正态分布;3.各样本的总体方差相等。73.完全随机设计是采用完全随机化的分组方法,将全部试验对象分配到n个处理组,各组接受不同的处理,实验结束后比较各组均数的差别有无统计学意义,以推断处理因素的效应。1.完全随机设计资料的方差分析以书后练习6.4为例,首先建立数据文件数据文件包含两个变量,分组变量group:1=A组,2=B组
19、,3=C组,变量类型为数值型;反应变量zsl,变量类型为数值型。共3列21行。74.75.76.77.本例Levene p=0.360,认为三组方差齐性;F=1.05,p=0.370,按照=0.05的水准,接受H0,拒绝H1,认为三组间的差异无统计学意义。SNK的分析结果,认为三组间,两两均无差异。78.随机区组设计又称为配伍组设计,在进行统计分析时,将区组变异离均差平方和从完全随机设计的组内离均差平方和中分离出来,从而减小组内平方和,提高了统计检验效率。2.随机区组设计资料的方差分析以书后练习6.5为例,首先建立数据文件数据文件包含3个变量,分组变量year,数值型,1=三年,2=四年,3=
20、五年;配伍组变量block,数值型,1=大花叶,2=无光叶,3=小花叶;结果变量weight79.80.81.82.83.84.本例结果显示时间因素year对黄连的产量有影响,F=21.782,p=0.0070.05,区组因素block对黄连的产量也有影响,F=10.138,p=0.0270.05。85.1.四格表(22表)的x2检验2.配对四格表x2检验3.行列表x2检验八、率和构成比的比较86.x2检验是一种用途广泛的假设检验,本章介绍应用x2检验推断两个或两个以上总体率或构成比之间有无差别,以及两个分类变量之间有无关联。87.四格表资料的x2检验可推断两个总体率之间有无差别。各实际频数排
21、列用符号表示如下:1.四格表(22表)的x2检验88.以书后练习7.2为例,整理四格表:建立数据库建立数据文件时,取3个变量:处理组别“treat”变量:1=case,2=control;疗效变量“effect”:1=有效,2=无效;频率变量“freq”。89.90.统计分析:“数据”“加权个案”“分析”“描述统计”“交叉表格”“statistic”,点选“卡方”选项。91.92.93.94.本例选择Pearson x2=6.930,p=0.008,按=0.05水准,拒绝H0,接受H1,认为两组差别有统计学意义。95.计数资料的配对设计常用于两种检验方法、培养方法、诊断方法的比较。其特点是样本
22、中每个个体分别接受两种方法的处理,观察两种处理方法的二分类变量的技术结果。配对四格表的样本资料表示如下表:2.配对四格表x2检验96.建立数据文件,建立数据文件时,取3个变量,一个为“正常体重”,变量标示:1=“发生”,2=“未发生”;一个为“肥胖”,变量标示:1=“发生”,2=“未发生”;一个为“freq”,表示各指标的发生频率。以书后练习7.5为例,整理四格表:97.98.统计分析:“数据”“加权个案”“分析”“描述统计”“交叉表格”“statistic”,点选“McNemar”选项。99.100.101.102.本例p=0.143,按=0.05水准,不能拒绝H0,认为两组差别没有统计学意
23、义。103.行列表资料的卡方检验用于多个率或多个构成比的比较。以书后习题7.3为例讲解。首先整理表格:3.行列表x2检验104.105.建立数据文件106.107.108.本例选择Pearson x2=146.175,p=0.000,按=0.05水准,拒绝H0,接受H1,认为各组差别有统计学意义。109.1.两独立样本非参数检验2.多个独立样本非参数检验3.两相关样本非参数检验4.多个相关样本非参数检验九、非参数检验110.非参数检验的方法很过,常用的有秩和检验,非参数检验方法的应用范围主要包括:1.不满足正太和方差齐性条件的小样本计量资料;2.分布不知是否正态的小样本资料;3.一端或者两端为
24、不确定数值资料;4.等级资料。111.两独立样本非参数检验过程是检验两个独立样本所在总体分布是否有差别的方法。1.两独立样本非参数检验以书后练习8.2为例,首先建立数据文件建立数据文件时,产生两个变量,一个为分组变量group:1=铅作业组,2=非铅作业组;一个为反应变量Pb。112.113.114.Mann-Whitney U检验的统计量为4.500,Wilcoxon W检验统计量为59.500,两种检验的Z值为-2.980,双侧检验p=0.003,确切概率检验p=0.001,因为Z分布为对称分布,单侧检验p=0.00150.05,认为两组的血铅值含量差异有统计学意义。115.练习8.3,建
25、立数据文件,数据文件包含3个变量:(1)分组变量,赋值:1=一般组,2=重症组。(2)反应变量,即总胆红素的含量,编秩。(3)频数变量,即人数116.1.对数据进行加权:数据加权个案117.2.对两独立样本进行秩和检验118.Z=-5.576,双侧检验P=0.000;按=0.05水准,可认为两组患肝炎婴儿的血清总胆红素有差别,119.多个独立样本非参数检验过程是检验多个独立样本所在的总体分布是否有差异的方法。2.多个独立样本非参数检验以书后练习8.5为例,首先建立数据文件数据文件包含两个变量,分组变量group:1=正常人,2=单纯性肥胖,3=皮质醇增多型;反应变量X,表示血浆总皮质醇的浓度。
26、120.121.122.本例Chi-Square统计量为18.130,自由度为df=2,p=0.000,按=0.05水准可认为三组人的血浆总皮质醇含量有差异。123.练习8.3,建立数据文件,数据文件包含3个变量:(1)分组变量,赋值:1=单纯型,2=喘息型,3=单纯型合并肺气肿,4=喘息型合并肺气肿。(2)反应变量,即疗效,编秩。(3)频数变量,即人数124.1.对数据进行加权:数据加权个案125.126.卡方检验统计量为2.113,自由度df=3,概率p=0.549,按照=0.05水准尚不能认为四种药物的疗效有差别。127.1.直线相关2.直线回归十、双变量相关与回归分析128.在医学科研
27、的过程中,经常会遇到分析两个变量之间的关系,例如,体重与肺活量,年龄与血压,身高与体表面积之间的关系,此时,经常用相关与回归分析来解决。在进行相关与回归分析之前必须先做散点图,判断量变量之间是否存在线性趋势,当两变量间存在线性趋势时,才考虑做相关或者回归。129.直线相关是研究两个变量之间线性关系的一种常用统计方法,分析的是两变量之间是否存在直线相关关系,以及相关的方向和程度。作直线相关分析要求资料服从双变量正态分布。对于不符合双变量正态分布的资料,不能直接计算相关系数,可用非参数统计方法。1.直线相关130.例2.某地研究了8名正常儿童的尿肌酐含量Y(mmol/24h),使计算尿肌酐的含量与
28、其年龄的相关系数。建立数据文件,取两个变量,X:年龄;Y:尿肌酐含量。两变量均为数值型。131.散点图的制作132.133.134.结果显示年龄和尿肌酐含量的相关系数为0.882,p=0.004,有统计学意义。135.Pearson相关:极距相关系数,系统默认项,主要用于符合双变量正态分布资料的相关分析。Kendalls tau-b:Kendalls等级相关系数,是反映两个分类变量一致性的指标。Spearman:spearman相关系数是非参数相关分析,即秩相关分析。补充:136.医学研究中常要定量刻画应变量Y对自变量X在数量上的依存关系,常常将易于测量的变量作为X,另一个随机变量作为Y。直线
29、回归分析的使用条件:对于每个X相应的Y要服从正态分布,X可以是正态随机变量也可以是能精确测量或严格控制的非随机变量。2.直线回归仍以例2的资料为例,建立数据文件,数据文件中的变量仍为X、Y。137.138.139.140.方差分析的结果显示,对回归模型进行F检验,F=20.968,p=0.004,提示该回归方程有统计学意义。常数项和年龄的未标化回归系数为1.662和0.139,因此本例的回归方程可表达为Y=1.662+0.139X141.1.多元线性回归分析2.逐步回归分析十一、多元线性回归142.在科研工作中,设计大量多因素的相互作用问题,多元线性回归分析就是通过作出多元线性回归方程,描述一
30、个应变量Y与多个自变量X间的线性依存关系。多元回归方程分为多元线性回归方程和多元非线性回归方程。多元线性回归分析的目的是作出以自变量估计应变量的多元线性回归方程。143.以书后练习11.18为例,建立数据文件数据文件包含6个自变量:age,weight,runtime,rstpulse,runpulse,macpulse;一个应变量,肺活量oxy;一个序列号变量case。1.多元线性回归分析144.145.146.147.148.149.描述性统计资料显示各变量的描述性统计量,即各变量的均数、标准差150.“相关”显示个变量相互之间的相关系数,按单侧计算person 相关系数,以矩阵形式输出1
31、51.模型摘要是对你和的多元线性回归方程模型作评价,即用负相关系数R和决定系数R2来评价,本例R=0.921,R2=0.849,说明对oxy拟合包含了age,weight,runtime,rstpulse,runpulse,macpulse的线性回归方程,oxy的总离均差平方和能被以上6个自变量解释84.9%。152.变异数分析,是使用发叉分析对拟合的多元线性回归方程作显著性检验,本例F=22.433,p=0.000,即拟合的多元线性回归方程有统计学意义。153.标准化系数可以用来比较各个自变量对因变量的影响强度,通常在有统计学意义的前提下,标准化回归系数的绝对值越大说明相应自变量对因变量的影响越大。本例6个自变量对oxy的影响最大的是runtime(-2.629),建立的多元线性回归方程为:Y=102.923-0.227X1-0.074X2-2.629X3-0.022X4-0.370X5+0.303X6154.
©2010-2024 宁波自信网络信息技术有限公司 版权所有
客服电话:4008-655-100 投诉/维权电话:4009-655-100