数理统计之SPSS统计分析PPT.ppt

资源描述

,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,SPSS,统计分析,1,SPSS,一、,SPSS,概述,二、,SPSS,数据创建,三、,SPSS,统计分析,1,、基本统计分析,2,、方差分析,3,、相关分析,4,、回归分析,5,、聚类分析,2,SPSS,Statistical Package for the Social Sciences,社会科学统计软件包,Statistical Product and Service Solutions,统计产品与服务解决方案,1968,年开发，,1975,年成立,SPSS,公司，,2009,年,IBM,收购，目前到,IBM SPSS20.0,版,3,一、,SPSS,概述,1,、,SPSS,简介,2,、,SPSS,窗口,4,1 SPSS,简介,大多数操作可通过鼠标拖曳、点击“菜单”、“按钮”和“对话框”来完成。,无需掌握统计分析的各种复杂的数学运算过程，只需掌握各种方法的应用，分析结果的解释。,功能强大,完整的数据输入、编辑、统计分析、报表、图形制作等功能。提供从简单的统计描述到复杂的多因素统计分析方法。,能非常方便地与其他软件的数据进行转换,图表功能强大，输出结果美观漂亮,5,2 SPSS,窗口,标题栏,菜单栏,观测序号,工具栏,编辑栏,变量名栏,窗口切换标签,6,2 SPSS,窗口,变量序号,名称可变,观测序号,变量序号,变量属性名称,7,二、统计数据创建,数据属性及定义、编辑,SPSS,数据创建,案例：,SPSS,数据创建,8,1,数据属性及定义编辑,SPSS,数据特点：,结构化,（数据内容、数据结构）,变量名、变量类型、变量名标签、变量值标签、缺失值的定义、度量的尺度、数据的显示属性（显示宽度、列宽度、对齐方式）,9,1.1,变量名（名称）,首字符必须是字母或汉字，后面可以是除,(!、？*),之外的任意字符。,变量名的结尾不能是圆点、句点、下划线,变量名必须唯一，并且不区分大小写,如不指定变量名，则系统默认变量名以,VAR,开头后面跟,5,个数字。如,VAR00001,、,VAR0002,等,数据视图,变量视图,10,1.2,变量类型,变量取值的类型,数值型、字符型,(,不能进行算术运算）、日期型,11,1.3,标签,标签是对变量名的进一步解释,12,1.4,值,值是对变量取值含义的进一步解释,13,1.5,缺失值,缺失值两种情况：,数据中存在漏填数据,数据中存在明显错误或明显不合理的数据（如年龄,130,）,如果直接进行数据分析，,SPSS,将把缺失数据作为正常数据，造成非常大的误差,缺失数据处理步骤：,1,、指定缺失数据，指明哪些数据属于缺失数据,空缺数据，首先填一个特定标记数据,（如,99999,，区别于该变量其他非缺失数据）,2,、统计分析时对缺失数据进行一定处理,选择缺失数据处理方法,14,2,、,SPSS,数据创建,直接录入,1,、定义数据属性；,2,、输入数据,打开现有数据,（,sav,、,excel,、,SAS,、,txt,）,15,三、,SPSS,统计分析,SPSS,基本统计分析,均值的比较与检验,方差分析,相关分析,线性回归分析,聚类分析,16,1,、基本统计分析,基本统计分析，描述性统计分析是统计分析的第一步，做好这第一步是下面进行正确统计推断的先决条件。,SPSS,的许多模块均可完成描述性分析，但专门为该目的而设计的几个模块则集中在描述菜单中，包括,：,17,1.1,频数分析,频数分析目的：基本统计分析往往从频数分析开始。通过频数分析能够了解变量取值的状况，对把握数据的分布特征是非常有用的。,基本任务,（,1,）编制频数分布表,频数：,即变量值落在某个区间（或某个类别）中的次数,百分比：,即各频数占总样本数的百分比,有效百分比：,即各频数占有效样本数的百分比，有效样本数总样本缺失样本数,累计百分比,：即各百分比逐级累加起来的结果。最终取值为,100,。,（,2,）绘制统计图,18,1.1,频数分析,频数分析的基本操作,（,1,）分析,描述统计,频率,（,2,）将频数分析变量选择到变量框中,（,3,）单击表格按钮选择绘制统计图形,，选择饼图,19,1.1,频数分析,20,1.2,描述分析,描述分析目的：获取数据的均值、标准差、峰度等数据，进一步把握数据的,集中趋势,、,离散程度,和,分布形状,。,基本描述统计量,刻画集中趋势的统计量,刻画离散程度的统计量,刻画分布形态的统计量,21,1.2,描述分析,刻画集中趋势的统计量,集中趋势指一组数据向某一中心值靠拢的倾向。计算刻画集中趋势的统计量正是要寻找能够反应数据一般水平的“代表值”或“中心值”。,常用统计量：,均值,、,中位数,、,众数,均值：即算术平均数，是反映某变量所有取值的集中趋势或平均水平的指标。如某企业职工的平均月收入。,中位数：即一组数据按升序排序后，处于中间位置上的数据值。,众数：即一组数据中出现次数最多的数据值。,22,1.2,描述分析,刻画离散程度的统计量,离散程度,是指一组数据远离其“中心值”的程度。,如果数据都紧密地集中在“中心值”的周围，数据的离散程度较小，说明这个“中心值”对数据的代表性好；相反，如果数据仅是比较松散地分布在“中心值”的周围，数据的离散程度较大，则此“中心值”说明数据特征是不具有代表性的。,常用统计量：,全距、方差、标准差,全距：也称极差，是数据的最大值与最小值之间的绝对离差。,23,1.2,描述分析,刻画分布形态的描述统计量,数据分布形态主要指数据分布,是否对称,，,偏斜程度,如何，,分布陡峭程度,等。,常用统计量：,偏度、峰度,偏度：描述变量取值分布形态对称性的统计量。,当分布为对称分布时，正负总偏差相等，偏度值等于,0,；当分布为不对称分布时，正负总偏差不相等，偏度值大于,0,或小于,0,。偏度值大于,0,表示正偏差值大，称为正偏或右偏；偏度值小于,0,表示负偏差值大，称为负偏或左偏。偏度绝对值越大，表示数据分布形态的偏斜程度越大。,峰度：描述变量取值分布形态陡峭程度的统计量。,当数据分布与标准正态分布的陡峭程度相同时，峰度值等于,0,；峰度大于,0,表示数据的分布比标准正态分布更陡峭，为尖峰分布；峰度小于,0,表示数据的分布比标准正态分布平缓，为平峰分布。,24,1.2,描述分析,计算基本描述统计量的操作,（,1,）分析,描述统计,描述,（,2,）将分析变量选择到变量框中,（,3,）单击选项按钮指定基本统计量,25,1.2,描述分析,26,练习例题,某医师收集了,80,例重症监护病人的有关情况：年龄,(,岁,),、,ICU,时间,(,天,)APACHEIII,评分、手术及预后等指标。试分析年龄及手术的评述分布情况。,结果输出：手术方式统计表和,APACHEIII,评分频数分布图,27,28,描述性统计,试对资料中年龄和,APACHEIII,评分进行简单的描述性分析,29,30,探索性分析输出结果,31,32,33,34,35,36,37,38,具体操作步骤：打开数据文件，加权个案,39,具体操作步骤：,40,41,42,43,三、,均值的比较与检验,T,检验是检验差异显著性的十分重要的统计工具,这种差异显著性的检验是,样本均值间,的比较。因此,T,检验也可以称为一种均值比较分析,。,它包括单样本,T,检验、独立样本,T,检验、配对样本,T,检验。,来自,正态总体,的两个样本进行均值比较常使用,T,检验的方法。,T,检验要求两个被比较的样体来自正态总体。,两个样本,方差相等与不等,时使用的计算,t,值,的公式不同。,44,1,.,单,样本,T,检验,检验单个变量的均值是否与给定的常数之间存在差异。样本均数与总体均数之间的差异显著性检验属于单一样本,T,检验。,45,46,47,2,.,两,独立样本,T,检验,进行独立样本,T,检验，要求被比较的两个样本彼此独立，即没有配对关系。要求样本均来自正态总体，而且均值对于检验是有意义的描述统计量。,独立样本,T,检验和配对样本的,T,检验均使用,T test,过程，但是使用的菜单,不同；对于,数据文件结构的要求和所使用的命令语句也有区别。,48,49,50,练习题,某克山病区测得,11,例急性克山病患者与,13,名健康人的血磷值如下,:,患者,:2.60,3.24,3.73,3.73,4.32,5.18,4.73,5.58,5.78,6.40,6.53,健康人,:1.67,1.98,1.98,2.33,2.34,2.50,3.60,3.73,4.14,4.17,4.57,4.82,5.78,问该地区急性克山病患者与健康人的血鳞值是否不同,?,51,配对样本,T,检验实际上是先求出每对测量值之差值，对差值求均值。检验配对变量均值之间差异是否显著。,其实质检验的假设实际上是差值的均值与零均值之间差异的显著性,。如果差值均值与,O,均值无显著性差异说明配对变量均值之间无显著性差异。,3.,配对样本均数,T,检验,52,3.,配对样本均数,T,检验,53,54,练习题,10,例矽肺患者经治疗前后的,血红蛋白量见,下表，问治疗对血红蛋白量有无作用？,治疗前,11.3,15.0,15.0,13.5,12.8,10.0,11.0,12.0,13.0,12.3,治疗后,14.0,13.8,14.0,13.5,13.5,12.0,14.7,11.4,13.8,12.0,55,Thanks,56,

展开阅读全文