资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,1,SPSS,基础与,Access,数据库,姓 名,:,郑戟明,电 话,:67703855,E-mail:shift_zjm,答疑地点,:,学院楼,B421,答疑时间,:,商务信息学院计算机教学部,均值比较,比较样本均值与总体均值之间的差异,单样本,T,检验,独立样本,T,检验,配对样本,T,检验,上节回顾,3,第,11,讲,散点图、相关系数,4,相关概念,5,一、相关的概念,变量之间关系的概念,客观世界中,事物之间存在相互依存、相互制约、相互影响的关系。用于描述事物,数量特征,的变量之间也存在一定的,关系,。,这些关系分为两种:,(1),函数关系:,变量之间的,一一对应,的关系,当自变量,x,取一定值时,因变量,y,依据函数关系取唯一的值。,如:在单价确定时,销售量与销售额之间的关系:,y=,f(x,),销售额价格*销售量,圆的面积与圆的半径之间的关系:,圆面积,3.14,*半径,2,6,一、相关的概念,关系的概念,(2),相关关系:,如果变量之间存在密切的关系,但又不能由一个或几个变量的值确定另一个变量的值,当自变量,x,取一定值时,因变量,y,的值可能有多个,这种变量之间的,非一一对应的、不确定,的关系,称之为,相关关系,。,如:子女身高与父母身高之间的关系,证券指数与利率之间的关系,7,一、相关的概念,相关关系的分类,(1),按相关的,程度,分为:,完全相关:,一个变量的取值,完全取决于,另一个变量,数据点,落在一条直线,(,或曲线,),上,相关:,一个变量的取值,部分,取决于,另一个变量,数据点围绕分布,在一条直线,(,或曲线,),上,不相关:,两个变量的数据点分布很,分散,,无任何规律,就是函数关系,8,一、相关的概念,相关关系的分类,(2),按相关的,表现形式,分为:,线性相关:,两个变量之间的关系近似地表现为一条,直线,非线性相关:,两个变量之间的关系近似地表现为一条,曲线,9,一、相关的概念,相关关系的分类,(3),按相关的,方向,分为:,正相关:,一个变量,增加,(,减少,),,导致另一个变量,增加,(,减少,),负相关:,一个变量,增加,(,减少,),,导致另一个变量,减少,(,增加,),10,一、相关的概念,线性相关程度的四种相关关系,强正,线性相关:,一个变量,x,增加,,导致另一个变量,y,明显增加,,说明,x,是影响变量,y,的主要因素,弱正,线性相关:,一个变量,x,增加,,导致另一个变量,y,增加,但不明显,,说明,x,是影响变量,y,的因素,但不是唯一的影响因素,强负,线性相关:,一个变量,x,增加,,导致另一个变量,y,明显减少,,说明,x,是影响变量,y,的主要因素,弱负,线性相关:,一个变量,x,增加,,导致另一个变量,y,减少,但不明显,,说明,x,是影响变量,y,的因素,但不是唯一的影响因素,11,一、相关的概念,相关分析的概念,相关分析就是描述两个或两个以上变量间,关系密切程度,的统计方法,有效地揭示事物之间相关关系的,强弱程度,。,相关分析的方法,图形(散点图):,常用的一种直观的分析方法,将样本数据点绘制在二维平面或三维空间上,根据这些数据点的,分布特征,,能够,直观,地研究变量间的统计关系以及它们的,强弱程度,和数据对的可能走向。,数值(相关系数):,变量间关系的密切程度常以一个数量性指标描述,这个指标称相关系数,r=0.8,12,一、相关的概念,SPSS,提供了三种相关分析的方法,二元变量分析(,Bivariate,):,偏相关分析(,Partial,):,距离相关分析(,Distances,):,13,相关分析的方法,14,二、相关分析的方法,散点图,散点图是相关分析过程中,常用,的一种,直观,的分析方法;,将样本数据点绘制在二维平面或三维空间上,根据数据点的,分布特征,,直观的研究变量之间的,统计关系,以及,强弱程度,。,就,两个,变量而言,如果变量之间的关系近似地表现为,一条直线,,则称为,线性,相关,如图,(a),和,(b),;,如果变量之间的关系近似地表现为,一条曲线,,则称为,非线性,相关或,曲线,相关,如图,(c),;,如果两个变量的观测点,很分散,,无任何规律,则表示变量之间,没有相关关系,,如图,(d),。,(a),(b),(c),(d),15,二、相关分析的方法,相关系数,散点图能够,直观,地反映变量之间的关系,但,不精确,。,相关系数以数值的方式,精确地,反映了变量之间线性关系的,强弱程度,。,相关系数通过,正、负,表示相关的,方向,相关系数,r,的取值在,-1,+1,之间:,下表中是通过相关系数来描述相关程度,不同类型,的变量采用不同的相关系数指标,但取值范围和含义都是相同的,相关系数取值范围,r=0,|r|0.8,|r|=1,相关程度,无,相关,微弱,相关,低度,相关,显著,相关,高度,相关,完全相关,16,二、相关分析的方法,相关系数的分类,Pearson,简单相关系数,(,皮尔逊,),用来度量,正态分布的,定距变量间,的,线性,相关关系,Pearson,简单相关系数不能用于度量变量之间的非线性关系,Spearman,秩相关系数,(,斯皮尔曼,),采用,非参数检验,方法来度量,定序变量间,的,线性,相关关系,由于数据为非定距变量,因此不能直接采用原始数据,而是利用数据的秩,Kendall,秩相关系数,(,肯德尔,),采用,非参数检验,方法来度量,定序变量间,的,线性,相关关系,看备注页,17,二、相关分析的方法,利用,相关系数,进行变量之间,线性,关系的分析,利用相关系数进行变量之间线性关系的分析分两步:,(1),利用样本数据,计算,样本,相关系数,r,;,(2),对样本的总体是否存在,显著,的,线性,关系进行,推测,。,注,:显著的相关性并不能导出任何因果结论。,18,二、相关分析的方法,对样本的线性关系进行,推测步骤,由于存在抽样的,随机性,以及样本数量,较少,等原因,通常样本相关系数不能直接反映样本是否存在,显著的,线性相关关系,需要通过假设检验的方式对样本的总体进行统计推测。,推测步骤,(1),提出零假设,H,0,:两总体线性,不相关(,或相关系数与,0,无显著性差异,),(2),选择检验统计量:对,不同变量,采用不同的相关系数,同时也采用不同的检验统计量,(3),计算统计量的,观测值,和对应的,概率,p,值,;,(4),对总体的相关性进行推断,19,二、相关分析的方法,根据概率,P,进行,解释,检验统计量的概率,p,值,小于,给定的显著性水平,值,(0.05),,,拒绝,零假设,认为总体,相关,。,若检验统计量的概率,p,值,大于,给定的显著性水平,值,(0.05),,,接受,零假设,认为总体,不,相关,。,通常认为,0.05,,认为总体相关,;,0.01,,认为总体,显著,相关,。,20,二元变量分析,21,三、二元变量分析,概念,二元,变量分析,(,Bivariate,),是研究和分析,两个,变量之间,相关程度,的统计方法。,应用,很多时候都是通过,两个变量,进行相关分析,所以两个变量之间,相关程度,的分析应用十分广泛。,如:,家庭收入,与,家庭消费支出,之间关系是否相关,商品,销售价格,与,商品销售额,之间关系是否相关,客户,满意度,与商业企业,综合竞争力,之间关系是否相关,广告,投入,和,销售额,之间关系是否相关,22,三、二元变量分析,SPSS,操作及案例分析,例一:,为了研究某项职业,技能,和员工,年龄,之间的,关系,对员工进行职业技能测试,得到有关上述两变量,的数据表。,现以年龄作为,自变量,x,,职业技能测试得分为,因变量,y,,以两变量数据为依据,绘制散点图分析两变量,之间的相关关系。,注意:,通过散点图只是,初步分析,两变量之间的相关关系,通常用,散点图,描述相关关系的表达方式:,完全相关,较强,(,正,/,负,),相关,较弱,(,正,/,负,),相关,不相关,23,三、二元变量分析,SPSS,操作及案例分析,结果分析:,从散点图中可以看出,,点,的分布,比较分散,,在拟合线上或周围的点分布较少,说明两变量之间相关程度,较弱,。,从拟合线的趋势来看,,职业技能和员工年龄之间,之间有一定的相关关系,而且是随着年龄的,增加,,,职业技能测试得分,会随之,上升,,但,上升幅度较小,。,所以上述两变量之间具有,较弱正相关,的关系。,通过对散点图的编辑,可以添加拟合线,24,三、二元变量分析,SPSS,操作及案例分析,操作步骤,GraphsScatter,/Dot,数据文件:,8-Bivariate_age.sav,保存文件:,8-Bivariate_age.spo,常用的散点图类型,简单,散点图,重叠,散点图,矩阵,散点图,三维,散点图,单点,散点图,25,三、二元变量分析,SPSS,操作及案例分析,散点图的其他应用,(,1,)在散点图中设置散点,标记,。,1,2,3,26,三、二元变量分析,SPSS,操作及案例分析,散点图的其他应用,(,2,)在散点图中设置散点,标签,。,1,2,6,3,4,5,SPSS,操作及案例分析,散点图的其他应用,(,3,)在散点图中添加拟合线。,27,三、二元变量分析,1.,双击该图区,SPSS,操作及案例分析,散点图的其他应用,(,4,)计算相关系数。,AnalyzeCorrelateBivariate,.,28,三、二元变量分析,解释:,1.Sig.=0.0410.05,,拒绝,H0,假设,表明两变量之间是相关的。,2.,由于,r=0.2290.3,,为微弱正相关。,29,三、二元变量分析,SPSS,操作及案例分析,例二:,在有氧训练中,人的,耗氧量,y,(,毫升,/,分*千克体重,),是衡量人的身体状况的重要指标,它与多项指标有关。为了研究人的耗氧量与多项指标之间的关系,对,31,名测试者进行测试。,现以人的,耗氧量,y,为因变量,,多项指标中之一,1.5,英里跑所用时间,x,3,为自变量,,通过散点图和相关系数,分析研究耗氧量,y,与,1.5,英里跑所用时间,x,3,之间的相关关系。,30,三、二元变量分析,SPSS,操作及案例分析,结果分析:,从散点图中可以看出,耗氧量,y,与,1.5,英里跑所用时间,x,3,之间存在,较强负相关,的关系,即,1.5,英里跑所用时间,增加,,耗氧量会随之,降低,。,伴随概率,P=0.0000.01,,说明两变量之间是,相关,关系;在相关系数表中,,r=-0.832,,说明两变量之间,高度负相关,。,31,三、二元变量分析,SPSS,操作及案例分析,结果分析:,拟合线。,32,三、二元变量分析,SPSS,操作及案例分析,操作步骤:,(,1,),散点图,:,GraphsScatter,/Dot,数据文件:,8-Bivariate.sav,保存文件:,8-Bivariate1.spo,33,三、二元变量分析,SPSS,操作及案例分析,操作步骤:,(,2,),相关系数,:,Analyze Correlate,Bivariate,数据文件:,8-Bivariate.sav,保存文件:,8-Bivariate2.spo,34,三、二元变量分析,SPSS,操作及案例分析,例三:,利用例二的数据,分析因变量,y(,人的耗氧量,),,与自变量,x1,、,x2,、,x3,、,x4,、,x5,、,x6,之间的关系。,与耗氧量有关的因素,年龄,x,1,(,岁,),体重,x,2,(,次,/,分,),1.5,英里跑所用时间,x,3,(,分,),静止时心跳速率,x,4(,次,/,分,),跑步时心跳速率,x,5(,次,/,分,),跑步时最大心跳速率,x,6,(,次,/,分,),35,三、二元变量分析,SPSS,操作及案例分析,结果图:,36,三、二元变量分析,SPSS,操作及案例分析,结果分析:,从相关系数计算结果来看:,(1),耗氧量,y,与,1.5,英里跑所用时间,x3,、静止时心跳速率,x4,、跑步时心跳速率,x5,相关,程度较高,,其中耗氧量与,1.5,英里跑所用时间的,r=-0.832,,伴随概率,P=0.0000.01,,,属于,显著相关,;其他两项,r=-0.436,,,r=-0.420,,伴随概率,P,分别等于,0.014,和,0.019,大于,0.01,,但小于,0.05,也属于,相关,;,(2),上述三个变量与耗氧量之间的关系都属于,负相关,。,结论:,跑步速度,快,、静止时心跳速率,慢,、跑步时心跳速率,慢,的人,耗氧量,大,;反之,耗氧量小。,37,三、二元变量分析,SPSS,操作及案例分析,操作步骤:,操作步骤:,Analyze Correlate,Bivariate,数据文件:,8-Bivariate.sav,保存文件:,8-Bivariate_all.spo,1,2,38,偏相关分析,39,四、偏相关分析,概念,在,多元,相关分析中,由于受到,其他变量,的影响,在计算某,两个变量,之间的相关系数时,得到的结果往往,不能真实,反映变量之间的相关关系,所以在多元相关分析中,通常将其他变量,固定,(,控制,),,而计算某,两个,变量之间的相关系数,称为,偏相关系数,。,偏相关分析用于计算变量之间的偏相关系数,可以,判断,自变量对因变量的,影响程度,,,舍弃影响较小,的自变量,,保留影响较大,的自变量,从而更准确地判断变量之间的相关关系和相关程度。,40,四、偏相关分析,SPSS,操作及案例分析,例四:以数据文件“,Cars.sav,”,为例,分析在,油耗不变,的情况下、汽车马力,(horse),和加速度,(,accel,),的偏相关系数。,41,四、偏相关分析,SPSS,操作及案例分析,结果分析,汽车马力和加速度的偏相关系数为,-0.622,,有效样本数为,389,,显著性水平为,0.000,,这两个变量的偏相关系数,小于,0.01,,,属于,显著负相关,关系。,结论:,在油耗量,不变,的情况下,汽车发动机功率,越大,,汽车加速到某个速度的时间,越短。,42,四、偏相关分析,SPSS,操作及案例分析,同样是上述例子,,(,1,),不考虑,油耗量,汽车马力和加速度的相关系数为,-0.701,,显著性水平为,0.000,(,即:,Analyze Correlate,Bivariate,),(,2,),考虑,油耗量,汽车马力和加速度的偏相关系数为,-0.622,,显著性水平为,0.000,(即:,AnalyzCorrelate,Partial,),43,四、偏相关分析,SPSS,操作及案例分析,操作步骤:,不,考虑油耗,相关,AnalyzCorrelate,Bivariate,数据文件:,8-,Cars.sav,保存文件:,8-Cars1.spo,44,四、偏相关分析,SPSS,操作及案例分析,操作步骤:,考虑油耗,偏相关,AnalyzCorrelate,Partial,数据文件:,8-,Cars.sav,保存文件:,8-Cars2.spo,1,2,3,4,5,6,45,思考题,P146,第,1,题,数据文件:,8-World95.sav,保存文件:,8-World95.spo,第,2,题,数据文件:,8-Bivariate_mouse.sav,保存文件:,8-Bivariate_mouse.spo,(包含散点图),第,3,题,数据文件:,8-Bivariate_mark.sav,保存文件:,8-Bivariate_mark.spo,(包含散点图),46,思考题,第,4,题,(,补充,),已知有某河流的一年月平均流量观测数据和该河流所在地区当年的月平均雨量和月平均温度观测数据,试分析温度与河水流量之间的相关关系。,分别用,相关分析,和,偏相关分析,方法分别计算,相关系数和偏相关系数,,并对计算结果进行,对比分析,。,(提示:河水流量除了和温度有关外,降雨量也是影响流量的一个因素,在进行偏相关分析时,可以将雨量作为控制变量,进行分析。),数据文件:,8-flow.sav,保存文件:,8-flow.spo,思考题,第,5,题,(,补充,),销售商对产品的销售业绩的影响因素进行研究,现在通过调查获取了销售人员从事本行业的时间(年)和销售人员年龄的数据,试利用偏相关分析方法计算,偏相关系数,,并对计算结果进行,对比分析,。,(提示:通常认为从事本行业的时间和销售业绩是有关的,请分析如果考虑年龄因素是否会影响上述判断),数据文件:,8-sales.sav,保存文件:,8-sales.spo,48,回归概念、回归系数,研究一个或者多个变量的变动对另一个变量的变动的影响程度的方法,线性回归分析,曲线估计,非线性回归分析,下节展望,49,谢,结束,谢,
展开阅读全文