1、数学建模SPSS双变量相关性分析关键词:数学建模 相关性分析 SPSS摘要:在数学建模中,相关性分析是很重要的一部分,尤其是在双变量分析时,要根据变量之间的联系建立评价指标,并且通过这些指标来进行比对赋值而做出评价结果。本文由数学建模中的双变量分析出发,首先阐述最主要的三种数据分析:Pearson系数, Spearman系数和Kendall系数的原理与应用,再由实际建模问题出发,阐述整个建模过程和结果。相关性分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个变量因素的相关密切程度。相关性的元素之间需要存在一定的联系或者概率才可以进行相关性分析。相关性不等于因果性,也不是简单的个性化
2、,相关性所涵盖的范围和领域几乎覆盖了我们所见到的方方面面,相关性在不同的学科里面的定义也有很大的差异。双变量相关分析中有三种数据分析:Pearson系数, Spearman系数和Kendall系数。Pearson相关系数用来衡量两个数据集合是否在一条线上面,它用来衡量定距变量间的线性关系。如衡量国民收入和居民储蓄存款、身高和体重、高中成绩和高考成绩等变量间的线性相关关系。当两个变量都是正态连续变量,而且两者之间呈线性关系时,表现这两个变量之间相关程度用积差相关系数,主要有Pearson简单相关系数r。Spearman相关系数又称秩相关系数,是利用两变量的秩次大小作线性相关分析,对原始变量的分布
3、不作要求,属于非参数统计方法,适用范围要广些。对于服从Pearson相关系数的数据亦可计算Spearman相关系数,但统计效能要低一些。Spearman相关系数的计算公式可以完全套用Spearman相关系数计算公式,但公式中的x和y用相应的秩次代替即可。设有n组观察对象,将Xi、Yi(i=1,2,,n)分别由小到大编秩。并用Pi表示Xi的秩,Qi表示Yi的秩。两者秩和为:Pi=Qi=n(n+1)2两者平均秩为:Pave=Qave=(n+1)2秩相关系数rs计算公式为: rs=(Pi-Pave)(Qi-Qave)(Pi-Pave)2(Qi-Qave)2下面以2013年“五一”大学生数学建模大赛为
4、例:要检验变量之间的相关性,利用SPSS进行双变量相关分析即可。因附录给出的数据存在许多错误,因此在进行分析前需要进行简单筛选。由于测量人数较多,直接在EXCEL中将测量数据为0或者过大的行全部删除即可。双变量相关分析中有三种数据分析:Pearson系数, Spearman系数和Kendall系数。为了确定合适的分析类型,我们需要利用SPSS对数据进行正态检验。通过观察发现,附录中给出的男女体质指标是不一样的,并且通过我们调查,男女体质数据的分布会有很大不同,因此在本问接下来的讨论中,我们把男女分开讨论。正太检验结果如下表5.1.1.1,Sig0.05为符合正态分布:男生正态性检验Kolmog
5、orov-SmirnovaShapiro-Wilk统计量dfSig.统计量dfSig.身高男总.032762.068.982762.000台阶测试男总.120762.000.906762.000体重男总.091762.000.928762.000握力男总.075762.000.923762.000肺活量男总.043762.002.977762.000跳远男总.067762.000.966762.000a. Lilliefors 显著水平修正女生正态性检验Kolmogorov-SmirnovaShapiro-Wilk统计量dfSig.统计量dfSig.身高女总.043305.200*.99730
6、5.770体重女总.076305.000.915305.000跳远女总.045305.200*.981305.000位体前驱女总.056305.023.984305.002台阶测试女总.109305.000.919305.000肺活量女总.044305.200*.995305.445a. Lilliefors 显著水平修正*. 这是真实显著水平的下限。表5.1.1.1经过检验发现,部分数据符合正态分布,部分不符合。但是作为分析成分的“体重”不满足正态分布,因此我们舍弃了Pearson相关系数分析而选择Spearman秩相关系数分析最为合适。其模型原理如下:进行Spearman相关系数的假设检验
7、,H0:Rho=0时,Prob|r|。以r的绝对值值判断关联程度,其判断标准为表5.1.1.2:相关性|rs|极低/不相关0.0-0.09低相关0.1-0.3中等相关0.3-0.5显著相关0.5-1.0表5.1.1.2在SPSS中打开数据,点击:分析相关双变量,打开对话窗口,选择需要分析的两个变量、Spearman秩相关系数分析以及双侧检验。需要说明两点:(1)因各体重与各体质数据之间的相关性正负未知,需选用双侧检验;(2)除了数据满足非正态分布以外,Spearman秩相关系数分析还需要数据分级,以计算秩。但在SPSS中程序会自动生成秩,无需再手动分级。注意要保证总体相关系数与样本相关系数r保持一致,还须考虑Sig值。由数据,Sig|r|。Sig0.5则拒绝原假设,两者不相关。而r值则代表了正负相关性,以及相关性大小。结果见表男生女生体重与体质健康相关性男生女生项目相关性相关系数相关程度项目相关性相关系数相关程度体重身高正相关0.381中等相关体重身高正相关0.416中等相关肺活量正相关0.377中等相关肺活量正相关0.23低相关台阶测试不相关台阶测试不相关跳远负相关-0.071极低/不相关跳远负相关-0.115低相关握力正相关0.329中等相关坐位体前驱不相关