1、
目录 中文摘要 2 英文摘要 3 1 引 言 3 1.1 研究背景和意义 3 1.2 数据来源和预处理 4 1.3 属性数据的相关概念 6 1.3.1属性数据的定义 6 1.3.2 名义变量和有序变量的区别 6 1.4 SPSS和SAS介绍 7 2 基本理论 7 2.1 相关系数的定义 7 2.2 相关系数的显著性检验 8 2.3 Kendall的τ相关系数的定义 8 2.4 聚类分析的定义 10 2.5 聚类分析的统计量 10 2.5.1距离系数 11 2.5.2 聚类分析的方法 13 2.6 用VARCLUS过程进行变量聚类 14 2.6.1
2、VARCLUS过程的原理 14 2.6.2 VARCLUS过程的步骤 14 3 结果和分析 15 3.1 相关性分析在SPSS中的实现 15 3.1.1 相关性分析的结果分析 16 3.2 聚类结果解释分析 17 3.2.1聚类分析的结论 27 4 总结 27 5 谢辞 29 6 参考文献 30 属性数据建模分析—某项调查数据的统计分析 中文摘要 摘 要:本文的目的是通过对问卷调查中的数据进行相关性分析和聚类分析, 以便探索出影响女性健康的因素。首先,本文把问卷中的20个问题作为变量,并用SPSS软件计算它们的Kendal
3、l的τ相关系数。其次,运用SAS软件实现对这20个问题的聚类分析。最终得出一些结论,如精神比较衰弱的女性心慌气短和胸闷的可能性较大,泌尿系统受感染的患者一般会有尿黄、尿频的症状等等。因此相关性分析和聚类分析对医生诊断以及开药都具有很大的指导性,故本文建议医生在诊断时要善于参考相关性分析和聚类分析的结果。 关键词:属性数据;女性健康;相关性分析;聚类分析 1 Attribute data modeling and analysis - statistical analysis of a
4、 survey data 英文摘要 Abstract: The task of this paper is to explore the factors that affect women’s health, so it needs to the correlation analysis and cluster analysis of questionnaire data. First of all, 20 questions in the questionnaire as 20 variables, and it uses SPSS software calculate the Kend
5、all τ correlation coefficient. Secondly, it uses SAS software to achieve a cluster analysis of these 20 questions. Finally,it draws some conclusions,such as,mentally weak women are more likely to feel chest tightness and shortness of breath, Urinary system of infected female patients usually have da
6、rk urine and frequent urination, and so on. Therefore, the correlation analysis and cluster analysis have a lot guidance for doctors to diagnose and prescribe medication, so this article suggests that doctors should refer to the results of correlation analysis and cluster analysis. Kewords:attribu
7、te data;women's health;correlation analysis;cluster analysis 1 引 言 1.1 研究背景和意义 专门针对属性数据的分析方法起源于20世纪初的英国,20世纪早期,属性数据领域的研究主要集中于变量间的关联性。其后,Yule提出了属性变量关联性的优势比度量。同为统计学家和遗传学家的Fisher于1922年引入了刻画卡方分布族特征的自由度,并于1934年引入了Fisher精确检验。针对属性数据的模型最早出现在20世纪30年代,probit模型在处理毒
8、理学中二分响应的应用中流行起来。1938年R.A.Fisher和Frank Yates提出了log[π(1-π)]变换。同是医师及统计学家的Joseph Berkson于1944年为该变换引入了术语“logit”。1951年,Jerome Cornfield通过该模型,在案例对照研究中使用优势比去近似相对风险,logistic模型逐步流行起来。20世纪50年代和60年代早期,出现了大量有关多向列联表关联性和交互结构的工作,这激起了1965至1975年间人们对对数线性模型的研究。近来,属性数据领域的研究焦点在于对聚簇关联响应数据拟合logistic回归模型。这些研究一方面对聚簇关联数据的边缘进行
9、建模,另一方面利用广义线性混合模型进行建模。近年来,随着计算机技术的迅猛发展,针对属性数据的特殊统计方法的应用日益广泛,尤其是在生物医学和社会科学领域。这个现象一定程度上反映了过去几十年里属性数据分析方法的发展,同时也反映了科学家和应用统计学家方法论的日益精湛。 随着社会分工的日益复杂,人们的工作压力日益增大,由压力而引发的健康问题也逐渐受人关注。往往,疾病的产生是有迹象的,这种迹象就蕴藏在生活的细节之中。为此,我们对感到身体不适的女性患者做了详细的问卷调查,目的是通过一系列问题来探索出影响女性健康的因素。我们的问卷遍布女性生活的各个方面,比如有常见的问题1,“您会疲乏困倦吗?”。也有心理因
10、素方面的问题17,“您会无缘无故叹气吗?”。对于这些问题的回答,我们设立5个单选项,分别是从不、偶尔、有时,经常和总是。对于这些选项,我们赋予了有序变量类型的值,从1到5。此外,我们也对被调查者的文化水平做了详细的记录,同时也赋予有序变量类型,从1到5依次变高。1代表“小学、初中、无”,2代表“高中、中专、职高、中技、职工”,3代表“专科、大专、大学、大本、本科”,4代表“研究生、硕士、硕研”,5代表“博士”。因此,这篇文章主要分析问卷中问题的相关性以及对问题的聚类分析。 1.2 数据来源和预处理 本文的实测数据来源于XXX,该数据为女性健康信息。在统计学的研究中,数据可以说
11、是至关重要的。对于庞大的数据,如何利用适合该数据的数据处理软件是统计分析一开始必须做的工作。适合数据类型的数据库可以大大简化统计分析的过程,同时可以很方便地得到正确的结论。因此,我们准备选用MS Excel软件对数据进行初步处理。Microsoft Excel是微软公司的办公软件Microsoft office的组件之一,是由Microsoft为Windows和Apple Macintosh操作系统的电脑而编写和运行的一款试算表软件。Excel是微软办公套装软件的一个重要的组成部分,它可以进行各种数据的处理、统计分析和辅助决策操作,广泛地应用于管理、统计财经、金融等众多领域。由于我们的数据的来
12、源是调查问卷,因此我们利用Excel强大的赋值和筛选功能可以大大简化我们的程序,使文字化的数据变为属性数据。为了简单起见,对有缺失值的数据通过Excel筛选功能直接删除,最后将剩下的问卷中20个问题的的数据采集输入到Excel软件中。具体数据情况如表1.1所示。 表1.1 Excel数据整理情况 人员编号 文化程度 文化程度赋值 问题1 … 问题19 问题20 1 硕士 4 2 … 1 1 2 大专 3 3 … 2 2 3 初中 1 2 … 1 1 4 大专 3 3 … 2 2 5 中专 2 4 … 2 2
13、 6 高中 2 2 … 1 1 7 大专 3 2 … 2 2 8 高中 2 2 … 1 1 9 大专 3 2 … 2 3 . . . . . . . . . . . . . . . . . . . . .
14、 1024 硕士 4 2 … 4 1 1025 大学 3 2 … 3 1 1026 大学 3 3 … 2 3 1027 大学 3 2 … 3 1 表1.1显示了Excel中数据井然有序的状态。选择好整理数据的软件以后,我们还要选择软件对数据进行统计学的分析,比如相关性分析和聚类分析。同时,为了便于分析类别,我们把这20个问题制成表2.1以供查阅。 表2.1 问卷调查中的问题列表 1 您会疲乏困倦吗? 2 您会心慌气短(呼吸急促,接不上气)吗? 3 您患感冒的频率如何? 4 您喜欢安静、懒得说
15、话(喜欢懒言)吗? 5 您稍一活动就出虚汗吗? 6 您感到全身或手脚怕冷吗? 7 您受冷、进冷食时拉肚子吗? 8 您白天尿多、色清吗? 9 您夜间小便2次以上吗? 10 您感到手脚心发热或手脚心出汗吗? 11 您感到口唇发干或口干喝水多吗? 12 您面部潮红或偏红吗? 13 您大便秘结或干燥吗? 14 您小便时尿道有发热感、或尿色深浓吗? 15 您感到情绪低沉或情感脆弱吗? 16 您会精神紧张、焦虑不安吗? 17 您会无缘无故叹气吗? 18 您月经前感到乳房胀痛吗? 19 您面部油腻或鼻部油腻吗? 20 您舌苔厚腻吗? 1.3
16、属性数据的相关概念 1.3.1属性数据的定义 首先我们定义属性数据,属性变量是具有由类的集合组成的度量表。例如,政治哲学可分为“自由主义者”,“温和主义者”或“保守者”;住房类型的选择可分为“独立住宅”,“套房”或“公寓”;对文化水平可分为“小学,“中学”,“大学”和“研究生”。属性量表在调查态度和意见的社会学科中十分普遍,同时,属性量表也经常出现在保健学、行为学、教育学、公共健康和动物学等领域。当被研究问题的结果能够按是否符合特定的标准而划分为不同的类别时,属性变量就产生了。 1.3.2 名义变量和有序变量的区别 属性数据的度量量表主要有两种类型。许多属性量表具有自然的顺序,例如
17、治疗效果(很好,好,一般,差)、公司存货水平的评估(太低,合理,太高)、感到焦虑症状的频率(从不,偶尔,经常,总是)等。具有有序量表的属性变量就称为有序变量。非有序量表的属性变量则称作名义变量,例如,宗教信仰(天主教徒,犹太教徒,新教教徒,其他)、喜爱的音乐类型(古典,乡村,摇滚,爵士,民族)等。 对于名义变量,各类别的排序并不重要。统计分析并不依赖于各个类的排列顺序。针对名义变量的分析方法所得的结果并不因为各类别排列顺序的改变而异,针对有序变量的分析方法要依赖各个类排序的顺序。大多数情况下,各类别由低水平到高水平排列还是由高水平到低水平排列并不会对结果造成影响,但若按其它方式重新排列各个
18、类别,结果便会改变。 适用于有序变量的分析方法并不适用于名义变量,因为名义变量并不具有有序的类别。名义变量和有序变量均可用名义变量分析法,因为它们仅要求具有属性量表即可。然而,当使用名义变量分析有序变量时,并没有利用有序变量各类别顺序的信息,这可能会导致严重的功效损失。通常,我们最好针对数据真实的量表类型使用相应的分析方法。属性数据一般是定性的,它区别于诸如体重、年龄和收入等数值变量或定量变量。我们将发现把有序数据当作定量变量处理通常是有利的,例如,给各类别分配有序得分。 1.4 SPSS和SAS介绍 SPSS(Statistical Package for the Social,社会
19、科学统计软件包)是由美国斯坦福大学开发的统计分析软件,它使用Windows的窗口方式展示各种管理和分析数据的方法,可方便地用于特定的科研统计。其基本功能包括数据管理、统计分析、图表分析、输出管理等,它在社会科学、自然科学的各个领域都能发挥巨大的作用,并已经应用于经济学、生物学、教育学、医学以及体育、农业、林业等各个领域。 SAS(Statistics Analysis System)软件是在20世纪70年代由北卡罗莱纳州立大学编写出来的,当时用来处理数据,作生物分析用。随着SAS的发展,SAS内部自带函数和过程一直在增加,功能逐渐强大和完善。目前,SAS主要应用在金融、数学、通信、经济、生物
20、医药和科研院所等领域。在统计分析领域,SAS是世界上公认的最具权威的统计分析工具之一,其统计分析指标得到国际公认。 2 基本理论 2.1 相关系数的定义 相关系数是变量之间相关程度的指标,根据相关性可以衡量变量之间相关程度的强弱。若相关系数是根据总体全部数据计算的,称为总体相关系数,记为;总体相关系数的计算公式为: 式中,为变量X和Y的协方差,和分别是X和Y的方差。 若相关系数是根据样本数据计算的,则称为样本相关系数(简称为相关系数),记为r。总体相关系数的计算公式为: 一般情况下,总体相关系数是未知的,我们通常是将样本相关系数r作为的近似估计值。相关系数有
21、如下性质: ① 相关系数的取值范围:-1≤r≤1,若0<r≤1,表明X与Y之间存在正线性相关关系;若-1≤r<0,表明X与Y之间存在负线性相关关系。 ② 若r=1,表明X与Y之间存在完全正线性相关关系;若r=-1,则表明X与Y之间存在完全负线性相关关系;若r=0,说明二者之间不存在线性关系。 ③ 当-1<r<1时,为说明两个变量之间的线性关系密切程度,通常将相关程度分为如下几种情况:当|r|≥0.8时,可视为高度相关;0.5≤|r|<0.8时,可视为中度相关;0.3≤|r|<0.5时,可视为低度相关;当|r|<0.3时,说明两个变量之间的相关程度很弱,可视为不相关。但这种解释不需建立在对
22、相关系数进行显著性检验的基础之上。 2.2 相关系数的显著性检验 相关系数的显著性检验也就是检验总体相关系数是否显著为0,通常采用费歇尔(Fisher)提出的t分布检验,该检验可以用于小样本,也可以用于大样本。检验的步骤如下: ① 提出假设:假设样本是从一个不相关的总体样本中抽出的,即 :ρ=0 ;: ρ≠0 ② 由样本观测值计算检验统计量: 的观测值和衡量结果的极端性的p值: ③进行决策:比较p和检验水平α作判断:p<α,拒绝原假设;p≥α,不能拒绝原假设。 在这个定义中,Kendall的τ相关系数的取值范围为-1和1之间。值越接近于1,则越倾向于认为
23、正相合;若越接近于-1,则越趋向于负相合。 2.3 Kendall的τ相关系数的定义 由于本文20个问题选项的数据类型为有序的属性数据,不像传统意义上的数据那样能实现四则运算。因而我们必须找出适用于属性数据相关系数的定义。经过查阅相关资料,我们了解到Kendall的τ相关系数可以度量有序属性数据的相关性。其相关系数的定义如下: 设有成对的有序属性数据 ,…, ,则它们的Kendall的τ相关系数为: 其中符号函数sign的定义如下: 由于成对数据来自于连续型随机变量,为简化起见,假设数据中没有相等的情况。所以z的最大值和最小值分别为和。从而的值正在-1和1之间。
24、的值越接近于1,则越趋向于认为和正相关,它们之间有同步上升或同步下降的趋势。反之,的值越接近于-1,越趋向于认为和负相关,一个上升时,另一个则有下降的趋势;或一个下降时,另一个有上升的趋势。 下面讨论如何定义度量列联表相合关系的Kendall的τ相关系数。令 显然, 。由于,所以有 。从而得出 于是度量列联表相合关系的Kendall的τ相关系数的定义为 的值在-1和1之间。其值越接近于1,则越倾向于认为正相合;若越接近于-1,则越趋向于负相合。 2.4 聚类分析的定义 设有n个样品(多元观测值),每个样品测得m项指标(变量),得到观测数据,如图2-1所示。其中数据又称
25、为观测数据阵或简称为数据阵,列向量表示第j项指标(j=1,2,…,m);行向量表示第i个样品(i=1,2,…n)。 图3.1观测数据 … … … … … … … … … 聚类分析是将样本个体或指标变量按具有的特性进行分类的一种统计分析方法。我们所研究的样品或指标(变量)之间存在着程度不同的相似性(亲疏关系),于是可根据一批样品的多
26、个观测指标,具体找出一些能够度量样品或指标之间相似程度的统计量,以这些统计量划分类型的依据,把一些相似程度较大的样品(或指标)聚合为一类,把另外一些彼此之间相似程度较大的样品(或变量)又聚合为另一类,关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到所有的样品(或指标)聚合完毕,这就是分类的基本思想。由此可知,聚类分析的任务有两个:一是寻找合理的度量事物相似性的统计量,常用的聚类统计量有距离系数和相似系数两类。距离系数一般相对于对样品分类,而相似系数一般用于对变量聚类;二是寻找合理的分类方法。 2.5 聚类分析的统计量 聚类分析实质上是寻找一种能客观反映元素之间亲疏关
27、系的统计量,故聚类的第一步需要给出两个指标或两个样品之间相似性度量的统计量。用来衡量样本个体之间属性相似程度的统计量和用来衡量指标变量之间属性相似程度的统计量是不同的,前者用的统计量是距离系数,后者用的统计量是相似系数。距离系数的定义有很多,如欧氏距离、极端距离、绝对距离等。同样,相似系数的定义也很多,如相关系数、夹角余弦、联列系数等。下面2.5.1将给出它们的计算公式。 2.5.1距离系数 设有n个样品,p个指标,数据矩阵为: 因每个样品有p个指标,故可以将每个样品看成p维空间中的一个点,n个样品就构成了p维空间中的n个点。因此,我们可以用距离来度量样品之间接近的程度。令是第i个样
28、本观察值,是第j个样本观察值,那么这两个样本和之间的距离常用的有以下几个。 (1) 明氏(Minkowski)距离 当q=1时,为绝对距离;当q=2时,为欧氏距离;当q=3时,为切比雪夫距离。当各变量的测量值相差悬殊时,采用明氏距离并不合理,而需要先对数据标准化,然后用标准化后的数据计算距离: 其中: 明氏距离,特别是其中的欧氏距离是人们较为熟悉的,也是使用最多的距离。但明氏距离亦存在不足之处,主要表现在两个方面:第一,它与各指标的量纲有关;第二,它没有考虑指标之间的相关性
29、欧氏距离也不例外。 (2) 马氏(Mahalanobis)距离 设表示指标的协方差阵,即 其中 如果存在,则两个样品之间的马氏距离为: 这里的为样品的P个指标组成的向量,即原始资料阵的第i行向量。样品类似。顺便给出样品X到总体G的马氏距离定义为: 其中为总体得均值向量,为协方差阵。 马氏距离既排除了各指标之间相关性的干扰,而且还不受各指标量纲的影响。除此之外,它还有一些优点,如可以证明,将原数据作一线性交换后,马氏距离仍不变,等等。 (3) 兰氏距离 此距离仅使用于一切的情况。这个距离有助于克服各指标之间量纲的影响
30、但没有考虑指标之间的相关性。 计算任何两个样品和之间的距离,其值越小,表示两个样品的接近程度越大;值越大,表示两个样品的接近程度越小。如果把任何两个样品的距离都算出来,则可排成距离阵D: 其中, 。D是一个实对称阵,所以只须计算上三角部分或下三角部分。根据D可以对n个点进行分类,距离近的点归为一类,距离远的点归为不同类。 (4) 类间距离 类间距离是用来度量一个类(一组样本)与另一个类(另一组样本)之间距离的统计量。类间距离的定义方法很多,它们都是以距离系数为依据的。 令类A中有a个样本,类B中有b个样本, 为类A、B中一对样本之间的距离, 。
31、 假设 为类A和类B之间的距离,那么,常用的几种类间距离定义的方法如下。 ① 最短距离法。定义类间距离等于两类中距离最小的一对样本之间的距离,即: ② 最长距离法。定义类间距离等于两类中距离最大的一对样本之间的距离,即: ③ 平均距离法。定义类间距离等于两类中所有样本对距离的中间值,即: ④ 重心距离法。定义类间距离等于两类的重心之间的距离,即: 其中,分别为类A和类B的重心,这里的重心指的是类内所有样本的均值坐标。 ⑤ 中间距离法。定义类间距离等于两类中所有样本对距离的中间值,即: 2.5.2 聚类分析的方法 聚类方法大致有系统聚类法(谱系
32、聚类)、分解法(最优分割法)、逐步聚类法、有序样品的聚类等方法。当然,采用不同的分类方法会得到不同的分类结果,有时即使是同一种聚类方法,因距离的定义方法不同也会得到不同的分类结果。对任何观测数据都没有唯一正确的分类方法,故在实际应用中,由实际工作者决定所需要的分类数和分类情况。 在聚类分析中,根据分类对象的不同,聚类分析分为两种: ① 样本聚类:样本聚类是对样品(观测)进行的分类处理,又称为Q型分类,相当于对观测数矩阵按行分类。 ② 变量聚类:变量聚类是对变量(指标)进行的分类处理,又称为R型分类,相当于对观测数矩阵按列分类。 本文是对问题进行聚类分析,故而是针对变量的聚类分析,下面着
33、重介绍变量(指标)聚类。变量聚类对k个变量(指标)进行的具体步骤如下: ① 确定各类的类内指标总变异被类分成所解释的最低比例P。 ② 把所有的的指标看成一类,计算类内指标总变异被类内成分所解释的比例,如果所解释的比例大于或等于P,则聚类停止,否则进行③。 ③ 将这个类分解成两类,分类的原则是使得每一类内的指标总变异尽可能地被该类的类成分所解释,且类间相关系数达到最小,计算每一类的类内指标总变异被类成分所解释的比例,如果所解释的比例大于或等于P,则聚类停止,否则进行④。 ④ 最后解释比例最小的一类,再继续进行分解。 ⑤ 重复以上步骤,直到所有类的类内指标总变异被类成分所解释的比例都大于
34、或等于P为止。 2.6 用VARCLUS过程进行变量聚类 SAS提供的VARCLUS过程是专门用于进行分类的,它根据相关阵或协方差阵对变量进行分裂聚类或谱系聚类。类的选择原则根据主成分分析和因子分析的思想,使每一类的类分量(第一主成分或重心分量)所解释的方差为最大。 2.6.1 VARCLUS过程的原理 VARCLUS过程对变量聚类的原理是使原始变量总方差中由类分量所解释的部分达到最大化,其中会用到对相关系数矩阵或协方差矩阵的分析。若用相关系数矩阵(默认)进行分析,则全部变量具有完全相同的重要性,对分析结果的影响等,若用协方差矩阵进行分析(使用选项COVARIANCE),则具有较大方差
35、的变量会对分析结果有更大的影响。 2.6.2 VARCLUS过程的步骤 如果没有为VARCLUS过程提供初始分类的情况, VARCLUS过程开始把所有变量看成一个类,然后它重复一下步骤: ① 首先挑选一个将被分裂的类。通常这个被选中的类的类分量所解释的方差百分比最小(选项PRECENT=)或者同第二主成分有关的特征值为最大(选项MAXETGH=1)。 ② 把选中的类分裂成两类。首先计算前两个主成分,再进行斜交旋转,并把每个变量分配到旋转分量对应的类里,分配的原则是使变量与这个主成分的相关系数为最大。 ③ 变量重新归类。通过多次反
36、复循环,变量被重新分配到这些类里,使得由这些类分量所解释的方差为最大。 当每一类满足用户规定的准则时,VARCLUS过程终止。所谓准则,或者是每个类分量所解释的方差的百分比,或者是每一类的第二个特征值达到预先设定的标准为止。如果没有规定准则,则当每个类只有一个特征值大于1时,VARCLUS过程终止。 3 结果和分析 3.1 相关性分析在SPSS中的实现 有了上面的知识准备,我们就可以开始相关性分析了。若能分析出20个问题中一些关联度较大的问题,就能对医生诊断患者提供非常有效的参考依据。 SPSS软件给我们提供了相关性的计算功能。具体步骤为在“分析”菜单的“相关”子菜单中选择“双变量”
37、命令,在弹出的如图1-1所示“双变量相关”对话框中,从对话框左侧的变量列表中依次选择q1至q20变量使它们进入“变量框”。再在“相关系数”框中选择Kendall的tua-b,显著性检验选择默认的双侧检验。然后点击“确定”,就可以得到相关性计算表格。 图3.1“双变量相关”对话框 3.1.1 相关性分析的结果分析 因考虑到得到的相关系数计算表格比较大,在word文档中不便给出,故只给出部分的相关系数的计算表格,见表3.1和表3.2。从SPSS的相关性计算表格中,我们能得出一些有用的信息。 表3.1 q1与q2至q20的相关系数表 q2 q3 q4 q5 q6 q7
38、 q8 q9 q10 相关系数 .316 .099 .141 .254 .193 .188 .072 .095 .111 Sig.(双侧) .000 .000 .000 .000 .000 .000 .007 .001 .000 N 1027 1027 1027 1027 1027 1027 1027 1027 1027 续表3.1 q11 q12 q13 q14 q15 q16 q17 q18 q19 q20 .201 .087 .159 .164 .282 .285 .291 .162
39、136 .190 .000 .002 .000 .000 .000 .000 .000 .000 .000 .000 1027 1027 1027 1027 1027 1027 1027 1027 1027 1027 注:**在置信度(双侧)为0.01时,相关性是显著的,*在置信度(双侧)为0.01时,相关性是显著的。 由表3.1可以看出,q1与q2的相关系数为0.316,在这个数据的旁边有两个星号,表示用户指定的显著水平为0.01时,统计检验的相伴概率小于等于(在表格中显示为“.000” )0.01,即q1与q2显著正相关。同理可得,q1除与q
40、8、q9和q12显著不相关外,与其他的均显著相关。 于是若要对问题1“您会感到疲乏困倦吗?”进行研究,则可以把问题1固定住,再以±0.25为界就能筛选出与问题1相关性较强的问题有四个。它们分别为问题2“您会心慌气短吗(呼吸短促,接不上气)吗?”,问题15“您感到情绪低沉或情感脆弱吗?”,问题16“您会精神紧张、焦虑不安吗?”,问题17 “您会无缘无故叹气吗?”。这说明问题2、问题15、问题16、问题17与问题1的相关性比较大。 表3.2 q3与q4至q20的相关系数表 q4 q5 q6 q7 q8 q9 q10 q11 相关系数 .049 .139
41、121 .153 .075 .072 .096 .143 Sig.(双侧) .078 .000 .000 .000 .006 .012 .001 .000 N 1027 1027 1027 1027 1027 1027 1027 1027 续表3.2 q12 q13 q14 q15 q16 q17 q18 q19 q20 .109 .155 .127 .055 .044 .082 .041 .085 .091 .000 .000 .000 .048 .122 .004 .126 .002 .
42、001 1027 1027 1027 1027 1027 1027 1027 1027 1027 同时,问题3“您患感冒的频率如何?”也值得我们研究,感冒一般是身体虚弱的女生中常见的疾病,因此我们对这一症状进行相关性分析。通过查看相关系数表3.2,我们可知与问题3相关性排在前三位的问题是问题7“您受冷、进冷食时拉肚子吗?”,问题11“您感到口唇发干或口干喝水多吗?”,问题13“您大便秘结或干燥吗?”。在这三个问题中我们容易知道,这是由于女性患者气虚和免疫力下降引起的,而经常感冒可能也与这个原因相关。这一相关性研究也对医生治疗患者给予了启示。 3.2 聚类结果解释分析 把
43、整理好的数据文件通过菜单文件中的“import data”导入SAS中,然后根据弹出的对话框一步一步的往下做,将导入的数据保存在Sausuer(永久型)数据集下,并命名。接下来在命令窗口输入相应的聚类分析的SAS程序,运行后,便得到聚类结果,其结果分析如下: (1) 如图3.2所示。是基本信息,包括样本数、指标变量个数以及对分类的要求。当不使用proportion选择项时,maxeigen自动设置为1。 图3.2基本信息 (2) 第一步:如图2-1所示。这是用分解法思想进行斜交主成分分聚类的第一步,把全部20个变量聚成一类,能解释的方差为4.416329,占总方差20的22.08%,
44、第二特征值为1.3487,并预告这一分类会被分裂。 图3.3斜交主成分聚类第一步 (3)第二步 :由于SAS软件设置的关系F4、F5、F6、F7、F8、F9、F10、F11、F12、F13、F14、F15、F16、F17、F18、F19、F20、F21、F22、F23分别代表我们原来的问题q1、q2、q3、q4、q5、q6、q7、q8、q9、q10、q11、q12、q13、q14、q15、q16、q17、q18、q19、q20。
45、将一类分成F4、F5、F7、F8、F9、F10、F18、F19、F20和F6、F11、F12、F13、F14、F15、F16、F17、F21、F22、F23两大类,图2-3给出聚类概要表明各类中的Variation Explaned(解释方差,即第一特征值)、Second Eigenvalue(类中的第二特征值)等。此时能解释的方差为5.695241,占总方差的28.48%。 图3.4聚类概要 图3.4给出了相关系数的平方,其中第3列R-Squared With Own Cluster是指每个变量与所属类分量之间的相关系数的平方,如:变量F4在第一类中,它与第一类分量(相当于主成分分析
46、中的第一主成分)之间的是0.4045,同理可理解该列中其他相关系数的含义。如:F4与第二类分量之间的相关系数平方为0.1046,该值越小,说明分类越合理。第五列R-squared with 1-R**2Ratio是由同一行的数据求得: 如:(1-0.4045)/(1-0.1046)=0.6651,此值越小,说明分类越合理。从此列可看出,所有比值都较大,说明这20个变量分为两类是很不合适的。 图3.5相关系数的平方 图3.5给出从标准化变量预测类分量的标准回归系数。若设、分别为第一和第二类分量,则 =0.204718F4+0.187281F5+0.130763F7+0.1800
47、37F8+0.141927F9+0.131624F10+0.236183F18+0.235504F19+0.216062F20 =0.135218F6+0.165245F11+0.135870F12+0.186653F13+0.221408F14+0.182641F15+0.205780F16+0.221775F17+0.126748F21+0.206258F22+0.234315F23。 图3.6给出的类结构相当于因子分析中的因子模型,即每个标准化变量可以表示成全部类分量的线性组合。如:F4=0.204718。而类内相关就是类分量之间的相关系数矩阵,这个相关系
48、数越小,聚类则越合理。由图2-7可以得到最大的第二特征值为1.143087,它大于Maxeigen=1,因此要继续进行分类。 图3.6标准回归系数 图3.7类结构 图3.8 类内相关 (4) 第三步:将20个变量分为三类,其聚类概要和相关系数的平方分别如图2-8、2-9所示: 图3.9聚类概要 图3.10相关系数的平方 而相关系数矩阵见图3.11,可得到最大第二特征值1.079389大于1,因而需要进一步进行分类。 图3.11类内相关 (5)第四步:将20个变量分为四类,其聚类概要和相关系数的平方分别如图3.12、3.13所示: 图3.12聚类概
49、要 图3.13相关系数的平方 其相关系数矩阵而相关系数矩阵见图3.14,可得到最大第二特征值 为1.013294大于Maxeigen=1,因而需要进一步进行分类。 图3.14类内相关 (6)第五步:首先给出将四类分为五类的聚类概要。五类分别为F7、F18、F19、F20;F6、F13、F14、F15、F16、F17;F21、F22、F23;F11、F12;F4、F5、F8、F9、F10。此时能解释的方差为8.777689,占总方差20的43.89%,如图3.15所示。 接着给出各变量与类间的相关系数的平方(见图3.16)、标准回归系数(见图3.17)以及类分量之间的相关系数矩
50、阵(见图3.18)。 图3.15聚类概要 图3.16相关系数的平方 图3.17标准回归系数 图3.18类分量之间的相关系数矩阵 此时已达到默认的停止分裂的临界值,即每个类中只有一个特征值大于1,所以停止分裂。令、、、、表示5个类成分,则由标准回归系数(见图2-16)可得到类成分关于指标变量的线性组合表达式: =0.217580F7+0.392611F18+0.387452F19+0.339637F20 =0.227398F6+0.282853F13+0.311251F14+0.288979F15+0.305991F1
51、6+0.332269F17 =0.3963344F21+0.526952F22+0.481256F23 =0.634959F11+0.634959F12 =0.341435F8+0.2545568F9+0.268512F10 图3.19汇总信息 最后,给出整个聚类过程的汇总信息(见图2-18)。它列出了分成1类、2类、3类、4类和5类等聚类结果的统计量。从中可以看出,总体变异被所有聚类成分所解释的比例随类别数的增加而增大,分别为22.08%、28.48%、33.70%、38.95%和43.89%;类内总体变异被该聚类成分所解释的比例的最小值随类别数的增加而增大,分别是22.08%、23.53%、26.65%、32.29%和32.29%;最大的第2特征值随类别数的增加而减小,分别为1.348663、1.143087、1.0793






