资源描述
西南大学
多元统计分析课程论文
学 院 数学与统计学院
年级专业 2009级数学与应用数学
论文写作 唐维彬
学 号 222009314012030
资料收集 李虹霖
学 号 222009314012023
软件操作 刘鹏懿
学 号 222009314012027
数据分析 冉俊峰
学 号 222009314012029
日 期 2012年10月30日 基于主成分分析和因子分析评估大气污染
摘要:近年来大气污染日趋严重,引起了人们的广泛关注。本文采用主成分分析法和因子分析法,为了评估某大型化工厂的污染情况,在厂区及邻近地区挑选有代表性的8个大气取样点,每日4次同时抽取大气样品,测定其中包含的6种气体的浓度,前后共4天,每个样品每种气体实测16次。最后通过数据的分析与整理,运用SPSS软件,进行主成分分析和因子分析,对该大型化工厂的污染情况做出评估,
关键字:主成分分析 因子分析 SPSS17.0软件 大气污染
正文
主成分分析法
(一) 主成分分析原理
主成分分析是设法将原来众多具有一定相关性( 比如P 个指标) , 重新组合成一组新的互相无关的综合指标来代替原来的指标。通常数学上的处理就是将原来P 个指标作线性组合, 作为新的综合指标。最经典的做法就是用 ( 选取的第一个线性组合, 即第一个综合指标) 的方差来表达, 即Var()越大, 表示 包含的信息越多。因此。在所有的线性组合中选取的 应该是方差最大的, 故称为第一主成分。如果第一主成分不足以代表原来P 个指标的信息, 再考虑选取即选第二个线性组合, 为了有效地反映原来信息, 已有的信息就不需要再出现在中, 用数学语言表达就是要求Cov(,)=0, 则称 为第二主成分, 依此类推可以构造出第三、第四, , 第P 个主成分。
(二) 主成分分析数学模型
其中, , , (i=1, ,m)为X 的协方差阵Σ的特征值多对应的特征向量, , , ,是原始变量经过标准化处理的值, 因为在实际应用中, 往往存在指标的量纲不同, 所以在计算之前须先消除量纲的影响,而将原始数据标准化, 本文所采用的数据就存在量纲影响[注: 本文指的数据标准化是指Z 标准化]。,,为相关系数矩阵, ,是相应的特征值和单位特征向量, 。
(三) 主成分分析主要步骤如下:
首先。结合数据,判断是否需要进行主成分分析;其次,进行分析,结合主成分的累计贡献率和特征值来确定提取的主成分或因子的数目;然后,进行主成分分析,将提取的主成分存为新的变量,以便继续分析。主成分分子也是通过菜单栏中的Analyze →Data Reduction →Factor命令来实现的,基本操作与因子分析相同。具体操作如下:
1 利用SPSS进行数据处理
(1)打开数据文件后,在数据编辑窗口一次选择Analyze →Data Reduction →Factor Analysis, 弹出Factor Analysis 对话框Factor Analysis 对话框。(SPSS 在调用Factor Analyze 过程进行分析时, SPSS 会自动对原始数据进行标准化处理, 所以在得到计算结果后的变量都是指经过标准化处理后的变量, 但SPSS 并不直接给出标准化后的数据, 如需要得到标准化数据, 则需调用Descriptive 过程进行计算。)
(2)在左边的原变量列表框中选择将进行因子分析的变量作为因子分析变量进入variables列表框,具体符号说明如下:
图1 变量选择图
氯—————代表 硫化氢———代表 SO2————代表
Z碳————代表 环氧氯丙烷—代表 环已烷———代表
(3)单击Extraction按钮,即可打开Factor Analysis:Extraction对话框,在Eigenvalues over文本框中输入0.6作为因子提取的阀值,即提取特征值大于0.6的因子,并且选择Display选项组的两个复选框。
图 2 因子提取
(4)单击OK按钮,执行因子分析得到如下所示的特征值和方差贡献表以及因子负荷矩阵。
下表为各因子对应的特征值,% of Variance列为各因子的方差贡献率;Cumulative %列为累计方差贡献率。从表中可以看出,前4个变量已经可以解释89.264%的方差。
表 1 特征值与方差贡献表
下表为旋转前的因子负荷矩阵,与因子分析得到的结果是一致的。
表2 旋转前的因子负荷矩阵
2 利用因子分析的结果进行主成分分析
(1)将旋转前的因子负荷矩阵中的数据输入到SPSS数据编辑窗口,将4个变量分别命名为A1 A2 A3 和A4。
图 3 新变量A1 A2 A3 A4
(2)然后,依次计算特征向量矩阵。在主菜单栏中选择Transform→Compute Variable命令,打开如图所示的Compute Variable对话框,“T1=A1/SQR(2.183)”,单击OK按钮,即可在数据编辑窗口中得到变量名为T1的第一特征变量。依次类推,计算T2 T3 和T4 ,注SQRT后的括号内的数值为相应的特征值。
图4 特征向量的计算
表 3 特征向量矩阵
设变量氯,硫化氢,SO2,碳4,环氧氯丙烷,环已烷依次为,,,,,,则根据上面的特征向量表可以得到主成分的表达式如下:
由于是以相关系数矩阵为出发点进行因子分析,所以主成分分析表达式中的应该是经过标准化变换后的标准变量。所以计算主成份之前首先需要对原始变量进行标准化处理,得到变量名为,,,,,。标准化处理变量通过Descriptive Statistics 菜单中的Descriptive命令实现,该命令不仅可以用于描述分析,还可以用来标准化数据变量。将变量标准化后,再次调用Compute Variable命令,分别在对话框中输入等式
就可以计算得到主成分表如下:
表4 8个取样点的主成分表
3 结果分析
从上面的主成分表达式可以看出,在式中第一主成分上有较高的载荷(为0.56),说明第一主成分是由变量氯()决定的,气体中氯作为主要污染气体是可信的。在第二主成分上有较高的载荷(为0.74),说明主要依赖,说明SO2作为主要污染气体是可信的。依次类推,主要依赖碳4,主要依赖环氧氯丙烷。综上所诉,在对这8个取样点的空气质量进行评估时,可以认为氯,SO2,碳4,环氧氯丙烷是空气污染的主要气体
因子分析
(一) 因子分析原理
因子分析法是从研究变量内部相关的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。它的基本思想是将观测变量进行分类,将相关性较高,即联系比较紧密的分在同一类中,而不同类变量之间的相关性则较低,那么每一类变量实际上就代表了一个基本结构,即公共因子。对于所研究的问题就是试图用最少个数的不可测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量。
(二) 因子分析数学模型
因子分析模型中,假定每个原始变量由两部分组成:共同因子(common factors)和唯一因子(unique factors)。共同因子是各个原始变量所共有的因子,解释变量之间的相关关系。唯一因子顾名思义是每个原始变量所特有的因子,表示该变量不能被共同因子解释的部分。原始变量与因子分析时抽出的共同因子的相关关系用因子负荷(factor loadings)表示。
因子分析最常用的理论模式如下:
(,n为原始变量总数)
可以用矩阵的形式表示为。其中F称为因子,由于它们出现在每个原始变量的线性表达式中(原始变量可以用表示,这里模型中实际上是以F线性表示各个原始变量的标准化分数),因此又称为公共因子。因子可理解为高维空间中互相垂直的m个坐标轴,A称为因子载荷矩阵,称为因子载荷,是第个原始变量在第个因子上的负荷。如果把变量看成m维因子空间中的一个向量,则表示在坐标轴上的投影,相当于多元线性回归模型中的标准化回归系数;称为特殊因子,表示了原有变量不能被因子解释的部分,其均值为0,相当于多元线性回归模型中的残差。
其中,
(1)为第个变量的标准化分数;
(2)(i=1,2,…,m)为共同因素;
(3)为所有变量共同因素的数目;
(4)为变量的唯一因素;
(5)为因素负荷量。
( 三) 因子分析主要步骤如下:
为了测量某大型化工厂的污染情况,在厂区及邻近地区挑选有代表性的8个大气取样点,每日4次同时抽取大气样品,测定其中包含的6种气体的浓度,前后共4天,每个样品每种气体实测16次,计算每个取样点每种气体的平均浓度如下表,并建立数据文件如下:
图5 数据文件建立
1. SPSS具体操作步骤
(1)打开数据文件后,在数据编辑窗口一次选择Analyze →Data Reduction →Factor Analysis, 弹出Factor Analysis 对话框
(2)在左边的原变量列表框中选择将进行因子分析的变量作为因子分析变量进入variables列表框,具体符号说明如下:
图6 因子分析变量
氯—————代表 硫化氢———代表 SO2————代表
碳4———代表 环氧氯丙烷—代表 环已烷———代表
(3)单击Descriptives按钮,打开Factor Analysis:Descriptives对话框。选择Coefficients,Significant level 和Deteterminant选项,然后单击Continue, 返回Factor Analysis 对话框
图 7 因子分析描述
(4)单击Extraction按钮,即可打开Factor Analysis:Extraction对话框,在Eigenvalues over文本框中输入0.6作为因子提取的阀值,即提取特征值大于0.6的因子,并且选择Display选项组的两个复选框。
图8 因子提取
(5)单击Rotation按钮,打开Factor Analysis:Rotation对话框。在Method选项组中选择Varimax单选按钮,使用正交旋转方法,并选中Display选项组的两个复选框。设置结束后,单击Continue按钮确认并返回主对话框。
图 9 因子旋转
(6)单机OK按钮确认,并执行因子分析。
2 结果分析
表5 共同度表(communalities)
Communalities
Initial
Extraction
氯
1.000
.927
硫化氢
1.000
.741
SO2
1.000
.937
碳4
1.000
.961
环氧氯丙烷
1.000
.981
环已烷
1.000
.808
Extraction Method: Principal Component Analysis.
在表中给出了采用主成分法提取因子后的各变量共同度,包括各变量对应的初始共同度(Initial)和提取因子后的再生共同度(Extraction)
表6 相关矩阵表(correlation Matrix)
Correlation Matrixa
氯
硫化氢
SO2
碳4
环氧氯丙烷
环已烷
Correlation
氯
1.000
-.557
-.443
.249
-.519
.214
硫化氢
-.557
1.000
-.067
-.092
.377
-.214
SO2
-.443
-.067
1.000
.123
-.082
.517
碳4
.249
-.092
.123
1.000
-.145
.203
环氧氯丙烷
-.519
.377
-.082
-.145
1.000
-.183
环已烷
.214
-.214
.517
.203
-.183
1.000
Sig. (1-tailed)
氯
.076
.136
.276
.094
.306
硫化氢
.076
.437
.414
.179
.306
SO2
.136
.437
.386
.424
.095
碳4
.276
.414
.386
.366
.315
环氧氯丙烷
.094
.179
.424
.366
.333
环已烷
.306
.306
.095
.315
.333
a. Determinant = .089
表的第一行为相关系数矩阵,第二部分为零假设相关系数为零的单侧显著性检验概率矩阵。从表中可以看出,各概率均大于0.05,因此可以认为各变量两两之间是不相关的。
表7 总方差解释表(total)
在表中,Component表示因子序号:Total为特征值,特征值的大小反映公因子的贡献;% of Variance 为特征值占方差的百分数;Cumulative %为特征值在方差百分数的累加值。Extraction Sums of Squared Loadings列为根据特征值大于0.6的原则提取的4个因子的特征值,占方差百分数以及其累加值。这4个因子解释的方差占总方差的89.264%,能够比较全面的反映所有信息。Rotation Sums of Squared Loadings列为旋转因子矩阵后的4个因子的特征值,占方差百分数及其累加值。
图 10 碎石图
如图所示,横坐标表示因子序号,纵坐标表示各因子所对应的特征值。从碎石图中可以比较清楚看出因子的重要程度。比较陡的直线说明直线断点所对应的因子的特征值差值较大,比较缓的直线则对应较小特征值差值。因子1,2,3,4间连线的坡度较陡,说明前4个因子是主要因子,这和前面结论吻合。
下表为所提取因子的因子负荷矩阵,所采取的方法是主成分分析法。
表8 因子负荷矩阵
下表为使用Varimax法进行因子旋转后得到的因子负荷矩阵。与上表相比,该表跟好地对主因子进行解释。旋转后的因子负荷矩阵两端集中,能更好地解释主因子。从表中可以看出,第一个因子与氯和硫化氢关系紧密,第二个因子与SO2和环己烷关系紧密,第三个因子与碳4关系紧密,第四个因子与环氧氯丙烷关系紧密。
表 9 旋转后的因子负荷矩阵
用因子分析方法得到的结论:取前4个公共因子可反映原始变量的89.264%的信息。由方差最大正交旋转后的载荷矩阵可以得出,第一公共因子主要代表(氯为-0.849)和(硫化氢为0.813);第二公共因子主要代表(SO2为0.918)和(环己烷为0.793);第三公共因子主要代表(碳4为0.970);第四公共因子主要代表(环氧氯丙烷为0.937)。
参考文献:
1.刘德林,刘贤赵,2006.主成分分析在河流水质综合评价中的应用[J].水土保持研究,13(3):124—126.
2.伊元荣,王涛,2008.主成分分析法在城市河流水质评价中的应用[J].干旱区研究,25(4):497-501.
3.薛 薇. 统计分析与SPSS的应用[M].北京: 中国人民大学出版社,2001:250—259.
4.李波.洪泽湖水质的因子分析.中国环境科学,2003,23(1):69~73.
5.陈东景、马安青等.因子分析在水质评价中的应用.水文.2002.06:29—31.
展开阅读全文