资源描述
多元统计分析课程设计
题目:《因子分析在环境污染方面得应用》
姓名:王厅厅
专业班级:统计学2014级2班
学院:数学与系统科学学院
时间:2016年1月 3 日
目录
1.摘要: 1
2.引言: 1
2.1背景 1
2.2问题的研究意义 1
2.3方法介绍 2
3.实证分析 10
3.1指标 10
3.2原始数据 10
3.3数据来源 13
3.4分析过程: 13
4.结论及建议 25
5.参考文献 26
ﻬ
1、摘要:
中国得环境问题,由于中国政府对环境问题得关注,环境法律日趋完善,执法力度加大,对环境污染治理得投人逐年有较大幅度得增加,中国环境问题已朝着好得方面发展。但就是,仍存在着环境问题,主要体现在环境污染问题,其中主要为水污染与大气污染、
关键词:环境污染 水污染 大气污染 因子分析
2、引言:
2。1背景:
我国得环境保护取得了明显得成就,部分地区环境质量有所改善。但就是,从整体上瞧,我国得环境污染仍在加剧,环境质量还在恶化。大气二氧化硫含量居高不下,境质量呈恶化趋势,固体废弃物污染量大面广,噪声扰民严重,环境污染事故时有发生。据中国社会科学院公布得一项报告表明:中国环境污染得规模居世界前列、
2、2问题得研究意义:
为分析比较各地环境污染特点,利用因子分析对环境污染得各个指标进行降维处理并得到影响环境得内在因素,进一步对环境污染原因及治理措施进行分析,让更多得人认识到环境得重要性,准确把握各地区环境治理方法以及针对不同地区制定不同得政策改善环境问题,这对综合治理环境问题具有重要意义。
2。3方法介绍
因子分析得意义:变量间得信息得高度重叠与高度相关会给统计方法得应用设置许多障碍、为解决此问题,最简单与最直接得解决方案就是削减变量个数,但这必然会导致信息丢失与
信息不完全等问题得产生。为此人们希望探索一种更有效地解决方法,它既能大幅减少参与数据建模得变量个数,同时也不会造成信息得大量丢失。因子分析正就是这样一种能够有效降低变量维数得分析方法。
因子分析得步骤:
·因子分析得前提条件:要求原有变量之间存在较强得相关关系、
·因子提取:将原有变量综合成少数几个因子就是因子分析得核心内容。
若存在随机向量及,使
简记为,且
(1)(标准化);
(2)(中心化);
(3)(不相关)。
那么,称指标向量具有正交因子结构(所有因子相互正交,即);称此模型为正交因子模型;称为公共因子(对整个有影响得公共因素);称为特殊因子(只对得各对应分量有影响得特殊因素);称为因子载荷矩阵,为第个指标在第个公共因子上得载荷。
因子载荷矩阵得建立
因子分析得最基本任务之一就就是建立因子载荷矩阵。
对于正交因子模型,有
若已标准化,则
在绝大多数实际问题中,往往都就是未知得,由此求出就是不可能得,这时可以通过主成分分析给出一组公共因子及其因子载荷矩阵。
具体方法如下:
(1)求出得特征根,以及相应得单位特征向量。
(2)建立主成分。
就是正交矩阵。
(3)构造公共因子,并建立因子载荷矩阵。
(逆问题)
令
容易验证:
具有如下正交因子结构:
(?)
完全忽略了特殊因子得影响。
若只取前个主成分,且令
,,
则有
其中。
忽略了不重要得公共因子,由特殊因子解析。
换句话说,用主成分法获得了得正交因子分解(近似)中得。
这里得主要问题就是如何确定因子数k
方法一:根据特征值确定因子数。
观察各个特征值,一般取特征值大于1得、
方法二:根据因子得累计方差贡献率确定因子数、
通常选取累计方差贡献率大于0、85时得特征值个数为因子个数k。
·使因子具有命名解释性
实际分析工作中人们总就是希望对因子得实际含义有比较清楚得认识。未解决这个问题,可通过因子旋转得方法使一个变量只在尽可能少得几个因子上有比较高得载荷、最理想状态下,使某个变量在某个因子上得载荷趋于1,在其她得因子上得载荷趋于0。这样,一个因子就能够成为某个变量得典型代表,于就是因子得实际含义也就清楚了。
因子正交旋转
当指标向量具有正交因子结构时,其公共因子向量、因子载荷矩阵及正交因子分解均不唯一确定、
对任一阶正交矩阵,有
令
则
利用正交因子分解得这一性质,在因子分析(正交因子模型)中,常常在建立了初始因子载荷矩阵之后,再对其作适当得正交变换(几何解释:因子轴旋转),以使得因子载荷矩阵具有更简洁、更理想(近乎分块对角矩阵形式)得结构,公共因子向量具有更明显、更直观得实际意义,正交因子分解更合理、更能反映客观实际。
目前,已经提出了各种因子旋转得方法、比较常用得一种就是方差极大因子轴正交旋转法,简称方差极大法。
先考虑两个公共因子得平面正交旋转。
具有更理想、更简化得结构,即使其各列得因子载荷值尽可能地两极分化,大者尽可能大,小者尽可能小。
各载荷值可正可负,得依赖程度也不同,消除其影响:
(规格化)
正交旋转得目得就就是要使新因子载荷矩阵得各列方差之与(总方差)
达到最大。
记
则可由下式确定:
tg
且得符号可由得符号确定:
当公共因子数时,需要对因子载荷矩阵中得列因子载荷向量配两两对旋转,共旋转次、
列。先确定,后旋转。
仅列元素改变。
全部列两两配对旋转完毕后,就完成了第一轮旋转。如果因子载荷矩阵还不能达到要求,那么进行第二轮旋转,如此进行下去,直到满足要求为止。
每经一轮旋转,都可算出因子载荷矩阵得总方差、
就是一非降序列,且有上界(为),故必收敛于某一极限值,即为最大总方差。
实际中,通常旋转到总方差改进不大,即
(给定精度)
时,旋转停止、
最后,取作为最终因子载荷矩阵、
·计算因子得分
因子得分就是因子分析得最终体现、在因子分析得实际应用中,当因子确定以后,便可计算各因子在每个样本观测上得具体数值,这些数值称为因子得分,形成得变量称为因子得分变量。于就是,在以后得分析中就可以因子得分变量代替原有变量进行数据建模,或利用因子得分变量对样本进行分类或评价等研究,进而实现降维与简化问题得目得、
,,,
,
3、实证分析
3。1指标:
废水排放总量、需氧量排放总量、氨氮排放总量、二氧化硫排放总量、氮氧化物排放总量、烟尘灰尘排放总量
3。2原始数据:
地区
废水排放总量
化学需氧量排放总量
氨氮排放总量
二氧化硫排放总量
氮氧化物排放总量
烟尘灰尘排放总量
北京
15、07
16、88
1。9
7、89
15、1
5、74
天津
8、94
21。43
2。45
20。92
28。23
13。95
河北
30。98
126、85
10、27
118、99
151、25
179、77
山西
14、5
44。13
5、37
120、82
106。99
150。68
内蒙古
11、19
84、77
4。93
131。24
125。83
102。15
辽宁
26。29
121、7
10、01
99、46
90、2
112、07
吉林
12、22
74。3
5。31
37。23
54、92
47、51
黑龙江
14、96
142、39
8、49
47。22
73。06
79、35
上海
22、12
22、44
4。46
18、81
33。28
14。17
江苏
60。12
110
14、25
90、47
123、26
76、37
浙江
41。83
72。54
10、32
57。4
68、79
37。97
安徽
27、23
88、56
10、05
49。3
80、73
65。28
福建
26、06
62。98
8、93
35、6
41、17
36、79
江西
20、83
72。01
8。6
53、44
54、01
46、23
山东
51。44
178、04
15、5
159、02
159、33
120、81
河南
42、28
131。87
13。9
119、82
142、2
88。21
湖北
30、17
103、31
12。04
58、38
58、02
50。4
湖南
31
122、9
15、44
62。37
55、28
49、62
广东
90。51
167、06
20。82
73、01
112、21
44。95
广西
21、93
74、4
7。93
46、66
44、24
40。29
海南
3、94
19、6
2。29
3、26
9。5
2、32
重庆
14。58
38、64
5。13
52。69
35、5
22、61
四川
33、13
121、63
13。47
79、64
58。54
42。86
贵州
11、09
32、67
3、8
92、58
49。11
37。79
云南
15、75
53、38
5、65
63。67
49。89
36、68
西藏
0、54
2、79
0、34
0、42
4。83
1、39
陕西
14、58
50。49
5、82
78。1
70、58
70。91
甘肃
6。6
37、32
3。81
57、56
41、84
34。58
青海
2、3
10。5
0、98
15。43
13。45
23、99
宁夏
3、73
21、98
1。66
37。71
40、4
23、92
新疆
10、27
67、02
4、59
85。3
86、28
81。39
3、3数据来源:《中国环境年鉴》
3。4分析过程:
利用SPSS软件进行分析,首先录入数据,然后一次进行如下处理:
一、考察原有变量就是否适合进行因子分析
首先考察收集到得原有变量之间就是否存在一定得线性关系,就是否适合采用因子分析。这里借助变量得相关系数矩阵进行分析。表一就是原有变量得相关系数矩阵。可以瞧到:大部分得相关系数都较高,各变量呈较强得线性关系,能够从中提取公共因子,适合进行因子分析。
表一
相關性矩陣
废水排放总量 单位:亿吨
化学需氧量排放总量 单位:万吨
氨氮排放总量 单位:万吨
二氧化硫排放总量 单位:万吨
氮氧化物排放总量 单位:万吨
烟尘灰尘排放总量 单位:万吨
相關
废水排放总量 单位:亿吨
1、000
、762
。913
。424
、612
、277
化学需氧量排放总量 单位:万吨
、762
1、000
。906
、647
。773
。592
氨氮排放总量 单位:万吨
。913
、906
1。000
。519
。650
、394
二氧化硫排放总量 单位:万吨
、424
、647
、519
1、000
。903
。842
氮氧化物排放总量 单位:万吨
。612
。773
、650
。903
1、000
、864
烟尘灰尘排放总量 单位:万吨
、277
、592
。394
、842
、864
1。000
二、提取因子
这里首先进行尝试性分析:根据原有变量得相关系数矩阵,采用主成分分析提取因子并选取大于1得特征值,分析结果如表2所示、
表二
munalities
起始
擷取
废水排放总量 单位:亿吨
1。000
、923
化学需氧量排放总量 单位:万吨
1。000
。892
氨氮排放总量 单位:万吨
1。000
、971
二氧化硫排放总量 单位:万吨
1、000
、908
氮氧化物排放总量 单位:万吨
1、000
、953
烟尘灰尘排放总量 单位:万吨
1、000
、931
擷取方法:主體元件分析。
表二显示了在指定提取2个变量共同度数据。第一列数据就是因子分析初始解下得变量共同度,它表明:如果对原有7个变量采用主成分分析方法提取所有特征值,那么原有变量得所有方差都可被解释,变量得共同度均1。事实上,因子个数小于原有变量得个数才就是因子分析得目标,所以不可能提取全部特征值。第二列数据就是在按指定提取条件提取特征值时得变量共同度。可以瞧到所有变量得绝大部分信息可被因子解释,信息丢失少、因此,本次因子提取得总体效果比较理想、
表三
說明得變異數總計
元件
起始特徵值
擷取平方与載入
循環平方与載入
總計
變異得 %
累加 %
總計
變異得 %
累加 %
總計
變異得 %
累加 %
1
4。382
73、040
73、040
4、382
73。040
73、040
2。810
46、831
46、831
2
1。196
19、932
92、972
1。196
19、932
92。972
2。768
46、141
92、972
3
。207
3。444
96、416
4
。134
2、241
98、656
5
、062
1。037
99。694
6
、018
、306
100、000
擷取方法:主體元件分析、
表三中,第一列就是因子编号,以后三列组成一组,每组中数据项得含义依次就是特征值、方差贡献率与累计方差贡献率。
前两个因子解释原有变量总方差得93%,总体上,原有变量得信息丢失较少,因子分析效果较理想。
表四
表四中,横坐标为因子数目,纵坐标就是特征值。可以瞧到:第一个因子特征值很高,对解释原有变量得贡献最大;第二个以后得因子特征值都较小,对解释原有变量得贡献很小,因此提取两个因子就是合适得。
表五
元件矩陣a
元件
1
2
氮氧化物排放总量 单位:万吨
、939
—。266
化学需氧量排放总量 单位:万吨
。917
。226
氨氮排放总量 单位:万吨
、856
、487
二氧化硫排放总量 单位:万吨
。848
—、434
废水排放总量 单位:亿吨
。778
、564
烟尘灰尘排放总量 单位:万吨
、775
—。575
擷取方法:主體元件分析。
a、 擷取 2 個元件。
表五显示了因子载荷矩阵,就是因子分析得核心内容、根据该表可以写出因子分析模型:
氮氧化物排放总量=0。939*-0、266*
化学需氧量排放总量=0、917*+0。226*
氨氮排放总量=0。856*+0。487*
二氧化硫排放总量=0、848*—0。434*
废水排放总量=0。778*+0。564*
烟尘灰尘排放总量=0。775*—0。575*
由表五可知,六个变量在第一个因子上得载荷都很高,意味着她们与第一个因子得相关程度高,第一个因子很重要。
第二个因子与原有变量得相关性均较小,它对原有不安量得解释不显著。
三、 因子得命名解释
采用方差极大法对因子载荷矩阵进行正交旋转以使因子具有命名解释性。得到旋转后得因子载荷矩阵如图六所示。
图六
旋轉元件矩陣a
元件
1
2
烟尘灰尘排放总量 单位:万吨
、955
。136
二氧化硫排放总量 单位:万吨
、909
、287
氮氧化物排放总量 单位:万吨
、855
、471
氨氮排放总量 单位:万吨
。268
。948
废水排放总量 单位:亿吨
、157
、948
化学需氧量排放总量 单位:万吨
。494
。805
擷取方法:主體元件分析。
轉軸方法:具有 Kaiser 正規化得最大變異法、
a。 在 3 疊代中收斂循環、
由表六可知,烟尘灰尘排放总量、二氧化硫排放总量、氮氧化物排放总量在第一个因子上有较高得载荷,第一个因子可以解释为大气污染物排放总量。氨氮排放总量、废水排放总量、化学需氧量排放总量在第二个因子上有较高得载荷,第二个因子可以解释为水污染物排放总量。与旋转前相比,因子含义较清晰。
表七
元件評分共變異數矩陣
元件
1
2
1
1、000
。000
2
。000
1。000
擷取方法:主體元件分析。
轉軸方法:具有 Kaiser 正規化得最大變異法。
元件評分。
表七显示了两因子得协方差矩阵。两因子没有线性相关关系,实现了因子分析得设计目标。
四、 计算因子得分
采用回归法估计因子得分系数,并输出因子得分系数、
表八
元件評分係數矩陣
元件
1
2
废水排放总量 单位:亿吨
-、205
、461
化学需氧量排放总量 单位:万吨
、016
、282
氨氮排放总量 单位:万吨
—、147
、427
二氧化硫排放总量 单位:万吨
、393
-。122
氮氧化物排放总量 单位:万吨
、309
—、007
烟尘灰尘排放总量 单位:万吨
、463
—、218
擷取方法:主體元件分析。
轉軸 方法:具有 Kaiser 正規化得最大變異法。
元件評分。
根据表八可写出以下因子得分函数:
=—0。205*废水排放总量+0。016*化学需氧量排放总量—0、147*氨氮排放总量+0、393*二氧化硫排放总量+0、309*氮氧化物排放总量+0、463*烟尘灰尘排放总量
=0、461*废水排放总量+0、282*化学需氧量排放总量0、427*氨氮排放总量—0、122*二氧化硫排放总量-0。007*氮氧化物排放总量—0。218*烟尘灰尘排放总量
另外,因子得分得均值为0,标准差为1、正值表示高于平均水平,负值表示低于平均水平。
地区
因子得分1
因子得分2
地区
因子得分1
因子得分2
北京
—1。24699
-0、57979
河南
1、08955
0。97693
天津
—0、88044
—0、73934
湖北
—0、37443
0。75745
河北
2。36983
-0、09971
湖南
—0。46494
1。17204
山西
2。03859
-1、24591
广东
-0。77494
3、30542
内蒙古
1。81446
-0、91302
广西
-0、50304
0、13154
辽宁
1、04718
0、15182
海南
—1、26173
—0。76721
吉林
-0。25843
-0。33525
重庆
-0、55114
—0。41907
黑龙江
0、22097
0、20172
四川
-0、30947
1、03004
上海
-1、06205
-0、24016
贵州
0。18358
-0、85403
江苏
0。32092
1、46441
云南
—0、20629
-0。36888
浙江
-0、52602
0、77841
西藏
-1。24652
—1。09844
安徽
-0。05073
0、37961
陕西
0。46793
-0。62279
福建
-0、7507
0。30179
甘肃
-0、20203
-0、80876
江西
-0。30784
0。09465
青海
-0、82359
-1、11995
山东
1。8286
1。31332
宁夏
-0、43681
—1、03388
新疆
0、85653
-0、81297
五、 各地区得综合评价
可利用因子得分变量对地区进行对比研究。
首先,绘制两因子得分变量得散点图,如图九所示。
图九
首先,可以观察到广东得第二因子得分很高,说明了广东得水污染比较严重。河北得大气污染很严重,总得污染程度更就是居全国之首。
其次,对各地区污染物排放总量进行综合评价、采用计算因子加权总分得方法,计算公式为:
F=(0。73/0、93)*+(0。2/0。93)*
得到各地区得污染物排放总量,并按其进行降序排序。
地区
污染物排放总量
河北
1、86
湖南
-0、13
山东
1、72
湖北
—0。14
山西
1。36
江西
-0、22
内蒙古
1、25
云南
—0。24
河南
1、07
浙江
-0。26
辽宁
0。86
吉林
-0、27
江苏
0、56
甘肃
-0、33
新疆
0、51
广西
-0。37
陕西
0。24
重庆
—0、52
黑龙江
0。22
福建
-0。53
广东
0、07
宁夏
-0、56
安徽
0。04
天津
-0、85
贵州
-0。03
青海
-0。88
四川
-0。03
上海
—0、89
北京
—1、11
污染物排放总量较高得地区有河北、山东、山西、内蒙古、河南、辽宁等;污染物排放总量较低得地区有西藏、海南、北京、上海、青海、天津等。
4、结论及建议
4、1结论
各地区污染情况按照大气污染与水污染程度进行分类,可以分为三类。
第一类为严重大气污染型地区,有河北、山西、内蒙古。
第二类为较严重污染型地区,有山东、河南。
第三类为较轻污染型地区,有北京、天津等地区、
第四类为严重水污染地区,有广东地区、
4、2建议
对于大气污染比较严重得地区如河北,山东,山西,内蒙古等,大气污染综合整治规划就是根据城市大气质量现状与发展趋势进行功能区划并按拟定得环境目标计算各功能区最大允许排放量与削减量,从而制定污染治理方案。大气污染得治理应根据城市得能源结构与交通状况确定首要污染物即浓度高、范围广、危害大得污染物,便于治理时有得放矢、对症下药。当前我国大部分城市得大气污染主要就是由燃煤与汽车尾气引起、通过技术与行政得手段减少汽车尾气得污染;提高城市绿化率、选择抗污染性好得树种,大力发展植物净化。调整工业布局,强化污染源得治理,降低污染物得排放量、
对于水污染比较严重得地区如广东、江苏、山东、四川等,在发展工业,建设城市得同时,就要注意到水资源得保护。因为一旦水资源受到污染,将严重得制约工业、农业得发展。要解决水污染问题得根本途径还就是在于要发动全球人民,增强保护水资源、节约用水意识。同时大力研制循环用水技术、海水淡化技术、污水净化技术等,并对排放污水或污染物质严重得企业、生活区进行合理管制与必要得惩罚,以增强保护水资源意识。
除此之外,由于我国各地区得污染程度各有不同,又有相同之处,可对全国得污染问题进行大体得分类,联系各地区得水流流向以及各个季节得风向分析污染源头,进而全面系统化得分析,对其进行优化以减少污染得排放,制定相应得措施,在根本上解决全国得污染问题、
5、参考文献
《中国环境年鉴》
展开阅读全文