1、 多元统计分析课程设计 题目:《因子分析在环境污染方面应用》 姓名:王厅厅 专业班级:统计学级2班 学院:数学和系统科学学院 时间:1月 3 日 目录 1.摘要: 1 2.引言: 1 2.1背景 1 2.2问题的研究意义 1 2.3方法介绍 2 3.实证分析 10 3.1指标 10 3.2原始数据 10 3.3数据来源 13 3.4分析过程: 13 4.结论及建议 25 5.参考文献 26 1.摘要: 中国环境问题,因为中国政府对环境问题关注,环境法律日趋完善,执法力度加大,对环境污染治理投人逐
2、年有较大幅度增加,中国环境问题已朝着好方面发展。不过,仍存在着环境问题,关键表现在环境污染问题,其中关键为水污染和大气污染。 关键词:环境污染 水污染 大气污染 因子分析 2.引言: 2.1背景: 中国环境保护取得了显著成就,部分地域环境质量有所改善。不过,从整体上看,中国环境污染仍在加剧,环境质量还在恶化。大气二氧化硫含量居高不下,境质量呈恶化趋势,固体废弃物污染量大面广,噪声扰民严重,环境污染事故时有发生。据中国社会科学院公布一项汇报表明:中国环境污染规模居世界前列。 2.2问题研究意义: 为分析比较各地环境污染特点,利用因子分析对环境污染各个指标进行降维处理并得到影
3、响环境内在原因,深入对环境污染原因及治理方法进行分析,让更多人认识到环境关键性,正确把握各地域环境治理方法和针对不一样地域制订不一样政策改善环境问题,这对综合治理环境问题含相关键意义。 2.3方法介绍 因子分析意义:变量间信息高度重合和高度相关会给统计方法应用设置很多障碍。为处理此问题,最简单和最直接处理方案是削减变量个数,但这肯定会造成信息丢失和 信息不完全等问题产生。为此大家期望探索一个更有效地处理方法,它既能大幅降低参与数据建模变量个数,同时也不会造成信息大量丢失。因子分析正是这么一个能够有效降低变量维数分析方法。 因子分析步骤: ·因子分析前提条件:要求原有变量之间存在较强相
4、关关系。 ·因子提取:将原有变量综合成少数多个因子是因子分析关键内容。 若存在随机向量及,使 简记为,且 (1)(标准化); (2)(中心化); (3)(不相关)。 那么,称指标向量含有正交因子结构(全部因子相互正交,即);称此模型为正交因子模型;称为公共因子(对整个有影响公共原因);称为特殊因子(只正确各对应分量有影响特殊原因);称为因子载荷矩阵,为第个指标在第个公共因子上载荷。 因子载荷矩阵建立 因子分析最基础任务之一就是建立因子载荷矩阵。 对于正交因子模型,有 若已标准化,则 在绝大多数实际问题中,往往全部是未知,由此求出是不可能,这时能够经过主
5、成份分析给出一组公共因子及其因子载荷矩阵。 具体方法以下: (1)求出特征根,和对应单位特征向量。 (2)建立主成份。 是正交矩阵。 (3)结构公共因子,并建立因子载荷矩阵。 (逆问题) 令 轻易验证: 含有以下正交因子结构: (?) 完全忽略了特殊因子影响。 若只取前个主成份,且令 ,, 则有 其中。 忽略了不关键公共因子,由特殊因子解析。 换句话说,用主成份法取得了正交因子分解(近似)中。 这里关键问题是怎样确定因子数k 方法一:依据特征值确定因子数。 观察各个特征值,通常取特征值大
6、于1。 方法二:依据因子累计方差贡献率确定因子数。 通常选择累计方差贡献率大于0.85时特征值个数为因子个数k。 ·使因子含有命名解释性 实际分析工作中大家总是期望对因子实际含义有比较清楚认识。未处理这个问题,可经过因子旋转方法使一个变量只在尽可能少多个因子上有比较高载荷。最理想状态下,使某个变量在某个因子上载荷趋于1,在其它因子上载荷趋于0。这么,一个因子就能够成为某个变量经典代表,于是因子实际含义也就清楚了。 因子正交旋转 当指标向量含有正交因子结构时,其公共因子向量、因子载荷矩阵及正交因子分解均不唯一确定。 对任一阶正交矩阵,有 令 则
7、 利用正交因子分解这一性质,在因子分析(正交因子模型)中,常常在建立了初始因子载荷矩阵以后,再对其作合适正交变换(几何解释:因子轴旋转),以使得因子载荷矩阵含有更简练、更理想(近乎分块对角矩阵形式)结构,公共因子向量含有更显著、更直观实际意义,正交因子分解更合理、更能反应客观实际。 现在,已经提出了多种因子旋转方法。比较常见一个是方差极大因子轴正交旋转法,简称方差极大法。 先考虑两个公共因子平面正交旋转。 含有更理想、更简化结构,即使其各列因子载荷值尽可能地两极分化,大者尽可能大,小者尽可能小。 各载荷值可正可负,依靠程度也不一样,消除其影响: (规格化) 正
8、交旋转目标就是要使新因子载荷矩阵各列方差之和(总方差) 达成最大。 记 则可由下式确定: tg 且符号可由符号确定: 当公共因子数时,需要对因子载荷矩阵中列因子载荷向量配两两对旋转,共旋转次。 列。先确定,后旋转。 仅列元素改变。 全部列两两配对旋转完成后,就完成了第一轮旋转。假如因子载荷矩阵还不能达成要求,那么进行第二轮旋转,如此进行下去,直到满足要求为止。 每经一轮旋转,全部可算出因子载荷矩阵总方差。 是一非降序列,且有上界(为),故必收敛于某一极限值,即为最大总方差。 实际中,通常旋转到总方差改善不大,即 (给定精度) 时,旋转
9、停止。 最终,取作为最终因子载荷矩阵。 ·计算因子得分 因子得分是因子分析最终表现。在因子分析实际应用中,当因子确定以后,便可计算各因子在每个样本观察上具体数值,这些数值称为因子得分,形成变量称为因子得分变量。于是,在以后分析中就能够因子得分变量替换原有变量进行数据建模,或利用因子得分变量对样本进行分类或评价等研究,进而实现降维和简化问题目标。 ,,, , 3.实证分析 3.1指标: 废水排放总量、需氧量排放总量、氨氮排放总量、二氧化硫排放总量、氮氧化物排放总量、烟尘灰尘排放总量 3.2原始数据: 地域 废水排放总量 化学需氧量排放总量 氨氮排放总量
10、 二氧化硫排放总量 氮氧化物排放总量 烟尘灰尘排放总量 北京 15.07 16.88 1.9 7.89 15.1 5.74 天津 8.94 21.43 2.45 20.92 28.23 13.95 河北 30.98 126.85 10.27 118.99 151.25 179.77 山西 14.5 44.13 5.37 120.82 106.99 150.68 内蒙古 11.19 84.77 4.93 131.24 125.83 102.15 辽宁 26.29 121.7 10.01 99.46 90.2
11、 112.07 吉林 12.22 74.3 5.31 37.23 54.92 47.51 黑龙江 14.96 142.39 8.49 47.22 73.06 79.35 上海 22.12 22.44 4.46 18.81 33.28 14.17 江苏 60.12 110 14.25 90.47 123.26 76.37 浙江 41.83 72.54 10.32 57.4 68.79 37.97 安徽 27.23 88.56 10.05 49.3 80.73 65.28 福建 26.06 62.98 8.
12、93 35.6 41.17 36.79 江西 20.83 72.01 8.6 53.44 54.01 46.23 山东 51.44 178.04 15.5 159.02 159.33 120.81 河南 42.28 131.87 13.9 119.82 142.2 88.21 湖北 30.17 103.31 12.04 58.38 58.02 50.4 湖南 31 122.9 15.44 62.37 55.28 49.62 广东 90.51 167.06 20.82 73.01 112.21 44.95
13、 广西 21.93 74.4 7.93 46.66 44.24 40.29 海南 3.94 19.6 2.29 3.26 9.5 2.32 重庆 14.58 38.64 5.13 52.69 35.5 22.61 四川 33.13 121.63 13.47 79.64 58.54 42.86 贵州 11.09 32.67 3.8 92.58 49.11 37.79 云南 15.75 53.38 5.65 63.67 49.89 36.68 西藏 0.54 2.79 0.34 0.42 4.83 1.
14、39 陕西 14.58 50.49 5.82 78.1 70.58 70.91 甘肃 6.6 37.32 3.81 57.56 41.84 34.58 青海 2.3 10.5 0.98 15.43 13.45 23.99 宁夏 3.73 21.98 1.66 37.71 40.4 23.92 新疆 10.27 67.02 4.59 85.3 86.28 81.39 3.3数据起源:《中国环境年鉴》 3.4分析过程: 利用SPSS软件进行分析,首先录入数据,然后一次进行以下处理: 一、考察原有变量是否适合进
15、行因子分析 首先考察搜集到原有变量之间是否存在一定线性关系,是否适合采取因子分析。这里借助变量相关系数矩阵进行分析。表一是原有变量相关系数矩阵。能够看到:大部分相关系数全部较高,各变量呈较强线性关系,能够从中提取公共因子,适合进行因子分析。 表一 相關性矩陣 废水排放总量 单位:亿吨 化学需氧量排放总量 单位:万吨 氨氮排放总量 单位:万吨 二氧化硫排放总量 单位:万吨 氮氧化物排放总量 单位:万吨 烟尘灰尘排放总量 单位:万吨 相關 废水排放总量 单位:亿吨 1.000 .762 .913 .424 .612 .2
16、77 化学需氧量排放总量 单位:万吨 .762 1.000 .906 .647 .773 .592 氨氮排放总量 单位:万吨 .913 .906 1.000 .519 .650 .394 二氧化硫排放总量 单位:万吨 .424 .647 .519 1.000 .903 .842 氮氧化物排放总量 单位:万吨 .612 .773 .650 .903 1.000 .864 烟尘灰尘排放总量 单位:万吨 .277 .592 .394 .842 .864 1.000 二、提取因子 这里首优异行尝试性分析:
17、依据原有变量相关系数矩阵,采取主成份分析提取因子并选择大于1特征值,分析结果如表2所表示。 表二 Communalities 起始 擷取 废水排放总量 单位:亿吨 1.000 .923 化学需氧量排放总量 单位:万吨 1.000 .892 氨氮排放总量 单位:万吨 1.000 .971 二氧化硫排放总量 单位:万吨 1.000 .908 氮氧化物排放总量 单位:万吨 1.000 .953 烟尘灰尘排放总量 单位:万吨 1.000 .931 擷取方法:主體元件分析。 表二显示了在指定提取2个变量共同度数据。第一列数据是
18、因子分析初始解下变量共同度,它表明:假如对原有7个变量采取主成份分析方法提取全部特征值,那么原有变量全部方差全部可被解释,变量共同度均1.实际上,因子个数小于原有变量个数才是因子分析目标,所以不可能提取全部特征值。第二列数据是在按指定提取条件提取特征值时变量共同度。能够看到全部变量绝大部分信息可被因子解释,信息丢失少。所以,此次因子提取总体效果比较理想。 表三 說明變異數總計 元件 起始特徵值 擷取平方和載入 循環平方和載入 總計 變異 % 累加 % 總計 變異 % 累加 % 總計 變異 % 累加 % 1 4.382 73.040 73.040 4.3
19、82 73.040 73.040 2.810 46.831 46.831 2 1.196 19.932 92.972 1.196 19.932 92.972 2.768 46.141 92.972 3 .207 3.444 96.416 4 .134 2.241 98.656 5 .062 1.037 99.694 6 .018 .306 100.000 擷取方法:主體元件分析。 表三中,第一列是因子编号,以后三列组成一组,每组中数据
20、项含义依次是特征值、方差贡献率和累计方差贡献率。 前两个因子解释原有变量总方差93%,总体上,原有变量信息丢失较少,因子分析效果较理想。 表四 表四中,横坐标为因子数目,纵坐标是特征值。能够看到:第一个因子特征值很高,对解释原有变量贡献最大;第二个以后因子特征值全部较小,对解释原有变量贡献很小,所以提取两个因子是适宜。 表五 元件矩陣a 元件 1 2 氮氧化物排放总量 单位:万吨 .939 -.266 化学需氧量排放总量 单位:万吨 .917 .226 氨氮排放总量 单位:万吨 .856 .487 二氧化硫排放总量 单位:万吨 .
21、848 -.434 废水排放总量 单位:亿吨 .778 .564 烟尘灰尘排放总量 单位:万吨 .775 -.575 擷取方法:主體元件分析。 a. 擷取 2 個元件。 表五显示了因子载荷矩阵,是因子分析关键内容。依据该表能够写出因子分析模型: 氮氧化物排放总量=0.939*-0.266* 化学需氧量排放总量=0.917*+0.226* 氨氮排放总量=0.856*+0.487* 二氧化硫排放总量=0.848*-0.434* 废水排放总量=0.778*+0.564* 烟尘灰尘排放总量=0.775*-0.575* 由表五可知,六个变量在第一个因子上载荷全部
22、很高,意味着她们和第一个因子相关程度高,第一个因子很关键。 第二个因子和原有变量相关性均较小,它对原有不安量解释不显著。 三、 因子命名解释 采取方差极大法对因子载荷矩阵进行正交旋转以使因子含有命名解释性。得到旋转后因子载荷矩阵图六所表示。 图六 旋轉元件矩陣a 元件 1 2 烟尘灰尘排放总量 单位:万吨 .955 .136 二氧化硫排放总量 单位:万吨 .909 .287 氮氧化物排放总量 单位:万吨 .855 .471 氨氮排放总量 单位:万吨 .268 .948 废水排放总量 单位:亿吨 .157 .948 化学需
23、氧量排放总量 单位:万吨 .494 .805 擷取方法:主體元件分析。 轉軸方法:含有 Kaiser 正規化最大變異法。 a. 在 3 疊代中收斂循環。 由表六可知,烟尘灰尘排放总量、二氧化硫排放总量、氮氧化物排放总量在第一个因子上有较高载荷,第一个因子能够解释为大气污染物排放总量。氨氮排放总量、废水排放总量、化学需氧量排放总量在第二个因子上有较高载荷,第二个因子能够解释为水污染物排放总量。和旋转前相比,因子含义较清楚。 表七 元件評分共變異數矩陣 元件 1 2 1 1.000 .000 2 .000 1.000 擷取方法:主體元件分析。 轉
24、軸方法:含有 Kaiser 正規化最大變異法。 元件評分。 表七显示了两因子协方差矩阵。两因子没有线性相关关系,实现了因子分析设计目标。 四、 计算因子得分 采取回归法估量因子得分系数,并输出因子得分系数。 表八 元件評分係數矩陣 元件 1 2 废水排放总量 单位:亿吨 -.205 .461 化学需氧量排放总量 单位:万吨 .016 .282 氨氮排放总量 单位:万吨 -.147 .427 二氧化硫排放总量 单位:万吨 .393 -.122 氮氧化物排放总量 单位:万吨 .309 -.007 烟尘灰尘排放总
25、量 单位:万吨 .463 -.218 擷取方法:主體元件分析。 轉軸 方法:含有 Kaiser 正規化最大變異法。 元件評分。 依据表八可写出以下因子得分函数: =-0.205*废水排放总量+0.016*化学需氧量排放总量-0.147*氨氮排放总量+0.393*二氧化硫排放总量+0.309*氮氧化物排放总量+0.463*烟尘灰尘排放总量 =0.461*废水排放总量+0.282*化学需氧量排放总量0.427*氨氮排放总量-0.122*二氧化硫排放总量-0.007*氮氧化物排放总量-0.218*烟尘灰尘排放总量 另外,因子得分均值为0,标准差为1。正值表示高于平
26、均水平,负值表示低于平均水平。 地域 因子得分1 因子得分2 地域 因子得分1 因子得分2 北京 -1.24699 -0.57979 河南 1.08955 0.97693 天津 -0.88044 -0.73934 湖北 -0.37443 0.75745 河北 2.36983 -0.09971 湖南 -0.46494 1.17204 山西 2.03859 -1.24591 广东 -0.77494 3.30542 内蒙古 1.81446 -0.91302 广西 -0.50304 0.13154 辽宁 1.04718 0
27、15182 海南 -1.26173 -0.76721 吉林 -0.25843 -0.33525 重庆 -0.55114 -0.41907 黑龙江 0.22097 0.2 四川 -0.30947 1.03004 上海 -1.06205 -0.24016 贵州 0.18358 -0.85403 江苏 0.32092 1.46441 云南 -0.20629 -0.36888 浙江 -0.52602 0.77841 西藏 -1.24652 -1.09844 安徽 -0.05073 0.37961 陕西 0.46793 -0
28、62279 福建 -0.7507 0.30179 甘肃 -0.3 -0.80876 江西 -0.30784 0.09465 青海 -0.82359 -1.11995 山东 1.8286 1.31332 宁夏 -0.43681 -1.03388 新疆 0.85653 -0.81297 五、 各地域综合评价 可利用因子得分变量对地域进行对比研究。 首先,绘制两因子得分变量散点图,图九所表示。 图九 首先,能够观察到广东第二因子得分很高,说明了广东水污染比较严重。河北大气污染很严重,总污染程度更是居全国之首。 其次,对各
29、地域污染物排放总量进行综合评价。采取计算因子加权总分方法,计算公式为: F=(0.73/0.93)*+(0.2/0.93)* 得到各地域污染物排放总量,并按其进行降序排序。 地域 污染物排放总量 河北 1.86 湖南 -0.13 山东 1.72 湖北 -0.14 山西 1.36 江西 -0.22 内蒙古 1.25 云南 -0.24 河南 1.07 浙江 -0.26 辽宁 0.86 吉林 -0.27 江苏 0.56 甘肃 -0.33 新疆 0.51 广西 -0.37 陕西 0.24 重庆 -0.52 黑龙江
30、 0.22 福建 -0.53 广东 0.07 宁夏 -0.56 安徽 0.04 天津 -0.85 贵州 -0.03 青海 -0.88 四川 -0.03 上海 -0.89 北京 -1.11 污染物排放总量较高地域有河北、山东、山西、内蒙古、河南、辽宁等;污染物排放总量较低地域有西藏、海南、北京、上海、青海、天津等。 4.结论及提议 4.1结论 各地域污染情况根据大气污染和水污染程度进行分类,能够分为三类。 第一类为严重大气污染型地域,有河北、山西、内蒙古。 第二类为较严重污染型地域,有山东、河南。 第三类为较轻污染型地域,有北京
31、天津等地域。 第四类为严重水污染地域,有广东地域。 4.2提议 对于大气污染比较严重地域如河北,山东,山西,内蒙古等,大气污染综合整改计划是依据城市大气质量现实状况和发展趋势进行功效区划并按确定环境目标计算各功效区最大许可排放量和削减量,从而制订污染治理方案。大气污染治理应依据城市能源结构和交通情况确定首要污染物即浓度高、范围广、危害大污染物,便于治理时有放矢、对症下药。目前中国大部分城市大气污染关键是由燃煤和汽车尾气引发。经过技术和行政手段降低汽车尾气污染;提升城市绿化率、选择抗污染性好树种,大力发展植物净化。调整工业布局,强化污染源治理,降低污染物排放量。 对于水污染比较严重地域
32、如广东、江苏、山东、四川等,在发展工业,建设城市同时,就要注意到水资源保护。因为一旦水资源受到污染,将严重制约工业、农业发展。要处理水污染问题根本路径还是在于要发动全球人民,增强保护水资源、节省用水意识。同时大力研制循环用水技术、海水淡化技术、污水净化技术等,并对排放污水或污染物质严重企业、生活区进行合理管制和必需处罚,以增强保护水资源意识。 除此之外,因为中国各地域污染程度各有不一样,又有相同之处,可对全国污染问题进行大致分类,联络各地域水流流向和各个季节风向分析污染源头,进而全方面系统化分析,对其进行优化以降低污染排放,制订对应方法,在根本上处理全国污染问题。 5.参考文件 《中国环境年鉴》






