多元统计分析-课程设计.doc

资源描述

多元统计分析课程设计题目：《因子分析在环境污染方面的应用》姓名：王厅厅专业班级：统计学2014级2班学院：数学与系统科学学院时间：2016年1月 3 日目录 1.摘要: 1 2.引言： 1 2.1背景 1 2.2问题的研究意义 1 2.3方法介绍 2 3.实证分析 10 3.1指标 10 3.2原始数据 10 3.3数据来源 13 3.4分析过程： 13 4.结论及建议 25 5.参考文献 26 1.摘要: 中国的环境问题，由于中国政府对环境问题的关注，环境法律日趋完善，执法力度加大，对环境污染治理的投人逐年有较大幅度的增加，中国环境问题已朝着好的方面发展。但是，仍存在着环境问题，主要体现在环境污染问题，其中主要为水污染和大气污染。关键词：环境污染水污染大气污染因子分析 2.引言： 2.1背景：我国的环境保护取得了明显的成就，部分地区环境质量有所改善。但是，从整体上看，我国的环境污染仍在加剧，环境质量还在恶化。大气二氧化硫含量居高不下，境质量呈恶化趋势，固体废弃物污染量大面广，噪声扰民严重，环境污染事故时有发生。据中国社会科学院公布的一项报告表明：中国环境污染的规模居世界前列。 2.2问题的研究意义：为分析比较各地环境污染特点，利用因子分析对环境污染的各个指标进行降维处理并得到影响环境的内在因素，进一步对环境污染原因及治理措施进行分析，让更多的人认识到环境的重要性，准确把握各地区环境治理方法以及针对不同地区制定不同的政策改善环境问题，这对综合治理环境问题具有重要意义。 2.3方法介绍因子分析的意义：变量间的信息的高度重叠和高度相关会给统计方法的应用设置许多障碍。为解决此问题，最简单和最直接的解决方案是削减变量个数，但这必然会导致信息丢失和信息不完全等问题的产生。为此人们希望探索一种更有效地解决方法，它既能大幅减少参与数据建模的变量个数，同时也不会造成信息的大量丢失。因子分析正是这样一种能够有效降低变量维数的分析方法。因子分析的步骤： ·因子分析的前提条件：要求原有变量之间存在较强的相关关系。 ·因子提取：将原有变量综合成少数几个因子是因子分析的核心内容。若存在随机向量及，使简记为，且（1）（标准化）；（2）（中心化）；（3）（不相关）。那么，称指标向量具有正交因子结构（所有因子相互正交，即）；称此模型为正交因子模型；称为公共因子（对整个有影响的公共因素）；称为特殊因子（只对的各对应分量有影响的特殊因素）；称为因子载荷矩阵，为第个指标在第个公共因子上的载荷。因子载荷矩阵的建立因子分析的最基本任务之一就是建立因子载荷矩阵。对于正交因子模型，有若已标准化，则在绝大多数实际问题中，往往都是未知的，由此求出是不可能的，这时可以通过主成分分析给出一组公共因子及其因子载荷矩阵。具体方法如下： (1)求出的特征根，以及相应的单位特征向量。（2）建立主成分。是正交矩阵。（3）构造公共因子，并建立因子载荷矩阵。（逆问题）令容易验证：具有如下正交因子结构：（?）完全忽略了特殊因子的影响。若只取前个主成分，且令，，则有其中。忽略了不重要的公共因子，由特殊因子解析。换句话说，用主成分法获得了的正交因子分解（近似）中的。这里的主要问题是如何确定因子数k 方法一：根据特征值确定因子数。观察各个特征值，一般取特征值大于1的。方法二：根据因子的累计方差贡献率确定因子数。通常选取累计方差贡献率大于0.85时的特征值个数为因子个数k。 ·使因子具有命名解释性实际分析工作中人们总是希望对因子的实际含义有比较清楚的认识。未解决这个问题，可通过因子旋转的方法使一个变量只在尽可能少的几个因子上有比较高的载荷。最理想状态下，使某个变量在某个因子上的载荷趋于1，在其他的因子上的载荷趋于0。这样，一个因子就能够成为某个变量的典型代表，于是因子的实际含义也就清楚了。因子正交旋转当指标向量具有正交因子结构时，其公共因子向量、因子载荷矩阵及正交因子分解均不唯一确定。对任一阶正交矩阵，有令则利用正交因子分解的这一性质，在因子分析（正交因子模型）中，常常在建立了初始因子载荷矩阵之后，再对其作适当的正交变换（几何解释：因子轴旋转），以使得因子载荷矩阵具有更简洁、更理想（近乎分块对角矩阵形式）的结构，公共因子向量具有更明显、更直观的实际意义，正交因子分解更合理、更能反映客观实际。目前，已经提出了各种因子旋转的方法。比较常用的一种是方差极大因子轴正交旋转法，简称方差极大法。先考虑两个公共因子的平面正交旋转。具有更理想、更简化的结构，即使其各列的因子载荷值尽可能地两极分化，大者尽可能大，小者尽可能小。各载荷值可正可负，的依赖程度也不同，消除其影响：（规格化）正交旋转的目的就是要使新因子载荷矩阵的各列方差之和（总方差）达到最大。记则可由下式确定： tg 且的符号可由的符号确定：当公共因子数时，需要对因子载荷矩阵中的列因子载荷向量配两两对旋转，共旋转次。列。先确定，后旋转。仅列元素改变。全部列两两配对旋转完毕后，就完成了第一轮旋转。如果因子载荷矩阵还不能达到要求，那么进行第二轮旋转，如此进行下去，直到满足要求为止。每经一轮旋转，都可算出因子载荷矩阵的总方差。是一非降序列，且有上界（为），故必收敛于某一极限值，即为最大总方差。实际中，通常旋转到总方差改进不大，即（给定精度）时，旋转停止。最后，取作为最终因子载荷矩阵。 ·计算因子得分因子得分是因子分析的最终体现。在因子分析的实际应用中，当因子确定以后，便可计算各因子在每个样本观测上的具体数值，这些数值称为因子得分，形成的变量称为因子得分变量。于是，在以后的分析中就可以因子得分变量代替原有变量进行数据建模，或利用因子得分变量对样本进行分类或评价等研究，进而实现降维和简化问题的目的。，，，， 3.实证分析 3.1指标：废水排放总量、需氧量排放总量、氨氮排放总量、二氧化硫排放总量、氮氧化物排放总量、烟尘灰尘排放总量 3.2原始数据：地区废水排放总量化学需氧量排放总量氨氮排放总量二氧化硫排放总量氮氧化物排放总量烟尘灰尘排放总量北京 15.07 16.88 1.9 7.89 15.1 5.74 天津 8.94 21.43 2.45 20.92 28.23 13.95 河北 30.98 126.85 10.27 118.99 151.25 179.77 山西 14.5 44.13 5.37 120.82 106.99 150.68 内蒙古 11.19 84.77 4.93 131.24 125.83 102.15 辽宁 26.29 121.7 10.01 99.46 90.2 112.07 吉林 12.22 74.3 5.31 37.23 54.92 47.51 黑龙江 14.96 142.39 8.49 47.22 73.06 79.35 上海 22.12 22.44 4.46 18.81 33.28 14.17 江苏 60.12 110 14.25 90.47 123.26 76.37 浙江 41.83 72.54 10.32 57.4 68.79 37.97 安徽 27.23 88.56 10.05 49.3 80.73 65.28 福建 26.06 62.98 8.93 35.6 41.17 36.79 江西 20.83 72.01 8.6 53.44 54.01 46.23 山东 51.44 178.04 15.5 159.02 159.33 120.81 河南 42.28 131.87 13.9 119.82 142.2 88.21 湖北 30.17 103.31 12.04 58.38 58.02 50.4 湖南 31 122.9 15.44 62.37 55.28 49.62 广东 90.51 167.06 20.82 73.01 112.21 44.95 广西 21.93 74.4 7.93 46.66 44.24 40.29 海南 3.94 19.6 2.29 3.26 9.5 2.32 重庆 14.58 38.64 5.13 52.69 35.5 22.61 四川 33.13 121.63 13.47 79.64 58.54 42.86 贵州 11.09 32.67 3.8 92.58 49.11 37.79 云南 15.75 53.38 5.65 63.67 49.89 36.68 西藏 0.54 2.79 0.34 0.42 4.83 1.39 陕西 14.58 50.49 5.82 78.1 70.58 70.91 甘肃 6.6 37.32 3.81 57.56 41.84 34.58 青海 2.3 10.5 0.98 15.43 13.45 23.99 宁夏 3.73 21.98 1.66 37.71 40.4 23.92 新疆 10.27 67.02 4.59 85.3 86.28 81.39 3.3数据来源：《中国环境年鉴》 3.4分析过程：利用SPSS软件进行分析，首先录入数据，然后一次进行如下处理: 一、考察原有变量是否适合进行因子分析首先考察收集到的原有变量之间是否存在一定的线性关系，是否适合采用因子分析。这里借助变量的相关系数矩阵进行分析。表一是原有变量的相关系数矩阵。可以看到：大部分的相关系数都较高，各变量呈较强的线性关系，能够从中提取公共因子，适合进行因子分析。表一相關性矩陣废水排放总量单位：亿吨化学需氧量排放总量单位：万吨氨氮排放总量单位：万吨二氧化硫排放总量单位：万吨氮氧化物排放总量单位：万吨烟尘灰尘排放总量单位：万吨相關废水排放总量单位：亿吨 1.000 .762 .913 .424 .612 .277 化学需氧量排放总量单位：万吨 .762 1.000 .906 .647 .773 .592 氨氮排放总量单位：万吨 .913 .906 1.000 .519 .650 .394 二氧化硫排放总量单位：万吨 .424 .647 .519 1.000 .903 .842 氮氧化物排放总量单位：万吨 .612 .773 .650 .903 1.000 .864 烟尘灰尘排放总量单位：万吨 .277 .592 .394 .842 .864 1.000 二、提取因子这里首先进行尝试性分析：根据原有变量的相关系数矩阵，采用主成分分析提取因子并选取大于1的特征值，分析结果如表2所示。表二 Communalities 起始擷取废水排放总量单位：亿吨 1.000 .923 化学需氧量排放总量单位：万吨 1.000 .892 氨氮排放总量单位：万吨 1.000 .971 二氧化硫排放总量单位：万吨 1.000 .908 氮氧化物排放总量单位：万吨 1.000 .953 烟尘灰尘排放总量单位：万吨 1.000 .931 擷取方法：主體元件分析。表二显示了在指定提取2个变量共同度数据。第一列数据是因子分析初始解下的变量共同度，它表明：如果对原有7个变量采用主成分分析方法提取所有特征值，那么原有变量的所有方差都可被解释，变量的共同度均1.事实上，因子个数小于原有变量的个数才是因子分析的目标，所以不可能提取全部特征值。第二列数据是在按指定提取条件提取特征值时的变量共同度。可以看到所有变量的绝大部分信息可被因子解释，信息丢失少。因此，本次因子提取的总体效果比较理想。表三說明的變異數總計元件起始特徵值擷取平方和載入循環平方和載入總計變異的 % 累加 % 總計變異的 % 累加 % 總計變異的 % 累加 % 1 4.382 73.040 73.040 4.382 73.040 73.040 2.810 46.831 46.831 2 1.196 19.932 92.972 1.196 19.932 92.972 2.768 46.141 92.972 3 .207 3.444 96.416 4 .134 2.241 98.656 5 .062 1.037 99.694 6 .018 .306 100.000 擷取方法：主體元件分析。表三中，第一列是因子编号，以后三列组成一组，每组中数据项的含义依次是特征值、方差贡献率和累计方差贡献率。前两个因子解释原有变量总方差的93%，总体上，原有变量的信息丢失较少，因子分析效果较理想。表四表四中，横坐标为因子数目，纵坐标是特征值。可以看到：第一个因子特征值很高，对解释原有变量的贡献最大;第二个以后的因子特征值都较小，对解释原有变量的贡献很小，因此提取两个因子是合适的。表五元件矩陣a 元件 1 2 氮氧化物排放总量单位：万吨 .939 -.266 化学需氧量排放总量单位：万吨 .917 .226 氨氮排放总量单位：万吨 .856 .487 二氧化硫排放总量单位：万吨 .848 -.434 废水排放总量单位：亿吨 .778 .564 烟尘灰尘排放总量单位：万吨 .775 -.575 擷取方法：主體元件分析。 a. 擷取 2 個元件。表五显示了因子载荷矩阵，是因子分析的核心内容。根据该表可以写出因子分析模型：氮氧化物排放总量=0.939*-0.266* 化学需氧量排放总量=0.917*+0.226* 氨氮排放总量=0.856*+0.487* 二氧化硫排放总量=0.848*-0.434* 废水排放总量=0.778*+0.564* 烟尘灰尘排放总量=0.775*-0.575* 由表五可知，六个变量在第一个因子上的载荷都很高，意味着他们与第一个因子的相关程度高，第一个因子很重要。第二个因子与原有变量的相关性均较小，它对原有不安量的解释不显著。三、因子的命名解释采用方差极大法对因子载荷矩阵进行正交旋转以使因子具有命名解释性。得到旋转后的因子载荷矩阵如图六所示。图六旋轉元件矩陣a 元件 1 2 烟尘灰尘排放总量单位：万吨 .955 .136 二氧化硫排放总量单位：万吨 .909 .287 氮氧化物排放总量单位：万吨 .855 .471 氨氮排放总量单位：万吨 .268 .948 废水排放总量单位：亿吨 .157 .948 化学需氧量排放总量单位：万吨 .494 .805 擷取方法：主體元件分析。轉軸方法：具有 Kaiser 正規化的最大變異法。 a. 在 3 疊代中收斂循環。由表六可知，烟尘灰尘排放总量、二氧化硫排放总量、氮氧化物排放总量在第一个因子上有较高的载荷，第一个因子可以解释为大气污染物排放总量。氨氮排放总量、废水排放总量、化学需氧量排放总量在第二个因子上有较高的载荷，第二个因子可以解释为水污染物排放总量。与旋转前相比，因子含义较清晰。表七元件評分共變異數矩陣元件 1 2 1 1.000 .000 2 .000 1.000 擷取方法：主體元件分析。轉軸方法：具有 Kaiser 正規化的最大變異法。元件評分。表七显示了两因子的协方差矩阵。两因子没有线性相关关系，实现了因子分析的设计目标。四、计算因子得分采用回归法估计因子得分系数，并输出因子得分系数。表八元件評分係數矩陣元件 1 2 废水排放总量单位：亿吨 -.205 .461 化学需氧量排放总量单位：万吨 .016 .282 氨氮排放总量单位：万吨 -.147 .427 二氧化硫排放总量单位：万吨 .393 -.122 氮氧化物排放总量单位：万吨 .309 -.007 烟尘灰尘排放总量单位：万吨 .463 -.218 擷取方法：主體元件分析。轉軸方法：具有 Kaiser 正規化的最大變異法。元件評分。根据表八可写出以下因子得分函数： =-0.205*废水排放总量+0.016*化学需氧量排放总量-0.147*氨氮排放总量+0.393*二氧化硫排放总量+0.309*氮氧化物排放总量+0.463*烟尘灰尘排放总量 =0.461*废水排放总量+0.282*化学需氧量排放总量0.427*氨氮排放总量-0.122*二氧化硫排放总量-0.007*氮氧化物排放总量-0.218*烟尘灰尘排放总量另外，因子得分的均值为0，标准差为1。正值表示高于平均水平，负值表示低于平均水平。地区因子得分1 因子得分2 地区因子得分1 因子得分2 北京 -1.24699 -0.57979 河南 1.08955 0.97693 天津 -0.88044 -0.73934 湖北 -0.37443 0.75745 河北 2.36983 -0.09971 湖南 -0.46494 1.17204 山西 2.03859 -1.24591 广东 -0.77494 3.30542 内蒙古 1.81446 -0.91302 广西 -0.50304 0.13154 辽宁 1.04718 0.15182 海南 -1.26173 -0.76721 吉林 -0.25843 -0.33525 重庆 -0.55114 -0.41907 黑龙江 0.22097 0.20172 四川 -0.30947 1.03004 上海 -1.06205 -0.24016 贵州 0.18358 -0.85403 江苏 0.32092 1.46441 云南 -0.20629 -0.36888 浙江 -0.52602 0.77841 西藏 -1.24652 -1.09844 安徽 -0.05073 0.37961 陕西 0.46793 -0.62279 福建 -0.7507 0.30179 甘肃 -0.20203 -0.80876 江西 -0.30784 0.09465 青海 -0.82359 -1.11995 山东 1.8286 1.31332 宁夏 -0.43681 -1.03388 新疆 0.85653 -0.81297 五、各地区的综合评价可利用因子得分变量对地区进行对比研究。首先，绘制两因子得分变量的散点图，如图九所示。图九首先，可以观察到广东的第二因子得分很高，说明了广东的水污染比较严重。河北的大气污染很严重，总的污染程度更是居全国之首。其次，对各地区污染物排放总量进行综合评价。采用计算因子加权总分的方法，计算公式为： F=（0.73/0.93）*+（0.2/0.93）* 得到各地区的污染物排放总量，并按其进行降序排序。地区污染物排放总量河北 1.86 湖南 -0.13 山东 1.72 湖北 -0.14 山西 1.36 江西 -0.22 内蒙古 1.25 云南 -0.24 河南 1.07 浙江 -0.26 辽宁 0.86 吉林 -0.27 江苏 0.56 甘肃 -0.33 新疆 0.51 广西 -0.37 陕西 0.24 重庆 -0.52 黑龙江 0.22 福建 -0.53 广东 0.07 宁夏 -0.56 安徽 0.04 天津 -0.85 贵州 -0.03 青海 -0.88 四川 -0.03 上海 -0.89 北京 -1.11 污染物排放总量较高的地区有河北、山东、山西、内蒙古、河南、辽宁等；污染物排放总量较低的地区有西藏、海南、北京、上海、青海、天津等。 4.结论及建议 4.1结论各地区污染情况按照大气污染和水污染程度进行分类，可以分为三类。第一类为严重大气污染型地区，有河北、山西、内蒙古。第二类为较严重污染型地区，有山东、河南。第三类为较轻污染型地区，有北京、天津等地区。第四类为严重水污染地区，有广东地区。 4.2建议对于大气污染比较严重的地区如河北，山东，山西，内蒙古等，大气污染综合整治规划是根据城市大气质量现状与发展趋势进行功能区划并按拟定的环境目标计算各功能区最大允许排放量和削减量，从而制定污染治理方案。大气污染的治理应根据城市的能源结构与交通状况确定首要污染物即浓度高、范围广、危害大的污染物，便于治理时有的放矢、对症下药。当前我国大部分城市的大气污染主要是由燃煤和汽车尾气引起。通过技术和行政的手段减少汽车尾气的污染；提高城市绿化率、选择抗污染性好的树种，大力发展植物净化。调整工业布局，强化污染源的治理，降低污染物的排放量。对于水污染比较严重的地区如广东、江苏、山东、四川等，在发展工业，建设城市的同时，就要注意到水资源的保护。因为一旦水资源受到污染，将严重的制约工业、农业的发展。要解决水污染问题的根本途径还是在于要发动全球人民，增强保护水资源、节约用水意识。同时大力研制循环用水技术、海水淡化技术、污水净化技术等，并对排放污水或污染物质严重的企业、生活区进行合理管制和必要的惩罚，以增强保护水资源意识。除此之外，由于我国各地区的污染程度各有不同，又有相同之处，可对全国的污染问题进行大体的分类，联系各地区的水流流向以及各个季节的风向分析污染源头，进而全面系统化的分析，对其进行优化以减少污染的排放，制定相应的措施，在根本上解决全国的污染问题。 5.参考文献《中国环境年鉴》

展开阅读全文