1、论文分类号:2学校代码:10708学 号:1406046o倏晶科义大拳 or SHAANXI UNIVERSITY OF SCIENCE&TECHNOLOGY硕士学位论文Thesis for Masters Degree基于数据挖掘技术的空气质量指数 预测研究万方数据基于数据挖掘技术的空气质量指数预测研究摘要近年来空气污染状况日益严重,频繁出现的重污染天气对人们的日常 生活乃至生命健康都造成了严重影响。空气质量指数(AQI)的预报作为公 众知晓未来空气状况最直接的途径,不仅能为环保部门开展空气环境治理 工作提供指导,同时也能够提醒公众合理规避重度污染天气。但由于影响 空气质量的因素较多,气象环
2、境的复杂性、污染物之间的非线性关系都为 空气质量指数的预报造成了困难。且传统的潜势预报、数值预报也并未做 到对海量历史数据的充分利用,因此在预报中依然存在着准确度不高、实 效性不强等局限性。针对这些问题,论文以西安市2014年1月28日-2016年8月29日间 空气质量监测站点每日所采集的数据为研究对象,使用数据挖掘技术中的 灰色系统理论以及神经网络技术,建立了两种空气质量指数预测模型。并 通过对模型的进一步优化,提高预测准确度以及结果的可接受度。论文的 主要工作如下:(1)选择合适的指标数据参与空气质量指数预测模型的建立。指标的 选取应从环境要素以及气象条件两方面考虑。根据环境空气质量标准,
3、选 取S O2、PM2.5、PM10、CO、。3、NO2 AQI等7项污染指标,以及风力级 别、平均湿度、最高温度、最低温度、平均温度等5项气象因素共计12个 指标作为此次预测建模的主要研究对象。(2)对参与预测建模的数据进行预处理。首先,需要对监测站点采集 的数据进行初步筛选,在剔除无效和缺失数据后,保留940条数据。其次,考虑到不同影响因子的数据取值范围以及单位存在明显差异,会对预测结 果产生影响,因此采用mapminmax函数对数据进行归一化处理,以消除各 类数据之间的量纲差别。(3)建立基于GM(1,1)的空气质量指数预测模型。根据灰色预测方法 的适用特性,以空气质量指数的历史数据作为
4、研究对象,建立基于 预测模型。通过对预测结果进行分析,评估灰色系统理论在空气质量预测 上的效果。(4)建立基于BP神经网络的空气质量指数预测模型。根据参与建模 的数据调整BP神经网络的参数,确定合理的网络结构,并在MATLAB平 台下编写完整预测程序,对空气质量指数进行预测。计算结果的平均绝对 万方数据百分比误差、可接受度以及空气质量等级预测的正确率,以此来评价预测 模型。(5)对BP神经网络的预测模型进行优化。为进一步提高预测的精确 性,分别使用主成分分析法和遗传算法对BP神经网络的预测模型进行优 化。一方面通过降低输入变量的维度来消除训练过程的复杂度,而另一方 面则是通过优化BP神经网络的
5、初始参数来提高模型的预测能力。最后,将 优化后的PCA-BP、GA-BP神经网络的预测模型与单一 BP神经网络的预测 模型进行对比。结果表明,在有效信息较少的情况下,灰色预测模型对于空气质量指 数的预测有一定意义。而在数据较丰富的情况下,单一 BP神经网络预测模 型的平均绝对百分比误差为21.96%0在对BP神经网络进行主成分分析以 及遗传算法优化后,误差分别减小了 2.23%和3.67%,且结果的可接受度以 及空气质量等级预测的准确率也均有提高。优化后的模型虽然不能完全准 确对空气质量指数进行预测,但其结果仍具有一定的参考价值。关键词:空气质量指数,灰色系统理论,BP神经网络,主成分分析,遗
6、传 算法万方数据RESEARCH ON AIR QUALITY INDEX FORECASTING BASED ON DATA MINING TECHNOLOGYABSTRACTIn recent years,air pollut ion is get t ing worse,and freq uent heavy pollut ion weat her has seriously affect ed peoples daily life and healt h.The air q ualit y index(AQI)forecast which is t he most direct way
7、 for t he public t o know t he fut ure air q ualit y,not only provides guidance for t he environment al prot ect ion depart ment t o cany out air pollut ion management,but also reminds t he public t o avoid t he severe pollut ion weat her.However,t here are so many fact ors which make t he AQI forec
8、ast become difficult,such as complex it y and variabilit y of met eorological environment,t he nonlinear relat ionship bet ween pollut ant s,et c.And t he t radit ional pot ent ial forecast and numerical forecast do not make full use of t he massive hist orical dat a.Therefore,t here are st ill some
9、 limit at ions in AQI forecast,such as low accuracy and low efficiency.Aiming at t hese issues,t his t hesis acq uired t he dat a by Xian air q ualit y monit oring st at ion from 2014/1/28 t o 2016/8/29,and t ook t he dat a as research object.We est ablished t wo models of AQI by using t he grey sys
10、t em t heory and neural net work t echnology which belong t o dat a mining.Through t he furt her opt imizat ion of t he model,t he accuracy of predict ion and t he accept abilit y of t he result s can be improved.The main work of t his paper is as follows:(l)We select ed appropriat e index dat a t o
11、 est ablish AQI predict ion model.The select ion of indicat ors should be considered from environment al fact ors and met eorological condit ions.According t o t he air q ualit y st andards,including 7 pollut ion indicat ors such as S O2,PM2.5,PM10,CO,O3,NO2,AQI,as well as 5 met eorological fact ors
12、 such as t he wind level,mean humidit y,highest,lowest,mean t emperat ure,as t he main research object s of t he forecast model.(2)We preprocessed t he dat a involved in predict ive model.First ly,t he dat a collect ed from t he monit oring sit e was init ially screened.Aft er eliminat ing invalid a
13、nd missing dat a,940 dat a was ret ained.Nex t,in view of t he different influence fact ors whose dat a range and unit has obvious differences will have 万方数据impact s on t he predict ion result s.Thus,we used t he mapminmax funct ion t o normalize t he dat a t o eliminat e t he dimensional difference
14、 bet ween various kinds of dat a.(3)We est ablished an AQI predict ion model based on GM(1,1).According t o t he charact erist ics of grey predict ion met hod,put t ing t he hist orical dat a of AQI as t he research object,we est ablished t he predict ion model based on GM(1,1).The predict ion resul
15、t s were analyzed t o evaluat e t he effect of grey syst em t heory on air q ualit y predict ion.(4)We est ablished an AQI predict ion model based on BP neural net work.According t o t he dat a of t he model t o adjust t he paramet ers of t he BP neural net work,we det ermined a reasonable net work
16、st ruct ure,and wrot e a complet e predict ion program on MATLAB t o make t he AQI forecast come t rue.In order t o evaluat e t he predict ion model,we calculat ed t he average absolut e percent age error,accept abilit y and t he correct rat e of air q ualit y grade.(5)We opt imized t he BP neural n
17、et work predict ion model.In order t o improve t he accuracy of predict ion,principal component analysis and genet ic algorit hm were used t o opt imize t he predict ion model of BP neural net work.On t he one hand,t he complex it y of t he t raining process is reduced by decreasing t he dimension o
18、f t he input variables.On t he ot her hand,we improved t he predicat ion abilit y of t he model by opt imizing t he init ial paramet ers of BP neural net work.Finally,t he predict ion model of t he PCA-BP and GA-BP neural net work were compared wit h t he single BP neural net work predict ion model.
19、The result s show t hat t he grey forecast model is of great significance t o t he predict ion of air q ualit y index in t he case of less effect ive informat ion.In t he sit uat ion of abundant dat a,t he mean absolut e percent age error of a single BP neural net work predict ion model is 21.96%.Af
20、t er t he opt imizing of t he BP neural net work by principal component analysis and genet ic algorit hm,t he error is reduced by 2.23%and 3.67%respect ively,and t he accept abilit y of t he result s and t he accuracy of air q ualit y forecast are also improved.Even t hough t he opt imized model can
21、not complet ely accurat ely predict t he air q ualit y index,t he result s st ill have some reference value.KEY WORDS:Air q ualit y index,grey syst em t heory,BP neural net work,principal component analysis,genet ic algorit hm万方数据目录摘要.IABS TRACT.Ill目录.I1绪论.11.1 研究的目的和意义.11.2 国内外应用研究现状.31.2.1 国外研究现状.
22、31.2.2 国内研究现状.41.3 本文的主要工作及内容安排.52相关理论与技术基础.72.1 数据挖掘与人工智能.72.1.1 数据挖掘的概述与应用.72.1.2 人工智能的概述与应用.72.2 人工神经网络.82.2.1 人工神经网络概述.82.2.2 人工神经元模型.92.2.3 人工神经网络的分类.112.2.4 人工神经网络的学习规则.122.3 灰色系统理论.132.3.1 灰色系统理论概述.132.3.2 灰色预测建模及其特点.132.4 主成分分析法.142.5 相关软件介绍.142.5.1 S PS S 软件.142.5.2 MATLAB 软件.152.6 本章小结.163
23、空气质量指数的预测原理及数据的处理.173.1 空气质量指数(AQI)预测原理.173.2 数据介绍以及预处理.183.2.1 数据来源.183.2.2 数据介绍.19万方数据3.2.3 数据的归一化处理.203.3 本章小结.224基于灰色理论的空气质量指数预测模型.234.1 灰色预测技术.234.2 灰色理论的数据处理方式.234.2.1 累加生成.234.2.2 累减生成.244.3 GM(1,1)预测模型的建模过程.254.4 基于灰色系统的空气质量指数预测模型.274.4.1 数据的选取.284.4.2 基于灰色GM(1,1)的空气质量指数预测模型的建立.284.5 本章小结.29
24、5基于BP神经网络的空气质量指数预测模型.305.1 基于BP神经网络的空气质量指数预测模型.305.2 BP神经网络的基本结构.315.3 BP神经网络模型的构建.325.4 基于BP神经网络的空气质量指数预测.345.4.1 BP神经网络结构的确定.345.4.2 基于BP神经网络的空气质量指数预测模型的建立.355.4.3 预测模型的评价.375.5 本章小结.386空气质量指数预测模型的优化.396.1 基于PCA-BP神经网络的空气质量指数预测模型.396.1.1 主成分分析与神经网络的结合.396.1.2 主成分分析的基本原理.406.1.3 主成分的提取.436.1.4 基于PC
25、A-BP预测模型的仿真实验.466.1.5 预测模型的评价.486.2 基于GA-BP神经网络的空气质量指数预测模型.496.2.1 组合预测方法概述.496.2.2 遗传算法概述.496.2.3 遗传算法与神经网络融合技术.526.2.4 基于GA-BP预测模型的仿真实验.54万方数据6.2.5 预测模型的评价.556.3 本章小结.577总结与展望.587.1 全文工作总结.587.2 未来工作展望.59致谢.60参考文献.61攻读学位期间发表的学术论文目录.65原创性声明及关于学位论文使用授权的声明.66in万方数据基于数据挖掘技术的空气质量指数预测研究1绪论1.1 研究的目的和意义空气
26、作为生活的基本物质条件之一,已经不再只是政府部门、气象部门所关注的问 题,也得到了越来越多普通民众的重视,并且上升到衡量生活品质的基本标准之中。空 气污染,给人民的生活带来了不小的困扰。空气环境质量急剧下降,重度污染天气频繁 出现,空气质量情况已经成为今时今日一个社会热点、重点关注话题。随着我国经济的飞速发展,特别是从改革开放至今,我国的工业化规模和城镇化水 平都得到了空前的发展,在取得令世界瞩目的发展成果的同时,以消耗能源资源为代价 的粗放型经济发展模式也带来了一定的负面效应。片面追求发展成果与经济效益的增 长,而忽视了对人们赖以生存的环境资源的保护,大量的污染物质、污染气体被排放进 大气中
27、,大气污染事件出现的频率、严重程度、波及程度之广也在不断刷新着历史记录。直到近几年,“雾霾”作为一种气象灾害现象逐渐受到百姓的关注,成为了空气质量预警 的一个部分。2013年仅在1月份一个月,我国30多个省份就遭受了 4次雾霾的侵袭,部分地区的的PM”瞬时浓度达到943ug/m3,高速封闭、学校停课、飞机停飞、医院呼 吸道疾病患者激增,严重影响人们的日常生活。2016年入冬以来,雾霾现象更是频繁 发生,多城市先后发布雾霾红色预警。据报告称,在我国的500座城市之中,能够符合 世卫组织发布的空气质量标准的城市仅有不到1%的城市,而世界上10个污染最严重的 城市,中国占据了 7个席位川。据世界卫生
28、组织调查,每年平均有200万未成年人死于空气污染,全球约有92%的 人们生活在空气环境质量低于世界卫生组织规定的安全标准地区向。据相关研究表示,PM2.5浓度每升高10ug/m3时,人的总死亡率将上升4%;空气中的PMio浓度每上升 10ug/m3时,心肺疾病的死亡率将上升0.31%;大气中S O2浓度超过0.5mg/L时,会增 加呼吸道疾病的发病概率;03浓度每上升lOug/nP,人群的日死亡率将会上升 0.3%0.4%R近几年来,空气污染现象在我国发生的频率逐渐增高,空气质量重度污染预警的发 布在冬季几乎成为常态化现象。中国科学院院士、前中国卫生部部长陈竺与专家合作发 表于柳叶刀的报告称,
29、估计我国每年因室外空气污染导致的早死人数在35万-50 万人之间。据统计,仅2013年一年,全国范围内平均雾霾天数达到35.9天,这一数据比2012 年足足增长了 18.3天,涨幅高达96.2%,空气质量能够达到标准的城市比例仅为4.1%。其中,华北及江南等大范围区域被雾霾笼罩的天数少则50天,多则100天,还有些地 1万方数据陕西科技大学硕士学位论文区甚至超过了 100天。据中国环境状况公报显示:2015年,全国338个地级以上级别 的城市中,265个城市环境空气质量超标,占78.4%。目前,我国的大气环境呈现出一种复合性污染的特点,空气环境质量较差、重度污 染天气的频繁出现,给人们的生产生
30、活带来了一定的影响,城市空气质量的改善,除了 依赖于对本地区及周边区域污染源加强处理、对污染物质的扩散加以控制之外,对城市 的空气环境质量的发展趋势进行及时准确的预报也是大气污染防治工作中一个重要的 领域。然而,我国幅员辽阔,各个地区的地形地貌以及地理条件均存在着一定的差异,气 候条件随着地域分布展现出不同的特点。且各区域间经济发展状况呈现不均衡态势,工 业化的程度、规模以及发展工业的种类也存在着不同,即使是同一省份也因人口规模、经济发展状况、工业化程度、社会活动等各种因素存在着空气环境质量的明显差异。空 气中的S O2、NO、CO等污染物质的成因也因上述因素存在着不同,导致了空气重污染 物质
31、的浓度在时间、空间的分布上各不相同。除此之外,由于气象条件本身的复杂以及 多变性,造成污染物质彼此之间存在着明显的非线性关系,对环境空气质量指数的预测 也造成了一定的困难。作为公众了解未来空气质量状况最直接的一种途径,环境空气质量指数(Air Qualit y Index,简称AQI)的预报工作现在已经成为城市环境空气质量预报工作的一项重要内 容。传统的环境空气质量的预测工作多依赖于分析气象条件和空气中污染物质的物理、化学等特性来进行,存在着准确度不高、实效性不强等问题,并没有对海量的历史数据 进行充分的利用和分析。20世纪80年代以来,环境信息技术的飞速发展,为环保部门 开展环境监测、环境调
32、查以及污染治理等工作提供了大量帮助咒 据统计,2015年我国 对367个城市的空气质量情况进行了在线监测,积累了丰富的数据,包括污染源的数据 以及环境质量的数据的。海量监测数据为利用信息处理技术进行空气环境质量的预测工 作提供了必要的基础条件。本文所研究的空气环境质量预测工作,就是充分利用上述海量数据,使用数据挖掘 的相关技术,通过找寻空气质量指数与空气中各污染物质之间的关系,从而开展环境空 气质量的预报。空气质量的预报可以帮助政府部门做好重污染天气的应急管理工作,尤 其是在可能出现或者已经出现严重空气污染时期,不仅可以向公众发布及时规避高污染 天气的预警信息,还能为环保部门开展空气环境污染治
33、理工作提供指导,为政府部门等 决策机构制定相关决策、发布应急预案等提供参考依据,例如为机动车限行、企业限产 限排等措施的实施争取到充足的准备时间等。因此,空气污染的预报工作具有十分现实 的作用与意义。2万方数据基于数据挖掘技术的空气质量指数预测研究1.2 国内外应用研究现状空气质量的预测是当前环境科学研究的重点问题,但同样也是一项比较复杂的工 作。关于大气环境的研究起始于20世纪70年代,目前,有关环境研究的主要任务集中 在大气污染物质的分析、预报以及空气质量的评价三个方面。空气质量预测为我们大气环境保护部门开展工作提供了重要的参考依据。空气质量 以及污染物质的预报工作目前多采取潜势预报、数值
34、预报以及统计预报等三种方法“二 其中,潜势预报不考虑污染物质浓度状况,且多依赖于气象预报的结果,预测的准确度 通常不高;数值预报则是建立在空气动力学理论的基础上,通过分析化学、物理的过程 变化.,利用数学方法建立空气中污染物质浓度的数值模型,通过计算从而对污染物质 的浓度进行动态预测,其计算过程较为复杂,耗费时间较多,因此在时效性方面也存在 着一定的不足,;而统计预报的方法并不需要考虑污染物质的变化过程,只需通过对与 空气质量指数相关的影响因子的输入以及输出信息进行分析,找寻彼此之间的规律,从 而对未来一段时间内的空气质量情况进行预测,具有简单、快捷的优势,也因此受到了 广泛的关注以及使用”人
35、工神经网络对于非线性问题有着很强的处理能力,如今已被应用于各个领域。20 世纪90年代起,人工神经网络开始逐步被应用于空气环境领域的预测问题,主要致力 于空气污染物质浓度的短期预测D叫,通过对技术的改进以及模型的优化,预测结果的 准确度也在不断提高。除此之外,灰色系统理论经过30多年的快速发展以及其在众多 学科领域中的成功应用,作为灰色系统理论内一个重要研究内容的灰色预测模型,也已 被成功应用在空气质量的预测问题中晔”1.2.1 国外研究现状世界发达国家十分重视大气环境领域内的信息产业发展。国外方面,自上世纪50 年代开始,就已经开展了关于城市空气污染的预测研究。美国、德国、法国、英国等发 达
36、国家,早已经通过实时、动态的监测技术对大气环境进行监测,并逐步开展和完善监 测数据的分析以及大气污染的预报工作。上世纪60年代初,以美国为首,率先开展了长达一年的关于空气污染趋势预测的 实验研究,并将空气污染潜势预报的依据进行公开发布,并且依据有关的气象预报参数,例如大气混合层的高度、风力级别、稳定度等,开展了关于城市空气污染的预报工作明。20世纪80年代开始,随着模糊数学、灰色系统理论、层次分析和人工神经网络等理论 的兴起,环境科学领域的研究工作有了新的进展,很多国外的专家学者对于环境质量 的综合评价提出了许多新的方法如,上世纪90年代,英国开始对空气污染状况进行预报,1993年Boznar
37、等人为了实现 对电厂周围S O2浓度的预测工作,使用多层的感知器网络结构,实现了将神经网络应用 3万方数据陕西科技大学硕士学位论文在空气质量预测这一项究中阿。Gardner等在1999年也预测了伦敦市NO?的浓度,通过 建立MLP模型进行预测,结果表明MLP模型的预测准确率较回归模型有了一定的提升 271o Perez等人在2000年,对于圣地亚哥市区的PMio浓度进行测试,发现MLP模型在 此领域优于线性回归模型。Yi等使用多层感知器模型,分析臭氧浓度、CO2、NO、NO2 等8个因素,开展对北美工业园区的臭氧浓度进行预报工作。Pelliccioni等以三层BP 神经网络为模型,对CO、NO
38、2的浓度进行预测。Pat ricio Perez等通过建立人工神经网 络模型,对智力圣地亚哥地区的PMio日均浓度进行预测研究囤。Asha B.Chelnai等人于 2002年,进行了 S O2浓度的预测研究,通过建立单隐含层结构的神经网络模型来进行 预测,结果表明基于神经网络的预测模型其预测的结果要高于残差分布的正态预测幽。Eliasa Kalapanidas等探讨了希腊雅典的短期NCh最大浓度预测模式样本。S ang等用8 项时间序列的30个因子作为输入变量,建立了基于BP神经网络的汉城臭氧浓度预报 模型,进行了臭氧浓度的精准预报,这项研究为准确预测大气污染物质在时间以及空间 上的变化提供
39、了指导网。J eong-S ookHe等结合ANN与模糊专家系统,进行了最大臭氧 浓度的预测,结果表明预测的精确度可以在不断的研究过程当中有所提高明。1.2.2 国内研究现状我国在1937年举办了第一次全国范围内的环保工作会议,从那以后才正式开始了 我国的大区污染研究工作。上世纪80年代以前的大气污染研究工作主要集中在对于影 响污染物质扩散的气象条件进行研究。但随着研究的不断深入,我国的有关研究学者已 陆续开展关于污染物质浓度、污染气象参数与气象条件以及污染物质浓度预测研究。于 淑秋、蔡旭晖、潘建国等对大气污染物质在时间上以及空间上分布特点展开了研究,盛 立方、孟燕军等人对大气污染物质的浓度与
40、气象条件之间的联系进行了分析研究囱。从上世纪80年代起,在我国的北京、上海、太原等城市陆续开展了以S O2、NO2 等污染物质为主要研究对象的城市空气中各类污染物质浓度的预测工作。目前,使用最 为广泛的空气质量预测的方法主要有以下两种:一种方法是在缺失相关的气象信息的条 件之下,仅仅是使用大气环境监测站点的资料数据,建立关于空气重度污染物质浓度的 时间序列预测模型;另一种则是利用相关的气象信息等资料,建立空气中污染物质的浓 度值与气象条件相关的统计预测模型。统计预报的方法相较于传统的数值预报等方法,具有经济、简单、容易实现等优势,所以也是目前很多研究人员在进行空气环境质量预 报时所采用的方法阻
41、力我国气象科学研究院专门从事大气物理研究的多位专家于1997年通过对大气平流 扩散方程进行积分计算得出了一种多尺度箱格的预测模型,在他们的研究当中,引入了 空气污染指数,对城市大气污染情况的发展趋势进行了预报网。Mok等人致力于S O2 浓度的预测工作,他们通过使用三层的前馈型神经网络,建立了澳门地区的S O2浓度预 4万方数据基于数据挖掘技术的空气质量指数预测研究测模型,他们的研究结果同时也证明了在数据量较少的情况下进行浓度的预测并不影响 预测的最终效果。王俭等人将模糊神经网络的预测方法用于空气质量的评价、预测,还 指出此方法能够从客观角度对空气质量进行排序的观点,他们还通过对气象因子以及大
42、 气污染物质的综合分析,建立了基于BP神经网络的空气质量预测模型,结果表明,BP 神经网络在大气质量的预测过程中整体的拟合推广效果较好的。赵宏等提出了遗传算法 改进的神经网络在空气质量方面的预测模型,并以天津市2003年-2007年的气象数据为 样本进行了检验。李柞泳等人将人工神经网络技术应用于空气污染情况的预测过程之 中,建立了以BP神经网络为模型的空气污染物浓度的预测模型网。王迎春、王川等人 也通过潜势预报的办法建立了关于北京、南京、西安等不同城市的空气质量预测模型咒 苏静等人使用灰色GM(1,1)预测模型,预测靖江市未来五年的空气质量,并对靖江市未 来五年的环境质量的整体情况进行预判幽。
43、金龙等人为了提高神经网络在预测建模过程 中的泛化能力以及解决“过拟合”的问题,提出了一种通过主成分分析和神经网络相结合 的方法,通过低维学习矩阵的方法来完成预测模型的建立。研究结果表示,此办法与传 统的使用单一神经网络建立的预测模型以及通过逐步回归方法建立的预测模型相比较 而言,模型的泛化能力有了明显的提高。目前,我国的大多重要城市都已经纷纷开展了空气质量指数的预报工作,随着大气 领域的研究过程逐渐深入,将BP神经网络这一模型应用于大气污染的预报研究上已得 到了广泛的使用以及认可,很多相关的专家学者通过对空气中污染物质的浓度以及气象 条件等影响要素的分析,建立了基于BP神经网络的污染物质浓度预
44、测模型。大量的结 果也证实了 BP神经网络应用在大气污染物质的预测上是可行的,且具有较好的泛化能 力以及较高的预测精准性,这些研究成果为大气污染物质的预报提供了一定的参考以及 应用的价值。但在城市空气质量的预测大多停留在某一污染物质的预测问题上,关于城市空气质 量的整体情况的评估预测工作较少,因此本文将针对城市空气质量指数的预报问题展开 研究,进行空气质量指数的预测工作。13本文的主要工作及内容安排本文主要工作是通过对数据挖掘技术中的灰色预测算法、BP神经网络算法以及遗 传算法等理论的学习,研究其在空气质量指数预测方面的应用。结合西安市环境监测站 点采集的污染物质浓度数据以及气象数据,分别建立
45、了灰色预测模型和基于BP神经网 络的预测模型,并通过主成分分析法以及遗传算法对预测模型进行优化,实现对空气质 量指数的预测。论文主要的研究工作包括以下几部分内容:(1)研究建立基于的空气质量指数预测模型。通过学习灰色系统理论的 相关知识,了解灰色系统理论在预测领域的优势及特点,研究预测模型建立的过程,对 5万方数据陕西科技大学硕士学位论文空气质量指数进行预测。(2)研究基于BP神经网络的空气质量指数预测模型。通过学习人工神经网络的 有关知识,对人工神经网络的基本原理、网络结构、学习算法以及具体网络模型的构建 过程进行研究,将BP神经网络算法应用到空气质量指数的预测中来。(3)研究BP神经网络与
46、其他算法相结合的组合预测模型。由于影响空气质量指 数的因素有很多,影响因子间会相互影响,任何细小的变化都会造成整个预测结果的变 化,且使用单一理论建立的预测模型通常都会具有一定的局限性。为了更好的进行空气 质量指数的预测,还需要引入其他算法与BP神经网络相结合,进行预测模型的建立。主要包括:将主成分分析法与BP神经网络组合使用,以降低参与建模的数据维度;研 究使用遗传算法对BP神经网络的有关参数进行优化,逐步提高网络的预测准确程度。论文一共包含七大章,后续章节安排如下:第二章,相关理论的介绍。针对本文中所涉及到的有关理论知识,例如数据挖掘技 术、人工神经网络、灰色系统理论以及主成分分析等方法的
47、基本理论进行了简单的介绍。除此之外,还对文中涉及到的软件,例如MATLAB、S PS S软件的优势以及特点进行简 单介绍。第三章,阐述空气质量指数的预测原理。首先,通过对大气环境以及气象条件的分 析,确定参与预测建模的影响因子,其次介绍数据的来源并对样本数据进行了归一化处 理。第四章,建立基于GM(1,1)的空气质量指数预测模型。简单介绍灰色系统理论的基 本概念,并按照构建灰色预测模型的步骤,进行空气质量指数预测建模,最后对预测结 果进行评估分析。第五章,建立基于BP神经网络的空气质量指数预测模型。介绍BP神经网络的原 理、结构以及模型建立的具体步骤。并按照建模流程,在MATLAB平台上编写程
48、序,利用样本数据对网络进行训练,建立空气质量指数预测模型,从不同角度对预测结果进 行评估分析。第六章,对空气质量指数预测模型进一步优化。介绍主成分分析的原理和遗传算法 的有关概念,从降低模型负载程度以及优化模型参数两个方面,分别建立基于PCA-BP 神经网络、GA-BP神经网络的空气质量指数预测模型。在MATLAB平台上编写程序进 行预测,最后将优化后的预测结果与单一 BP神经网络的预测结果进行对比。第七章,对整篇文章进行总结以及展望。简要概述本文主要完成了哪些工作,并且 说明目前仍然存在不足的地方,提出下一步所要进行的工作。文章最后进行致谢,并且列出文中所引用的参考文献索引列表,以及攻读学位
49、期间 发表的学术成果。6万方数据基于数据挖掘技术的空气质量指数预测研究2相关理论与技术基础2.1 数据挖掘与人工智能2.1.1 数据挖掘的概述与应用数据的挖掘一般是指将隐藏在数据中有利用价值的信息从数据集合中挖掘出来的 特殊过程,可用信息通常以基础概念、客观规律、相应规则、具体模型等形式表现出来,一般情况下它可以帮助主体分析过往数据及现有数据,从中发现规律、挖掘数据之间的 隐藏关系,进而运用在未来事件的决策之中。通常在大量的数据中,人脑是很难在其中找到有用信息的,往往是需要通过借助一 定的外部工具来完成这项工作,而数据挖掘技术的使用可以更加高效地协助人们解决此 类问题。数据挖掘的方法往往表现为
50、不同的形式,这是基于数据挖掘是汇集了各类不同 学科、不同领域的技术及研究成果的原因,例如从分析统计学的角度出发,数据挖掘就 按照数据的类型分为线性分析模型和非线性分析模型,按照变量个数可分为单个变量分 析模型和多个变量分析模型,按照数据特点又可分为时间序列分析模型、最近序列分析 模型、最近邻算法模型等;另一方面针对知识探索类数据挖掘则是一种与分析统计截然 不同的应用技术,它所涉及的技术内容包括决策树、遗传算法、关联顺序、人工网络神 经等。在空气质量指数预测研究这一课题中,将数据挖掘技术应用其中,通过对大批量与 空气质量状况相关联的数据进行综合分析,找寻各个影响因子之间的隐形关系,在最大 程度上