两种空气质量数值模式的应用评估与集合改进研究.pdf

资源描述

1、孙弦，孙磊，聂会文，等.两种空气质量数值模式的应用评估与集合改进研究J.热带气象学报，2023，39(3)：361-373.文章编号：1004-4965(2023)03-0361-13两种空气质量数值模式的应用评估与集合改进研究孙弦，孙磊，聂会文，梁秀姬，苏烨康，王静，夏冬(珠海市公共气象服务中心，广东珠海 519000)摘要：利用20182019年国控站观测，评估CAMx和CMAQ模式对广东珠海主要污染物时空分布与演变特征的预报能力，并引入多元线性回归和随机森林方法对预报结果进行集成，探究不同集合方法的改进能力。结果表明：CMAQ在各污染物浓度季节-日变化方面明显优于CAMx，但两者存在明

2、显系统偏差，并对多数污染物（除O3之外）的昼夜和空间变化的模拟能力仍存在明显缺陷。例如，CMAQ合理地还原了CO、PM2.5、PM10、SO2、O3和NO2的季节变化，相关系数介于0.720.84，但NMB分别达到-0.58、-0.18、-0.30、1.52，-0.16和-0.20，RMSE分别达到0.40 mg/m3、6.86、16.02、10.71、25.05和10.21 g/m3。同时，基于不同污染物构建的两种集合方法均有效移除了系统偏差，加强了CMAQ的模拟优势，并且随机森林方法明显优于多元线性回归，但两者均对模式缺陷无明显改进。进一步分析发现，CMAQ与CAMx模型的重要性基本相当，

3、表明集合方法的预报能力与集合成员的线性偏差无关，主要取决于不同成员的代表性。最后，本研究揭示以随机森林为代表的集合方法虽有效提高了污染物的预报能力，但改进数值模式自身能力和增加具有代表性的集合成员对预报水平的进一步提升十分关键。关键词：空气质量模式；应用评估；集合方法；随机森林中图分类号：X16文献标志码：ADoi：10.16032/j.issn.1004-4965.2023.033收稿日期：2022-06-02；修订日期：2022-12-20基金项目：广东省气象局科学技术研究项目（GRMC2021M19）；珠海市气象局科学技术研究项目（ZH202108）共同资助通讯作者：孙磊，男，江苏省人，

4、工程师，主要从事环境气象研究。E-mail：ggqx_第39卷第3期2023年6月热带气象学报JOURNAL OF TROPICAL METEOROLOGYVol.39,No.3Jun.,20231 1 引引言言随着城市化和工业化的不断发展，近些年来我国区域大气污染事件频发1，其中以臭氧为代表的光化学污染事件2和以细颗粒物为代表的灰霾污染3最为突出，给人体健康、生态环境和气候等方面造成很大威胁4-6。作为我国城市化进程最高的城市集群之一，珠三角地区的空气污染呈现出明显的区域性和复合型特点7-8。其中，广东珠海作为粤港澳大湾区核心城市，社会经济的飞速发展和人口的快速增长给空气质量带来

5、严峻考验。近几年来一次污染防治虽有所成效，但以臭氧为代表的二次污染仍有加重趋势9。因此，空气质量的准确预报作为联防联控工作的基础，对切实有效改善空气质量具有重要意义。目前，空气质量预报方法主要分为人工研判、统计模型和数值模式三种10。其中人工研判依赖观测数据和主观判断，在时间精度和空间尺度存在局限性，且不具备继承性。统计模型虽运行操作简单，整体预测精度较高11-14，但对一些极端污染事件的捕捉能力较差15-16，并缺乏可解释性。另一方面，空气质量数值模式利用数学方法定量描述污染物从排放、平流输送、湍流扩散、化学反应到清除的完备过程，精细化模拟区域内污染物的时空分布特征与未来演变趋势，已成为当前

6、预报最主流的方法17-20。CMAQ、CAMx、WRF-CHEM和NAQPMS等第三代空气质量数值预报模式，自身基于“一个大气”理念，将各类大气问题、物理化学机制和相互作用统一考虑，已成为大气污染科热带气象学报第39卷学研究的主要工具，并得到广泛业务应用21-24。目前，分别基于CMAQ和CAMx建立的华南区域大气成分数值预报系统，通过使用我国自主研发的区域天气模式作为气象驱动场，并充分融合多套排放源，已经顺利业务运行多年21,25。李婷苑等26评估了CMAQ业务模式在广东的模拟能力，但只重点关注PM2.5、O3及其前体物NO2（其他三种主要污染物PM10、SO2和CO未评估），且模

7、式在珠海的局地表现尚不清楚。此外，CAMx作为平行运作的另一套模式，未有公开研究对其进行详细评估。不同数值模式对于不同空气污染物在不同地区的预报效果存在明显的差异27-28，因此，开展本地预报效果系统评估是业务应用的前提。空气质量模式构成复杂，外部和内部皆具有较大不确定性23,29，外部主要包括模型运行所需的气象初始场（包括土壤、地面和高空）、侧边界强迫和不同污染源排放清单等30-31，内部主要源自物理和化学过程参数化方案的不确定性32-33，使得预报结果必然存在一定程度的偏差。因此，利用数学统计方法对多个预报结果进行集合预报，对于衡量模式不确定性和提高预报能力具有关键作用34-36。集合方法

8、通常分为线性与非线性两大类。其中，多元线性回归因其构造简单且考虑不同模式的权重，在研究应用中取得明显改进效果。例如，潘锦秀等37利用多元线性回归方法将 CMAQ、CAMx和NAQPMS等三个模式进行集成，消除了单个模式系统性偏差，显著提高了北京市2016年PM2.5日均预报准确率。另一方面，以机器学习（例如BP神经网络、随机森林和支持向量机等）为代表的非线性算法日益得到关注，但在空气质量集合预报方面的应用却不足。杨关盈等38综合评估了多种集合方法对安徽地区PM2.5预报的改进，发现BP神经网络虽有一定订正效果，但其效果却不如多元回归。但最近李娟等39却揭示出相较于线性回归，随机森林和支持向量机

9、方法对西安市O3和PM2.5预报的改进。汤静等40采用主成分分析结合机器学习算法 K 近邻方法，有效地改进了CMAQ模式对于广州市 PM2.5的预报水平。但需要说明的是，以上研究是针对单一预报模式，通过引入驱动气象场进行回归改进或者直接对模式预报进行后订正，与多模式集合优化的思路有所区别。因此，评估检验以随机森林为代表的机器学习方法在多模式集合方面的应用存在较高必要性。此外，以往研究多关注12种污染物，并未实现对6项主要污染物的全面覆盖。综上所述，本研究选取珠海市为研究对象，基于 CAMx 和 CMAQ 模型两套独立运行的空气质量业务预报系统和国控点观测数据，首先检验评估两者对六项主要污染物的

10、时空分布和演变特征的模拟能力，然后分别利用线性和非线性方法（即多元线性回归和随机森林方法）进行多模式集合，探究不同方法的改进能力，以期提高珠海市空气质量预报水平，并为今后空气质量多模式集合的研究与业务应用提供重要参考。2 2 资料与方法资料与方法2.1 观测与模式本文选取珠海市四个国控站（环境空气质量国控自动监测站，唐家、吉大、前山和斗门，图1）为研究站点，收集 20182019 年 CO、PM2.5、PM10、O3、SO2和NO2等六种主要空气污染物逐小时浓度观测数据（缺测率约为20%），并在此基础上计算不同时间尺度（日-月）的均值。需要说明的是，依据环境空气质量评价技术规范（试行）（HJ

11、663-2013）要求，O3日均值为当天8小时滑动平均最大值（记为O3_8 h）。此外，珠海市平均污染物浓度近似认为是四个站点的平均。最后，20182019年珠海市空气质量持续下行（年AQI达标率均低于90%），所以被选为具体研究时段。目前，中国气象局广州热带海洋气象研究所和广东省生态气象中心分别基于CMAQ和CAMx空气质量模型，在华南区域构建了两套大气成分业务数值预报系统21，于每日08时和20时开始起报，预报未来72小时逐小时空气质量产品。两者区域设置保持一致，水平为三重（27-9-3 km）单向嵌套，垂直分层数为25，并都使用国产自主高精度区域气象模式CMA-GD（自身已同化多种实时气

12、象观测）预报产品作为气象输入。对于排放清单，CMAQ充分应用了清华大学的源清单、广东EPA的珠三角排放源清单与中山大学的广东交通排放源清单，并使用大气成分卫星遥感资料和本地区地面站点观测资料，对排放源分布和量级进行优化21。CAMx的源清单也来自于多套源清单的融362第3期孙弦等：两种空气质量数值模式的应用评估与集合改进研究合，但并未进行观测同化与人工订正。两个模式使用的物理化学方案也存在异同，主要设置详见表1。本文选取研究时段内（20182019年）两套模式每日20时起报的未来24小时逐小时最内层（3km）污染物浓度预报数据，并使用最临近插值方法将模式格点数据插值到四个国控站点（图1）以方便

13、比较。图1珠海市地形高度空间分布其中红星代表四个国控站（分别为唐家、吉大、前山和斗门）所在位置。表1CMAQ与CAMx模式设置模式选项气象条件来源排放源清单网格嵌套模式水平分辨率垂直分层数水平平流垂直对流水平扩散垂直扩散干沉降气象化学机理气象化学算法网格烟雨模块CMAQ区域GRAPES模式多种源清单融合，并结合卫星遥感和观测进行优化三重嵌套，单向27-9-3 km25PPMPPMACM2涡流扩散M3DRYSAPRC07EBI关闭CAMx区域GRAPES模式多种源清单融合三重嵌套，单向27-9-3 km25PPM隐式对流ACM2涡流扩散WESELY89SAPRC07CMC关闭2.2 集合方法与实

14、验设计（1）多元线性回归。多元线性回归（multiple linear regression，MLR）方法通过将因变量Y（即集合预报）与多个自变量X1，X2，.，Xn（即多个模式预报）联系起来，构建如下线性数学关系：22.3N22.1N21.9N1 5001 00075050020015010050105210-1-5地形高度/m113.1E113.3E113.5E113.7E363热带气象学报第39卷Y=i=1NaiXi+b（1）其中ai和b分别为回归系数（可认为是第i个模式的权重系数）和回归常数，可通过使用最小二乘估计进行求解。（2）随机森林。随机森林（random f

15、orest，RF）是一种监督学习算法41，由多个决策树y()x,n,n=1,2,N组成的统计模型，其中为随机变量（服从独立分布），x为自变量，N为决策树的数量。每一棵决策树包含根节点、中间节点和叶节点，构建时首先在根节点进行分裂成各个分支，分裂过程需经过多个中间节点，最终达到树的末端（即叶节点）为止。随机森林里的每棵树都利用训练数据的子集（随机选取样本和特征）开展训练，对于某一输出规则，其输出值是唯一的，最终输出结果由各决策树共同确定，因此具有不易过拟合、对异常值不敏感、解释性强（可追溯），结果较为稳健等优点，因此广泛应用于分类与回归问题分析。对于在模式集合方面的应用，预测结果由各决策树输出值

16、均值所确定，即：y()x=1Nn=1Ny()x,n（2）其中，y 表示集合预报结果，y表示某一决策树基于x和的输出。此外，随机森林是一种非参数算法，可以对每个输入特征（即模型结果）相对于预测结果（即集合结果）的重要性（PIM，也称为贡献度）进行计算和排序。重要性基于袋外数据（out-of-bag，OOB）计算，对于某一输入特征，通过随机置换（permute）输入特征来计算该变化引起的平均准确度的下降（变化越大则该特征越重要），具体表达如下：PIMi,k=1Nk=1NMSE()OOBi,k-MSE()OOBp,k2（3）其中，i表示某一输入特征，N为构造决策树的数量，p表示置换后特征，MSE（m

17、ean square error）为均方误差。（3）实验设计。本文选取研究时段内模式预报与观测分别作为两种集合方法的输入和输出。为更好验证集合方法的可靠性和泛化能力，本文采用5折交叉验证法（5-fold cross validation）去开展模型训练与测试。首先将2年样本划分成5个长度相等的样本子集，然后依次遍历5个子集，每次选取其余所有样本进行模型训练，当前子集则作为测试集进行输入验证，最后合并5组验证结果进行后续分析评估。集合模型基于不同污染物而独立构建，并默认使用全部站点作为样本数据。2.3 评价指标为定量评估两个空气质量模式及其集合方法的预报结果，本研究选取均方根误差（Root Me

18、anSquare Error，RMSE）、相关系数（CorrelationCoefficient，R）和标准化平均偏差（NormalizedMean Bias，NMB）这三个统计检验，计算公式如下：RMSE=1Ni=1N()Oi-Pi2（4）R=i=1N()Pi-P()Oi-Oi=1N()Pi-P2i=1N()Oi-O2（5）NMB=i=1N()Pi-Oii=1NOi（6）上式中，O代表观测值，P代表预报值，N为样本总数，O为观测值样本平均，P为预报值样本平均。具体利用 RMSE来衡量预报准确程度，利用 R来表明预报与观测之间线性相关程度，以及利用NMB来反映预报系统偏差情

19、况。3 3 结果与分析结果与分析3.1 季节变化首先，各污染物（除O3外）均呈现出明显的冬高夏低特征（图2），这与冬季化石燃料的加剧燃烧有关，而O3的产生主要依赖于光化学反应，因此高值出现在 810月。总体而言，CMAQ模式较为合理地还原了各污染物季节变化，相关系数R介于 0.720.84 之间，但存在明显系统偏差，CO、PM2.5、PM10、SO2、O3和 NO2的 NMB 分别达到-0.58、-0.18、-0.30、1.52，-0.16和-0.20。CAMx模式整体表现为显著降低，各污染物相关系数均低于CMAQ（SO2甚至未通过0.05显著性检验），低估364第3期孙弦等：两种空气质

20、量数值模式的应用评估与集合改进研究了CO、PM10和NO2浓度（NMB分别为-0.49、-0.53和-0.87），而对SO2则明显高估（NMB为1.99）。需要注意的是，模式 RMSE 和 NMB 数值差异较大（特别是臭氧），这主要是NMB在计算时进行了标准化(公式(6)，但正负偏差的相互抵消也对其NMB的表现有所提升。例如，CAMx整体低估了臭氧的平均浓度，但在2018年11月2019年2月期间却存在高估。RMSE:0.34/0.40/0.08/0.08R:0.61/0.77/0.76/0.81NMB:-0.49/-0.58/0.01/0.01RMSE:11.02/6.86/6.62/5.1

21、7R:0.82/0.90/0.91/0.93NMB:-0.33/-0.18/0.01/0.02RMSE:25.28/16.01/10.86/8.68R:0.82/0.84/0.85/0.90NMB:-0.53/-0.30/0.01/0.01RMSE:14.16/10.71/1.75/1.57R:0.25/0.78/0.71/0.78NMB:1.99/1.52/0.01/0.02RMSE:28.56/25.02/25.33/22.44R:0.41/0.72/0.73/0.76NMB:-0.15/-0.16/-0.16/-0.12RMSE:27.61/10.21/9.93/9.37R:0.49/0

22、.74/0.73/0.78NMB:-0.81/-0.20/0.04/0.05通过多元线性回归进行集合优化，CO、PM2.5、PM10、SO2、和 NO2等污染要素的系统偏差得到有效纠正，NMB 降低到 0.010.04，RMSE 分别降低到0.08 mg/m3、6.42、10.86、1.75和9.93 g/m3，但在CMAQ较好还原季节变化的基础上，相关系数R无明显改进，其中SO2相关性下降到0.71。更为重要的是，O3作为近几年影响珠三角乃至全国最主要的污染物8-9，该方法对其季节变化的预报能力并未产生改进，RMSE相较于CMAQ模型，反而有所增加，这体现出线性方法的局限性。另一方面，非线性

23、方法随机森林表现明显更为出色（表2），在其基础上将各污染物（包括O3）的预报误差RMSE进一步缩小到 0.08 mg/m3、5.17、8.68、1.57、22.44和9.37 g/m3，相关系数R提高到0.81、0.93、0.90、0.78、0.76和0.78，这归功于该方法基于集合算法（即基于多个独立决策树平均结果），准确性较单一算法（如多元线性回归）有所提高42。另外，其在样本和特征选择时的双随机性，降低了模型产生过拟合的风险，使得研究时间段内表现均较为稳定。但是，包括随机森林在内的两种集合方法仍有缺陷，比如对O3和PM2.5高值月份的还原存在低估，这主要是因为样本数量有限，未根据不同季节

24、（或不同月份）对模型进行训练所导致的，随着模式和观测数据的不断积累，可在后续应用中得到优化。图2两种数值模式（CAMx和CMAQ）及其集合方法（MLR和RF）20182019年珠海市六种空气污染物浓度月均值变化与观测（OBS）对比(a)CO(b)PM2.5(c)PM10(d)SO2(e)O3_8 h(f)NO2CAMxCMAQMLRRFOBS1.00.80.60.40.20mg/m3403020100g/m33020100g/m3806040200g/m35040302000g/m3150100500g/m3Month20180120180320180520180720180920181120

25、1901201903201905201907201909201911Month201801201803201805201807201809201811201901201903201905201907201909201911365热带气象学报第39卷3.2 逐日变化总体而言，CMAQ对多数污染物日变化的预报能力都明显优于CAMx（图3）。对于CO，两者表现接近，均可较好还原 CO的逐日变化趋势（R为0.7左右），但却存在明显系统性低估（NMB分别为-0.51 和-0.53）。CMAQ 不但有效减轻了CAMx对颗粒物的低估，PM2.5和PM10的NMB分别降低至-0.06 和-0.21，

26、而且提高了年初污染天气（即PM2.5日均值75或PM10日均值150）的捕捉能力，从而降低了预报误差（RMSE分别降低了12.19和6.08 g/m3），相关系数也得到提升。对于SO2，两者表现均不理想，存在上述指出的严重正偏差，CMAQ表现稍好，体现在演变趋势的合理还原（R为0.55）。对于NO2，CMAQ大幅纠正了CAMx预报负偏差，NMB从-0.88提升至-0.12，但预报偏差仍较为明显，RMSE高达16.84 g/m3。此外，NO2作为O3生成的前体物，CMAQ对其模拟能力的改进，间接提高了 O3的预报能力，O3相关性提高至0.56，预报偏差也降低了 4.93 g/m3，但对夏秋季易发

27、的O3污染事件（即O3_8 h160 g/m3）的捕捉能力仍有待加强26。表2珠海市六种污染物季节变化统计参数污染物COPM2.5PM10SO2O3NO2RMSECAMx0.3411.0225.2814.1628.5627.61CMAQ0.406.8616.0210.7125.0510.21MLR0.086.4210.861.7525.339.93RF0.085.178.681.5722.449.37RCAMx0.610.820.820.250.410.49CMAQ0.770.900.840.780.720.74MLR0.760.910.850.710.730.73RF0.810.930.90

28、0.780.760.78NMBCAMx-0.49-0.33-0.531.99-0.15-0.87CMAQ-0.58-0.18-0.301.52-0.16-0.20MLR0.010.010.010.01-0.160.04RF0.010.020.010.02-0.120.05图3两种数值模式（CAMx和CMAQ）及其集合方法（MLR和RF）2018年珠海市六种空气污染物浓度日均值变化与观测（OBS）对比(a)CO(b)PM2.5(c)PM10(d)SO2(e)O3_8 h(f)NO2OBSCAMxCMAQMLRRF1.251.000.750.500.250mg/m3100500g/m3g/m312

29、51007550250806040200g/m3806040200g/m3250200150100500g/m301-0102-0103-0104-0105-0106-0107-0108-0109-0110-0111-0112-01月-日01-0102-0103-0104-0105-0106-0107-0108-0109-0110-0111-0112-01RMSE:0.36/0.37/0.12/0.11R:0.70/0.69/0.76/0.79NMB:-0.51/-0.53/0.05/0.04RMSE:17.52/14.65/11.92/11.19R:0.56/0.64/0.66/0.71NM

30、B:-0.35/-0.06/0.02/0.02RMSE:29.81/20.73/16.67/15.61R:0.54/0.58/0.63/0.68NMB:-0.53/-0.21/0.05/0.04RMSE:17.24/13.91/2.85/2.73R:0.27/0.55/0.53/0.56NMB:1.56/1.55/-0.09/-0.06RMSE:46.93/42.00/41.41/36.09R:0.36/0.56/0.58/0.68NMB:-0.15/-0.15/-0.15/-0.09RMSE:31.07/16.84/14.20/13.86R:0.45/0.48/0.52/0.56NMB:-0

31、.88/-0.12/0.01/0.03月-日366第3期孙弦等：两种空气质量数值模式的应用评估与集合改进研究对于存在明显系统偏差的污染物（即CO、SO2和NO2），多元线性回归大幅纠正偏差，NMB分别缓解至0.05、-0.09和0.01，但SO2的相关性出现小幅降低。此外，该方法虽有效地提高了颗粒物统计评分，但对极端污染情况的还原能力却不如CMAQ，这是由于颗粒物浓度在冬季明显偏高，而模型基于所有时间段进行训练，因此在该种情况下的表现受到了限制。最后，该方法对O3日变化的模拟未有改进，表现与CMAQ基本相当。相较于线性回归，随机森林方法进一步提高了各污染物模拟的整体表现，各污染物的多项统计指标

32、几乎均为最优。另外，随机森林同样对冬季颗粒物污染事件还原能力有限，进一步验证了利用所有季节样本进行训练的局限性。需要注意的是，臭氧作为近些年来珠三角空气污染的首要威胁，随机森林一定程度上弥补了线性方法的缺陷，不仅提高了其各项预报指标，而且加强了对极端污染事件的捕捉能力。图4进一步给出了各要素逐日观测与不同模式和集合方法的散点分布。CMAQ 虽明显优于CAMx，但同样对包括SO2、NO2在内的一些污染物存在明显偏差，因此拟合斜率k距完美值1差距较大。两种集合方法明显提高了各要素预报能力，尤其是随机森林方法，各要素的拟合斜率k和决定系数R2都与完美值1最为接近，展示出该模式优秀的集合预报能力。图4

33、两种数值模式（CAMx和CMAQ）及其集合方法（MLR和RF）20182019年珠海市六种空气污染物（af）浓度日均值（x轴）与对应观测（y轴）对比散点图（不同颜色代表不同模式或方法）其中k和R2分别为拟合线的斜率和决定系数（两者越接近于1，模拟效果越好，颜色与点相对应）。3.3 昼夜变化人为活动作为主要排放源，排放强度和类型具有明显昼夜变化特征。并且，污染物的扩散活动主要受到大气边界层湍流活动的支配，而大气边界层高度也存在明显昼夜变化43。因此，各污染要素也存在明显的昼夜变化44。图5给出了模式和不同集合方法预报的各要素浓度昼夜变化（已减去自身均值）对比。据观测，NO2昼夜变化为双峰型外，其

34、他污染物的日变化均为单峰型。总体而言，CAMx模式几乎无法还原各污染物的(a)CO(b)PM2.5(c)PM10(d)SO2(e)O3_8 h(f)NO2OBS(mg/m3)2.01.51.00.50.0OBS(g/m3)OBS(g/m3)OBS(g/m3)OBS(g/m3)OBS(g/m3)1008060402001201008060402003025201510502502001501005008060402000.00.40.81.21.62.0Model(mg/m3)020406080100Model(g/m3)Model(g/m3)0255075100Model(g/m3)Model

35、(g/m3)0612182430050100150200250020406080kR2kR2kR2kR2kR2kR2CAMx 0.69/0.35CMAQ 0.92/0.45MLR 1.16/0.49RF 1.13/0.54CAMx 0.65/0.35CMAQ 0.59/0.39MLR 1.14/0.44RF 1.09/0.51CAMx 0.88/0.33CMAQ 0.77/0.34MLR 1.13/0.39RF 1.09/0.48CAMx 0.06/0.10CMAQ 0.15/0.37MLR 1.35/0.33RF 1.20/0.38CAMx 0.78/0.11CMAQ 0.83/0.30ML

36、R 1.13/0.32RF 1.07/0.39CAMx 2.45/0.16CMAQ 0.58/0.28MLR 1.32/0.29RF 1.26/0.32Model(mg/m3)367热带气象学报第39卷昼夜变化，出现明显偏差，其中颗粒物和NO2的相关系数甚至为负，且CO、PM和SO2均表现出类似的昼夜变化，揭示出排放清单的明显缺陷。CMAQ能较为准确还原O3昼夜变化（相关系数达到 0.96），并大致表现出 NO2的双峰型特征，但对其他污染物的表现也不太理想，例如显著高估了PM10和SO2的昼夜变化幅度，误差分别达到13.18和9.5 g/m3。另一方面，

37、两种集合模型对多数污染物（除 CO和 SO2）昼夜变化并无明显改进。这主要是由于集合方法均以减小误差（如最小二乘法）为单一训练目标，虽能有效减小模式的系统偏差，但未能对昼夜变化的还原产生附加价值。因此，污染物昼夜变化预报能力的改进主要在于模型自身的提高，并可尝试在非线形算法中引入多目标函数进行多模式集合优化。图5观测（OBS）、两种数值模式（CAMx和CMAQ）及其集合方法（MLR和RF）给出的珠海市20182019年六种空气污染物浓度（已减去自身均值）昼夜变化对比3.4 空间变化排放源与气象要素的空间差异，在扩散条件进一步作用下，各污染物要素呈现明显的空间变化（图6）。对于多数站点，PM异常

38、的符号与O3相反，这体现出两者之间的“跷跷板”效应，即较高的PM浓度削弱了太阳辐射，从而抑制了臭氧生成依赖的光化学反应。但 PM10和 O3在唐家站同为正异常，揭示了珠三角频发的复合型污染45。总体RMSE:0.34/0.39/0.02/0.02R:0.44/0.15/0.51/0.46NMB:-0.49/-0.58/0.00/0.00RMSE:9.48/4.98/1.02/0.98R:-0.14/0.58/0.31/0.44NMB:-0.33/-0.17/0.00/0.01RMSE:23.49/13.18/1.84/1.66R:-0.50/0.09/-0.43/-0.31NMB:-0.51/

39、-0.30/0.00/0.01RMSE:12.85/9.57/0.38/0.39R:0.34/0.64/0.73/0.74NMB:2.01/1.54/0.00/0.02RMSE:19.72/11.51/12.15/11.71R:0.62/0.96/0.98/0.97NMB:0.11/-0.10/0.00/0.01RMSE:26.54/7.22/3.29/3.61R:-0.28/0.58/0.49/0.25NMB:-0.87/-0.21/0.00/0.02CAMxCMAQMLRRFOBS(a)CO0.100.050.00-0.05-0.10mg/m3g/m3g/m36420-2-4-620100

40、-10-20mg/m36420-2-4-61050-5-10g/m37.55.02.50.0-2.5-5.0-7.5g/m3(b)PM2.5(c)PM10(d)SO2(e)O3(f)NO2048121620Local Hour048121620Local Hour048121620Local Hour048121620Local Hour048121620Local Hour048121620Local Hour368第3期孙弦等：两种空气质量数值模式的应用评估与集合改进研究而言，两个模式合理还原珠海O3“东多西少”的空间特征，但对PM和NO2空间差异的模拟却存在明显缺陷，这主要是由于气象驱动

41、模型GRAPES能真实地模拟气象条件（尤其是太阳辐射）的空间差异，为O3的生成与扩散提供了良好基础，但排放清单由于空间分辨率和较大不确定性的限制，严重制约了PM和NO2空间变化的模拟能力。同样，基于所有站点样本进行训练的集合模型未能对空间差异的模拟产生效果。但以随机森林方法为例，当基于不同站点构建模型，大幅改进了各污染物空间变化的预报水平。但是，空间技巧的提升也部分抑制了多尺度时间变化的还原能力（图未展示），这同样是由于训练样本长度不够充分，因此无法支持模式基于不同维度（如不同季节和站点）开展优化。图6两种数值模式（CAMx和CMAQ）及其集合方法（MLR、RF和RF-sta）预报的吉大站（第

42、1列）、斗门站（第2列）、前山站（第3列）、唐家站（第4列）20182019年四种主要空气污染物年日浓度均值（减去站点平均，柱状线，对应左侧纵坐标，单位为g/m3）、标准差（除以站点平均，三角形，对应右侧纵坐标，单位为g/m3）与实测对比3.5 模式重要性图7进一步利用随机森林模型的算法特点，展现了两个模型对于不同要素重要性。以上分析表明CMAQ对于多数污染物的预报水平虽明显优于CAMx，但两者对于多数污染物的重要性未存在明显差异，CMAQ仅在O3方面展现出60%左右的较大优势，而CAMx却在CO预报方面占据明显优势，重要性达到64.6%。该结果揭示出模型自身的线性偏差对于随机森林算法的结果并

43、不产生影响46，另外的测试首先利用线性回归对两个模型进行误差订正，然后通过随机森林进行训练，其预报结果与未订正相比也几乎没有差异。本研究仅使用两个数值模型进行集成，因此，进一步提高集合预报结果的关键在于代表性集合成员的增加，而随机森林多个独立决策树对特征的随机选取，也极大程度上避免了过拟合发生，从而无需考虑集合成员过多对模拟结果产生负面影响。吉大斗门前山唐家210-1-2PM2.5420-2-4PM1050-5O3_8 hNO250-51.11.00.91.11.00.91.11.00.91.11.00.9OBSCAMxCAMQMLRRFRF-staOBSCAMxCAMQMLRRFRF-sta

44、OBSCAMxCAMQMLRRFRF-staOBSCAMxCAMQMLRRFRF-sta369热带气象学报第39卷4 4 结论与讨论结论与讨论本研究利用20182019年国控站观测资料，评估 CAMx 和 CMAQ 模式对珠海主要污染物时空分布与演变特征的预报能力，并引入多元线性回归和随机森林方法对预报结果进行集成，探究不同集合方法的改进能力。得出如下结论。CMAQ 表现明显优于 CAMx，合理地还原了CO、PM2.5、PM10、SO2、O3和 NO2的季节变化，相关系数介于 0.720.84，但存在明显系统偏差，NMB分别达到-0.58、-0.18、-0.30、1.52，-0.16

45、和-0.20，RMSE 分别达到 0.40 mg/m3、6.86、16.02、10.71、25.05和10.21 g/m3。对于日变化，两者对CO和SO2技巧相当，但 CMAQ 大幅修正了 CAMx模拟PM和NO2的负偏差，提高了对冬季PM污染事件的捕捉能力。由于对NO2预报的改进，CAMQ提高了O3日变化的预报能力，相关性提升至0.56，预报偏差降低了4.93 g/m3，但对夏秋季O3污染事件的预报能力存在不足。对于昼夜变化，CAMx模式几乎无法再现，而CMAQ较为合理地还原了O3的昼夜变化（相关系数达到0.96），同时再现了NO2的双峰型特征，但对其余污染要素存在明显不足。并且，两者对多数

46、污染物（除O3之外）的昼夜和空间变化的模拟能力仍存在明显缺陷，这主要来自于排放清单和气象条件两者的不确定性23,29。关于模式表现的差异，可以部分归因于两者基本架构和所使用参数化方案（如干沉降、气象化学机理）47。此外，空气质量模式的准确性依赖于合理精确的排放源清单数据26。CMAQ所使用的排放清单在融合多种源清单的基础上，进一步结合卫星遥感和观测进行优化21，而 CAMx使用的的源清单则未经观测同化和人工订正，因此可以合理解释CMAQ较优的预报能力。基于不同污染物构建的两种集合方法，均有效提高了季节-日尺度上的预报水平，其中随机森林表现更优，对于各污染物的多项技巧评分几乎均为最佳，但均对模式

47、缺陷无明显改进。这主要是由于线性模型为单个（或多个）输入自变量和输出因变量创建线性关系，但不同模型的结果通常是复杂的且具有高度非线性的关系。另一方面，随机森林在解析非线性问题方面的优势，配合在样本和特征选择时的双随机性，降低了模型产生过拟合的风险，因此展现出更为优秀的预报能力。但是，集合方法对污染物的昼夜与空间变化并无明显改进，这表明集合预报虽具备优秀的附加价值，但预报水平受到集合成员预报能力制约。进一步基于不同地点对模型进行训练，显著提升了各污染物空间差异的还原能力，但其他方面表现受限于样本长度而有所下降，这体现出集合方法对数据量的依赖性。随着预报数据和观测的积累，集合方法的实际应用中基于多

48、维度（如季节和图7随机森林集合方法中CAMx和CMAQ模型对于各空气污染物的重要性0.80.70.60.50.40.30.20.10ImportanceCAMxCMAQCOPM2.5PM10SO2O3NO2370第3期孙弦等：两种空气质量数值模式的应用评估与集合改进研究地点）展开较为必要。此外，随机森林算法中CMAQ与CAMx的重要性基本相当，表明集合方法的预报能力与集合成员的线性偏差无关，主要取决于不同成员的代表性。综上所述，本研究揭示以随机森林为代表的集合方法虽有效改进了污染物的预报能力，但提高数值模式自身能力和增加具有代表性的集合成员对预报水平的进一步提升非常关键。后续研究可以综合利用多

49、种机器学习算法（如卷积神经网络），构建以多气象要素为主要自变量的空气质量统计预报模型，在评估其预报能力的基础上，将其作为成员进行集合预报，以期进一步提高珠海市（乃至大湾区）污染物预报能力。参考文献：1 WANG F,QIU X,CAO J,et al.Policy-driven changes in the health risk of PM2.5and O3exposure in China during 2013-2018J.Science ofthe Total Environment,2021,757：143775.2 曾贤刚,阮芳芳,姜艺婧.中国臭氧污染的空间分布和健康效应J.中国环

50、境科学,2019,39(9)：4 025-4 032.3 AN Z,HUANG R J,ZHANG R,et al.Severe haze in northern China：A synergy of anthropogenic emissions and atmospheric processesJ.Proceedings of the National Academy of Sciences,2019,116(18)：8 657-8 666.4 NAM K M,ZHANG X,ZHONG M,et al.Health effects of ozone and particulate mat

展开阅读全文