1、第 卷 第 期 年 月自 然 灾 害 学 报 .收稿日期:修回日期:基金项目:国家自然科学基金项目()作者简介:郗 婕()女硕士研究生主要从事风景园林生态规划研究:.通讯作者:傅 微()女副教授博士主要从事风景园林生态规划研究:.文章编号:()./.基于机器学习的流域尺度森林火灾灾害风险预测郗 婕傅 微(北京建筑大学 建筑与城市规划学院 北京)摘 要:森林是碳库具有强大的固碳增汇功能在应对气候变化中发挥着重要作用 然而由于极端高温的影响频繁发生可燃物自燃而引发森林火灾除了影响区域水文大气循环过程以外也给人类带来严重的人员伤亡和经济损失 现有森林火灾预测研究主要侧重可燃物研究和火灾监测等方面较少
2、关注大尺度地形、气象和人类活动对森林火灾的影响但这些也是除可燃物外导致森林火灾发生的主要因素 以嘉陵江流域重庆段为研究区区域内山地受自然火灾影响严峻 基于地理信息系统叠加地理空间因子与火灾分布点获得数据集构建 种机器学习模型测试模型性能评价最优模型进行森林火灾灾害风险制图 研究结果表明模型评估指标受试者工作曲线下面积()平均值为.模型性能梯度提升决策树最优 值为.利用梯度提升决策树()模型预测森林火灾风险对防范大尺度森林火灾具有一定的可行性对山城避灾规划起到借鉴作用规划引导降低森林火灾风险从而维护生态平衡和生态系统碳汇能力关键词:森林火灾机器学习 梯度提升决策树灾害风险制图山城避灾规划中图分类
3、号:.文献标识码:():.().:()()自 然 灾 害 学 报第 卷引言全球每年有约.亿 的土地遭遇焚毁 近年来美国、澳大利亚、俄罗斯和法国等国家均发生大规模的森林火灾 年夏季欧洲 个国家已有约 万 森林焚毁 在法国、丹麦和西班牙年夏季火灾规模是过去 平均水平的 倍以上 俄罗斯西伯利亚地区的火灾事件数量从 年的 起增加到 年的 起同期受火灾影响的总面积从不到 万 增加到 亿 我国是世界上森林火灾最严重的国家之一森林火灾的损失已位于我国森林的四大自然灾害之首 森林火灾的发生造成了巨大的经济损失给人民财产带来危害林区的房屋、农作物等常常受到森林火灾的威胁 同时森林火灾对区域生态平衡人类活动也产生
4、了很大的影响 森林火灾严重威胁人民健康和生态安全释放大量有害气体影响区域空气质量 火灾对生物多样性有重要影响直接危及动植物、土壤甚至于微生物 因此必须制定适当的应急计划和应对措施 此外迫切需要具有指导意义的规划工作来系统地减少森林火灾风险以保护林区 森林火灾的频繁发生推动林火预测的更快发展林火预测工作需要更为明确划分最不稳定和火灾风险最高的地区森林火灾的发生和蔓延与气候条件、立地条件、可燃物类型和社会活动等因素有关作为受气候变化影响反应最快的指标之一其发生造成全球性的环境污染越来越受到各国政府的重视 森林对维持陆地生态系统平衡起着重要的支撑作用 减少森林火灾的发生、减少林火损失是一项十分紧迫的
5、任务从近些年国内外所发生的特大森林火灾统计资料来看大都是由于缺乏早期的预测、大范围监测等措施 随着经济的发展、科技水平的提高世界各国日益重视对林火预测技术的研究和应用高效的预测是缓解这一环境威胁的关键自 世纪 年代北美洲等地域先后将遥感()和地理信息系统()用于自然灾害制图并取得了巨大进展 在信息获取上具有实时性强、覆盖范围广和数据客观可靠的优点 具有较强的空间分析和信息集成等优势帮助确定与灾害相关的风险区域如山体滑坡、雪崩和洪涝灾害对灾害风险的地区展开详细的分析和深入的调查 我国遥感与地理信息系统技术应用于区域的林火监测中 监测工作有利于减少火灾的发生和减少火灾造成的损失在森林防灾工作中具有
6、重要作用 经过几十年的研究发展目前 技术已被广泛地应用于森林防火工作中其应用技术日益成熟但呈现出“监测多、预测少”的应用不匹配 预测采用的方法大致分为基于专家、统计学和机器学习()的方法 基于专家的预测法通过流体力学、热传递机制和冠层燃烧的概率数学方程来预测森林火灾该预测方法需要详细的数据因此仅限于小尺度区域不适用于较大的区域 如八达岭林场油松林冠层可燃物特征及潜在火行为 统计预测技术用于森林火灾风险分区包括逻辑回归、泊松回归蒙特卡洛分布和皮尔逊分布如贝叶斯模型 火灾点空间大数据的监测积累有助于机器学习的预测准确性 近年来基于机器学习的火灾预测研究逐渐涌现如火点大数据深度学习、粒子群优化的神经
7、模糊模型、人工神经网络、随机森林和逻辑斯蒂回归 测试机器学习模型性能如人工神经网络、支持向量机、随机森林和梯度提升决策树性能发现各个机器学习模型的性能在预测研究中有所差异针对多种机器学习模型的准确性对比评价在林火预测的这一领域仍有很大的发展空间为进一步选择优化模型提供参考森林火灾灾害风险制图将 技术与预测方法融合促使火灾灾害风险制图过程自动化 根据引发火灾的原因和空间发生模式来确定火灾危险区识别具有相似环境特征的地区从而预测出火灾高风险区 我国研究可燃物分类与区域划分较多地形、土地条件、植被、气象和人类活动等多方面地理空间因子对林火发生的综合影响少有研究这些因素是影响林火发生及模型预测精度的主
8、要驱动因子且已有基于统计分析的研究证明补充了地理加权后的空间回归模型能更好地预测林火的发生因此本研究以重庆嘉陵江流域为研究区域基于 叠加地理空间因子与火灾分布点获得数据集引发火灾的地理空间因子包含高程、坡度、坡向、平面曲率、地形位置指数、地形湿度指数、土地覆盖、归一化植被差异指数、潜在蒸散发、干旱指数、风速、相对湿度、年均气温、年均降雨、距离河流、道路以及建成区的距离 提取用于机器学习的火灾点和非火灾点所对应的地理空间因子的值形成数据集构建机器学习模型人工神经网络、支持向量机、随机森林和梯度提升决策树测试模型性能最终选择最优模型进行森林火灾灾害风险评价与制图第 期郗 婕等:基于机器学习的流域尺
9、度森林火灾灾害风险预测研究区与数据来源.研究区概况嘉陵江是长江上游左岸的主要支流研究区位于重庆境内嘉陵江流域该段全长约 嘉陵江进入重庆境内在合川区有渠江、涪江汇入继续流经北碚区、沙坪坝区、渝北区、江北区和渝中区在渝中区朝天门汇入长江 流域地势北、西、东较高向东南倾斜河道走向顺着地势从西北流向东南 重庆有“山城”之称嘉陵江流域所在的重庆西部低山与丘陵谷地有序排列是地质特征明显的褶皱山地川东平行岭谷形成了“重庆嘉陵江小三峡”景观国家级自然保护区缙云山坐落其中 重庆市年平均气温 夏季炎热 月平均气温 以上极端气温最高 年平均降水量较丰富大部分地区在 重庆市年平均相对湿度多在 在中国属高湿区气候温和属
10、亚热带季风性湿润气候.数据来源与数据处理.林火数据火灾数据来源是 热异常/主动火灾产品提供来自/和 联合卫星上的 传感器的数据 从 的资源管理系统火灾信息()获取 年的火灾点数据集如图 所示包含地理坐标、发生火灾程度、发生火灾时间等重要信息图 研究区 年森林火灾火点分布图.因子数据理解林火的空间格局应综合考虑地形、植被、土壤、气候和人类活动对林火的影响 研究采用 个地理空间因子作为火灾预测的环境因变量()如图 所示是否发生火灾为预测目标变量()自 然 灾 害 学 报第 卷图 研究区域内森林火灾相关因子制图.地形因子是影响火灾发生的一大因素 其中海拔对温度、降雨量、湿度和风有直接影响对植被和燃料
11、湿度有间接影响 火势会在更陡峭的斜坡上蔓延得更快即坡度越大火势蔓延速度越快 朝南的表面往往会受到更多的阳光照射从而会产生更高的温度、更大的风和更低的湿度水平 曲率代表了地形的形态反映坡度变化影响火势蔓延 地面上某点的地形位置指数的值等于该点高程值与该点邻域内其他点的高程平均值之差 它反映的是一个点与邻域其他点在地形上的相对位置关系 通常用于地形的形态分类如山脊山谷、上中下坡位以及平坡等 并已用于使用 根据其地形对区域进行分类 地形湿度指数指单位等高线长度集水面积已被纳入研究水文条件对地区火灾发生的影响土壤质地影响着森林火灾的发生同时森林火灾的发生也对区域土壤产生一定的影响因此被考虑在内 土地及
12、其周围环境的土地覆盖与导致林火发生的可燃物类型息息相关土地覆盖也是引发林火的因素之一 作为植被健康状况指标的归一化植被指数()也被纳入研究 气候因素对区域林火发生影响巨大年温度、年降雨量、风速、干旱指数、相对湿度和潜在蒸散量等因素第 期郗 婕等:基于机器学习的流域尺度森林火灾灾害风险预测也被纳入研究 与河流的距离远近影响着森林植被的健康被考虑用于预测森林火灾 人为因素与林火发生密切相关本研究已将与道路和建成区的距离包括在内通过地理空间数据云获取 精度的数字高程模型图像推导出坡度、坡向、高程、平面曲率、地形湿度指数和地形位置指数的图像数据集 通过美国地质调查局()获取土地覆盖数据 通过 获取反射
13、波段数据处理获得归一化植被差异指数 通过国家地理系统科学数据中心获得 精度的土壤质地、潜在蒸散发、干旱指数、风速、相对湿度、年均气温和年均降雨数据 通过数字高程模型处理获得河网图像从开源地图获得道路图像从 获取建成区信息基于 对这三者进行以 为递增数据的多环缓冲区处理得到距这三者距离的图像信息 火灾点数据来源于 网站通过 处理火灾研究区火灾点分布图等量的非火灾点使用 的点采样完成 森林火灾相关因子信息如表 所示最终应用于机器学习的数据包含 个点及其所对应的环境条件因子数据其中近 研究区范围内有 个火灾点表 研究区域内森林火灾相关因子来源、精度与原始数据格式 数据来源网址精度格式高程/地理空间数
14、据云:/./栅格坡度/()地理空间数据云:/./栅格坡向地理空间数据云:/./栅格平面曲率地理空间数据云:/./栅格地形位置指数地理空间数据云:/./栅格地形湿度指数地理空间数据云:/./栅格土地覆盖美国地质调查局:/./栅格土壤质地国家地球系统科学数据中心:/./栅格归一化植被差异指数:/./栅格潜在蒸散发/国家地球系统科学数据中心:/./栅格干旱指数国家地球系统科学数据中心:/./栅格风速/(/)国家地球系统科学数据中心:/./栅格相对湿度国家地球系统科学数据中心:/./栅格年均气温/国家地球系统科学数据中心:/./栅格年均降雨/国家地球系统科学数据中心:/./栅格距离河流/地理空间数据云
15、:/./矢量距离道路/开源地图:/./矢量距离建成区/:/./栅格近 来火灾点数据:/./矢量评估预测方法.模型建立机器学习方法在预测系统的发展中做出了重大贡献提供了增强的性能和有效的结果 机器学习方法的持续进步使其适用于各种自然灾害预测并在一定程度上超越了传统方法 独立于专家知识完全取决于库存数据使用 种 方法进行火灾风险评估包含随机森林、支持向量机、人工神经网络和梯度提升决策树多层感知机()是人工神经网络()的一种类型是一种可用于处理具有多个节点和多个输出点的实际问题的网络结构 支持向量机()对做出标记的 组向量使得 组离超平面最近向量到此超平面距离都尽可能远 随机森林()采用重抽样方法和
16、决策树算法相结合通过建立多个决策树合并进行分类和预测 梯度提升决策树()由梯度下降、分类和回归树()构成 运用 平台 进行模型构建将近 火灾分布总图火灾点与等量随机非火灾点数据集分成(训练模型)(测试模型)经历过火灾的点被描述为属于具有值“”的类标签非森林火灾位置属于具有值“”的类标签 然后将数据集以 的比例拆分分别用于训练和测试模型 后续将火灾数据与研究区空间地理特征气象特点人类活动所涉及到的条件因子相结合进一步分析因子与火灾高风险区域的关联即分别获得所有火灾点和等量非火灾点自 然 灾 害 学 报第 卷对应条件因子的值()同时新增一列()为火灾发生情况发生“”或不发生“”利用 进行数据预处理
17、最后进行机器学习模型的训练与测试 经过测试得到性能最好的模型用以进行灾害风险制图在 中利用点采样的方法随机绘制研究区范围内 个点提取这些点对应条件因子的值()通过性能最好的模型对所有点的 值进行预测得到数值后通过 中的反距离加权插值对风险指数进行插值来完成森林火灾灾害风险制图.模型性能评价指标.混淆矩阵混淆矩阵是一种特殊的矩阵用来呈现算法性能的可视化效果通常用于有监督的学习混淆矩阵是二分类模型中一个十分重要的概念各类指标都是在此之上衍生而来 它衡量的是模型预测情况和真实情况之间的差异具体表示如下:二分类模型中样本标签本身有好坏之分模型预测之后可通过设定阈值将样本划分为好坏 因此模型预测和实际情
18、况构成二维矩阵如表 所示表 混淆矩阵 真实情况预测情况正例反例正例(真正例)(假反例)反例(假正例)(真反例)真正例()表示当模型预测为正类并且该预测是正确的实际发生火灾的点被正确分类为发生火灾点真反例()表示当模型预测为负类并且该预测是正确的实际未发生火灾的点被正确分类为非火灾点假正例()表示当模型预测为正类但该预测是错误的实际未发生火灾的点被错误分类为发生火灾的点假反例()表示当模型预测为负类但该预测是错误的实际发生火灾的点被错误分类为未发生火灾的点如表 所示.受试者工作曲线受试者工作曲线()是根据一系列不同的二分类方式(分界值或决定阈)以真阳性率为纵坐标假阳性率为横坐标绘制的曲线 真阳性
19、率()表示真实值为阳性的样本中预测为阳性的假阳性率()真实值为阴性的样本中预测阳性的样本占比表达式为/()()/()()曲线下面积()为 曲线所覆盖的区域面积完全随机的二分类器的 为.结果与分析.混淆矩阵评价结果机器学习模型主要通过混淆矩阵来进行测试混淆矩阵结果如图 所示 模型真正例率为.即模型对森林火点正确分类的概率假正例率为.即模型对森林火点分类错误的概率 混淆矩阵结果表明 与 这 个模型预测表现优于 与 第 期郗 婕等:基于机器学习的流域尺度森林火灾灾害风险预测图 种机器学习模型混淆矩阵对比.曲线评价结果对各个机器学习模型进行评价选取性能最好的模型进行森林火灾风险评价与制图 比较梯度提升
20、决策()、多层感知器()、随机森林()、支持向量机()、决策树()的性能结果如表 所示表 种机器学习模型性能对比 机器学习模型准确性 值梯度提升决策树().随机森林().支持向量机().多层感知器().在测试数据集上提出的模型的 曲线如图 所示 横轴即假阳性率该值越小越好纵轴为真阳性率该值越大越好 即 越高同时 越低即 曲线越陡模型的性能越好 面积越大更靠近左上角的曲线代表二分类器更稳定分类效果更好图 种机器学习模型 曲线与 值对比.表 梯度提升决策树参数与准确率 梯度提升决策树参数最优值决策树数量学习速率.最大树深分割所需最小样本数测试集准确率.由图 和表 可知 模型优于、和 等模型同时 个
21、机器学习模型平均准确率达到.平均 值达到.模型的准确性为.值为.被用于构建该区域的森林火灾灾害风险制图.基于最优模型的森林火灾灾害风险制图通过使用所提出的模型计算研究区域内随机分布的 个点的风险指数并使用 中的反距离加权自 然 灾 害 学 报第 卷插值对风险指数进行插值来完成如图 所示 根据风险范围将这些区域分为五类分别为风险指数非常低.)、低.)、中等.)、高.)和非常高.)由图可知的区图 基于 模型的森林火灾灾害风险制图.域非常容易受到火灾的影响其范围为.的区域风险较高其范围为.)中度风险区面积 其范围为.)低风险区域面积为其范围为.)发现该地区 的区域受到火灾的影响非常低其范围为.)研究
22、区域内北碚缙云山火灾风险极高北碚区极高风险区域面积最大其次是江北和合川区铜梁高风险区域面积最小 北碚区处于平行岭谷地带地形复杂山体坡度坡向变化大植被覆盖非常高 合川区也是火灾风险较高的区域其植被覆盖相对较少农业用地面积较大该区火灾风险高的地块多分布于道路和建成区临近森林火灾灾害风险区域的划定将有助于政府灾害管理以期针对森林火灾高风险的地区制定相应减少火灾发生的应对措施结论与讨论对比四类机器学习模型基于 应用性能最优模型 所得预测结果完成重庆地区内嘉陵江流域森林火灾灾害风险制图 所得结论如下:)对、模型通过混淆矩阵与 曲线进行性能评估 个模型表现均较好的同时存在一定差异其中梯度提升决策树()模型
23、优于随机森林()、多层感知机()和支持向量机()等模型)模型用于森林火灾灾害风险制图研究区所处平行岭谷区域森林火灾风险最高其中缙云山极高风险区域面积最大引发森林火灾的主要原因是可燃物自燃由于条件因子数据来源不同精度也有一定差异 机器学习的方法研究地理空间因子与森林火灾发生的关系主要采用数据归一化来进行数据预处理该过程对最终模型训练结果有很大影响 所用模型可以进一步优化采取不同的数据预处理方式与模型进化优化方法尝试获得更高的性能使模型能更好地对研究区森林火灾发生概率进行预测 使用 曲线评估每个 方法的性能的准确性 和 的准确性较低这表明这些方法不适合研究区火灾灾害风险制图 但是在其他领域这些方法
24、可能具有更高的准确度具体取决于条件因子和训练数据集森林火灾已成为全球频繁发生的灾害所造成的生命财产损失、生态系统破坏的影响持续扩大 森林火灾灾害风险制图是应急土地管理、森林火灾预防通过即时响应减轻火灾影响和恢复管理的重要组成部分本文分析得出流域尺度火灾高风险区域可以基于该图的高风险区域进一步进行局部小流域范围的制图识别出高风险小流域的空间位置 深入分析地理空间因子对火灾的具体影响以增加其积极效益减少有害影响 从研究结果可以推测北碚缙云山森林火灾的主要成因是植被地形因素应采取减少森林可燃物合理疏伐依据现有条件及火灾风险预测结果建设隔离带等措施 对于合川区应尽量减少人为因素的影响沿道路布局火灾监测
25、系统加强火灾管理与宣传激发公众护林防火的意识可控的火灾有维持生物多样性和关键生态系统服务的基础作用森林火灾与文化、环境和社会经济都是相互作用的规划管理需要更协调的方法和完整的框架来进行风险管理和景观规划将视角从仅仅减少可燃物转到因地制宜地应用本土智慧实现与森林火灾的可持续共存 本文基于流域尺度研究森林火灾灾害风险研究区预测监测工作可以流域为单位推进提高火灾高风险区域湿地连通性提高湿地活力改善湿地生态环境 在火灾高风险区域建设国家公园自然保护地加强跨行业领域的工作协同体系建设整合技术资源推进以流域为单元的国土综合整治与生态修复 除了森林火灾之外该方法还可以扩展到其他自然灾害问题例如根据历史遥感数
26、据预测该地区发生洪涝、山体滑坡等现象的可能性将对全球其他山城避灾规划第 期郗 婕等:基于机器学习的流域尺度森林火灾灾害风险预测起到借鉴作用引导规划降低森林火灾风险从而保护林区维护生态平衡参考文献:王劲 张文文 王秋华 等.地中海沿岸主要国家林火管理综述及对我国的启示.世界林业研究 ():.():.().():.黄武彪 栾海军 李大成.基于时空融合技术的森林火灾遥感动态监测.自然灾害学报 ():.():.()苏佳佳 刘志华 焦珂伟 等.气候变化对中国林火干扰空间格局的影响.生态学杂志 ():.():.()苏漳文 刘爱琴 郭福涛 等.福建林火发生的驱动因子及空间格局分析.自然灾害学报 ():.()
27、:.().():.():.王明玉.气候变化背景下中国林火响应特征及趋势.北京:中国林业科学研究院.:.()宋亚军.近期林火科学研究文献计量分析.北京:北京林业大学.:.()冯炎 雷朝锋 潘岩 等.基于卫星遥感技术的森林火灾监测研究.测绘技术装备 ():.():.().():.():.黄煜 谢婉丽 刘琦琦 等.基于 与 模型的滑坡易发性评价 以铜川市中部城区为例.西北地质 ():.:.():.().():.曹罗丹 李加林.基于遥感与 的浙江省洪涝灾害综合风险评估研究.自然灾害学报 ():.():.()张玉红 闫浩.森林火灾后植被恢复的遥感监测.自然灾害学报 ():.():.()雒瑞森 唐丽华 沈
28、掌泉 等.林火及其对森林蓄积量影响的时空格局.自然灾害学报 ():.():.().():.陈敏斯 杜建华 王薇 等.八达岭林场油松林冠层可燃物特征及潜在火行为.北京林业大学学报 ():.():.()白海峰 刘晓东 牛树奎 等.基于贝叶斯模型平均法的森林火灾预测模型构建研究 以云南省大理州为例.北京林业大学学报():.自 然 灾 害 学 报第 卷 .:.():.().():.:.():.().():.梁慧玲 王文辉 郭福涛 等.比较逻辑斯蒂与地理加权逻辑斯蒂回归模型在福建林火发生的适用性.生态学报 ():.():.().():.():.():.李晓彤 刘倩 覃先林 等.基于多源数据的全国可燃物类型划分方法.遥感学报 ():.():.()高超 林红蕾 胡海清 等.我国林火发生预测模型研究进展.应用生态学报 ():.():.()郑忠 高阳华 杨庆媛 等.西南山地区域森林火险综合预报模型研究 以重庆市为例.自然灾害学报 ():.:.():.()吴孝情 赖成光 陈晓宏 等.基于随机森林权重的滑坡危险性评价:以东江流域为例.自然灾害学报 ():.:.():.()豆红强 黄思懿 简文彬 等.基于遥感数据的闽东南山区公路滑坡快速识别技术研究.自然灾害学报 ():.():.()田述军 张珊珊 唐青松 等.基于不同评价单元的滑坡易发性评价对比研究.自然灾害学报 ():.():.().():.