1、生态环境大数据研究与应用进展Progress in Research and Application of Ecological Environment Big Data 蒋洪强/卢亚灵/周思/杨勇作者简介:蒋洪强(1975-),男,生态环境部环境规划院国家环境规 划与政策模拟重点实验室研究员,博士,研究方向为环境 规划与生态环境大数据治理,E-mail: jianghqcaep. org. cn0 北京 100012; 卢亚灵,生态 环境部环境规划院国家环境规划与政策模拟重点实验室。 北京100012;天津大学环境科学与工程学院。天津 300354;周思,生态环境部环境规划院国家环境规划与政
2、 策模拟重点实验室。北京100012;荷兰瓦赫宁根大学及研 究中心。瓦赫宁根6706KN;杨勇,生态环境部环境规划院 国家环境规划与政策模拟重点实验室。北京100012原发信息:中国环境管理(京)2019年第20196期 第11-15页内容提要:生态环境大数据是为生态环保决策管理提供服务的大数据 集、大数据技术和大数据应用的总称。生态环境大数据除 了具有大数据的“6V”特征,还具有高维、高复杂性、高 不确定性的“三高”特性。本文从生态环境大数据的定义 和特征出发,阐述了国内外生态环境大数据的“萌芽一探 索一应用一战略”的开展历程及其在科学研究、商业应用 和政府决策等领域的主要应用,总结了基于第
3、四研究范式 的生态信息学理论基础和依托于信息技术和数据挖掘的技 术方法,分析了当前形势下我国生态环境大数据应用面临 的三大挑战,提出了未来生态环境大数据五大热点方向, 生态环境大数据必将在推进生态环境治理体系和治理能力 现代化中发挥重要作用。为中心进行信息挖掘。前三种范式下的传统的生态环境研究在获取、管理 和分析大量数据方面带来了挑战。新的生态环境监测网络系统及其大数据 的应用正在慢慢将环境生态学引入大科学研究领域,进而催生了生态信息 学,奠定了生态环境大数据的理论基础。生态信息科学是一门以利用现代 计算技术(如人工神经网络、遗传算法等)进行生态学分析、综合和预测为 重点,综合研究生态信息提取
4、、生态信息管理和生态信息分析的科学 21o生态信息学为数据密集的生态环境研究提供了新的统一理论、模拟 和分析的方法,使科学家能够通过创新工具和方法产生新知识,同时管理 和应用环境与社会经济数据。3.2技术方法生态环境大数据的应用需要突破多项技术难点,包括智能感知、分布 式集群、云计算、机器学习、专业化模型等相关的工具、技术和方法在生 态环境领域的应用。例如,使用Hadoop的分布式文件系统(HDFS)和分 布式数据库(MapReduce)对生态环境大数据进行批量处理;利用决策树、 贝叶斯、回归模型、关联规那么、认知算法、机器学习等各种模型和算法对 海量数据进行关联分析和深度挖掘,通过各种数据产
5、生有价值的信息 22O建立天地空一体化的数据感知系统,是生态环境大数据建设的前 提。以现有的生态监测网络(空气和水环境质量监测)为基础,引入物联 网、卫星遥感、低空航测(视频监控、无人机的红外摄影)等技术,构建天地一体化遥感监测、视频监控等智能监测体系。建立多源异构大数据集成与存储系统,是生态环境大数据建设的基 础。以生态空间数据与生态环境业务数据为中心,针对非结构化大数据的 多样性及结构化数据的异构异源特性,实现多源数据空间和时间融合,解 决生态环境大数据的高效存储与清洗问题。建立多维时空生态环境大数据治理体系,是生态环境大数据应用的核 心。建立集实时监控数据形势诊断、预警预报和会商决策等于
6、一体的生态 环境预警会商体系,建立督察、执法、应急指挥”一体化的督察执法监 管系统,构建基于一张图”的全景指挥平台,是当前生态环境大数据的 主要应用场景。3.3研究的关键环节有效开展生态环境大数据研究应用需要解决以下关键问题:(1)确定研究的主体和目标。由于大数据本身的复杂性以及数据的海量 性,生态环境大数据可研究的范围非常宽泛,可以是最原始的元数据,可 以是宏观的理论概念,还可以是多学科交叉的过程,因此必须确定要研究 的主体和目标。(2)明确研究的时空尺度。生态环境大数据的不同研究领域有不同的尺 度。例如,生态学家以年甚至万年为单位,关注物种在不同时间空间的演 变;而气象学家那么以分钟、小时
7、、天来衡量天气变化情况。不同尺度使得 本就复杂的数据更冗杂。所以,研究的尺度应该在一开始就规定好,在简 化工作量的同时加强大数据分析结果的应用。(3)建立科学的标准规范。目前的生态环境大数据,国内外普遍缺少统一的数据采集与存储标准规范体系,阻碍了数据的交换与共享。因此要构 建科学、完善的生态环境大数据标准规范体系,为我国生态环境大数据的 科学开展提供标准化支撑,为推进生态环境领域的开展提供规范依据。4面临的主要挑战Q)数据获取的局限性。目前主要有四种途径获取生态环境大数据: 整理现有数据集。这种方法本钱昂贵,最后得出的数据集可能具有地理或 时间差距。整合遥感平台数据。此类数据在时空尺度上通常没
8、有太大差 距,但是这种途径仍受测量手段和变量的制约。获取观测站或实地实 验。该途径通常需要复杂且昂贵的仪器。从头启动跨越大陆尺度的观测 计划。该途径需要一开始就设计专有模型,并使用标准化方法23。现阶 段,随着生态环境监管需求导向明显,仅依托现有监测网络和设备还难以 真正地实现用数据说话、用数据管理、用数据决策”的目标,无法为问 题分析预警、督察执法、全景指挥提供有力支撑,成为制约生态环境部门 进一步提升大数据智慧监管能力的主要问题。此外,从社交媒体获取的生 态环境相关大数据从商业用途转用于科学用途时也导致了信息不完整等问 题,限制了这些数据的进一步应用。(2)数据共享的局限性。生态环境数据资
9、源分散,资源整合利用程度不 高。不同部门之间不愿意共享数据是管理上的瓶颈。同时,生态环境是典 型的跨行业多类型的大数据综合应用业务领域,不同来源的生态环境数据 的标准不规范,导致数据对话本钱很高,数据质量难有说服力。尤其是商 业大数据供应商,往往过于追求商业利润,在收集数据时通常不采用科学 的抽样方法,基于这些大数据的研究得出的结论可能与研究中声称的目标 不匹配。(3)数据应用的局限性。局部研究人员倾向于通盘接受大数据,没有对 数据的真实性、可靠性进行审查和深入分析,容易出现系统偏差,对决策 管理形成负面影响24。大数据技术在环境与经济综合分析、环境污染监 督执法与应急、生态环境评估、生态系统
10、管理及全球气候变化预测等方面 已经得到了初步的应用,但目前并没有形成成熟的生态环境大数据产业 链,对生态环境管理的精准化决策支撑还需加强。我国还缺乏生态环境大 数据和环境管理兼通的复合型人才,现有环境管理人员知识结构需要更 新。5热点开展方向(1)生态环境大数据共享融合研究。没有任何一个人或机构可以同时容 纳和有效分析所有形式的生态环境数据。要使生态环境大数据得到应用与 开展,需要加大共享融合研究,优先考虑数据、方法、标准和代码的开放 性,包括更快地采用新技术和工具方法,开放数据来源和共享解决方案, 构建网络基础架构,改进数据和共享工作流程,以及增强大数据服务的翻 译和记录。(2)开放架构的生
11、态环境云平台建设。构建生态环境大数据平台就是要 将多源异构的数据进行有机地整合25。一是加大感知系统建设。要以改 善生态环境质量为核心,以现有的生态监测网络为基础,扩大监测范围,增加监测密度,引入物联网、卫星遥感、低空航测等技术,实现重点领域自动监测全覆盖,构建天地一体化遥感监测、视频监控等智能监测、 监控体系,能够及时发现流域区域内发生违法行为,为生态环境规划、评 估、管理和监管提供进一步的有效支持。二是建立完善大数据治理体系。 加强对数据资源整体规划,形成标准统一、动态更新、共享应用的信 息资源目录和平台,提升大数据资源规划、生态环境云平台建设、主题数 据库建设、大数据资源采集、大数据资源
12、治理、大数据平安管理、大数据 资源服务等数据的治理能力。(3)基于大数据的精细化环境管理决策应用。生态环境与经济社会大 数据形势分析,建立生态环境与经济社会形势分析关联指数,将环境变化 特征与经济社会开展情况进行关联比照,识别影响环境质量变化的主要原 因。生态环境质量监测预警分析,通过对环境质量现状和变化趋势进行 综合统计分析,全面掌握环境质量变化情况,建立监测预警标准和监测预 警系统,形成生态环境质量监测预警体系。生态环境事件举报与舆情监 控分析,包括政府提供电子公共服务平台、互联网服务平台。通过网络舆 情采集分析技术和公众环保移动应用,让舆情监控由被动变主动。生态 环保督察执法智慧决策支撑
13、。通过大数据感知等手段完善督察执法管理手 段,全面提高督察执法工作效能,并将其应用于企业关改搬迁、黑臭水体 整治、入河/海排污口排查、农业面源污染整治、非法码头专项整治、河道非法采砂整治等领域。(4)基于大数据多样性的科学结论验证。大数据作为新的信息技术,在 生态环境领域的未来研究中,应进一步理解和评估大数据的质量,并辅以 传统的科学数据收集方法,以获得更详细和有代表性的数据26。另外, 通过科学的传统抽样调查,可以收集更多目标的详细信息,并使提供的数 据更具代表性。还可以使用另一个平台提供的大数据来测试从一种类型的 大数据得出的结论的稳健性。(5)国际合作下的生态环境大数据应用。建立国际资源
14、环境数据知识共 享平台(全球资源环境数据库与知识库建设),实现我国与其他国家在水资 源、气候变化、能源清洁利用、环境保护、环境金融等方面的数据和知识 共享,加强我国与其他国家在环境数据领域的合作与交流,共同应对全球 性资源环境问题。总之,生态环境大数据必将在我国推进环境治理体系和环境治理能力现代化中发挥重要作用,应切实提高我国生态环境大数据建设水平。Progress in Research and Application of Ecological Environment Big Data关键词:生态环境/大数据/环境管理/研究进展ecologicalenvironment/big data/
15、environment management/research progress期刊名称:生态环境与保护 复印期号:2020年05期中图分类号TP311.131 ; X3 文章编号口文献标识码A随着现代信息技术的开展,当今世界已经进入由数据主导的“大时 代。2012年5月,联合国发布大数据政务白皮书Big Data for Development : Challenges & Opportunities,标志着大数据领域的 研究已提升为世界战略1。2013年7月习近平总书记在中国科学院考察 时指出,大数据是工业社会的“自由资源,谁掌握了数据,谁就掌握了 主动权。2015年8月,国务院发布促进大
16、数据开展行动纲要,大数 据上升为我国国家战略。与此同时,生态环境也进入大数据时代。习近平 总书记指出,要推进全国生态环境监测数据联网共享,开展生态环境大数 据分析。李克强总理强调,要在环保等重点领域引入大数据监管,主动查 究违法违规行为。2016年3月,原环境保护部办公厅印发生态环境大 数据建设总体方案,提出在未来五年内通过生态环境大数据建设和应 用,实现生态环境综合决策科学化、生态环境监管精准化、生态环境公共 服务便民化。由于我国生态环境保护工作起步晚,在数据知识更新、数据 挖掘分析、大数据共享机制与能力建设等方面还存在缺乏。1生态环境大数据概念及特征大数据在生态环境领域的应用、积累,形成了
17、生态环境相关的海量观 测数据。这些数据来源于与生态环境相关的不同部门和领域,来源多样、 结构各异。一般认为,生态环境大数据是为生态环保决策问题提供服务的 大数据集、大数据技术和大数据应用的总称。生态环境大数据除了具有大 数据的6 V特征,即海量规模(Volume)、形式种类繁多(Variety)、处 理速度快(Velocity)、高价值性(Value)、真实性(Veracity)、易受攻击性 (Vulnerable),还更加复杂多变,具有高维、高复杂性、高不确定性的 三高特性。(1)高维。数据来源包含反映自然和社会现象之间的多维数据3。生 态环境大数据来源于生态环境、气象、水利、国土、农业、林
18、业、交通、 社会经济等不同部门,可以通过空气质量、水环境质量、噪声环境质量监 测设备来感知,还可以通过生物传感器、化学传感器、射频识别技术 (RFID)、卫星遥感、视频感知、光学传感器、人工检查等感知。通过全国 12369环保举报联网管理平台”的 、微信、微博等途径,以及基于 互联网技术产生的搜索数据、社交媒体数据、在线新闻等产生的生态环境 舆情大数据,包括半结构化和非结构化多维数据(文本、工程报告、照片、 影像、声音、视频等)。(2)高复杂性。生态环境大数据内在的复杂性(包括类型的复杂、结构 的复杂和模式的复杂)使得生态环境数据的感知、表达、理解和计算等多个 环节面临巨大的挑战。生态环境大数
19、据本身价值较低,只有通过大数据的 数据清洗、数据集成、数据建模、结果导出与可视化等,才能将这种不完 善、复杂、非结构化的数据转化为有用的信息。生态环境领域的排放清单 建立、环境质量模拟、最优化减排方案制定等,如果借助大数据预处理技 术、数据挖掘技术和云计算平台等,速度和准确性会显著提高。(3)高不确定性。数据采集涉及高度不确定性,数据可能存在错误或不 完整。生态环境相关的大数据跟其他大数据一样,最典型的特征是数据量 巨大,而且在以每年数百TB的速度增加。由于这些数据来源于不同部 门,部门之间缺乏统一的标准规范;而且通过传感器、智能手机或社交网 络等不同感知工具采集,即使来源于同一部门的数据格式
20、也多样化;加之 目前各部门数据共享程度较低,同一指标数据存在不一致性。2开展历程及应用开展历程(1)1980年及以前的萌芽阶段。1980年,未来学家托夫勒在第三 次浪潮中首次提出“大数据”的概念,大数据时代正式到来。在此之 前,大数据已经在萌芽状态。以生态环境大数据为例,国际地球物理 年(IGY)Q957-1958年)和国际生物学计划(IBP)Q964-1974年)是现今生 态环境大数据研究的雏形,当时被称为大科学研究”4,目的是获得较 为可靠的大量观测数据,以研究地球各圈层和生态环境问题。这些研究最 后演变成如今以长期定位观测为基础的生态系统研究网络,从而全面获取 有关生态环境的观测数据。(
21、2)1980-2008年的探索研究阶段。2008年,Nature、Science等学 术刊物相继出版专刊探讨大数据议题,标志着大数据研究得到世界范围内 的关注和认可。在此之前,各国学者对大数据及大数据在生态环境领域的 研究进行了探索。如Camara等开发了集成水质数据库和污染数据库, 以及面源污染模型和污水处理优化模型,用于西欧TeJo海湾水质管理的 决策支持系统Hypetej。,利用它解决污水处理厂的选址问题、污染负 荷改变对海湾水环境的评价等决策问题。(3)2009-2012年的应用研究阶段。在此期间,大数据问题得到越来 越广泛的关注,一些商业公司也加入其中。麦肯锡公司发布关于“大数 据”
22、的报告,成为“大数据较早的应用。生态环境领域的研究热点包括 区域大气污染防治与污染物减排研究6、环境污染治理及预报刀、全球 气候变化预测研究等8。由清华大学、华南理工大学、田纳西大学等联合 开发的大气污染控制费效评估及空气质量达标规划辅助决策系统ABaCAS,集成大气污染控制费效及达标评估、大气污染控制本钱分 析、空气质量模拟可视化分析、空气质量达标评估等技术,是这一时期的 应用研究之一。(4)2012年以来的战略化开展阶段。2012年以来,大数据应用问题 得到各国政府的高度重视。2012年联合国大数据政务白皮书的发布,标 志着大数据领域的研究已提升为世界战略。同年,美国政府启动大数据 研究和
23、开展计划,标志着美国大数据时代来临。2015年国务院发布 促进大数据开展行动纲要,大数据开展上升为我国国家战略。2016 年原环境保护部办公厅印发生态环境大数据建设总体方案,从政策层 面对大数据应用于环境管理领域提出了要求。当前生态环境大数据在科学 研究、商业应用、政府决策支持等多个方面得到广泛应用。2.1 研究与应用Q)科学研究方面。数据感知层面,如上所述的大科学研究催生了 生态系统研究网络的开展。目前国际上已经建立多套全球性和国家/区域 性的生态环境监测网络,提供包括环境和生态变量的长期多维观测数据。 全球尺度的生态环境观测网络主要包括国际长期生态研究计划(ILTE R)、全 球环境监测系
24、统(GEMS)、国际生物多样性观测网络(GEOBON)等。国家 尺度的网络包括美国的US-LTER生态环境观测研究网络、英国的ECN生 态环境观测研究网络和日本长期生态研究网络(JALTER)4,90这些观测 网络采集了生态环境相关的大数据,能够获得数百万次观测结果10。卫 星或飞机的遥感技术的开展使我们通过安装在这些平台上的远程传感器获 取大量生态数据。例如,美国宇航局(NASA)部署高光谱传感器以捕获有 关叶面营养、树冠结构和性状的详细信息11。2015年6月,NASA联 合巨型计算机技术、地球系统模型、工作流管理和遥感数据协作分析平 台,发表了从1950年到2100年全世界的气候变化预测
25、数据。中国不同 部门和单位陆续建立了一批生态环境监测站,开展了不同区域的环境、资 源、污染的调查与研究工作。如中国科学院植物研究所建立了植物介绍网 站(iPlant),其数据集形式多样,包括观测数据、实验数据、模拟数据以及 其他派生数据12。研究层面,近年来美国国家科学基金会(National Science Foundation , United States , NSF)投入大量人力、物力研究大数据科学 计算应用,目前大数据技术被广泛应用于生态系统研究的各领域。NSF最 近公布了 BIG DATA方案征集以利于信息共享。一些学科已经开发了海量 数据平台并取得了相应的收益。近年来,我国自然科
26、学基金委管理学部也 资助了一批大数据在金融、医疗、交通及生态环境领域的管理应用研究。 Li Lei13等收集了 2005年至2013年我国31个省(区、市)的数据,使用 数据包络分析方法研究了经济、社会和生态因素对于我国林业资源效率的 影响。He Fuhong14等以沿海矿业城市龙口为例,使用遥感图像、数字 高程模型以及降水等数据,建立了包括自然地理、地质条件、采矿强度、 生态环境恢复等在内的综合评价指标体系,基于插值等对大数据方法进行 了生态环境质量评估。(2)商业应用方面。大数据正在从科学研究层面走向商业应用。德克萨 斯州立大学和戴尔公司联合研发的巨型计算机Stampede,性能良好且应
27、用广泛,美国南加州地震中心利用该巨型计算机进行加州破坏性地震的频 率预测;德州大学奥斯汀分校也应用Stampede通过详细的数据建模,分 析从南极洲到海洋的冰川流动口5。在生态环境大数据的建设方面,惠 普、谷歌、微软等美国企业正在提供最先进的存储设备和搜索等服务,帮 助政府和研究机构对环境现状及未来趋势作出判断。2012年,惠普公司联合环保组织保护国际(Conservation International)启动惠普地球观察(HP Earth Insights)工程,对全球生物多 样性和气候数据进行了系统分析。在中国,生态环境大数据得以进入商业 应用的基础是Apache基金会开发的Hadoop平
28、台。在Hadoop平台基 础上,IBM公司与北京市政府联合开发了 绿色地平线”大数据平台系 统,该系统结合当时的气象卫星和地面监测数据,结合企业排放数据预测 未来72小时的空气质量。微软在中国也已与海南、云南、武汉等多个地 区进行交通、能源、环境等领域的合作,已经发布了超过100个全球智慧 城市案例。针对雾霾问题,微软还推出了 Urban Air系统,通过大数据来 监测和预报空气质量,该服务覆盖了中国300多个城市16。而京东智能 城市研究院将利用大数据和人工智能进行空气质量和水质预测作为重点研 究的业务内容。(3)政府决策方面。世界各国都将大数据技术研究应用的推进作为重大 开展战略。2012
29、年3月,美国公布了 大数据研发计划,以提高从海 量和复杂的数据中获取知识的能力。根据该计划,美国国家科学基金会 (NSF)、能源部(DOE)、地质勘探局(USGS)等6个联邦部门和机构共同提 高了海量数据应用所需的核心技术。美国环境保护署(EPA)建立了统一的 中央数据交换系统,形成了排污设施登记数据库。欧盟方面,过去几年已 对科学数据基础设施投资了1亿多欧元,并将数据信息化基础设施作为 Horizon 2020计划的优先领域之一。英国自然环境研究理事会(NERC)投资超过1300万英镑,计划2020年建立环境数据创新中心口刀。亚洲地 区,2014年新加坡政府提出了 智慧国家平台(Smart
30、Nation Platform),这是全球第一个全国范围性质的智慧蓝图。在大数据技术的 支持下,新加坡联合其他受影响的国家开发了东南亚国家区域烟霾预警系 统(AHMS),为防治重污染天气提供即时的政策建议18。我国已将生态环境大数据列为国家开展战略中的重要一环。生态环境 部成立了生态环境大数据建设领导小组,全面推动落实党中央、国务院关 于大数据开展的新要求,同时启动了生态环境大数据和环保云建设工程。 目前,生态环境部建立了涵盖大气、水和土壤等领域的生态环境监测网络 系统并逐步加大监测密度,其中大气环境监测网络包括1436个城市监测 点位,水环境监测网包括1000个降水监测点位、1940个地表水
31、水质断 面(点位),906个集中式饮用水水源监测断面(点位),1649个海水环境质 量国控监测点位,还包括2583个生态环境质量监测点位,约80000个城 市声环境监测点位,1410个环境电离辐射监测点位和44个环境电磁辐射 监测点位口9。当前的环境监管执法,使用视频监控、无人机的红外相机 等设备,借助数据实时高速传输技术,建设了有效的监管系统。福建、内 蒙古、山东等地启动了生态环境大数据建设工程。3理论基础及技术方法3.1理论基础科学研究的前两个范式是实验和理论,计算和模拟为科学研究的第三 范式,数据密集型科学是前三种科学方法之后的第四种科学类型,被称为 第四范式20。第四范式中科学家已不根据的规那么编程,而是以数据