以生态环境行业为例的行业数据标签体系的构建方法与应用.pdf

资源描述

1、打开数据之门9以生态环境行业为例的行业数据标签体系的构建方法与应用王晓燕1 刘东胜1 陈燕芬2 涂钢2 祝宏涛2（1.上海市环境保护信息中心，上海 200235；2.中国联合网络通信有限公司上海市分公司，上海 200082）摘要十三五期间，我国出台了一系列的政策来推动大数据建设和发展，数据也被提升到了国家基础性战略资源的高度，大数据也逐渐成为提升政府部门治理能力、行业发展潜力、公众服务能力的新驱动。然而目前在不同的领域，历年的信息化虽然已积累了丰富的数据资源，但数据质量参差不齐，数据发挥的作用还是十分有限。本文依据作者多年的信息化建设和管理经验，以生态环境行业为例进行了数据现状的分

2、析，探索了构建行业数据标签体系的思路和方法，分析了数据标签在生态环境行业实际业务中的应用场景，并总结了行业数据标签的应用成效和未来发展思路。关键词生态环境；数据标签；大数据引言随着信息技术的普及和应用，其所带来的重要产物“数据”也越来越被关注。我国拥有海量的数据资源，包含着许多非常有价值的数据信息，具备着大数据发展的先天优势。然而，随着我国大数据应用的进一步深入，产业发展的痛点和问题相继暴露1，例如数据共享程度较低、数据质量不高、数据管理与治理不足、垂直行业应用深度不够等。一、生态环境行业数据应用痛点生态环境行业经过多年的环境信息化建设，积累了大量的生态环境业务数据，涵盖大气环境管理、水环境

3、管理、应急指挥、自然生态管理、土壤环境、声环境管理、固废管理、污染源管理等，总结下来可以分为环境质量、污染源和环境综合管理三大类数据（如图 1）。图 1 生态环境行业数据分类由于早期建设的信息系统缺少统一规划，系统建设较为分散，导致现在基于信息化产生的数据难以有效得到应用，主要体现在以下几个方面：（一）一数多源问题凸显，数据标准有待统一各业务处室建设的应用系统都由不同软件厂商建设，建设期没有考虑数据标准的统一性和规范性，普遍存在多套差异化数据并存、多种数据存储格式以及数据无法共享的问题。（二）业务数据分散，综合分析困难由于部门的职责不同，因此建设信息系统的出发点和侧重点不一样。但是整体而言，环

4、境监管的工作主要是围绕污染源和环境质量两大要素，导致这两大要素的相关数据分散在不同的系统和物理位置，对同一要素进行全面的综合分析实现起来比较困难。二、数据标签的概念及重要意义总体而言，行数据标签的建立是需要对行业内的业务具有较高的认知度，并通过大量的数据分析和业务梳理而形成。数据标签与数据指标不同，虽然二者都是进行数据分析的重要手段，但数据指标是数据最直观准确的表述，而数据标签是需要通过原始数据加工赋予的一定场景下的描述，一般都带有业务特征。例如对某家工厂的排污情况进行描述，我们从数据指标和数据标签两种角度的表述是：数据指标：该工厂大气污染物年排放量的和为 35 吨；数据标签：该工厂是大气重点

5、排污单位。可以看出，用数据指标描述事物，或许会更精确，但是数据标签能更加切合业务的表达需求，同时标签可以融合多项指标的含义在里面，更加言简意赅，可以应用和适合多元化的场景表达需求。例如我们可以对具备大气污染年排放量在 30 吨以上、污水日排放量在 2500 吨以上的企业定义一个双重点排污单位的标签。因此，作者认为，建立行业的数据标签体系是提升数据价值，发挥数据生产和创新潜力的重要手段。以生态环境行业为例，通过建立行业数据标签，可以有效解决目前数据应用存在痛点问题：1.基于数据标签厘清数据来源，即可完成数据标准的统一，同时又可以满足多源数据的应用需求。例如将同一排污企业的数据信息标记好数据来源信

6、息如环评、环统、二污普排污许可等，在后续数据的流转过程中可以很清楚的了解到该企业某条数据信息的来源，并可以确定以某一来源的数据信息为主，从而实现数据口径的统一和标准化。2.基于数据标签构建数据集市，实现数据聚合分析。将常用的综合分析的数据应用场景定义为某个数据标签，并在业务生产过程中对所需的数据进行标记，从而可以快速实现综合分析场景所需数据的聚合。例如需要进行总量分析，对总量分析所需数据来源进行标记，从而实现数据源的快速加载和分析结果呈现。三、数据标签的构建方法数据标签体系的构建主要包括对应用行业的数据进行标签梳理、标签分类、标签定义和管理，最终实现标签的场景应用。（一）标签梳理标签梳理步骤的

7、制订可极大程度上保证标签的全面性与合理性，因为与业务场景结合的标签才具有真正的生命力，真正的做到反映客观实际。以生态环境排污企业为例，标签基于横纵两条主线来梳理（如图 2）。1.横向：以业务为指引从各业务线获取涉污染源的所有数据集，并提取相关基础指标，23.3月排版文件-230320（改版）.indd 923.3月排版文件-230320（改版）.indd 92023/3/29 15:29:422023/3/29 15:29:4210观点VIEWPOINT形成事实标签，同时结合业务场景需求进行模型标签与预测标签的梳理。2.纵向：以企业为核心在企业数据集、指标以及标签基础上，将各业务线梳理成果进行

8、整合，定义相同的归并，不同的根据需求判定是否新增；最终形成企业标签分类体系及标签明细。图 2 排污企业标签梳理示意图（二）标签分类依据标签和原始数据之间的逻辑关系，我们将数据标签分为三类，分别是事实标签、模型标签和预测标签（如图 3），三类标签的生成难度依次递增。图 3 环境数据标签分类示例1.事实标签：基于原始数据进行标签对应关系或是简单统计，实现标签提取。例如：行政区、流域、处罚金额等。事实标签反映事实的基础特征，对数据的加工程度最低，常用的是关键字提取方法。2.模型标签：模型标签是以原始的数据信息及事实标准为生产基础，通过成熟的业务模型进行计算形成的具有分析特征的标签。如最近一年 COD

9、排放大户、最近一周 SO2 连续三日超标等。模型标签是数据指标和业务场景融合后的表达，需要提前设定计算的原则和标准。常用规则算法、STL 分解、LDA、皮尔逊相关系数、余弦相似性等计算技术2。3.预测标签：预测标签主要根据业务需求定义预测的场景，建立的预测模型，结合实际的业务数据形成预测标签。例如：高风险企业、高危流域污染源、重污染天气点源等。预测标签基于过往数据和机器算法学习，需要不断的进行模型优化调整来提升准确度。常用决策树、随机森林、协同过滤算法、关联规则算法、逻辑回归等计算方法3。（三）标签定义标签的定义主要包括定义标签实体、定义标签属性、定义标签主题。通过标签定义主要来说明标签是什

10、么、标签来源于哪、标签如何计算、标签何时生成等。1.标签实体定义。实现标签主体的定义，如断面、企业、空气站点、河流等需打标签主体的定义，包括实体名称、数据来源、相关数据集、同步计划等。2.标签属性定义。实现某个实体下具体标签的定义，包含标签名称、标签代码、标签类型、标签色彩、生成规则、值域等定义。3.标签主题定义。根据实际用户分析需求，在标签定义基础上，提供快速定义分析主题的功能，满足用户分场景的查询需求。四、数据标签的应用实践依据数据标签的构建方法，作者以上海市生态环境行业大量的污染源企业数据为样本，分析了这些企业在环境管理过程中所被记录的各类信息，形成了不同维度的标签 100 多种，涵盖了

11、对企业在经营生产过程中的全周期环境属性，并通过这些标签在日常环境监管中的应用，快速实现污染源的精细化管理。（一）污染源信息的快速检索查询通过标签实现用户多维度、多场景的即时查询需求，实现污染源群体的快速聚类及展现。例如查询获取企业宏观环境特征、具体排放特征、监管特征等。1.企业整体特征查询对企业整体特征进行多角度展示，首先将表征企业管理特性以及规模体量的特征实现集中展示，将企业正负面形象特征实现重点显示，让用户一目了然获取企业宏观特征。2.企业排放特征分析基于排放特征标签，从治理设施、排口、生产设施以及各污染物排放规模层面全面刻画企业排放特征。3.企业监管特征分析从企业监管业务数据中提取的监管

12、特征标签，可以从监测数据异常、行政审批合规性异常、舆情等几个层面实现监管行为的深入刻画。（二）环境污染溯源分析辅助例如在大气污染溯源方面，根据某地区空气质量突发预警，如5 小时内 PM2.5 浓度增幅超过 100 微克/立方米这类即时预警问题，进行固定时间内的空气传输路径分析，缓冲出污染气团移动路径周边污染源企业，并可基于标签进行所溯源企业群体的聚焦，有针对性地寻找相关企业，并制定策略措施。五、结论与建议通过数据标签在生态环境行业的应用，可以看到数据标签体系的建立，将离散无规律的数据进行分类聚合和逻辑关联，一方面大大提高数据的质量，另一方面可以挖掘出数据的潜在价值。依托标签体系构建更多的应用场

13、景，提高工作和生产的效率，是提升数据利用价值的不错手段。不难发现，数据标签的运用一般是以具体行业应用需求为出发点而进行的数据的二次挖掘，随着数据标签的建立和应用，数据标签的应用范围将逐步扩大，包括空间范围和行业范围。如何实现行业内的数据标签体系在其他行业的推广应用，将会是后续需要解决的问题。作者认为，后续可以将数据标签和区块链技术融合，实现标签的不可篡改性，保证数据标签流通的唯一性和可靠性，并推动数据标签标准的建立，更进一步提升数据的价值，为数字经济的发展提供健康血液。参考文献：1 孙乐.基于用户相似度的 Slope one 算法 J.安庆师范学院学报（自然科学版）,2020,026(003):52-56.2 宋开元.机器学习算法在数据分类中的应用研究 J.电子元器件与信息技术,2021.3郭伟伟,吴文臣,隋亮.大数据时代的数据挖掘技术与应用J.数字技术与应用,2020(008):038.23.3月排版文件-230320（改版）.indd 1023.3月排版文件-230320（改版）.indd 102023/3/29 15:29:422023/3/29 15:29:42

展开阅读全文