收藏 分销(赏)

基于注意力机制的城市多元空气质量数据缺失值填充.pdf

上传人:自信****多点 文档编号:649978 上传时间:2024-01-23 格式:PDF 页数:11 大小:1.79MB
下载 相关 举报
基于注意力机制的城市多元空气质量数据缺失值填充.pdf_第1页
第1页 / 共11页
基于注意力机制的城市多元空气质量数据缺失值填充.pdf_第2页
第2页 / 共11页
基于注意力机制的城市多元空气质量数据缺失值填充.pdf_第3页
第3页 / 共11页
亲,该文档总共11页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、 基于注意力机制的城市多元空气质量数据缺失值填充*马思远1,2,焦佳辉1,2,任晟岐1,2,宋 伟1(1.郑州大学河南省大数据研究院,河南 郑州 4 5 0 0 5 2;2.郑州大学计算机与人工智能学院,河南 郑州 4 5 0 0 0 1)摘 要:空气污染严重影响着人类的身体健康与社会的可持续发展,但传感器获取的多元变量空气质量数据往往存在缺失值,这为数据的分析与处理带来了困扰。目前,许多对某一种空气成分变化的分析方法只依赖于此属性的时间数据与空间数据,忽略了在相同时间区间内其他空气成分对此属性变化趋势的影响,且在离散型缺失数据的填充上难以达到理想的效果。提出了一种时间注意力深度学习模型(T

2、AM)。该模型使用注意力机制来关注不同时间戳之间的相关性与不同特征时间序列之间的相关性,并结合短期历史数据来填充多元变量空气质量数据中的缺失读数。使用北京市的空气质量数据对所提出的模型进行评估,实验结果表明,相比较于其他1 0种基线模型,T AM具有一定优势。关键词:空气质量;缺失值填充;注意力机制;深度学习中图分类号:T P 3 0 1文献标志码:Ad o i:1 0.3 9 6 9/j.i s s n.1 0 0 7-1 3 0 X.2 0 2 3.0 8.0 0 4M i s s i n g v a l u e f i l l i n g f o r m u l t i-v a r i

3、a b l e u r b a n a i r q u a l i t y d a t a b a s e d o n a t t e n t i o n m e c h a n i s mMA S i-y u a n1,2,J I AO J i a-h u i1,2,R E N S h e n g-q i1,2,S ONG W e i1(1.H e n a n A c a d e m y o f B i g D a t a,Z h e n g z h o u U n i v e r s i t y,Z h e n g z h o u 4 5 0 0 5 2;2.S c h o o l o f

4、 C o m p u t e r a n d A r t i f i c i a l I n t e l l i g e n c e,Z h e n g z h o u U n i v e r s i t y,Z h e n g z h o u 4 5 0 0 0 1,C h i n a)A b s t r a c t:A i r p o l l u t i o n s e r i o u s l y a f f e c t s h u m a n h e a l t h a n d s o c i a l s u s t a i n a b l e d e v e l o p m e n t

5、.H o w e v e r,t h e m u l t i-v a r i a b l e a i r q u a l i t y d a t a o b t a i n e d b y s e n s o r s o f t e n h a v e m i s s i n g v a l u e s,w h i c h b r i n g s d i f f i c u l-t i e s t o d a t a a n a l y s i s a n d p r o c e s s i n g.C u r r e n t l y,m a n y a n a l y s i s m e t

6、 h o d s f o r c h a n g e s i n a c e r t a i n a i r c o m-p o n e n t o n l y r e l y o n t i m e d a t a a n d s p a t i a l d a t a o f t h i s a t t r i b u t e,i g n o r i n g t h e i n f l u e n c e o f o t h e r a i r c o m-p o n e n t s o n t h e t r e n d o f t h i s a t t r i b u t e i n

7、 t h e s a m e t i m e i n t e r v a l.I n a d d i t i o n,i t i s d i f f i c u l t t o a c h i e v e i d e a l r e s u l t s i n f i l l i n g d i s c r e t e m i s s i n g d a t a.T h i s p a p e r p r o p o s e s a T i m e A t t e n t i o n M o d e l(T AM)b a s e d o n d e e p l e a r n i n g,w

8、h i c h u s e s a t t e n t i o n m e c h a n i s m t o f o c u s o n t h e c o r r e l a t i o n b e t w e e n d i f f e r e n t t i m e s t a m p s a n d t h e c o r r e l a t i o n b e t w e e n d i f f e r e n t f e a t u r e t i m e s e r i e s,a n d c o m b i n e s s h o r t-t e r m h i s t o

9、r i c a l d a t a t o f i l l m i s s i n g v a l u e s i n m u l t i-v a r i a b l e a i r q u a l i t y d a t a.T h e p r o p o s e d m o d e l i s e v a l u a t e d u s i n g a i r q u a l i t y d a t a f r o m B e i j i n g,a n d t h e e x p e r i m e n t a l r e s u l t s s h o w t h a t T AM h

10、 a s a d v a n t a g e s o v e r t e n o t h e r b a s e l i n e m o d e l s.K e y w o r d s:a i r q u a l i t y;m i s s i n g d a t a i m p u t a t i o n;a t t e n t i o n m e c h a n i s m;d e e p l e a r n i n g1 引言空气污染时刻威胁着人类的身体健康与社会的可持续发展。因此,城市中建立了越来越多的空气质量监测站,以持续获取空气质量数据与气象数据等,为相关机构和研究人员分析污染来源

11、、探究污染主要成分、预测空气质量提供了数据基础。然*收稿日期:2 0 2 2-0 8-1 2;修回日期:2 0 2 2-0 9-2 3基金项目:国 家 高 能 物 理 科 学 数 据 中 心 开 放 课 题(HT-HE P S-T 7-0 1 0 5 0 2 0 0-2 1-0 0 0 8);河 南 省 科 技 攻 关 计 划 国 际 合 作 项 目(1 7 2 1 0 2 4 1 0 0 6 5);河南省高等学校重点科研项目(2 2 A 5 2 0 0 1 0)通信作者:宋伟(i e w s o n g z z u.e d u.c n)通信地址:4 5 0 0 5 2 河南省郑州市郑州大学河

12、南省大数据研究院A d d r e s s:H e n a n A c a d e m y o f B i g D a t a,Z h e n g z h o u U n i v e r s i t y,Z h e n g z h o u 4 5 0 0 5 2,H e n a n,P.R.C h i n a C N 4 3-1 2 5 8/T PI S S N 1 0 0 7-1 3 0 X 计算机工程与科学C o m p u t e r E n g i n e e r i n g&S c i e n c e第4 5卷第8期2 0 2 3年8月 V o l.4 5,N o.8,A u g.2

13、 0 2 3 文章编号:1 0 0 7-1 3 0 X(2 0 2 3)0 8-1 3 5 4-1 1而,由于监测设备的停机维护、损坏、通信错误、意外中断(如停电)等原因,导致传感器监测得到的数据含有缺失数值。缺失数据不仅会影响实时的污染物数值监测,还会为数据分析和污染物浓度预测等带来干扰。空气质量数据是由多种特征组成的多元时间序列,对其进行缺失值填充十分具有挑战性,原因有以下几点:(1)缺失数据可能存在于任意时间戳与任意传感器上 1。对于某一地理位置的监测站m,建设有多种空气质量监测设备si,i1,2,n,分别监测空气中不同污染物的浓度,其中n代表监测数据中特征(污染物)的数量。在某种情况下

14、,会丢失连续的数值:如在同一时间戳丢失所有空气成分读数(图1中m1监测站的t2时刻,以下称为特征块缺失或F e a t u r e s B l o c k M i s s i n g);或者在某一空气成分上丢失连续时间戳的数值(如图1中m1监测站的s2传感器,以下称为时间块缺失或T e m p o-r a l B l o c k M i s s i n g);又或者在不同监测站的相同时间戳,同时丢失某一特征的数据(如图1中m1监测站和m2监测站在s1传感器的t2时刻,以下称为空间块缺失或S p a t i a l B l o c k M i s s i n g)。本文统称这些缺失模式为块缺失(

15、B l o c k M i s s i n g),其余为普通缺失(G e n e r a l M i s s i n g)。块缺失通常难以处理,因为其缺少已知数据来预测未知数据。F i g u r e 1 M i s s i n g m o d e s图1 缺失模式(2)由于受到多种因素的影响,如监测站所处的地理环境、监测站周围的社会环境等,传感器的读数并不遵从地理学第一定律 2:对于目标监测站m,基于地理上的欧几里得距离,距离更近的监测站的数据未必比距离更远的监测站的数据更加类似于m的数据。随着地理位置和时间的变化,传感器读数变化显著且呈非线性 3,这使得基于插值的模型和空间模型(S p a

16、 t i a l M o d e l)难以得到理想的预测效果。(3)气象数据中不仅包含连续型变量(如温度、湿度),还包含离散型变量(如天气情况),每个离散数值代表着属性的某一种类别,填充此类缺失读数是一种标签预测任务。大部分适用于连续型数据预测的模型,往往难以在离散型数据预测上取得较好的效果。为了解决以上问题,本文提出了一种时间注意力深 度 学 习 模 型T AM(T e m p o r a l A t t e n t i o n-b a s e d d e e p l e a r n i n g M o d e l),从3个视角:时间戳之间的相互关系、特征时间序列之间的潜在联系和短期历史数据

17、,来填充多维时间序列中的缺失值。本文主要工作包括以下几个方面:(1)以注意力机制为核心,以多元空气质量数据缺失值填充为应用背景,使用深度学习与神经网络方法对其进行拓展,得到本文所提模型T AM,以提高缺失读数归因效果。T AM关注目标值所在地理位置(监测站)的多维时间序列中不同特征时间序列之间的相关性与不同时间戳读数之间的相关性,并将其运用到空气质量缺失值填充任务上,充分发挥了注意力机制挖掘数据内部潜在联系的能力 4,从而实现更精准的填充。(2)处理块缺失的问题,按照时间顺序一次对一个时间戳的缺失读数进行归因(I m p u t a t i o n),从而递进填补连续的缺失块。对于每一个时间戳

18、的缺失数据,本文可以视其为普通缺失或者特征块缺失。(3)处理离散型缺失数据,仅在输出层将2个视角(不再考虑短期历史数据)的输出进行数据拼接并映射到输出类别,即可进行离散型缺失值的估计。(4)使用北京市的空气质量数据与气象数据进行模型的训练与测试,相比较于1 0个基线模型,T AM具有优势。2 背景空气质量数据是带有地理标记的多维时间序列数据,具有时间性、序列性和随季节变化的周期性 5。现有方法按照运用的技术大致可以分为2类:一类是基于统计学的方法;另一类是基于大数据技术的方法,如机器学习与神经网络。早期面对数据中的缺失值,一种简单的方法是5531马思远等:基于注意力机制的城市多元空气质量数据缺

19、失值填充将含有缺失数据的记录直接删除,但这会导致数据丢失大量重要的信息,破坏了数据的结构性。在缺失率高的数据集中,将不能得到有效的数据进行处理和分析。统计学中最直接的策略是用平均值来填充,对于某属性中的缺失值,使用该属性所有观测值的平均值进行填充 6。然而,平均值归因忽略了数据的方差和各个特征之间的相关性,导致预测具有片面性 7。更复杂一些的统计学模型会使用多项式插值 8和期望最大化 9来估计缺失值。传统的数据分析方法不能满足大数据所面临的挑战,而且实现效率低下。大数据分析技术的使用有利于对这些数据进行深度挖掘,以提取空气质量变化的模式和规律,并将其运用在缺失数据的填充任务上,以获得更好的效果

20、 5。在过去的十几年里,一些新的有效的计算方法不断被提出,如支持向量机S VM(S u p p o r t V e c t o r M a c h i n e)、线性回归L R(L o g i s t i c R e g r e s s i o n)、K-最 近 邻KNN(K-N e a r e s t N e i g h b o r)、朴 素 贝 叶 斯N B(N a i v e B a y e s)、支持向量 分类器S V C(S u p p o r t V e c t o r C l a s s i f i e r)、线性支持向量分类器L S V C(L i n e a r S u p

21、p o r t V e c t o r C l a s s i f i e r)、随机森林分类器R F C(R a n d o m F o r e s t C l a s s i f i e r)、决策树回归器D T R(D e c i s i o n T r e e R e g r e s s o r)、删除方法、平均值和多层感知器ML P(M u l t i-L a y e r P e r c e p t r o n)1 0。当缺失数值与可用数值相关联时,线性回归L R预测与多层感知器是非常合适的。与平均值替换方法相比,它们保留了缺失数据变量的方差和协方差。然而,其所有的估算值都遵循一个单

22、一的回归曲线,仅考虑单个特征时序信息,忽略数据矩阵的结构性,不能代表数据中的任何内在变化。KNN按照某种距离的度量算法(如欧氏距离)来计算目标样本与已知样本的“距离”,从而选择最相近的K个样本来进行缺失数值的预测。KNN的缺点是对于每一个待估计样本,都需要对所有已知样本进行一次遍历,当缺失数据量较大时,会十分耗时。此 外,模 型 的 效 果 十 分 依 赖 距 离 算 法。K a s s t e e l e等人 1 1,1 2考虑空间属性在空间位置的不同分 布,通 过 滑 动 加 权 平 均 得 到 插 值 结 果。L i n d s t r o m等人 1 3使用矩阵分解来填充缺失的值。Y

23、u 等人 1采用了低秩矩阵的最新发展来解决空气质量数据含有缺失值的问题。Y u等人 1 4提出了 一 个 支 持 数 据 驱 动 的 时 间 正 则 化 矩 阵 分 解T RMF(T e m p o r a l R e g u l a r i z e d M a t r i x F a c t o r i z a-t i o n)框架,支持时间学习和预测,非常适合于有许多缺失值的高维时间序列数据,并且为矩阵分解模型带来了预测未来值的能力。S T-MV L(S p a t i o-T e m p o r a l M u l t i-V i e w-b a s e d L e a r n i n

24、g m e t h o d)同时考虑不同时间序列之间的空间相关性和同一序列中不同时间戳的读数之间的时间相关性,构建多视图模 型 对 空 气 质 量 数 据 进 行 缺 失 值 填 充 3。T a n g 等人 1 5使用随机森林算法进行缺失值的预测与填充,发现其在缺失率较高的情况下也能够取得良好的效果。M a等人 1 6综述了贝叶斯方法在处理可忽略和不可忽略的缺失数据方面的最新发展和应用。L i n等人 1 7针对聚类监控应用(C l u s-t e r M o n i t o r i n g A p p l i c a t i o n)中缺失数据计算处理问题,提出了一种新的混合多重归因框架,

25、使用基于模型和数据驱动的组合体系结构将缺失的数据归因为任意缺失的模式。K i m等人 1 8 提出了一种端到端的模型来计算空气质量时间序列数据中的缺失值,该模型预测了输入时间序列数据的偏差、斜率、季节性和残差,并将其组合起来计算缺失的值。在大数据时代,数据的质量深刻地影响着决策的制定和科学的发展,其重要性不言而喻,加上其对机器学习领域的影响,缺失数据处理一直是很多研究人员不断探索的领域。3 模型为了使T AM能够同时考虑多维时间序列数据中不同特征时间序列之间的相关性与不同时间戳读数之间的相关性,本文使用目标监测站缺失读数(M i s s i n g R e a d i n g)所在时间戳之前若

26、干时间段的多特征数据作为模型的输入,来对缺失值进行预测,其包含多种空气质量属性与气象数据。对于某一个监测站m而言,其拥有n种监测不同空气指标或气象数据的传感器,这使得模型能够获得一个包含n个特征的多维时间序列。由于每种属性与其他属性之间的潜在联系不尽相同,本文构建多个归因模型T AM1,T AM2,T AMn 分别对 不同属性上的缺失值进行估计。每个归因模型的输入数据维度相同,针对不同属性中的缺失值使用相同的数据集进行训练、验证和测试。3.1 注意力机制注意力(A t t e n t i o n)机制挖掘数据内部潜在联系的方式如图2所示。图2表示的是T AM建模不同时间戳读数之间相关性的A t

27、 t e n t i o n机制细节。对于I n p u t,其时间窗口大小为w,所包含的特征数 量 为n;经 过 全 连 接 线 性 层 映 射(F u l l y C o n n e c t e d)分别得到Q u e r y,K e y和V a l u e矩阵;再6531C o m p u t e r E n g i n e e r i n g&S c i e n c e 计算机工程与科学 2 0 2 3,4 5(8)F i g u r e 2 A t t e n t i o n m e c h a n i s m f o r a i r q u a l i t y&m e t e o

28、r o l o g i c a l d a t a图2 应用于空气质量数据&气象数据的注意力机制通过Q u e r y和K e y的矩阵相乘得到表示时间戳相关性的S c o r e矩阵;最终通过S c o r e和V a l u e的矩阵相乘得到A t t e n t i o n机制的输出结果。本文将A t t e n t i o n机制应用于多元空气质量数据,I n p u tRwn表示输入的多元时间序列,其时间跨度为w,包含n个特征,如PM 2.5、PM 1 0、温度、湿度等。首先,经过线性映射将输入数据映射到稠密向量AcRwdm o d e l,其中dm o d e l为模型超F i g

29、 u r e 3 I m p u t i n g s t r a t e g y图3 填充策略参;接着,通过多个全连接操作将稠密向量映射到3个不同的表示空间Q u e r y,K e y,V a l u e Rwl e n,其中l e n为n映射后的维度大小;然后,将Q u e r y和K e y的矩阵相乘得到S c o r e Rww,其每个元素代表2个时间 戳数据之间 的相关程度 得分,S c o r e矩阵包含了输入数据中任意2个时间戳之间的相关性;最后,将S c o r e和V a l u e的矩阵相乘得到A t t e n t i o nRwdm o d e l,由于S c o r

30、e矩阵为任一时间戳分配了其与其他时间戳的权重,A t t e n t i o n中任一时间戳数据为V a l u e矩阵所有时间戳数据的加权求和,即A t t e n t i o n机制关注数据内部潜在联系的表现。如若计算不同特征时间序列之间相关性,仅需对I n p u t进行转置,经过Q u e r y和K e y的矩阵运算模型会得到S c o r eRnn,这代表着不同特征时间序列之间的权重分配。此外,正如卷积操作将数据映射到多维通道之上,本文使用多头注意力机制将数据映射到多个注意力空间上进行缩放点积运算 4,以增强模型泛化能力。3.2 填充策略T AM的块缺失填充策略如图3所示。图3中的

31、数据矩阵仅来自于单个监测站,w代表输入数据的时间窗口大小,虚线框代表输入的数据矩阵,?代表缺失数据。由于T AM仅使用目标监测站的数据,因此对于S p a t i a l B l o c k M i s s i n g中的每个缺失值,本文可以按照G e n e r a l M i s s i n g分别进行填充,或者说由于本文不再关注不同地理位置相同属 性 之 间 的 联 系,实 验 不 再 将S p a t i a l B l o c k M i s s i n g单独分 为一种缺失 类型;对于F e a t u r e s B l o c k M i s s i n g(图3中ta+3时间

32、 戳),本文使 用T AM1,T AM2,T AMn 分别进行估计;对于T e m p o r a l B l o c k M i s s i n g(s3属性的ta+1至ta+3时间戳),模型按照时间顺序进行填充,经过对ta+1时间戳的一步填充(O n e S t e p I m p u t a t i o n),模型将7531马思远等:基于注意力机制的城市多元空气质量数据缺失值填充预测数值(图3中灰色网格加粗字体)填入数据矩阵,构成完整的数据矩阵来预测ta+2时间戳的缺失数据。F i g u r e 4 A r c h i t e c t u r e o f T AM图4 TAM模型架构3

33、.3 模型架构T AM整体架构图如图4所示。模型使用多视图对空气质量数据和气象数据进行建模:特征视角(F e a t u r e V i e w)关注特征时间序列之间的潜在联系,时间戳视角(T i m e s t a m p V i e w)关注不同时间戳之间的相关性。与此同时,当预测时间戳t的数值时,其短期历史数据往往存在着有效信息 3,前值视角(P r e v i o u s V i e w)正是关注了这一点,其预测值为t-1时间戳的数值。模型使用包含多种特征的数据作为输入数据,但是每种数据的均值相差较大,如C O浓度均值为1.2 3,而压强的均值为1 0 0 2.6,因此首先使用批标准化

34、函数(B a t c h N o r m层)对模型输入进行标准化操作。A t t e n t i o n机制不能像R NN(R e c u r r e n t N e u r a l N e t w o r k)一样很好地获取时间序列所拥有的时序信息,因此,模型在输入层(对应图3中的I n p u t L a y e r)中经过一层全连接层将稀疏向量映射到维度更高的稠密向量,接着添加位置编码层(P o s i t i o n E n c o d i n g)来增强数据的位置信息 4。如图2所示,A t t e n t i o n机制中使用的前馈层均为全连接层,因此模型在A t-t e n t

35、i o n之后添加非线性激活函数,以增强拟合能力、加快训练速度,添加随即失活D r o p o u t 1 9减轻过拟合程度。针对缺失读数的连续型数据与离散型数据模型的输出层(对应图3中O u t p u t L a y e r)分为连续型缺失值输出层与离散型缺失值输出层(分别对应图3中C o n t i n u o u s O u t p u t L a y e r与D i s c r e t e O u t-p u t L a y e r)。图4展示了离散型归因和连续型归因在O u t p u t L a y e r上的架构。当缺失类型为连续型时,模型在特征视角和时间视角分 别得到2个视角

36、的特 征矩阵,表示 为M a t r i xF和M a t r i xT,在连续型缺失值输出层中经过线性层映射分别得到预测值p r eF和p r eT,P r e-v i o u s V i e w的数值预测表示为p r eP。接着,模型将各个视图的预测值按照式(1)进行加权求和得到最终的预测结果:O u t p u t=w1*p r eF+w2*p r eT+w3*p r eP+b(1)其中,w1,w2和w3为权重,b为偏置。当缺失数值为离散型数值时,T AM将不再关注前值视角,因为多个视角的预测标签通过加权求和无法保证得到有效整数值。因此,模型将特征视角和时间视角的输出矩阵在离散型缺失值输

37、出层中进行降维拼接,并经过一层线性层映射得到一个向量。该向量长度与分类类别数相同,其每个数值代表对应下标的预测可能性,最大值所对应下标即为预测标签。4 实验与结果分析4.1 构建数据集实验使用的数据为2 0 1 4-0 5-0 1至2 0 1 5-0 4-3 0期间北京市3 7个空气质量监测站和1 7个气象监8531C o m p u t e r E n g i n e e r i n g&S c i e n c e 计算机工程与科学 2 0 2 3,4 5(8)测站收集到的为期1年的真实公开数据,数据采样间隔为1个小时。其中,空气质量数据包含6种属性,分别是PM 2.5、PM 1 0、NO2

38、、C O、O3和S O2;气象数据包含6种属性,分别为天气、温度、压强、湿度、风速和风向。天气和风向为离散型数据,其余为连续性数据 2 0 2 2。表1为北京市6种污染物缺失值的百分比,其中P M 1 0缺失最为严重,达到4 0%以上,在数据文件中缺失的值用NU L L表示。T a b l e 1 P e r c e n t a g e o f d a t a m i s s i n g r a t i o s o f 6 a i r q u a l i t y p o l l u t a n t s i n B e i j i n g 表1 北京市6种空气质量污染物数据缺失比率污染物PM 2

39、.5 PM 1 0NO2C OO3S O缺失比率/%1 3.34 5.11 61 5.11 5.41 5.2 本文使用空气质量分指数I AQ I(I n d i v i d u a l A i r Q u a l i t y I n d e x)2 3来量化空气中各成分的污染程度,方便了解污染物浓度对应的污染等级。如表2所示,数值越大,其等级越高,空气污染情况越严重,对人类健康的风险就越大;当达到中度污染(M o d e r a t e P o l l u t i o n)时,可能会对健康人的心脏和呼吸系统产生影响;当达到严重污染时(S e r i o u s P o l l u t i o

40、n)甚至会使人提前出现某些疾病。本文构 建 样 本 数 据 集(以 下 也 称 为S a m p l e D a t a s e t)用于模型训练、验证和测试,处理过程主要分为以下几个步骤:(1)获得监测站的气象数据。气象数据按照区域进行划分,本文按照数据文件提供的监测站与区域对照表,获得各个监测站对应区域的气象数据。(2)匹配空气质量数据与气象数据。二者一年的数据记录数均小于3 6 5天2 4小时=8 7 6 0,本文按照空气质量数据的时间戳属性,使用外连接方式拼接气象数据,以匹配二者相同时间戳的记4录。(3)时间连续化。如步骤(2)中所述,数据隐式缺少若干时间戳的全部属性,直接顺序构建样本

41、会导致样本内部时间不连续。实验根据时间戳属性将数据构建为连续的时间片段。(4)构建样本与数据集。如图3所示,本文实验使用滑动窗口的方式取样本并构建数据集,窗口大小w为2 4,滑动步长为1。对于含有缺失值的样本,本文直接丢弃,不加入数据集。本文视窗口内的数据为已知数据,下一个时间戳的数据为缺失数据。本文实验数据集包含5 8 4 9个样本,为防止极端天气较少的状况影响模型的训练与测试效果,本文按照天气属性进行分层抽样,最终训练集、验证集和测试集样本数比例约为411。本文构 建 连 续 时 间 块 数 据 集(以 下 也 称 为B l o c k D a t a s e t)来测试模型在时间块缺失上

42、的归因效果。本文从数据文件中截取时间连续且不包含任何缺失数据的数据片段,其包含所有的空气质量与气象数据属性,如图5 a数据矩阵(D a t a M a t r i x)所示,接着构建与数据矩阵大小相同的掩码矩阵(M a s k M a t r i x)如图5 b所示,并在需要测试的属性上随机设置缺失数据点,其中0代表未缺失,1代表普通缺失,2代表时间块缺失。F i g u r e 5 T e m p o r a l B l o c k M i s s i n g d a t a m a t r i x图5 时间块缺失数据矩阵T a b l e 2 I A Q I i n d e x a n d

43、 t h e c o r r e s p o n d i n g p o l l u t a n t i t e m c o n c e n t r a t i o n l i m i t s表2 空气质量分指数与污染物浓度限值I AQ IL e v e lPM 2.5/(g/m3)PM 1 0/(g/m3)NO2/(g/m3)C O/(m g/m3)O3/(g/m3)S O2/(g/m3)0E x c e l l e n t0000005 0G o o d3 55 04 021 0 01 5 01 0 0L i g h t p o l l u t i o n7 51 5 08 041 6 0

44、5 0 01 5 0M o d e r a t e p o l l u t i o n1 1 52 5 01 8 01 42 1 56 5 02 0 0H e a v y p o l l u t i o n1 5 03 5 02 8 02 42 6 58 0 03 0 0+S e r i o u s p o l l u t i o n2 5 0+4 2 0+5 6 5+3 6+8 0 0+-9531马思远等:基于注意力机制的城市多元空气质量数据缺失值填充4.2 实验及参数设置实验使用训练集进行模型训练,使用验证集进行验证并使用早停策略防止模型过拟合,最终在测试集上进行测试得到实验结果。模型使用

45、平均标准误差MA E作为每个属性的预测误差,如式(2)所示:MA E=n u mi=1vi-vin u m(2)其中,n u m表示测试样本数量,vi表示观测值,v表示预测值。为了评价模型在多个属性上填充的整体效果,本文使用广义平均绝对偏差GMAD指标 2 4来衡量某个属性上的预测效果,如式(3)所示:G AMD=1n u mn u mi=1vi-vixm a x-xm i n(3)其中,xm a x和xm i n分别表示缺失值所在属性所有观测值的最大值和最小值。接着本文通过累加多个属性上的GMAD来表示整体归因误差gs u m,如式(4)所示:gs u m=ni=1GMADi(4)其中,n为

46、参与统计的属性个数,GMADi为第i个属性上的GMAD结果。此外,本文使用准确率A C C来表示离散型数据的预测效果。本文构建了多种基线模型来进行实验与结果对比。本文考虑了平均替换ME AN和前值替换P R E V I OU S等传统方法;还考虑了一些出色的机器学习模型,如KNN和S VM等;当然本文也构建了具有强大学习能力的、基于模型策略的归因方法,如ML P和R NN等。总之,本文将T AM与如下1 0种基线模型进行对比:(1)L R:线性回归模型。(2)ML P:多层感知机模型,含有一层隐藏层,使用R e L U激活函数进行非线性激活,经过实验隐藏层维度设置为2 4效果最佳。(3)R N

47、N:循环神经网络,经过实验隐藏层维度设置为5 1 2,层数设置为1。(4)ME AN:使用缺失值所在属性上观测值的平均值进行填充。(5)KNN:使用非均匀的欧几里得重叠度量HE OM(H e t e r o g e n e o u s E u c l i d e a n O v e r l a p M e t-r i c)作为距离测度 2 5,2 6,其效果优于欧氏距离的;对于K个最邻近对应数值,按照距离远近进行权重分配得到加权求和的结果 2 7,作为最终的预测,其效果好于使用K个数值的平均值。(6)S VM:支持向量机模型。(7)L S VM(L i n e a r S u p p o r

48、t V e c t o r M a c h i n e):基于线性核函数的支持向量机,更适合数据集较大的任务。(8)P R E V I OU S:使用缺失值所在属性前一个时间戳的数值进行填充。(9)N B:朴素贝叶斯模型,本文使用高斯分布贝叶斯模型,其结果优于多项式贝叶斯(M u l t i n o-m i a l N B)与伯努利贝叶斯(B e r n o u l l i N B)模型。(1 0)R F(R a n d o m F o r e s t):随机森林模型,经过实验设置树的数量为1 0 0 0。本文 使 用 相 同 的 超 参 数 初 始 化 T AM1,T AM2,T AMn,在

49、O u t p u t L a y e r中,w1,w2,w3,b初始值为0.3 3,0.3 3,0.3 3,0,学习率为0.0 1,其余参数的学习率为0.0 0 0 1。本文使用L1损失函数与交叉熵损失函数分别计算连续型与离散型缺失数值的损失。本文在6种空气质量属性与气象数据中的天气属性进行缺失值填充实验。T AM参数设置如表3所示。T a b l e 3 P a r a m e t e r s s e t t i n g o f T AM表3 T AM参数设置参数名参数值dm o d e l 5 1 2l e n 8多头注意力头数5 1 2D r o p o u t0.2批大小5 1 2优

50、化器A d a m学习率0.0 1或0.0 0 0 1损失函数L1 L o s s4.3 结果与分析4.3.1 样本数据集上的普通缺失填充结果表4展示了本文提出的模型与1 0种基线模型在6种连续性空气质量数据和1种离散型数据(天气)上的实验结果。每一轮实验在相同随机初始化条件的情况下,使用全部模型在全部属性上进行一次训练、验证和测试。本文进行1 0轮实验,并取所有轮次的平均值作为最终结果。可以看出,在6种连续 型 特 征 中,T AM的 填 充 效 果 在PM 2.5、PM 1 0、NO2、O3与S O2这5种属性上优于其他基线模型。而且相比较于排名第2的基线模型在结果上领先较多,参照MA E

展开阅读全文
部分上传会员的收益排行 01、路***(¥15400+),02、曲****(¥15300+),
03、wei****016(¥13200+),04、大***流(¥12600+),
05、Fis****915(¥4200+),06、h****i(¥4100+),
07、Q**(¥3400+),08、自******点(¥2400+),
09、h*****x(¥1400+),10、c****e(¥1100+),
11、be*****ha(¥800+),12、13********8(¥800+)。
相似文档                                   自信AI助手自信AI助手
百度文库年卡

猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服