收藏 分销(赏)

物联网数据质量评估应用_吴小娥.pdf

上传人:自信****多点 文档编号:479333 上传时间:2023-10-16 格式:PDF 页数:6 大小:379.77KB
下载 相关 举报
物联网数据质量评估应用_吴小娥.pdf_第1页
第1页 / 共6页
物联网数据质量评估应用_吴小娥.pdf_第2页
第2页 / 共6页
物联网数据质量评估应用_吴小娥.pdf_第3页
第3页 / 共6页
亲,该文档总共6页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、宝鸡文理学院学报(自然科学版),第 卷,第期,第 ,页,年 月 (),:物联网数据质量评估应用吴小娥(宝鸡文理学院 计算机学院,宝鸡市智能信息处理重点实验室,陕西 宝鸡 )摘要:目的提出一个物联网数据质量评估方法,使用适当的评估维度和指标,对一个公开数据集进行质量评估。方法基于传统的全面数据质量管理方法论,包含个物联网数据质量评估维度,使用 语言,评估空气质量数据集。结果与结论对数据集进行了个维度的评估,通过实验数据得到物联网数据集准确性、完整性、及时性、一致性、数据量、可信度评估质量结果,以等级或评分的方式较为全面地对该数据集的质量进行评估,表明该空气质量数据集质量较好。另外,提出了一个通用

2、的物联网数据质量评估方法,并进行了验证。关键词:数据质量;评估;物联网;维度中图分类号:文献标志码:文章编号:()(,):(),:;年,提出了物联网(,)的概念,描述传感器连接到互联网,可提供新的服务能力。物联网由 定义,以互联网、电信网络等传统信息载体为基础,将普通的物理对象连接起来,并提供可识别地址的智能服务的网络。经过几十年的发展,在未来的生活中,汽车、锁和其他日常用品将通过互联网连接起来。这些连接对象可以共享数据,将影响医疗保健、农业、智能家居和交通等多个领域。与普通数据不同,物联网数据具有时序性、数据源唯一、写多读少、删改操作少、结构化、及时性要求高、数据量大等特点。截至 年底,已有

3、 个物联网平台,是 年的倍多。与此同时,不断增长的物联网平台正在产生指数级的数据和速度。至 年,全球联网设备上的数据总量预计将达到 。如果因由这些错误收稿日期:,修回日期:基金项目:宝鸡文理学院第十六批教改项目()作者简介:吴小娥(),女,陕西宝鸡人,讲师,硕士,研究方向:算法设计与优化及计算机应用 :产生的传感器数据质量较差,就会导致错误的决策结果。随着物联网规模的扩大,物联网平台及网络发生故障的概率也会增加。研究表明,数据质量对于数据挖掘过程及为用户提供服务的影响较大。提供了广泛的技术来评估和提高数据质量。由于物联网应用时间不长,已有文献提出了数据质量标准、框架、管理技术和工具,但物联网的

4、数据质量在很大程度上被忽视了。物联网数据分类目前,对物联网数据的分类涉及多个角度,比如数据源、是否静态、应用领域、数据结构等。应用较多的是对各种数据源的依赖,这种物联网的数据概念有种类型,分别为传感器数据、设备数据、一般数据、物联网数据,该分类方法具有通用性,适用于绝大多数的物联网平台,本文提到的物联网数据均基于此分类方法,具体见表。表物联网的数据概念 数据类型来源数据示例传感器数据由传感器产生并以计算机可读格式数字化的数据温度和湿度传感器读数设备数据通过传感器数据进行整合;观察元数据和设备元数据传感器数据的时间戳;如设备型号、传感器型号、制造商等一般数据物联网设备产生的或与设备相关的数据存储

5、在数据库中的传感器观测数据物联网数据除物联网设备产生的原始数据外的所有数据一般数据和设备数据的集合 总结了种物联网数据分类,并解释了每个类别的特点,包括数字型(指具有数值的数据)符号型(具有字符串文本值的数据),离散型(具有有限值或有限值集的数据)连续型(具有无限值集的数据)和静态数据(不改变 的 数 据)流 数 据(随 时 间 变 化 的 数据)。在物联网数据质量研究中,也有采用静态数据和流数据的方法。物联网数据质量影响因素物联网系统架构可分为感知层、网络层和应用层(图)。感知层是物联网的底层,是解决物联网全面感知的核心能力。物联网上有大量的多种类型传感器,每个传感器均是唯一的信息源。物联网

6、中的射频识别器、全球定位系统、红外感应器等传感设备,可以识别和获取各类事物的数据信息,从而实现对物体的智能化控制。网络层主要解决感知层所获得的长距离传输数据的问题,是物联网的中间层,相当于人体的神经中枢和大脑,负责传递和处理感知层获取的信息,实现个端系统之间的数据透明传送。应用层提供丰富的基于物联网的应用,是物联网与用户(包括人、组织和其他系统)的接口。应用层、网络层、感知层均会不同程度地产生数据质量问题,这些问题可能发生在物联网结构的不同层面,并影响物联网平台的数据质量,主要影响因素包括:系统部署规模、资源限制、网络、传感器固有属性、环境因素、损坏、故障影响、隐私保护处理、安全漏洞、数据流处

7、理等。图物联网系统的数据质量 确定了种类型的传感器数据错误,包括异常值、数据缺失、偏差、漂移、噪声、恒定值、不确定性和卡在零点。物联网数据中最常见的错误包括错误数据和缺失数据,错误数据指超过阈值或明显偏离模型所提供的正常行为的值,缺失数据在关系数据库中也被称为不完整数据。认为缺失数据是由多种因素造成的,如网络拥堵造成的无线连接不稳定,电池寿命有限造成的传感器设备断电,环境干扰,如人工遮挡,墙壁,天气状况及恶意攻击等。在物联网系统中,应该检测和纠正这些错误,以改善物联网数据质量,常见错误具体如下。()感知层可能出现的错误类型包括错误数据和缺失数据,影响感知层数据质量的原因主要包括电池损坏或耗尽、

8、精度的限制、机械故障、环境影响(天气、灰尘、动物)、设备升级、网络不稳定、不支持加密。()网络层与感知层可能出现的错误类型一样,影响网络层数据质量的原因主要包括不稳定的无线网络、环境影响和安全攻击。()应用层可能出现的错误类型不仅包括错误数据、缺失数第期吴小娥物联网数据质量评估应用据,还有数据库设计错误、丢失行列和关联错误等,影响对应数据质量的原因主要包括人为错误、数据库模型定义错误和数据流处理运算符。常用评估方法及维度 常用的评估方法有种数据质量管理方法可应用于物联网平台,如全面数据质量管理()和全面信息质量管理()。虽然目前有很多文献提出了数据质量标准、框架、管理技术和工具,但由于物联网的

9、应用时间较短,其数据质量没有被广泛研究。下面,本文将对这种评估方法的主要阶段和评估技术进行比较,此结果将对物联网平台的开发或使用有所帮助。于 年提出了一个通用的方法论()和一套完整的相关维度和改进方法,可以适用于不同的环境。循环包括实施持续质量改进过程的个阶段:定义、测量、分析和改进。于 年描述了一个应用于数据仓库项目的 的方法。后来,由于其详细的设计和普遍性,已经成为一个通用的信息质量管理方法,可以应用于许多领域。的周期包括评估、改进、改进管理和监测。与其他方法论相比,具有独创性,在成本效益分析和管理角度上更加全面。种常用的数据质量管理方法中,数据质量评估只是阶段性的工作,并且针对数据质量评

10、估,和 方法提出了评估框架及在数据评估中可能用到的相关数据质量维度,在实际数据质量评估过程中可以参考这种方法的框架以及选择合适的维度。物联网数据质量评估维度最流行的数据质量评价方法使用了大量的指标,这些指标被归入数据质量维度,但并非所有的维度和指标都适用于所有的数据集和分析问题。数据质量评估是数据质量管理中的一个关键过程,通常涉及许多不同的步骤,并涉及组织内的几个团队。评估阶段选择和定义数据质量测量的类型,然后应用于现有数据,以表明每个维度的执行情况。不同的技术根据其重点来确定不同的数据质量属性。在物联网中,常用的数据质量管理方法包含的数据质量评估维度分别是:准确性用于描述数据与真实值的接近程

11、度;完整性用于描述在特定的使用环境中,主体数据具有所有预期属性和相关实体实例值的程度;及时性用于描述数据的时效性;一致性用于描述数据的属性存在矛盾的程度,并与实体的特定背景下的其他数据保持一致;数据量用于描述原始数据的数据量;可信度用于描述一个数据值或元组的可信度。数据质量维度的选择不可靠的数据作为一种数据质量问题类型,代表了由于各种因素造成的数据质量的内在不确定性。这种不确定性与测量数据项的值在很大程度上代表了测量精度和准确性的真实值有关。准确性和置信度个维度都可以用来分析这些数据项。有这种数据质量问题的项目将被描述为具有较差的准确性和可信度。及时性不足代表了数据质量的一个特殊维度,因为它们

12、可以被看作是数据质量问题的一个关键症状,即丢失读数和不可靠的读数。事实上,一方面,过时的读数(即未能及时达到使用要求)本质上意味着应用所要求的读数不能及时交付。与多源数据有关的问题通常表现为低一致性。此外,数据生成对象使用各种数据格式,造成严重的数据表示问题,导致传入的数据流之间可解释性和互操作性低。物联网数据质量的个重要维度和涉及的错误类型的对应关系如表所示,其中最常见的错误类型是丢失的读数和不可靠的读数,均影响了个数据质量维度。数据的一致性维度由于受到多个数据源的影响,如果多源数据不一致,则会导致数据的一致性较低。数据量维度受重复数据量影响较大,数据的及时性与多个数据源的时间是否对齐相关。

13、在评价数据质量时,应根据物联网系统中可能存在的问题选择合适的维度。表物联网数据质量评估维度涉及到的错误类型 维度涉及的错误类型准确性不可靠的读数完整性丢失的读数数据量丢失的读数,重复数据及时性多源数据的时间对齐不可靠的读数,丢失的读数一致性多源数据不一致可信度不可靠的读数物联网数据质量评估实例将总结的物联网数据质量评估方法应用于一个具体的物联网数据实例,其中,数据集采用机器宝鸡文理学院学报(自然科学版)年学习库的公共数据集,评估维度采用上述提出的个维度。数据集实验采用 机器学习库的公共数据集,共包含 条实例,个空气质量指标,条时间信息,部分数据如表所示。表中的数据采样来自意大利一个严重污染的地

14、区,传感器阵列安装于道路旁,记录从 年月到 年月的数据。其中,一氧化碳、非甲烷氮氢氧化物、苯、总氮氧化物和二氧化氮浓度每小时采样一次,由于网络、天气和传感器故障等原因,数据采集过程中会出现缺失值,数据集将缺失值标记为 。表中 涉 及 的 符 号 说 明 如 下:(),和 分别表示一氧化碳、氧化锡、非甲烷氮氢化合物、苯、二氧化钛、氮氧化物、氧化钨、二氧化氮、氧化钨以及氧化铟的每小时平均浓度,单位均是;表示温度,单位是;表示相对湿度;表示绝对湿度。运行环境导入数据集后,实际结果如图所示。表 空气质量数据集部分数据 ()()()()()()()()()()图数据集导入结果 评估结果在评估数据集的数据

15、质量时,主要分为定性分析和定量分析。定量分析是依据统计数据,建立数学模型,并计算分析对象的各项指标及其数值。定性分析主要凭借分析者的直觉、经验,凭分析对象过去和现在的延续状况及最新的信息资第期吴小娥物联网数据质量评估应用料,对分析对象的性质、特点、发展变化规律作出判断。定量方法则提供了一个系统、客观的数量分析方法,得到一个分数,可以直观具体地看到数据质量。相比较而言,定量分析更加科学,但需要较高深的数学知识,而定性分析虽然较为粗糙,但在数据资料不够充分或分析者数学基础较为薄弱时比较适用。本实验采用定性和定量相结合的方法,对个不同维度进行评估,由于篇幅关系,下面仅对完整性的常见指标、运行代码和运

16、行结果进行展示。常见指标主要是缺失值占比,此数据集用 表示数据丢失,因为统计数据集中每一列的 数量即可,最后再统一计算整体的完整性,结果如图所示,为 。图完整性评估结果 同样,评估准确性的常见指标有:缺失值占比、错误值占比和异常值占比。而及时性则可以采用主观评估方法,给定一个具体的评级或者分数,最终质量评估结果如表所示。表数据集评估结果 维度评估方法结果维度评估方法结果准确性客观 及时性主观良好完整性客观 一致性主观优秀数据量客观 可信度主观优秀由表可知,该数据的准确性是 ,完整性是 ,数据量是 ,及时性良好,一致性和可信度均优秀,该数据集具有较好的质量,可公开用于各项研究。结论随着科技的不断

17、发展和进步,物联网必将发挥巨大的作用,它通过连接数以百万计的日常物品为人类提供多种智能服务。这种广泛的应用必将产生巨大的数据量。在这种情况下,数据质量是一个核心问题。本文主要研究了物联网背景下的数据质量,介绍了数据质量的概念和种常用的物联网数据质量管理方法,总结了在层物联网架构中每层存在的数据质量问题及其影响因素。此外,还选择了一套适合评估物联网数据的通用和特定领域的数据质量维度,以 机器学习库中的空气质量公共数据集为例,对数据集进行了个维度的评估,得到了物联网数据集准确性、完整性、及时性、一致性、数据量、可信度评估质量结果,证明该空气质量数据集质量较好,可应用于进一步研究。参考文献:,:,():,():孙瑜阳智能物联网技术应用及发展研究无线互联科技,():林道炜物联网产业中大数据及智能处理技术的应用分析电脑知识与技术,():,():,:,():,():,:,:(下转第 页)宝鸡文理学院学报(自然科学版)年 :,:,:,:,:,:,:,:,:,:,():,:,():,():,():,:,:,():,():,:,:,:,:,:,:(编校:李宗红)(上接第 页),:,():,(),():,:,():,():,黄国彬,陈丽 国外科学数据质量评估框架比较研究 图书与情报,():,():(编校:井霞)宝鸡文理学院学报(自然科学版)年

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 品牌综合 > 临存文档

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服