1、2023 年 6 月第 6 期 总第 198 期海峡科学Straits ScienceJune 2023No.6,Total 198th基于 Hadoop 架构的计量信息公共服务平台关键技术研究钱志森(福建省计量科学研究院,福建 福州 350012)摘要 为整合各级计量管理部门、计量技术机构和计量器具使用单位的计量信息资源,该文介绍了基于 Hadoop架构的计量信息公共服务平台,重点阐释了数据采集、数据清洗、数据存储和数据安全等关键技术,并说明了平台的应用功能。平台的应用将有效提高计量管理部门的监管效率,提升计量技术机构服务能力和计量器具使用单位的管理水平,具有较好的经济效益和社会效益。关键词
2、 Hadoop 架构 数据采集 计量信息公共服务平台中图分类号 F203文献标识码 A文章编号 1673-8683(2023)06-0085-031 概述计量信息公共服务平台是指以计量学理论和数据挖掘技术为基础,集成了不同的计量标准、业务流程和服务资源的信息化平台。其主要目的是整合计量技术机构和企事业单位的数据资源,挖掘计量数据的应用价值,为政府部门、计量技术机构、企事业单位及社会公众提供便捷、高效、可靠的计量服务,使计量管理变得更智慧、更精准、更便捷,彻底解决底数不清、监管不到位、检定效率不高等计量管理难点、痛点和堵点问题。为实现该目标,需要借助于现代互联网技术打造一个具有较高性能和可靠性的
3、计量信息公共服务平台。Hadoop 作为现代分布式计算平台的代表之一,已经广泛应用于大数据领域,其分布式计算模型和可扩展性使其成为大规模数据处理的首选架构之一。本文将介绍基于 Hadoop 架构的计量信息公共服务平台,并重点研究数据采集、数据清洗、数据存储和数据安全等关键技术,所提的技术方案可较大提升平台的性能和可靠性。2 平台总体架构设计2.1 Hadoop 分布式计算架构2.1 Hadoop 分布式计算架构Hadoop 是一个开源的分布式计算架构,它提供了一个可扩展的分布式存储系统(HDFS)和一个可扩展的分布式计算框架(MapReduce)。Hadoop 的分布式计算模型能够满足大规模数
4、据处理的需求,并且能够快速地处理大量的非结构化数据。Hadoop 的核心组件包括 HDFS、MapReduce 和 Yarn。HDFS 是 Hadoop 分布式文件系统,用于存储和管理大量数据;MapReduce 是用于并行处理大型数据集的软件框架,在 Hadoop 上用于进行大规模数据处理和分析;Yarn 是用于作业调度和集群资源管理的框架,用于管理 Hadoop 集群中的各种资源。在基于 Hadoop 的计量信息公共服务平台中,HDFS 作为数据存储和管理的基础,可以存储各种类型的数据,包括计量标准、计量方法、测量设备、计量器具信息、证书信息等数据源;MapReduce 作为平台的分布式计
5、算框架,可以实现大规模数据的处理和分析;YARN 作为资源管理和作业调度框架,可用于管理计量信息公共服务平台中各项业务流程所需的资源。2.2 基于 Hadoop 的计量信息公共服务数据挖掘架构设计2.2 基于 Hadoop 的计量信息公共服务数据挖掘架构设计数据挖掘架构可解决计量公共服务在 Hadoop 下对数据资源的整合、抽取、挖掘、分析等方面的问题。如图 1 所示,该架构通过 ELT 工具将计量业务活动过程中的数据如企业信息、器具信息、检测数据、证书信58HAI XIA KE XUE海峡科学2023 年第 6 期息等数据源经过抽取、清洗转换之后,加载到 Hadoop平台的数据仓库,将计量技
6、术机构、企事业单位中的分散、标准不统一的各种数据整合到一起,为下一步数据挖掘应用提供数据基础。为计量业务相关数据建立不同的数据挖掘模型,再通过 Mahout 等大数据挖掘工具把挖掘出的数据进行分析应用,为计量行政管理部门、计量技术机构、企事业单位的决策提供数据支撑,为社会大众提供信息咨询等服务1。图 1 基于 Hadoop 的计量公共服务数据挖掘架构3 计量信息公共服务平台关键技术3.1 数据采集3.1 数据采集在计量信息公共服务平台中,数据采集是非常重要的环节。数据采集的目的是从各种数据源中采集数据,并汇总到平台的数据存储系统中,供后续的数据处理和分析使用。数据采集的主要步骤包括数据源选择、
7、数据传输和数据存储等。在数据源选择方面,首先确定需要采集哪些数据,以及这些数据的存储位置和格式。对于计量信息公共服务平台需要采集的数据包括计量标准、计量仪器、样品数据等。这些数据通常存储在不同的数据源中,如数据库、文件系统、Web 服务等。因此,在数据采集程序开发阶段,需要对不同类型的数据源进行适配,实现采集数据的正常运行。在数据传输方面,需要选择合适的传输协议和数据传输方式。常用的数据传输协议有 HTTP、FTP、SMTP 等,而数据传输方式可选择基于 TCP 的 Socket 或基于 UDP 的数据报表方式。在选择传输方式时,需要考虑数据传输的效率和安全性。在数据存储方面,需要选择合适的数
8、据存储方式和数据存储系统。对于计量信息公共服务平台,选择适合 Hadoop 架构的数据存储系统非常重要,Hadoop 提供的 HDFS 分布式文件系统可以实现数据的分布式存储和管理,并且具备可靠的数据备份和恢复功能。3.2 数据清洗3.2 数据清洗数据采集后,需要对采集到的数据进行清洗。数据清洗是一个重要的预处理步骤,它的目的是删除不合法、不完整、不准确的数据,保证数据的完整性和准确性。在计量信息公共服务平台中,数据清洗主要有以下两个方面的要求:(1)数据清洗需要满足特定的处理要求。在计量信息公共服务平台中,清洗后的数据需满足特定的格式和要求。例如,清洗后的计量标准应该符合国际标准规范,清洗后
9、的样品数据应该符合计量方法要求等。(2)数据清洗需要实现自动化处理。在实际的数据清洗过程中往往需要大量的人工干预,为了解决这个问题,可以借助现代自动化技术实现自动化处理。3.3 数据存储3.3 数据存储在计量信息公共服务平台中,数据存储是非常重要的,它不仅影响着数据的可靠性和稳定性,也影响着平台的性能和扩展性。在选择数据存储系统时需要考虑以下因素:(1)数据存储可扩展性。由于计量学涉及几何量、热学、力学、电磁学、电子学、时间频率、电离辐射、声学、光学、化学等专业领域,属于跨专业学科,计量信息公共服务平台中的数据量非常庞大,因此需要选择可扩展的数据存储系统。Hadoop 提供的 HDFS 分布式
10、文件系统可以实现数据的分布式存储和管理,可水平扩展。(2)数据存储可靠性。计量信息公共服务平台中的数据非常重要,需要保证其可靠性。Hadoop 提供的HDFS 分布式文件系统具有良好的数据备份和恢复功能,可大大提高数据的可靠性。(3)数据存储性能。在进行大规模数据处理和分析时,数据存储性能直接决定了平台的性能。Hadoop提供的 HDFS 分布式文件系统具有良好的读写性能,可满足平台的性能需求。3.4 数据安全3.4 数据安全在计量信息公共服务平台中,数据安全是非常重682023 年第 6 期海峡科学HAI XIA KE XUE要的,数据安全问题包括数据隐私保护、数据防篡改、数据备份和数据恢复
11、等,在选择数据存储和管理系统时,需要考虑其数据安全性。在 Hadoop 架构中,数据安全主要可以通过以下方式来实现2:(1)数据备份和恢复。在 Hadoop 架构中,数据备份是通过分布式存储实现的,即将数据复制到多个节点上。因此,即使某个节点发生故障,数据也可以从其他节点恢复。此外,Hadoop 还提供了一些工具和机制,用于数据备份和恢复的管理。(2)数据访问控制。在 Hadoop 架构中,数据的访问控制可以通过 Kerberos 方式实现。Kerberos 是一种安全认证机制,可以用于用户身份验证和授权管理。(3)数据加密。在 Hadoop 架构中,数据加密可以通过使用 Hadoop 加密库
12、来实现。该库提供了一系列的加密算法和接口,可用于对 Hadoop 数据进行加密和解密。4 计量信息公共服务平台的功能设计计量信息公共服务平台是一个面向计量行政管理部门、计量技术机构、企业及社会公众的公共服务管理平台,平台的功能结构如图 2 所示,主要包括计量器具管理、到期检定提醒、送检业务管理、计量器具统计、计量数据分析、计量信息推送等功能。图 2 平台功能结构图从图 2 可以看出,计量信息公共服务平台主要由 4个子系统组成,包括器具使用单位平台、计量技术机构平台、计量管理部门平台和社会公众平台。4.1 器具使用单位平台4.1 器具使用单位平台器具使用单位平台是受检企事业单位管理本单位计量器具
13、的端口,可以为企事业单位提供计量器具管理、计量器具检测提醒、送检业务管理、计量器具统计、器具证书查询等功能。企事业单位通过平台可以网上申请强制检定、自助管理检定证书、查找计量服务信息和技术资源、接受计量远程在线培训和指导,分析器具全生命周期和首检不合格数据,获得提高计量产品质量的基础数据3。4.2 计量技术机构平台4.2 计量技术机构平台计量技术机构平台主要面向计量技术机构,主要包括器具收发管理、检定报价管理、出具计量器具证书、计量器具证书管理、证书质量控制及计量业务统计报表等业务功能。计量技术机构通过平台可以实时远程出具计量器具的检定证书报告,有效优化计量技术机构工作流程,规范计量工作程序,
14、提高计量技术机构的管理水平,进一步完善和提高服务水平。4.3 计量管理部门平台4.3 计量管理部门平台计量行政管理部门通过对计量业务数据的汇总,分析各地方、各领域的计量业务进展情况和发展趋势,以提升计量业务管理能力;通过对年度工作完成情况、企业计量需求情况等进行深入分析,为计量行政管理部门科学决策提供高质量数据支撑,提高执法监管效率,优化营商环境,引导行业健康发展。4.4 社会公众平台4.4 社会公众平台社会公众平台是计量信息公共服务平台的统一门户,包含用户注册登录、计量技术机构信息和检定能力的发布和查询、强检目录和检定结果的公示、相关政策法规查询等公共服务类功能。平台向社会公众提供计量技术机
15、构和企业信息、计量业务培训、计量技术需求、计量科技前沿、计量标准库等相关信息,并根据用户浏览习惯推送个性化信息,提供在线咨询答疑功能。5 结束语本文针对计量信息公共服务平台的关键技术进行了研究,提出了基于 Hadoop 架构的解决方案。运用“大数据”思维和高新技术打造计量信息公共服务平台,(下转第 98 页)78HAI XIA KE XUE海峡科学2023 年第 6 期(2022-05-31)2023-01-28.https:/law.moj.gov.tw/LawClass/LawAll.aspx?pcode=L0040138&kw=食品中污染物质及毒素卫生标准.7中华人民共和国国家卫生健康委
16、员会,国家市场监督管理总局.食品安全国家标准 食品中污染物限量:GB 27622022S.北京:中国标准出版社,2022.8中华人民共和国国家卫生健康委员会,国家市场监督管理总局.食品安全国家标准 食品中农药残留限量:GB 27632021S.北京:中国标准出版社,2021.9全国法规资料库.农药残留容许量标准S/OL.(2022-11-01)2023-01-28.https:/law.moj.gov.tw/LawClass/LawAll.aspx?pcode=L0040083&kw=农药残留容许量标准.10全国法规资料库.食品添加物使用范围及限量暨规格标准S/OL.(2022-08-02)2
17、023-01-28.https:/law.moj.gov.tw/LawClass/LawAll.aspx?pcode=L0040084&kw=食品添加物使用范围及限量暨规格标准.11中华人民共和国国家卫生健康委员会,国家市场监督管理总局.食品安全国家标准 食品添加剂使用标准:GB 27602014S.北京:中国标准出版社,2014.12李振良.浅析两岸“行业标准共通”的实践J.中国标准化,2019(13):37-40.13彭召海.检测大米新鲜度的新方法J.啤酒科技,2002(8):32.14程同顺,李远卓.我国台湾地区农业的优势及两岸农业合作的思路J.岭南师范学院学报,2018(11):105
18、-111.15欧燕芳,王全永,聂晓宇,等.中国与柬埔寨大米产品标准比对研究J.标准科学,2019(2):6-10.16谢永丽.加强农产品产地环境整治J.云南农业,2022(1):18-19.(上接第 87 页)是积极响应国务院计量发展规划(20212035 年)相关要求的重要举措。经软件测评,平台的功能、性能和信息安全性等质量特性基本满足要求。平台的应用有利于计量行政管理部门提高监管效率,有利于计量技术机构提升计量服务能力,有利于企业提升产品质量,具有较好的经济效益和社会效益。未来,将进一步完善基于 Hadoop 架构的计量信息公共服务平台,以更好地服务社会的计量需求。参考文献:1郑培强,陈苏.基于私有云的计量公共服务平台的架构设计J.计量与测试技术,2014,41(10):23-24.2陈诚.基于 Hadoop 的数据挖掘算法并行化研究D.广州:广东工业大学,2015.3荆书典,张亚宁,李玉全.基于物联网的计量器具公共服务平台J.中国计量,2017(3):27-29.89