收藏 分销(赏)

DB37_T 4529-2022海洋大数据分级存储技术规范.pdf

上传人:Fis****915 文档编号:384684 上传时间:2023-09-12 格式:PDF 页数:9 大小:740.90KB
下载 相关 举报
DB37_T 4529-2022海洋大数据分级存储技术规范.pdf_第1页
第1页 / 共9页
DB37_T 4529-2022海洋大数据分级存储技术规范.pdf_第2页
第2页 / 共9页
DB37_T 4529-2022海洋大数据分级存储技术规范.pdf_第3页
第3页 / 共9页
DB37_T 4529-2022海洋大数据分级存储技术规范.pdf_第4页
第4页 / 共9页
DB37_T 4529-2022海洋大数据分级存储技术规范.pdf_第5页
第5页 / 共9页
点击查看更多>>
资源描述

1、 ICS 35.240.99 CCS L 67 37 山东省地方标准 DB37/T 45292022 海洋大数据分级存储技术规范 Technical specification for hierarchical storage of ocean big data 2022-07-25 发布 2022-08-25 实施 山东省市场监督管理局 发 布 目次 前言.II 1 范围.1 2 规范性引用文件.1 3 术语和定义.1 4 缩略语.1 5 数据分级.2 5.1 分级要素.2 5.2 定级规则.2 5.3 分级等级及存储要求.2 6 分级存储技术要求.3 6.1 基本要求.3 6.2 分级存储

2、实现.3 6.3 数据迁移.3 7 分级存储管理要求.4 7.1 设备管理.4 7.2 资源管理.5 7.3 策略管理.5 7.4 监控运维.5 参考文献.6 前言 本文件按照GB/T 1.12020标准化工作导则 第1部分:标准化文件的结构和起草规则的规定起草。请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。本文件由山东省海洋局提出并组织实施。本文件由山东省海洋标准化技术委员会归口。海洋大数据分级存储技术规范 1 范围 本文件规定了海洋大数据的数据分级以及分级存储的技术要求和管理要求。本文件适用于10 PB级以上海洋大数据的分级存储与管理。2 规范性引用文件 下列文

3、件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T 352952017 信息技术 大数据 术语 3 术语和定义 GB/T 352952017界定的以及下列术语和定义适用于本文件。3.1 大数据 big data 具有数据巨大、种类多样、流动速度快、特征多变等特性,并且难以用传统数据体系结构和数据处理技术进行有效组织、存储、计算、分析和管理的数据集。来源:GB/T 379732019,3.1 3.2 海洋大数据 ocean big data 具有大数据特征的海洋

4、领域数据集。3.3 数据分级 data classification 按照存储效能的分级规则对大数据进行定级。3.4 分级存储 hierarchical storage 采用相应等级的存储要求对大数据进行存储。3.5 迁移策略 migration strategy 根据大数据的分级等级及数据访问量要求所建立的分级存储实施策略。注:包括迁移触发条件、源存储设备、目标存储设备等。4 缩略语 下列缩略语适用于本文件。CPU:中央处理单元(Central Processing Unit)ETL:数据提取、转换和加载(Extract-Transform-Load)IOPS:每秒读写次数(Input Ou

5、tput Operations Per Second)ORC:列式存储(Optimized Row Columnar)PB:拍字节,1PB=2的50次方字节(Petabyte)RCFile:列存储文件(Record Columnar File)SQL:结构化查询语言(Structured Query Language)5 数据分级 5.1 分级要素 海洋大数据分级定级主要考虑的要素为海洋大数据的访问频率,即根据海洋大数据访问量从高到低来判断,可分为高频率访问的海洋大数据、一般频率访问的海洋大数据、低频率访问的海洋大数据。5.2 定级规则 海洋大数据分级等级分为三级、二级、一级,应按照表1进行海

6、洋大数据的定级。表1 海洋大数据等级条件及判定规则 5.3 分级等级及存储要求 相应等级的海洋大数据的存储应符合表2的规定。表2 海洋大数据分级等级及存储要求 数据分级等级 分级存储要求 三级 三级海洋大数据的存储应符合以下要求:1)应实现数据实时访问,访问延迟应小于5 ms;2)可扩展性:应采用可扩展的存储架构,当存储资源不足时应具备在线扩展能力,且不影响原存储系统的正常运行;3)可靠性:多种手段保护数据,确保数据100%不丢失,保证业务99.999 99%高可用。二级 二级海洋大数据的存储应符合以下基本要求:1)可实现数据实时访问,访问延迟应小于100 ms;2)可扩展性:具备一定的在线存

7、储容量扩充能力,且不影响原存储系统的正常运行;3)可靠性:多种手段保护数据,确保数据100%不丢失,保证业务99.999 9%高可用。等级条件 判定规则 判定等级 三级等级条件:高频率访问的海洋大数据。数据访问频次从高到低,排序前10%部分数据。三级 二级等级条件:一般频率访问的海洋大数据。数据访问频次从高到低,排序前10%30%部分数据。二级 一级等级条件:访问频率较低,或不经常被访问的海洋大数据,或归档的历史海洋大数据。数据访问频次从高到低,排序30%100%部分数据。一级 注:根据对海洋大数据访问周期的统计结果,结合本机构的实际情况,对三级、二级、一级等级的存储空间比例进行适当调整。表

8、2 海洋大数据分级等级及存储要求 数据分级等级 分级存储要求 一级 一级海洋大数据的存储应符合以下基本要求:1)可实现数据延迟访问,访问延迟不高于5 min;2)可扩展性:应支持离线扩展能力,且不影响原存储系统的正常运行;3)可靠性:确保数据100%不丢失,保证业务99.999 9%高可用。6 分级存储技术要求 6.1 基本要求 海洋大数据存储的基本要求:a)应提供结构化、非结构化、半结构化数据存储和处理等功能;b)应支持分布式存储,包括分布式文件存储、分布式结构化数据存储、分布式列式数据存储、分布式图数据存储;c)应提供时序数据存储功能;d)应提供实时数据存储功能;e)应支持批处理计算功能,

9、包括离线批量数据处理、在线批量数据处理等功能;f)应支持实时流处理/计算功能;g)宜提供数据压缩存储功能,支持压缩存储格式,包括文本格式、RCFile、ORC 等;h)宜提供多副本存储功能,并确保数据存储完整性和多副本一致性;i)宜提供多种编程语言和脚本语言进行数据处理功能。6.2 分级存储实现 海洋大数据的分级存储实现:a)应事先明确海洋大数据的数据分级等级,分级等级的判定应根据 5.2 的要求开展;b)应支持依据海洋大数据的分级等级将海洋大数据存储在相应等级的存储设备或系统中,海洋大数据分级等级及存储要求应符合 5.3 的要求;c)海洋大数据分级存储前应事先进行数据处理,应对缺失值数据进行

10、补齐,支持差异数据、脏数据、冗余数据的清洗、去噪、过滤等;d)应定期评估海洋大数据的分级等级,分级等级发生变化的,应将海洋大数据迁移至相应等级的存储设备或系统,包括以下两种方式:1)归档的历史海洋大数据可直接拷贝至磁带库/光盘库等存储介质中;2)采用数据抽取方式将海洋大数据迁移至相应等级的存储设备或系统,应按照 6.3 的规定开展数据迁移。e)应支持根据海洋大数据的分级等级及存储要求、数据访问量,进行不同存储方式之间的迁移策略的设置、修改、删除等操作;f)应支持根据迁移策略实现对海洋大数据的组合查询;g)应支持根据海洋大数据的迁移策略实现海洋大数据的自动迁移,自动迁移应支持迁移日志。6.3 数

11、据迁移 6.3.1 迁移准备 迁移准备工作应包括但不限于:a)制定待迁移数据源的详细说明,包括数据的存储方式、数据量、数据的时间跨度等;b)建立新旧系统数据库的数据字典;c)旧系统历史数据的质量分析;d)新旧系统数据结构的差异分析;e)新旧系统代码数据的差异分析;f)建立新旧系统数据库表的映射关系,并对无法映射的字段进行处理;g)开发、部署 ETL 工具,编写数据转换的测试计划和校验程序;h)制定数据转换的应急措施。6.3.2 迁移实施 6.3.2.1 数据抽取 应建立新旧系统数据库表的映射关系,采用合适的数据抽取工具将海洋大数据从源存储设备或系统抽取至目标存储设备或系统。6.3.2.2 数据

12、转换 应对迁移至新存储设备或系统的海洋大数据进行数据质量分析,以找出存在问题的数据。应对重复、错误、不完整、违反业务或逻辑规则等问题数据进行相应的操作。6.3.2.3 数据装载 通过装载工具或自行编写的SQL程序将抽取、转换后的结果数据加载到目标存储系统中的存储设备。6.3.2.4 数据校验 迁移后的质量校验要求:a)海洋大数据迁移后,应对迁移后的海洋大数据进行数据校验,可通过以下两种方式对迁移后的海洋大数据进行校验:1)新旧系统查询数据对比检查,通过新旧系统各自的查询工具,对相同指标的数据进行查询,并比较最终的查询结果;2)将新系统的数据恢复到旧系统迁移前一天的状态,并将最后一天发生在旧系统

13、上的业务数据补录到新系统,检查有无异常,并和旧系统比较最终产生的结果。b)数据校验内容应包括但不限于:1)数据格式检查:检查数据的格式是否一致和可用;2)数据长度检查:检查数据的有效长度;3)区间范围检查:检查数据是否包含在定义的最大值和最小值的区间中;4)空值、默认值检查:检查新旧系统定义的空值、默认值是否相同;5)完整性检查:检查数据的关联完整性;6)一致性检查:检查逻辑上是否存在不一致的数据。7 分级存储管理要求 7.1 设备管理 支持分级存储系统或设备的磁盘、CPU、内存、电源、风扇、网口等信息的查询,以便实时了解分级存储系统或设备运行状态等;同时及时了解运行有误的分级存储系统或设备,

14、若有必要应采取适当措施保证其正常运行。7.2 资源管理 海洋大数据分级存储资源管理要求:a)应提供分级存储系统的各个节点的服务情况的查询功能,包括节点的主备、节点的容量和性能(IOPS、读流量、写流量)等信息,实时了解域内资源信息,运行状态;b)应提供用户权限范围内的节点管理功能,包括存储信息的添加、修改、删除等;c)应及时了解资源的异常,若有必要应采取适当措施保证其正常运行;d)应提供 CPU、内存、存储等资源的调度和配置功能;e)应支持静态资源分配策略和动态资源分配策略;f)应提供资源视图查看功能,包括可用 CPU、内存、存储等的利用率、分占比等;g)宜提供设置任务优先级的功能,并按任务优

15、先级对资源进行调度;h)宜提供作业自动分配或手动分配功能;i)宜提供作业运行状态管理功能,包括开始、暂停、转移和重启等;j)宜提供资源扩展和预留功能,以及资源预警、告警功能。7.3 策略管理 海洋大数据分级存储策略管理要求:a)分级存储策略管理:1)应提供灵活的分级存储策略,包括异地存储、加密存储、压缩存储、同步或异步等存储方式,不同分级等级海洋大数据的分级存储策略应符合 5.3 的要求;2)应支持对海洋大数据分级存储策略的设置、修改、删除和查询等。b)迁移策略管理:应支持对海洋大数据迁移策略的设置、修改、删除和查询等;c)应提供海洋大数据分级等级、分级存储要求和迁移策略三者间的映射关系。7.

16、4 监控运维 海洋大数据分级存储监控运维要求:a)应定期对海洋大数据的分级等级进行监测,海洋大数据分级等级发生变化时,应实现海洋大数据的自动迁移或人工迁移;b)应实时监控各分级等级的存储设备的剩余空间,当存储设备剩余空间达到预先设定指标时,应实现海洋大数据的自动迁移或人工迁移;c)应定期扫描海洋大数据的数据访问量,可根据数据访问量对数据进行迁移管理;d)宜充分考虑海洋大数据的增长速度,并定期对各级别存储设备的容量可扩展性进行分析,确保各级别的存储设备有足够的存储容量。参考文献 1 GB/T 377222019 信息技术 大数据存储与处理系统功能要求 2 GB/T 379732019 信息安全技术 大数据安全管理指南 3 GB/T 397862021 信息安全技术 信息系统密码应用基本要求

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 通信科技 > 数据库/数据算法

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服