收藏 分销(赏)

DB5120T 19.4-2023数据资源体系技术指南 第4部分:数据仓库建设指南.pdf

上传人:Fis****915 文档编号:590823 上传时间:2024-01-10 格式:PDF 页数:14 大小:7.68MB
下载 相关 举报
DB5120T 19.4-2023数据资源体系技术指南 第4部分:数据仓库建设指南.pdf_第1页
第1页 / 共14页
DB5120T 19.4-2023数据资源体系技术指南 第4部分:数据仓库建设指南.pdf_第2页
第2页 / 共14页
DB5120T 19.4-2023数据资源体系技术指南 第4部分:数据仓库建设指南.pdf_第3页
第3页 / 共14页
DB5120T 19.4-2023数据资源体系技术指南 第4部分:数据仓库建设指南.pdf_第4页
第4页 / 共14页
DB5120T 19.4-2023数据资源体系技术指南 第4部分:数据仓库建设指南.pdf_第5页
第5页 / 共14页
点击查看更多>>
资源描述

1、ICS 35.240.01CCS L 70DDB B5 51 12 20 0四 川 省(资 阳 市)地 方 标 准DB5120/T 19.42023数据资源体系技术指南第 4 部分:数据仓库建设指南2023-12-22 发布2023-12-29 实施资阳市市场监督管理局发 布DB5120/T 19.42023I目次前言.II1范围.12规范性引用文件.13术语和定义.14缩略语.25综述.26命名规范.47开发规范.7参考文献.10DB5120/T 19.42023II前 言本文件按照 GB/T 1.12020标准化工作导则 第1部分:标准化文件的结构和起草规则的规定起草。请注意本文件的某些内

2、容可能涉及专利,本文件的发布机构不承担识别这些专利的责任。本文件由资阳市政务服务和大数据管理局提出并归口。本文件由资阳市市场监督管理局批准并发布。本文件起草单位:资阳市大数据服务中心、资阳数智科技有限公司。本文件主要起草人:刘桄序、戢培全、邵柏华、袁嘉、刘光乾、杨建康、张亚琴、李爱民、刘西北、郑雪梅、邓森林、彭国林、陈杜宇、杨通、李强、夏荣、张润泽、任良华、冷耀、陈熙。本文件为首次发布。DB5120/T 19.420231数据资源体系技术指南第 4 部分:数据仓库建设指南1范围本文件规定了资阳市域数据仓库建设相关术语和定义、缩略语、综述、命名规范、开发规范等工作规范。本文件适用于资阳市域的数据

3、仓库建设。2规范性引用文件下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T 5271.1信息技术 词汇 第 1 部份:基本术语GB/T 11457信息技术 软件工程术语GB/T 18492信息技术 系统及软件完整性级别GB/T 20270信息安全技术 网络基础安全技术要求GB/T 20271信息安全技术 信息系统通用安全技术要求GB/T 22032系统工程 系统生存周期过程GB/T 21062.3政务信息资源交换体系 第 3 部分:数据接口规范GB/T

4、 25000系统与软件工程(所有部分)GB/T 28452信息安全技术 应用软件系统通用安全技术要求GB/T 29264信息技术服务 分类与代码GB/T 29765信息安全技术 数据备份与恢复产品技术要求与测试评价方法GB/T 35295信息技术 大数据 术语GB/T 36625.3智慧城市 数据融合 第 3 部分:数据采集规范GB/T 38667信息技术 大数据 数据分类指南GB/T 40094.2电子商务数据交易 第 2 部分:数据描述规范GB/T 40094.3电子商务数据交易 第 3 部分:数据接口规范行GB/T 42450信息技术 大数据 数据资源规划DB51/T 3056政务数据

5、数据分类分级指南3术语和定义GB/T 5271.1、GB/T 11457、GB/T 18492、GB/T 20270、GB/T 20271、GB/T 21062.3、GB/T 25000、GB/T 28452、GB/T 29264、GB/T 29765、GB/T 35295、GB/T 36625.3、GB/T 38667、GB/T 40094.2、GB/T40094.3、GB/T 42450、DB51/T 3056界定的以及下列术语和定义适用于本文件。3.1数据仓库 data warehouse数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。DB5120

6、/T 19.4202323.2贴源层 operational data store数据准备区,与数据源的数据同构,是数据仓库层加工数据的来源,主要目的是简化后续数据加工处理的工作。3.3标准层 standard data贴源层的数据进行清洗、转化后的数据,为后续数据加工提供标准数据。3.4明细层 data warehouse detail保存通过标准层标准化之后的所有历史数据,为后续数据加工提供统一的、标准的数据视图。3.5汇聚层 data warehouse summary按主题对明细层数据进行综合、归类。3.6集市层 data mart在汇聚层的基础上,满足特定的部门或者用户的需求,按照多

7、维的方式进行存储,包括定义维度、需要计算的指标、维度的层次等,生成的面向决策分析需求的数据立方(一个全局数据表与其多个重要字段的索引组成的一个类似于立方体的数据组织结构)。4缩略语下列缩略语适用于本文件。ODS:贴源层(Operational Data Store)STD:标准层(STandard Dat)DWD:明细层(Data Warehouse Detail)DWS:汇聚层(Data Warehouse Summary)DM:集市层(Data Mart)5综述5.1目的本文件的拟制是为了规范数据仓库的建设过程,降低开发难度,保障开发质量,避免因开发不规范文档导致的重复开发及返工等问题。5

8、.2原则数据仓库建设的基本原则主要有三条:a)统一性:为了保持开发风格一致,使得各类命名、各类规则、各类数据格式、开发过程阶段、问题处理方式等保持统一,数据仓库的建设需符合“统一性”原则。DB5120/T 19.420233b)明确性:为了保证开发内容的可理解和易运维,数据仓库的建设需符合“明确性”的原则,命名明确、代码明确、规则明确、处理流程明确、各类分层明确等。c)可扩展性:为了保障后续数据仓库在各个维度的易扩展能力,需要遵循“可扩展性”原则,要求在模型设计、字段设计、代码设计等阶段关注此原则。5.3数据架构(数据采集过程与采集规范一致),如图 1 所示图1数据架构5.4分区选取原则5.4

9、.1表分区原则:a)有数据更新的表需要做分区,若表数据量少则每个分区存当前全量数据,数据量大则每个分区放增量数据;b)分区列尽量选择能够让数据均匀分布的列,避免数据倾斜;c)有必要时可以选择多级分区(如:地区/年/月/日);d)需要频繁查询且数据量较大的表。5.4.2表不分区原则:a)数据几乎不更新的表不需要做分区,如字典表;b)数据量少于 100 万条。5.5任务调度任务调度是配置任务的运行周期,主要基于数据资源中心数据开发平台或其他大数据平台的工作流配置。主要包括以下属性:a)调度周期:工作流调度频率,支持分钟/小时/天/周/月/年。b)起止时间:调度将在有效日期内生效并自动调度,每次调度

10、生成工作流实例。c)依赖上一周期:工作流的本次运行需要依赖上一周期的运行结果。如果上一周期运行失败,则需要手动将上一周期的工作流实例修复并重跑成功,才能继续进行下一周期。d)补数据:若设置的调度起始时间早于当前时间一个调度周期及以上,则缺失的调度周期会被立刻执行,实现补数据的目的。例如:如果调度起始时间早于当前时间 2 个小时,调度周期 1 个小时,会把之前 2 个小时的 2 个工作流实例也生成运行。DB5120/T 19.420234e)调度依赖:即只有指定的上游工作流实例已按依赖策略执行成功,才会调度执行本工作流实例。如果添加了多个上游工作流,则需要所有上游工作流同时满足。6命名规范6.1

11、模型层命名命名要求如表 1 所示。表 1模型层命名分层名英文全称中文名层次定义ODSOperationalData Store贴源层实现功能:业务源系统数据接入到此层,此层数据不做任何加工,禁止重复进入。数据来源范围:业务源系统。数据存储时长:永久。实施环境:数据资源中心数据开发平台或其他大数据平台STDStandard Data标准层实现功能:该层为标准数据层,主要是 ODS 层的数据进行清洗、转化后,导入到这一层,为 DWD 层提供标准数据,并把清洗后的脏数据保留到该层,反馈给业务系统进行修改。数据来源范围:ODS。数据存储时长:根据业务需求状况。实施环境:数据资源中心数据开发平台DWDD

12、ata WarehouseDetail明细层实现功能:该层为数据明细层,主要按主题对数据进行综合、归类。保留通过 STD 层标准经之后的所有历史数据,为 DWS、DM 层提供统一的、标准的数据视图。数据来源范围:此层数据来源于 STD。数据存储时长:根据业务需求保留。实施环境:数据资源中心数据开发平台或其他大数据平台DWSData WarehouseSummary汇聚层实现功能:该层为数据汇聚层,主要从 DWD 层的数据进行粗粒度聚合汇总;按业务需求对事实进行拉宽形成宽表,共性汇总加工。此次支持剪裁。数据来源范围:DWD。数据存储时长:根据业务需求状况。实施环境:数据资源中心数据开发平台或其他

13、大数据平台DMData Mart集市层实现功能:该层为数据集市层,根据应用要求,生成相关结果数据,支撑应用使用数据来源范围:DWD、DWS。数据存储时长:根据业务需求状况。实施环境:数据资源中心数据开发平台或其他大数据平台6.2数据表命名6.2.1ODS 层实体/表名命名形式:ods_数源单位简称的拼音首字母_业务系统拼音首字母_数源单位原有表名称,如表 2 所示。表 2ODS 层表名模型事实表名称模型事实表描述ods_sgaj_jzpt_czrkxxODS_市公安局_警综平台_常驻人口信息ods_sjj_frxxpt_fddbrODS_市监局_法人信息平台_法定代表人命名规则:a)使用英文小

14、写字母,单词之间用下划线分开。DB5120/T 19.420235b)ODS 表会根据情况进行分区,但表名称不体现分区情况,因为 ODS 表名称需要与源业务系统名称保持一致。c)日期分区字段名称为 dt,具体取值格式参见:6.2.6 章节d)添加数据加载日期字段 load_time,数据类型为 String,值格式为:YYYY-MM-DD6.2.2STD 层实体/表名命名形式:std_数源单位简称的拼音首字母_业务系统拼音首字母_根据真实表名称提取中文首字母,如表 3 所示。表 3STD 层表名模型事实表名称模型事实表描述std_sgaj_jzpt_czrkxxstd_市公安局_警综平台_常驻

15、人口信息std_sscjgj_frxxpt_fddbrstd_市市场监管局_法人信息平台_法定代表人命名规则:使用英文小写字母,单词之间用下划线分开。6.2.3DWD 层实体/表名命名形式:dwd_一级类目_数据描述_拉链标识,如表 4 所示。表 4DWD 层表名模型事实表名称模型事实表描述dwd_jbxx_djxx_jtyjsyjbxxbdwd_基本信息_登记信息_交通域驾驶员基本信息表dwd_jbxx_djxx_jtyjsyjbxxb_hisdwd_基本信息_登记信息_交通域驾驶员基本信息表历史拉链表dwd_jbxx_djxx_jtykklldwd_基本信息_登记信息_交通域卡口流量命名规

16、则:a)使用英文小写字母,单词之间用下划线分开。b)一级类目、二级类目、数据描述均采用中文首字母。c)如果是历史拉链表则在表名称加“_his”后缀。6.2.4DM 层实体/表名命名形式:dm_,如表 5 所示。表 5DM 层表名模型事实表名称模型事实表描述dm_alarm交通域失衡预警次数日表dm_index交通域失衡指数日表命名规则,如表 6 所示:(1)使用英文小写字母,单词之间用下划线分开;(2)模型名称缩写、数据内容描述均采用中文首字母。表 6DM 命名规则模型名称对应缩写区域人口分布qyrkfb各地区各年龄分性别人口分布gdqgnlfxbrkfb各少数民族人口分布gssmzrkfb各

17、地市分受教育程度人口数量gdsfsjycdrksl分地区新生儿性别分布fdqxsexbfbDB5120/T 19.420236表 6(续)DM 命名规则模型名称对应缩写各地市历年出生、死亡人口统计gdslncsswrktj迁移人口分布情况qyrkfbqk三次产业分性别迁入人口sccyfxbqrrk各地市城镇化率趋势gdsczhlqs分年龄不同文化程度不同性别婚姻情况fnlbtwhcdbtxbhyqk各地区近年离婚率趋势gdqjnlhlqs各地区养老保险参保人数gdqtlbxcbrs6.2.5临时表命名规范临时表指数据加工处理过程中,用于临时存储的过渡表。命名形式:tmp_XXa)以 tmp 打

18、头,中间为该事实表的名称,b)以 XX 结尾,XX 为从 0199 的数字。6.2.6分区字段命名及取值规范针对表需要分区的情况,所有的一级分区字段名称都为“dt”,如果需要有二级分区,则添加相应的二级分区字段,dt 分区的具体的分区周期,可从模型的命名规范中得知,每种分区的取值规范如表 7所示。表 7分区取值规范分区周期取值规范备注日数据格式:YYYY-MM-DD,如:2021-03-12周数据格式:YYYYWW00,YYYY 表示某年,WW 表示为某年的第几周,00 为数字的零;月数据格式:YYYYMM,如 202103年数据格式:YYYY,如 20216.3节点命名,如表 8 所示。表

19、8节点命名规范节点、资源类型命名规范示例备注数据集成节点etl_节点含义etl_开始根节点启动任务SparkSQL 节点sql_节点含义sql_用水量异常统计Mlab 节点mlab_节点含义mlab_用水量异常统计数据清洗节点clean_节点含义clean_用水量异常统计PhoenixSQL 节点ph_节点含义ph_异常分析数据直通节点Hbase_节点含义hbase_日异常分析SubWorkflow 节点sub_工作流名称sub_指标系统并发节点并发并发使用默认名称不需要更改结合结合结合使用默认名称不需要更改python 资源脚本名称.pyGetLinkDailyVolume.py用英文字母,

20、首字母大写jar脚本名称.jarGetLinkDailyVolume.jar用英文字母,首字母大写6.4工作流命名,如表 9 所示。DB5120/T 19.420237表 9工作流命名规范节点、资源类型命名规范示例备注DataBridge 转换任务zh_目标表名_all/inrzh_ods_gat_jdcdjxx_allall 为全量 inr 为增量DataBridge 作业管理zy_目标表名_运行周期zy_ods_gat_jdcdjxx_all_dd:天 w:周 m:月 y:年DataRiver 标准层清洗bz_目标表名_运行周期_all/inrbz_std_gat_jdcdjxx_d_al

21、lall 为全量 inr 为增量,itg 为 integration,inr为 incrementd:天 w:周 m:月 y:年DataRiver 明细层mx_目标表名_运行周期_all/inrmx_dwd_jbxx_d _allall 为全量 inr 为增量,d:天 w:周 m:月 y:年DataRiver 汇聚层hj_目标表名_运行周期_all/inrhj_dws_jbxx_czrk_d_allall 为全量 inr 为增量,d:天 w:周 m:月 y:年DataRiver 集市层js_目标表名_运行周期_all/inrjs_dm_nlrk_inrall 为全量 inr 为增量,d:天 w

22、:周 m:月 y:年DataRiver 工作调度流程dd_业务流程含义_运行周期dd_ kk_flow_sd_dd:天 w:周 m:月 y:年DataRiver 或DataStudio 工作流job_工作流含义_all/inrjob_ kk_flow_sd_allall 为全量 inr 为增量7开发规范7.1统一数据格式在 STD 层实施过程中,需要将各源系统的数据格式进行统一,如表 10 所示,主要需统一的数据格式。表 10数据格式标准化格式类型统一格式示例日期YYYYMMDD,默认为 1900010120190612时间YYYYMMDDHHMMSS,默认为 1900010100000020

23、190905120000年份YYYY,默认为 19002019年月YYYYMM,默认为 19000120190905时间(分)YYYYMMHHMM 默认为 190001010000201909051200身份证18 位字符,合规性判断,15 位身份证通过数据加工系统统一转化为 18 位字符串去除头尾空格;去除回车;默认为 NULL;全角转半角Trim(数梦工场)DB5120/T 19.420238表 10(续)数据格式标准化格式类型统一格式示例整型默认为 0(可根据具体业务类型调整),去除空格字符、换行回车双精度默认保留 4 位小数位(可根据具体业务调整)主键去重去空值域清洗对于数值类型进行检

24、查以查看它们是否位于可接受的范围内,假如默认值为空,则不做数据转换,否则需要赋为默认值数值清洗对于数值类型进行检查以查看它们是否位于可接受的范围内,假如默认值为空,则不做数据转换,否则需要赋为默认值强制转换对该字段进行强制转换为默认值,如:密码字段转为0空格清洗判断字段是否都为空格,假如默认值为空,则不做数据转换,否则需要赋为默认值7.2统一数据维度应合并来自不同数据源的数据,每个维度进行标准化、统一化,在数据仓库中为每个维度建立一致性的标准,记录在维度表中,并通过元数据与数据映射组合的方式进行描述,方便后续的数据交叉探查等工作。应为每个维度建立标准化的编码方式,以及数据格式。在建立标准化的编

25、码方式后,将各源系统中数据中的维度数据进行关联转换,将不同数据源标识同一事物的不同属性值进行统一。对于不同系统的不同维度,创建维度的映射关系表,将其映射到标准化后的维度上。7.3处理重复数据常见的重复场景及处理方式如表 11 所示表 11重复数据处理方式重复场景处理方式每日全量入库使用数据加工系统中去重的功能;大部分字段一样,但仅某些时间字段不一致,通常为后续添加的操作时间字段取最新操作时间;业务主键一致的情况下,有多条记录,业务主键如同一个人,同一个航班,同一天,同起飞,同到达根据业务主键分区,根据业务时间或系统时间进行排序,取唯一;7.4SQL 开发规范为方便数据加工系统数据血缘解析,以下

26、编码规范必须严格执行:a)SQL 代码中应用到的所有关键字、保留字都使用大写,且不要缩写,如 SELECT、FROM、WHERE、AND、OR、UNION、INSERT、DELETE、GROUP、HAVING、COUNT 等。b)SQL 代码中应用到的除关键字、保留字之外的代码,都使用小写,如字段名、表别名等。c)四个空格为一个缩进量,所有的缩进皆为一个缩进量的整数倍,按代码层次对齐。d)禁止使用 SELECT*操作,所有操作必须明确指定列名。e)SQL 查询结果中不能出现字段名重名,如果有重复字段必须使用 AS 别名。f)SQL 中使用函数对字段进行操作时必须使用别名,如 INSERT IN

27、TO TABLE t1 SELECTcoalesce(name,)AS newName FROM t2。g)建表不可用 CREATE tableA AS SELECT*FROM tableB 这种方式,要先建立表结构,再 INSERTINTO tableA SELECT*FROM tableB。DB5120/T 19.4202397.5数据接口规范应按 GB/T 21062.3 的规定执行。7.6数据安全规范应按 GB/T 20270、GB/T 20271、GB/T 28452 的规定执行。7.7数据备份规范应按 GB/T 29765 的规定执行。DB5120/T 19.4202310AA参考文献1 资阳市人民政府办公室关于印发资阳市人民政府机构简称的通知2资阳市政务信息化项目管理办法(试行)(资府办发202225号)

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 行业资料 > 其他

移动网页_全站_页脚广告1

关于我们      联系我们       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号  |  icp.png浙ICP备2021020529号-1 浙B2-2024(办理中)  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服