收藏 分销(赏)

DB2201∕T 16-2022 城市智能体数据治理技术规范(长春市).pdf

上传人:曲**** 文档编号:69833 上传时间:2022-05-07 格式:PDF 页数:10 大小:369.38KB
下载 相关 举报
DB2201∕T 16-2022 城市智能体数据治理技术规范(长春市).pdf_第1页
第1页 / 共10页
DB2201∕T 16-2022 城市智能体数据治理技术规范(长春市).pdf_第2页
第2页 / 共10页
DB2201∕T 16-2022 城市智能体数据治理技术规范(长春市).pdf_第3页
第3页 / 共10页
DB2201∕T 16-2022 城市智能体数据治理技术规范(长春市).pdf_第4页
第4页 / 共10页
DB2201∕T 16-2022 城市智能体数据治理技术规范(长春市).pdf_第5页
第5页 / 共10页
点击查看更多>>
资源描述

1、 ICS 35.02 CCS L 72 2201 长春市地方标准 DB 2201/T 162022 城市智能体数据治理技术规范 City intelligent agent data governance technical specification 2022 - 01 - 14 发布 2022 - 01 - 30 实施 长春市市场监督管理局 发 布 DB 2201/T 162022 I 前言 本文件按照GB/T 1.12020标准化工作导则 第1部分:标准化文件的结构和起草规则的规定起草。 请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。 本文件由吉林科讯信息科技

2、有限公司提出。 本文件由长春市政务服务和数字化建设管理局归口。 本文件起草单位:吉林科讯信息科技有限公司、讯飞智元信息科技有限公司。 本文件主要起草人:程玉柱、孙权、江志国、于跃、倪伟、丁慧东、柳羽辉、孟红月、刘烁、冷皓。 DB 2201/T 162022 1 城市智能体数据治理技术规范 1 范围 本文件规定了城市智能体数据治理技术的缩略语、数据探查、数据规整、治理管理的内容。 本文件适用于指导城市智能体大数据平台关于数据治理设计单位以及城市智能体建设部门在城市智能体中数据治理的技术设计工作。 2 规范性引用文件 下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。 其中, 注日期

3、的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。 GB/T 34960.52018 信息技术服务 治理 第5部分:数据治理规范GB/T 130002010 信息技术通用多八位编码字符集(UCS)3 术语和定义 GB/T 34960.5界定的以及下列术语和定义适用于本文件。 城市智能体 城市智能体将视联网、物联网、互联网等信息化渠道构建成城市感知体系,以云计算为基础,人工智能技术为手段,将各行业领域的数据进行汇集和共享,向各类业务场景提供数据、算力和技术能力支撑,为城市经济、社会、城市数字化转型等提供支持的智慧城市巨系统。 数据治理 数

4、据资源及其应用过程中相关管控活动、绩效和风险管理的集合。 来源:GB/T 34960.52018,定义3.1 4 缩略语 下列缩略语适用于本文件。 DDL:数据库模式定义语言(Data Definition Language) ETL:描述将数据从来源端经过抽取、转换、加载至目的端的过程(Extract-Transform-Load) HASH:散列函数(Hash function) MD5: 信息摘要算法(MD5 Message-Digest Algorithm) SHA:安全散列算法(Secure Hash Algorithm) UUID:通用唯一识别码(Universally Uniqu

5、e Identifier) DB 2201/T 162022 2 5 数据探查 数据常规检查 数据常规检查规则见表1。 表1 常规检查规则 规则类型 检查规则名称 检查规则描述 基础类检查组件 空值检查 字段值为空检查 全角检查 字段值全角检查 半角检查 字段值半角检查 日期格式检查 1.8 位字符型日期检查(例如:YYYY-MM-DD) ; 2.6 位字符型时间检查(例如:YY/MM/DD) ; 3.14 位字符型日期检查(例如:YYYY-MM-DD HH:MM:SS) 数据格式检查 1.不是汉字报错 2.不是数字报错 3.不是字母报错 值域检查 字段代码值域不在字典中错误 字符长度检查 字

6、段长度不属于定义的范围则报错,包括日期类数据 数值范围检查 字段数值不在定义的范围内则报错,包括数据时间 数值大小校验检查 对两个字段的值进行大小比较,不满足数字大小范围内的报错 多字段空值检查 多个字段同时为空时,业务上认为错误,报错 多字段有值核查 多个字段同时有值时,业务上认为错误,报错 业务类检查组件 身份证合法性检查 1.身份证字段长度核查,不是 15 或 18 位的报错; 2.身份证字段第 18 位校验码不对;身份证号校验码算法(不符合校验码算法的报错) 3.身份证字段第一位为 0 的报错; 4.身份证字段尾码(第 15 位到 17 位)为“000”的报错 5.身份证号码中的出生日

7、期码(第 7-14 位)不合法报错; 不合法:出生日期大于当前系统日期;出生日期小于 1900 年;日期格式不合法; 6.身份证号码中地址码前两位所属的省级行政区划不存在; 身份证号码与性别检查 1.身份证号第 15 或 17 位为奇数, 则性别不为男的报错; 2.身份证号第 15 或 17 位为偶数,则性别不为女的报错 身份证号码与出生日期检查 身份证号码中的出生日期码(第 7-14 位)与出生日期不一致报错 身份证有效期检查 1.一代身份证,即“签发日期”+“有效期”得到的失效日期与当前日期比较; 2.二代身份证,即“公民有效期限截止日期”与当前日期比较; 3.临时身份证,包括:一代临时期

8、限为 1 或 2 年、二代临时期限为 3个月(计算方法同上) 身份证号重复检查 身份证号码相同, 姓名不同的被称为重证号。 该检查主要涉及公民身份证号码、姓名字段 DB 2201/T 162022 3 表1 常规检查规则(续) 规则类型 检查规则名称 检查规则描述 业务类检查组件 姓名合法性检查 1.姓名长度不足 2 个汉字; 2.姓名的汉字中有空格; 3.姓名中有不是汉字的非法字符(除外)少数民族姓名间隔符应用“ ”(GB 13000 编码为 00B7.表示, 未编码冷僻字应用 “”(GB 13000编码为 258C)表示 出生日期合法性检查 1.不足 8 位或大于系统日期; 2.出生日期小

9、于 1900 年; 3.日期格式不合法 “性别” 与 “与户主关系”检查 根据“性别”字典、 “户主关系”字典映射表进行关联性检查 邮箱检查 email 要有符号和“.com”,符号前后为英文或数字 手机号检查 手机号码不等于 11 位应报错,手机号码前两位不所属范围:13、14、15、16、17、18、19 内应报错 网址检查 网址 URL 校验,http 或 https 等 邮政编码检查 邮政编码不等于 6 位报错 IP 地址检查 IP4 和 IP6 地址检查,0255 值,用“ .”分开 4 个值 QQ 号检查 QQ 号码小于 10000 报错 数据自定义检查 除5.1检查外,根据业务实

10、际需要设置自定义检查项。 数据一致性检查 为保障采集的各源系统的实体数据的一致性,检查获取的数据表和各源系统数据表业务字段数据的一致性,包括但不局限于数据条数一致和数据内容一致两个方面。 6 数据规整 数据规整方法 通过数据转换、数据清洗、关联整合等技术手段,对问题数据,包括但不局限于数据标准不一致、数据格式杂乱、数据错误、数据缺失等,进行有效的数据整理。 数据规整规则 数据规整规则主要包括: DB 2201/T 162022 4 a) 字典转换:将非标准的字典数据进行标准化转换; b) 规整任务设计: 规整任务设计应让数据规整人员通过简单流程化、 图形化的操作完成数据清洗、转换、 抽取的操作

11、。 规整任务设计能力包括但不局限于配置输入、 配置输出、 配置规则组件等; c) 常规转换:应根据业务需要,完成常规数据的规整。主要包括但不局限于格式转换规则、内容转换规则、增加列规则、字典转换规则和链接规则,具体规则见表 2 表 6。 表2 格式转换规则 规则名称 规则描述 身份证号转换 15 位到 18 位的身份证号码的转换,小写 x 转大写 X 去空格 去除字段中的空格,可选去全部空格、去前后空格 半角转全角 字段值中全部半角转换全角 全角转半角 字段值中全部全角转换半角 大写转小写 字段值转大写 小写转大写 字段值转小写 表3 内容转换规则 规则名称 规则描述 字符串替换 将字段中的值

12、统一全部替换为另外一个值。例如:将原字段日期中值“1997 年元月”全部替换为“1997 年 1 月”。 从关联字段截取 从某个关联字段中截取部分数据填充到字段中, 补充字段值, 包括但不局限于全部填充和字段值为空时填充两种。例如:字段出生日期中值为空时, 从关联字段身份证号中截取 7-14 位数据填充到出生日期中。 身份证信息提取 从身份证号中按照提取数据, 通过配置截取数据的位置区间, 将截取后的数据值填充到其他字段中。 默认值填充 字段值应填充为一个默认值,包括但不局限于全部填充和数据为空时填充 日期转字符串 日期格式字段值应转换为字符串类字段。例如:yy/MM/dd HH:mm:ss;

13、yy-MM-dd HH:mm:ss;yyMMddHHmmss;yyMMddHHmm;yyMMdd。 数据拆分 将原字段值按照拆分规则拆分成多个新增字段, 原字段应保持不变, 拆分规则包括但不局限于按照固定的分隔符拆分和按照数据位置区间拆分两类。 例如: 原经纬度字段数据为东经 30,北纬 40,配置按照分隔符“,”拆分为 2 个字段经度和纬度,最终得到新增字段经度,数据东经 30,新增字段纬度,数据北纬 40,原经纬度字段不变。 空值处理 当字段值为空时,应配置填充的数据,分为统一默认值填充和从关联字段获取填充两类。 DB 2201/T 162022 5 表4 增加列规则 规则名称 规则描述

14、增加序列 数据处理过程中应增加 uuid 列,列名可以定义 增加常量 数据处理过程中应增加常量列,常量值和列名可以定义 增加哈希值 数据处理过程中应增加一列记录其他指定列的值的 hash,应支持 MD5,SHA-1,SHA-256 表5 字典转换规则 规则名称 规则描述 字典转换 将字段值按照配置的标准字典进行标准转换。例如:将性别字段值转换为标准字典中性别字典字段值 表6 连接规则 规则名称 规则描述 合并规则 合并表数据,将第一张表中字段及数据合并到第二张表中,应支持重复字段的映射配置 关联规则 关联表数据,将两张表通过关联字段进行关联配置,选择关联后的字段信息传输到下一段数据流中 7 治

15、理管理 数据标准管理 数据标准管理是数据资产管理的基础性工作, 提供统一的数据标准定义, 是衡量数据资产运营和管理水平的评估依据。数据标准管理主要包括: a) 标准文档库管理: 应具备国标、 行标的数据元录入、 查询、 编辑、 状态的管理; 标准文档收录、查阅、状态的管理; b) 限定词、同义词、术语等信息库管理:应具备限定词、同义词、术语等信息库收录、查阅、关联显示、状态信息的增加、查询、删除和修改的管理; c) 标准字典管理: 编辑已有的标准字典信息的管理, 及在各类标准字典分类下新增标准字典表及字典项,扩充标准字典库的管理; d) 数据源字典管理:应具备业务系统未进行标准化之前的字典的维

16、护和管理。 元数据管理 元数据是描述信息资源特征的数据,它从信息内容、载体形态、信息资源集合及其组织体系、管理与服务机制以及过程与系统等方面去描述信息资源的特征和属性。 元数据管理对数据存储、 计算过程中涉及的数据源、数据库、表、维度等进行记录和管理。元数据管理主要包括: DB 2201/T 162022 6 a) 数据源管理:通过增加、修改、删除等方式管理各类数据库的连接信息,以便同步各应用系统的元数据信息; b) 元模型管理: 用于获取不同数据库类型的元模型信息, 并展示出各类异构数据库的所有元模型及属性信息; c) 元数据注册: 在数据源下依托元模型进行元数据注册, 包括但不局限于表、

17、视图、 索引、 字段、列族、消息、ETL 等各类元模型下元数据的注册; d) 元数据分析: 应支持按数据源查看已注册的所有元数据以及元数据的血缘影响关系, 并在此基础上支撑创建 DDL 表功能,新增编辑表、字段、索引等元数据信息,扩展数据库元数据信息。 数据资源管理 通过对各层数据库中数据资源进行梳理盘点, 构建分层管理的数据仓库体系, 将数据目录与业务目录进行映射。数据资源管理主要包括: a) 目录分类管理:将数据目录按多层次分类配置形成树状结构,用于分类展示数据资源,实现数据资源的快速检索;包含对目录分类的新增、修改、删除,通过目录分类来定义数据仓库的层级; b) 数据目录编制: 在数据目录分类节点下新增数据目录, 数据目录内属性信息来自现有的元数据,将元数据进行分类管理。同时应支持目录的批量添加、导出、启停、目录分表编制等操作。

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 环境建筑 > 智能化/通信

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服