DB5120T 19.3-2023数据资源体系技术指南第3部分：数据清洗加工规范.docx

资源描述

1、ICS 35.040CCS L 71DB5120四川省（资阳市）地方标准DB5120/T 19.32023数据资源体系技术指南第 3 部分：数据清洗加工规范2023 - 12 - 22 发布2023 - 12 - 29 实施资阳市市场监督管理局发布DB5120/T 19.32023目次前言II1 范围12 规范性引用文件13 术语和定义14 缩略语15 清洗目的26 管理职责27 清洗流程28 具体操作2附录 A（规范性）典型业务数据清洗规则表7参考文献8I前言本文件按照 GB/T 1.12020标准化工作导则第1部分：标准化文件的结构和起草规则的规定起草。请注意

2、本文件的某些内容可能涉及专利，本文件的发布机构不承担识别这些专利的责任。本文件由资阳市政务服务和大数据管理局提出并归口。本文件由资阳市市场监督管理局批准并发布。本文件起草单位：资阳市大数据服务中心、资阳数智科技有限公司。本文件主要起草人：刘桄序、戢培全、邵柏华、袁嘉、刘光乾、杨建康、张亚琴、李爱民、刘西北、郑雪梅、邓森林、彭国林、陈杜宇、杨通、李强、夏荣、张润泽、任良华、冷耀、陈熙。本文件为首次发布。II数据资源体系技术指南第 3 部分：数据清洗加工规范1 范围本文件规定了资阳市域数据清洗加工相关术语和定义、缩略语、清洗目的、管理职责、清洗流程、具体操作等工作规范。本文件适用于资阳市域

3、政务组织、非政务组织和个人信息资源数据清洗加工。2 规范性引用文件下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中，注日期的引用文件，仅该日期对应的版本适用于本文件；不注日期的引用文件，其最新版本（包括所有的修改单）适用于本文件。GB/T5271.1信息技术词汇第 1 部份：基本术语GB/T11457信息技术软件工程术语GB/T18492信息技术系统及软件完整性级别GB/T22032系统工程系统生存周期过程GB/T25000系统与软件工程（所有部分）GB/T29264信息技术服务分类与代码GB/T35295信息技术大数据术语GB/T 36625.3 智慧城

4、市数据融合第 3 部分：数据采集规范GB/T 38667 信息技术大数据数据分类指南GB/T 40094.2 电子商务数据交易第 2 部分：数据描述规范GB/T 42450 信息技术大数据数据资源规划DB51/T 3056 政务数据数据分类分级指南3 术语和定义GB/T 5271.1、GB/T 11457、GB/T 18492、GB/T 25000、GB/T 29264、GB/T 35295、GB/T 36625.3、GB/T 38667、GB/T 40094.2、GB/T 42450、DB51/T 3056界定的以及下列术语和定义适用于本文件。3.1数据清洗加工 data c

5、leaning and processing运用一定方法修正识别的数据问题，转化为满足数据质量要求或应用要求的数据的过程。4 缩略语下列缩略语适用于本文件。ETL：数据的抽取、转换和加载（Extract Transform Load）15 清洗目的数据清洗的目的是为了通过纠正不符合要求的数据来提高数据质量，满足数据质量标准要求。其中不符合要求的数据主要有三类：a）残缺数据：缺一些记录，或一条记录里缺一些值（空值），或两者都缺。b）错误数据：数据没有严格按照规范记录，包括格式内容错误、逻辑错误、不合规等。 c）重复数据：出现多条相同的记录或多条记录代表同一实体。6 管理职责数据提供方：a）

6、数源单位需要参与数据清洗规则和错误处理策略的制定。b）数源单位需要参与数据转换规则的制定。c）数源单位针对重要数据缺失的错误，需要凭借业务经验对缺失数据进行补全。数据管理方：a）数据管理方需要参与数据清洗规则和错误处理策略的制定。b）数据管理方需要参与数据转换规则的制定。7 清洗流程资阳市数据资源中心的数据清洗加工采用 ETL 架构的清洗流程，流程如附录 A 所示。8 具体操作8.1 定义规则分析抽取目标数据的范围体量、类型、内容、关系、质量等信息，全面识别数据情况。以需求为导向、应用为目标，考虑目标数据资源特点和工作复杂程度，结合业务要求或用户和其他相关方的需求、期望，定义切实可操作的数

7、据清洗加工目标及规则。8.2 数据过滤数据过滤的任务是过滤那些不符合要求的数据，数据过滤包括以下操作：a）将非结构化和半结构化数据转化为结构化数据。b）对噪声数据进行删除。c）对业务数据中不符合应用规则的数据进行删除。d）过滤删除掉的数据应存入问题数据库表，便于后续查证或重新使用。注：噪声数据指存在错误或异常的数据，这些数据对数据的分析造成了干扰。8.3 数据检核8.3.1 检核要求数据检核应包括以下操作：a）非空检核：应在字段为非空的情况下，对该字段数据进行检核，数据不能为空值。 b）长度检核：数据长度应满足转换要求的字段长度。c）数据量检核：过滤后的数据总量应与原始抽取的数据总量吻合。

8、2d）数据类型和数据值检核：数据类型和值应能支持后续数据转换过程，如后续根据定义规则需要将时间字符串数据转换成时间类型时，还需检核时间字符串类型的数据，应符合时间格式。8.3.2 检核步骤数据检核步骤如下：a）按检核要求检核数据资源是否满足要求。b）当不满足检核要求时，应进行数据错误标识和错误处理。c）当满足检核要求时，直接进行数据转换。8.4 错误标识8.4.1 识别方法可采用统计学方法、数据挖掘方法、基于聚类的方法、基于距离的方法、基于分类的方法、基于关联规则的方法、业务区分等方式分析数据，从而识别出数据的错误类型。8.4.2 标识步骤错误标识步骤如下：a）按识别方法推荐的方法，分析

9、筛选出数据资源中存在的数据问题。 b）按错误的类型，对数据问题进行分类并标识错误。8.5 错误处理8.5.1 由数源单位进行错误处理的情况，建议数源单位在业务系统中更正数据，并把更正后的数据更新推送到前置库。8.5.2 残缺数据处理a）处理策略按照字段缺失比例和字段重要性，分别制定策略：a）对重要性高、缺失率高的残缺数据，采用以下策略： 1）尝试从其他渠道取数据补全；2）使用其他字段通过计算获取；3）去除该字段，并在结果中标明。b）对重要性低、缺失率高的残缺数据，去除该字段。c）对重要性高、缺失率低的残缺数据，采用以下策略：1）通过计算进行填充；2）通过经验或业务知识估计。d）

10、对重要性低、缺失率低的残缺数据，不做处理或进行简单填充。注：重要性高指该数据如果残缺了会导致业务中断；缺失率按数据质量指标要求应小于 10%，因此大于 10%可认为是缺失率高。b）处理方法去除字段：备份当前数据，直接删除不需要的字段。填充缺失内容：按以下方式填充缺失内容：a）不同指标的计算结果填充：通过数据项与数据项之间的逻辑联系，采取一定的列拆分、列计算等方式得到缺失内容，如年龄字段缺失，但具有公民身份证号，可从公民身份证号提取年龄数据。b）同一指标的计算结果填充：采取均值、中位数、众数等方式进行填充，如时间序列缺失，可使3用前后的均值填充。c）重新获取：对缺失率高且非常重要的数据

11、项，应采取重新抽取不同数据源的数据进行关联对比填充。d）取数补全：以线下收集、业务知识或经验推测的方式补全缺失值。8.5.3 错误数据处理a）格式内容问题处理对格式内容问题数据，采用以下方法处理：a）全角、半角处理：通过正则表达式将全角、半角符号按照事先定义的规则进行全角、半角符号统一。b）有不该存在的字符：以自动校验结合人工方式来找出存在的问题，自动去除不需要的字符，将数据自动化统一或人工修正为正确字符。c）内容与字段不匹配：详细识别问题类型，如人工填写错误、前端没有校验、导入数据时部分或全部存在列没有对齐、数据源端业务系统缺陷等，不能直接删除，应按照清洗规则，采取加入更多数据源进

12、行数据关联，找到匹配的相应字段进行填补。b）逻辑问题处理对逻辑问题数据，采用以下方法处理：a）了解数据潜在的逻辑规则，采取逻辑推理法，过滤掉一些使用简单逻辑推理即可发现的问题数据。b）对于不重要的、不合理的数据可直接删除，对于重要的、不合理值应进行人工干预或引入更多数据源进行关联识别。c）通过字段间相互验证的方法修正矛盾内容，如根据字段的数据来源，判定哪个字段提供的信息更可靠，去除或重构不可靠字段。d）通过分箱、聚类、回归等方法识别离群值（异常值），按照经验和业务流程判断其合理性，若合理，则保留该数值；若不合理，对重要性较高而无法重新采集的数值，按缺失数据处理，对重要性较低的数值，

13、可直接删除。e）对于复杂逻辑数据问题应咨询了解该数据的产生原因，按照协商的清洗加工规则进行处理。c）不合规问题处理对不合规问题数据，采用以下方法处理：a）设定判定规则：设定强制合规条件，不在规则范围内的，强制设置最大值或最小值，剔除或判断为无效字段。b）设定警告规则：不在规则范围内的，进行警告及人工处理。8.5.4 重复数据处理重复问题处理步骤如下：a）通过元数据血缘关系查询到重复数据的各个来源。b）通过数据主键或寻找相关信息识别重复数据的含义，不是相同含义的数据不能界定为重复数据进行去重处理，应分别保留。c）查询到确定的重复数据，根据权威性和应用场合，选择最恰当渠道来源的数据，

14、或在不影响数据保真度和完整性的情况下进行合并处理。8.5.5 质量报告数据检核环节完成后应出具质量报告，内容应包含数据过滤、检核发现的问题（错误标识）和错误4处理的结果。质量报告需推送给相关数源单位。8.6 数据转换数据转换应在数据检核通过后执行，按以下操作执行：a）开始前应检查需要转换的数据规则和字段是否一致。b）应实现对数据的格式、信息代码、值的冲突的转换，典型业务数据清洗规则见附录 A。c）清洗后的数据结构应与目标数据库的结构相兼容。d）数据向目标移动时，将数据复制到多个目标中。e）转换失败应立即停止，开始查找问题。f）长时间未转换结束，需仔细核查数据量、规则和字段是否一致，如有问题

15、应立即停止。 g）转换中查找到问题，应解决问题后再重新开始数据转换。8.7 结果检核8.7.1 检核内容结果检核应包括以下内容：a）主键重复：多个业务系统中同类数据经过清洗后，在统一保存时，检核主键的唯一性。b）非法代码、非法值：检查个别字段出现的异常信息，包括非法代码、代码与数据标准不一致、取值错误、格式错误、多余字符、乱码等。c）数据格式：根据表中属性值的格式检核其准确性，如时间格式、币种格式、多余字符、乱码。 d）记录数：检核各个系统相关数据之间的数据总数，或数据表中每日数据量的波动。e）业务约束：应从业务的角度考虑数据的正确性、一致性、有效性等，如建档日期、入学日期、民族信息等

16、。f）标准约束：对照系统数据应符合的标准进行检核。8.7.2 结果要求清洗后的结果应满足以下要求：a）规范性：数据的质量及存储标准应统一，源数据应在源头或备份表中能找到。 b）唯一性：数据在字段、记录内容或数据集内不应有重复值。c）准确性：数据所指内容对数据所指对象的反应、表现应准确，数据形式对数据内容的表述、表达应准确。d）完整性：数据集合中应包含足够的数据来响应各种查询和支持各种计算。 e）一致性：数据一致性应符合以下要求：1）同一个数据在同一时刻在不同数据库、应用和系统中应只有一个值；2）数据字段内数据应与字段描述一致；3）最终结果数据的统计量应与预测一致。f）时效性：不同

17、类型的应用对数据的时间特性有不同的要求，数据的时间特性应满足业务应用的要求，数据记录应根据时间特性及时更新。g）稳定性：数据来源稳定，数据结果能支撑后续业务。8.8 数据加载数据加载方式应匹配数据抽取方式，包含全量加载、增量加载。数据加载操作应满足以下要求：a）存储环境应能支撑相应数据。b）加载工具应具有高效的加载性能。5c）加载策略应考虑加载周期和数据追加策略两方面的内容。d）加载应记录日志。6附录 A（资料性）典型业务数据清洗规则表清洗规则规则描述统一时间日期数据格式将各类日期统一为八位的字符日期，如YYYYMMDD，符合GB/T 7408-2005。将各类时间统一为六位的字符

18、时间，如hhmmss，符合GB/T 7408-2005。将各类事件日期统一为十四位的字符时间日期，如YYYYMMDDhhmmss，符合GB/T 7408-2005。统一分类数据取值代码将人员的性别数据统一转换为标准信息代码（0-未知的性别，1-男性，2-女性，9-未说明的性别），符合GB/T 2261.1-2003。将人员的民族数据统一转换为标准信息代码，符合GB/T 3304-1991。将人员的户籍地址数据统一转换为行政区划代码，符合GB/T 2260-2007。将人员的婚姻登记情况统一转换为标准的婚姻状况代码（10-未婚，20- 已婚，21-初婚，22-再婚，23-复婚，30-丧偶，40-

19、离婚，90-未说明的婚姻状态），符合GB/T 2261.2-2003。将公民身份证统一转换为18位的身份证号，符合GB 11643-1999。全角半角转换1. 全角转半角（默认值）；2. 半角转全角。去除空白字符配置去除左边的、右边的、所有空白，或将连续的空白字符转为一个空格。字典标准化根据字典表，将数据进行标准化，标准化结果是字典名或字典值。字典表依赖数据标准提供，也可以自定义字典表的条目。数据去重1. 跳过空行（选中表示一行数据都为空的则跳过）；2. 跳过空键（组件有空值则跳过该行数据）；3. 去重范围（选择是在全表去重或是分区内去重）。长度过滤根据用户配置的最大长度和最小长度将输入数据分为三类： 1.字段长度小于最小长度的数据；2. 字段长度在范围内的数据；3. 字段长度大于最大长度的数据。空值过滤根据一个或多个字段的值判断是否要过滤输入数据。过滤原则：有一个字段为空即过滤或者所有字段为空才过滤；空字符串是否要过滤。邮箱校验校验邮箱格式合法性。正则过滤根据一个或多个字段的值设定的正则表达式判断是否要过滤输入数据。统一社会信用代码校验校验统一社会信用代码合法性，符合GB 11714-1997。手机号校验校验手机号合法性。固定号码校验校验固定号码合法性。7参考文献资阳市政务信息化项目管理办法(试行)（资府办发202225号）8

展开阅读全文

DB5120T 19.3-2023数据资源体系技术指南 第3部分：数据清洗加工规范.docx

DB5120T 19.3-2023数据资源体系技术指南第3部分：数据清洗加工规范.docx