收藏 分销(赏)

ETL关键技术标准规范通用.doc

上传人:精**** 文档编号:2783020 上传时间:2024-06-05 格式:DOC 页数:8 大小:89.04KB
下载 相关 举报
ETL关键技术标准规范通用.doc_第1页
第1页 / 共8页
ETL关键技术标准规范通用.doc_第2页
第2页 / 共8页
ETL关键技术标准规范通用.doc_第3页
第3页 / 共8页
ETL关键技术标准规范通用.doc_第4页
第4页 / 共8页
ETL关键技术标准规范通用.doc_第5页
第5页 / 共8页
点击查看更多>>
资源描述

1、ETL技术规范第1章. ETL设计规范ETL设计规范关键应用于ETL编码前期工作。因为ETL全过程是面向数据,关键工作为数据抽取(Extract)、转换(Transform)、装载(Loading),正确界定所包含到数据范围和应该应用转换逻辑对于后续编码工作很关键,这些数据关系确实定,我们称之为Mapping(数据映射)。正确定义数据映射关系是ETL成功实施前提,一个完善Mapping应该包含以下多个部分:1.1 源数据集属性此部分应该具体描述数据源相关属性,包含:实体名称含数据起源名称(DSN)、全部者等信息;字段名称英文名称;字段简述汉字名称,如为参数信息应该有相关取值解释,如性别字段(1

2、:男;2:女;0:不详)类型字段类型,含长度和精度信息;非空属性字段是否能够为空;1.2 目标数据集属性此部分应该具体描述目标数据集相关属性,包含:实体名称含数据起源名称(DSN)、全部者等信息;字段名称英文名称,提议依据字段含义来命名,而不是简单用拼音来定义字段(此部分由负责设计数据集人员控制);字段简述汉字名称,对于保留字段应该给出默认值;类型字段类型,含长度和精度信息;非空属性字段是否能够为空;1.3 ETL规则关键描述ETL各个步骤转换规则,包含:数据源过滤规则描述从源数据集获取数据过程中过滤掉统计规则;关联规则当源数据集为多个时,描述相互之间关联关系;列转换规则描述源数据集到目标数据

3、集字段间转换规则;此规则很关键,要清楚描述字段间逻辑关系,包含业务逻辑;目标数据集更新规则描述目标数据集更新策略,包含更新机制和更新频度,如“每日全量更新”、“每七天增量更新”等;ETL作业列表因为ETL所开发作业之间包含一定业务逻辑和编码逻辑,所以调度过程中应遵照一定逻辑次序,此部分关键用来明确调度次序,包含:作业名称实现Mapping作业名称,包含该作业功效描述;调度次序用序号或是步骤图模式描述作业调度次序,需要综合考虑业务逻辑、编码逻辑和系统资源等多方面情况,在确保业务逻辑和编码逻辑基础上,经过控制调度,最大程度地合理利用系统资源;参数列表列举每个作业中所使用参数,不一样作业中相同参数最

4、好使用相同名称,便于调度时进行控制。第2章. ETL开发规范ETL项目标开发往往是多人团体开发模式,因为周期较长,期间难免会出现开发人员交替现象。不管是开发过程中人员交替还是从开发到系统运行之间转换,全部需要良好交接。为确保项目开发各个时期平稳过分及顺利交接,在开发过程中,应该遵照一定开发规范。关键包含: 命名规范 结构规范 代码封装规范2.1 命名规范2.1.1 作业命名规范ETL是一个复杂工作,数据仓库建设通常会花费70以上工作量在ETL上面,而且这是一个细致活,任何一点小错误全部有可能造成后续工作犯错和失败;另外,数据仓库需要不停更新维护,对应ETL程序也需要进行相关更新维护,所花费成本

5、也很大。一个好命名规范,能够使ETL程序更清楚易懂,很好地避免了开发过程中犯错;同时愈加好可读性,也极大地减低了ETL程序更新维护成本。作业命名规则:JOBTYPEDESCRIPTIONSEQNUMJOBTYPE:作业类型DESCRIPTION:有效描述信息SEQNUM:作业编号。因为一定原因,有可能需要拆分作业数据数次加载数据,这个编号就能够区分加载。假如一次加载能够成功话这个编号就不需要了。2.1.2 作业内部命名规范对于作业内部命名,应该遵照代码可读性和可传输性标准,命名规则:FunctionDescriptionFunction:表示用途,Ex:抽取,Create:创建,Ld:装载,L

6、ookup:查找等Description:有意义描述,比如数据库表名,文件名等。2.1.3 作业注释规范ETL开发过程往往要经历一个较长时间段,为了便于团体开发和后期维护,除开发设计文档要齐全外,还应该在作业设计界面中合适加注释信息,关键包含作业功效说明、所属模块、开发时间、开发人员等信息。2.2 结构规范2.2.1 作业目录组织结构对于ETL PROJECT而言,我们需要划分清楚目录结构,依据一定规则将作业组织起来,这么不管是对ETL设计人员,运行人员,维护人员,全部有很大帮助。目录结构划分遵照以下标准:1 表现作业依靠关系。2 表现作业功效。3 独立放置二次开发作业。2.2.2 模块化结构

7、ETL根据处理逻辑分为E阶段(Extract)、T阶段(Transformer)和L阶段(Loading)。E、T、L阶段可能分处不一样服务器上,需要跨网络运行,她们之间配置情况可能存在较大差异,而多数ETL设计处理机制是串行运行机制,基于数据行处理。假如E、T、L过程同时运行,那么整体处理能力应该是三个步骤中效率最低那个步骤处理水平。假如我们将三个步骤设计分开,实施模块化步骤处理,即E步骤、T步骤、L步骤均设计成可独立运行模块,那么在整个处理过程中,将能够最大程度发挥功效,不会因为串性处理机制而相互制约。另外,模块化步骤设计,对于开发阶段调试和维护阶段犯错处理全部提供了良好辅助作用。第3章.

8、 ETL维护规范3.1 日志检验3.1.1 日志文件汇报ETL提供日志监测和汇报功效。汇报分汇总汇报和具体汇报。汇总汇报汇报内容:作业总数,WARNING作业数,成功作业数,失败作业数,开始时间,结束时间等具体汇报汇报内容:作业名称,开始时间,结束时间,运行状态等3.1.2 作业状态排查在ETL管理控制台上,可点击进入查看作业更为具体状态及犯错信息,方便于维护更正。3.2 犯错处理即使是经过严格测试程序,在实际运行中仍然会因为种种原所以造成犯错,依据ETL处理逻辑,我们将错误分为以下三类:抽取错误:简称E(Extract)类错误转换错误:简称T(Transformer)类错误装载错误:简称L(

9、Loading)类错误3.2.1 E类错误这类错误发生在数据抽取阶段。诸如数据库连接故障、网络资源不足等原因全部能够造成这类故障。因为这类错误发生时,数据还处于原始状态,未发生转换,对目标数据集也未产生任何影响,理论上能够看做是ETL处理未开始,所以处理这类错误相对简单,只需要排除故障原因后重新运行ETL处理即可。3.2.2 T类错误这类错误发生在数据转换阶段。引发原因较多,现有环境资源故障可能,也有设计逻辑缺点可能。这类错误发生在ETL中间阶段,应依据实际故障原因进行处理。对于环境资源故障所引发错误,只需要排除故障原因,重新运行ETLT(Transformer)阶段和L(Loading)阶段

10、即可。对于设计逻辑缺点所引发错误,处理相对复杂首先要定位错误并修正程序,同时要明确该错误是否包含到数据源抽取逻辑,假如未包含到,则在修正逻辑后重新运行T(Transformer)阶段和L(Loading)阶段程序即可;若逻辑错误和数据源相关,则需要重新运行包含E(Extract)阶段在内整个ETL处理。3.2.3 L类错误这类错误发生在数据装载阶段,除环境资源故障原因外,最大可能性是需要装载到目标集数据违反了目标数据集数据约束,如主键反复、非空字段出现空值、数据超长、类型不匹配等等。因环境资源故障(网络故障等等)所引发犯错,处理简单,只需排除故障,将目标数据集恢复到装载前状态,重新运行L阶段处

11、理即可。对于非环境资源所引发问题,处理和T类错误类似:先定位原因,依据以往经验,问题多数发生在T阶段,可能存在设计缺点或运行逻辑缺点,需要对T部分处理进行修正,并将目标数据集恢复到装载前状态,重新运行T阶段和L阶段处理。在上一章“设计规范”里,我们强调了模块化步骤设计,将E阶段、T阶段、L阶段按步骤分模块化设计,其实不仅仅是为了处理系统资源瓶颈问题,同时也是为了方便犯错时进行处理。在发生T类和L类错误时,因为各处理阶段设计相对独立,对于不一样阶段问题,只需要单独运行和该阶段相关处理,而无须将全部处理过程全部重新运行,大大减低反复运行代价。3.3 备份、恢复和版本控制ETL系统备份包含两个部分,

12、即ETL运行环境备份及数据库备份。运行备份是指为确保假如运行ETL系统瓦解时能够经过备份ETL系统继续完成ETL工作,为达成这个目标,应安装两台ETL环境,并建立相同配置,其中一台处于运行状态,而另一台为待机状态。每日在日常ETL完成后对运行环境各文件进行备份,立即ETL运行目录转储到外挂磁盘或外部存放介质。而数据库数据备份对于ETL很关键,提议系统管理员每日做数据完全备份,天天保留一个备份文件,提议最少保留7天。ETL系统恢复对应也包含两个部分,即运行恢复及数据恢复运行恢复是指当运行系统碰到严重故障如硬件故障、操作系统瓦解等无法立即修复时,启用备份运行系统继续,经过将上一日备份ETL环境恢复到待机系统,然后开启待机系统运行日常ETL。数据库恢复通常两种情况下会用到,一个是数据库系统本身出了故障需要重新安装,这时需要将上一日备份数据恢复到新数据库环境中。还有一个是数据加载过程中发觉几天以前加载了一些有问题数据,需要从之前某一天开始重新加载修正后数据,这时需要将指定日备份重新恢复到数据仓库中,然后次序运行每日日常ETL。另外,开发过程中需要对全部ETL程序及文档进行对应版本控制,跟踪开发过程中修改,以确保开发版本一致性及保持开发连续性。

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 品牌综合 > 行业标准/行业规范

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服