资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,DATASTAGE,介绍及基本操作,1,内容提要:,一、,datastage,介绍,二、如何安装,datastage,三、配置,datastage,工程,四、设计并运行,datastage,的,job,五、操作元数据,六、操作关联数据,七、操作约束条件及数据来源,八、定义查找使用的哈希文件,九、聚合数据,十、,job,的运行及调试,十一、创建,Basic,表达式,2,一,,datastage,的介绍,本章主要讲解,ETL,的概念,,datastage,的介绍、组成及主要功能。,3,ETL,概要,ETL,包括数据抽取(,Extract,)、数据转换(,Transform,)以及数据加载(,Load,),3,个阶段。,一般而言,这三个过程中有二次落地(生成中间文件)。,4,Ascential DataStage,是一套专门对多种操作数据源的数据抽取、转换和维护过程进行简化和自动化,并将其输入数据集市或数据仓库目标数据库的集成工具。,DataStage,能够处理多种数据源的数据,包括主机系统的大型数据库、开放系统上的关系数据库和普通的文件系统。包括,Oracle,Sybase,DB2,SQL Server,,,Teradata,FTP,文件系统,文本文件等等。,数据清洗、转换、加载都可以在图形化工具里完成,同样可以灵活的被外部系统调度,提供专门的设计工具来设计转换规则和清洗规则等,实现了增量抽取、任务调度等多种复杂而实用的功能。,DS,介绍:,5,Datastage,的组成:,Datastage,的服务器端和客户端,6,Datastage,是,C/S,软件,服务器端存储所有的,ds,项目和元数据,由关系型数据库(,RDBMS,)组成。客户端具有同服务端一样的软件接口。,客户端运行于,windows95,或更高版本,服务端可运行于,windowsNT4.0,或,windows2000,版本,,datastage,的很多版本都支持,unix,。,7,DS Administrator,在服务端管理,ds,的项目和服务端操作。主要用于工程的参数调整,变量设置,及,command,操作。,DS Designer,建立,ds,的,job,并且编译执行的程序。主要用于,job,的开发及编译。,DS Director,运行和监控,ds,的,job,。主要用于,job,调试。,DS Manager,允许编辑和查看在,ds,中存储的内容。主要用于项目管理或,job,的导入、导出、备份。,8,DataStage,中的,Administrator,9,默认使用,Administator,来指定常规的服务端,用来增加或删除,DataStage,工程,并且可以设置工程的属性。,Administator,也对于总库提供命令接口。,使用,Administator,的,Project Propertities,工程属性的窗口,可以进行,1,、在,General,页框中,设置,Job,监控的一些限制信息和,Director,中的其他信息。,2,、在,Permission,页框中,设置并分配开发人员组的权限。,3,、在,Tracing,页框中,设置或取消服务端进行跟踪。,4,、在,Schedule,页框中,设置调度时运行,Job,所用到的用户名和口令。,5,、在,Tunables,页框中,指定,Hash,文件,Stage,的读写的缓存大小。,在,DataStage,中的,Administrator,设置常用服务器的默认值:,1,、改变,Licence,信息。,2,、设置服务端连接超时时间。,10,DataStage,中的,Manager,11,使用,DataStage,中的,Manager,来存储和管理,Job,的元数据,使之可以在,DataStage,中的,Designer,中再度被使用。,元数据包括表单和文件结构和导出数据的,Routines,的转换等等。,Manager,是,DataStage,存储的一个重要的部分,可以用来加入表单和文件的结构,在左侧分支树中显示,Routines,、,Transforms,和,Jobs,。,自定义的,Routines,和,Transforms,也在,DataStage,中的,Manager,里创建。,12,DataStage,中的,Designer,13,DataStage,中的,Designer,允许使用熟练地拖拽图标和连线的方式来表示数据抽取、清洗、转换、整合和加载的过程,并将数据导入数据仓库的表单之中。,Designer,提供一个数据流程的模式,轻松将设置和,Job,的设计有机的组成。,使用,Designer,,可以:,1,、指定数据如何抽取。,2,、指定数据的转换规则和进行转换。,3,、使用参考性质的,LookUp,到数据集市中编辑数据。,a,)例如,如果销售的记录集包括,CustomerID,,可以在,CustomerMaster,表中使用,LookUp,查找到,Customer,的名称。,b,)当需要连接数据集市并使用查询,可以快速的进行访问。,4,、对数据进行整合。,5,、在定义的约束条件中将基础数据分割成为多个输出的连接。,在,Tools,菜单中可以轻松的于,Director,,,Designer,和,Manager,之间切换。,14,DataStage,中的,Director,15,使用,Datastage,的,Director,可以对设计的,job,进行验证、运行、任务调度和监控的工作。也 可以针对,job,的运行查看运行的聚合统计情况。,16,在,Datastage,中进行开发,在,Administrator,中定义全局的和项目属性。,在,Datastage,中的,Manager,里导入定义源的元数据和目标的元数据。,在,Datastage,中的,Designer,中验证和编译,job,。,在,Datastage,中的,Director,中验证、运行、和监控,job,。,17,1,、定义工程的属性,在,Administrator,中。,2,、打开工程。,3,、导入元数据,在,job,中定义格式、读入或写入,在,Manager,中。,4,、设计,job,在,Designer,中。,a),定义数据的抽取(读取)。,b),定义数据流程。,c),定义数据的集合。,d),定义数据的转换。,e),定义数据的约束条件。,f),定义数据的加载(写入)。,g),定义数据的聚合。,5,、编译和调试,job,在,Designer,中。,6,、运行和监控,job,在,Director,中。,18,Datastage,的工程管理,所有的工作都在一个工程中。,在安装过后,需要建立一个工程,这是安装必选的项目。,在使用它工作之前,要登录这个工程。,可以在工程间进行导入和导出,Datastage,的项目内容。,多个用户可以在同一时间使用同一工程,但是不能同时编辑同一个项目。,19,所有的工作都在,Datastage,的工程里进行。在做任何事之前,那些具有同样管理权限的人,都要先打开一个工程,即进行登录。,在安装过程中,工程就要求创建,这是必须做的事情。可以在安装之后,在,Administrator,中的,Project,页框中另增加其它工程。,一个工程关联着一个目录,这个工程目录用来存储,jobs,、,Datastage,项目和元数据。在做任何操作前都要先打开这个工程,即登录这个工程。,工程是自包含的很多的工程可以在同一时间被打开,在各自单独的环境打开。可以在它们之间导入或导出项目。,多用户可以在同一时间使用一个工程中工作,但是,Datastage,禁止在同一时间由多个用户访问同一个,job,。,20,Datastage,测试,问题一:,Datastage,的,Designer,是用来建立和编译,job,、用来进行数据的抽取、转换和加载即,ETL,。(,Yes/No,),答案一:,Yes,,,Designer,使用拖拽的方式将设计元素(习惯上叫,stage,)拖拽到设计区域中,经过建立和编译,,Job,就可以执行,用来进行数据的抽取、转换和加载。,问题二:,Datastage,的,Manager,用来执行编译通过的,Jobs,。(,Yes/No,),答案二:,No,,,Datastage,的,Manager,是用来管理元数据的,如表单结构,内置和自定义,Routines,等的,使,Datastage,用来管理资源存储的。,21,问题三:,Datastage,的,Director,用来执行编译通过的,Jobs,。(,Yes/No,),答案三:,Yes,,使用,Director,来对编译通过的,job,进行验证或者运行,也可以在,jobs,运行过程中对其进行监控。,问题四,:,Datastage,的,Administrator,是用来定义全局变量和设置工程属性的。(,Yes/No,),答案四:,Yes,,可以在,Administrator,中设置工程中使用的全局变量和必要属性,如连接数据库超时,登录者权限等等。,22,第二章 如何安装,Datastage,下面的讲解中,将可以了解到:,在,Windows,系统中安装,Datastage,服务端。,建立一个,Datastage,的工程。,安装,Datastage,的客户端。,23,Datastage,的服务端要首先安装,之后才可以安装,Datastage,客户端,服务端能都安装在,WinNT,、,Windows2000,或者,UNIX,系统中,这个模块将介绍在,Windows,环境下进行安装。,系统的具体配置依赖于所要安装的,Datastage,版本,在安装盘上找到最接近的系统需求配置。,安装,Datastage,服务端需要有哪些安装盘和服务端的许可,这个许可包含以下信息:,24,1,,注册号(序列号)。,2,,工程数量。,在,Datastage,服务端可以建立的最大工程数量。包括新建的工程,也包括对先前建立的工程进行加上升级。,3,,到期时间。,4,,授权代码。,在许可信息中,这个信息必须被正确输入的。,25,安装向导会指导通过以下步骤进行:,1,,输入许可信息。,2,,指定服务器的路径。,3,,选择程序的文件夹。,4,,创建一个新的工程或升级已经存在的工程。,26,安装,Datastage,27,首先安装,Datastage Server,端,鼠标点击 软件会自动安装,安装过程中系统提示使用者选择安装路径和输入产品序列号。,在,Datastage Server,安装的过程中会提示用户建立一个工程。,在安装,Datastage Server,端以后,需要安装,Datastage Client,端,鼠标点击,软件会自动进行安装,安装过程中系统提示使用者选择安装路径和输入产品序列号。,28,安装有,Datastage,服务端的机器,必须运行着。,需要运行,Datastage,的客户端。,打开,Datastage,的控制面板,来停止或启动服务端。,当再次安装,Datastage,的时候,会停止服务端。,29,为了保证,Datastage,客户端程序的正常运行,必须保证,Datastage,的服务器保持运行状态。,在,Windows2000,的控制面板中打开,Datastage,的控制面板,可以启动或停止全部的,Datastage,服务。,点击可以启动全部的服务或者停止全部的服务。,在安装或重新安装,Datastage,的时候,这些服务一定要全部停止。,30,安装,Datastage,客户端,在安装,Datastage,服务端之后。,可以安装在,WinNT,,,Windows2000,以及,WinXP,上。,Datastage,产品的许可用于安装,Datastage,的客户端。,Datastage,的操作许可只能用于安装,Director,和,Administrator,。,31,Datastage,的客户端必须在,Datastage,的服务端安装过后才可以进行安装,客户端能够安装在,Windows95,、,Windows98,、,WindowsNT,、,Windows2000,以及,WindowsXP,操作系统上。,这里有俩个版本的,Datastage,:,1,,开发版本的,Datastage,,包含了解所有的客户端应用程序。,2,,操作员版本的,Datastage,只包含了需要用到的运行和监控,Job,的应用程序,即,Director,和,Administrator,。,32,安装开发版本的,Datastage,,需要有,Datastage,开发版的许可。,安装操作员版本的,Datastage,,需要有,Datastage,的,Director,的许可。,许可包括以下几个信息:,1,,序列号,2,,用户限制,3,,到期时间,4,,授权认可代码,这些信息必须是正确的数据。,33,第三章 配置,Datastage,工程,下面的讲解中,将可以了解到。,在,Datastage,的,Administrator,中设置工程属性。,在,Datastage,的,Administrator,中设置用户的权限。,34,Datastage,工程属性,建立或者删除,Datastage,工程。,设置,Datastage,工程的默认属性。,修改,Datastage,工程属性的方法。,登录,Datastage,的,Administrator,。,选择要修改属性的工程。,35,Datastage,中所有的开发工作都在一个,Datastage,的工程中,在安装,Datastage,服务端时,默认就已经建立了一个工程,可以使用,Administrator,进行工程的控制。,每个工程都有其关联的目录,目录存储了在工程中建立的项目,如,Jobs,、元数据、自定义的,Routines,等等。,在一个工程中工作之前,必须要先打开它(即进行登录)。,在使用,Datastage,的,Administrator,时,可以设置默认的工程属性。,36,设置,Datastage,工程属性,选择要进行修改的工程,点击“,Properties”,37,工程属性的“,General”,页框,38,点击,Datastage,的,Administrator,的“,Properties”,按钮,打开工程属性的窗口,这里有,5,个页框(“,Mainframe”,页框只有在许可支持大型机的,Jobs,的时候可用),默认打开的“,General”,页框。,如果选择“,Enable job administrator in Director”,的选择项,那么在不打开,Administrator,的情况下在,Datastage,的,Director,中可以运行一些管理级别的函数。,39,在,Director,中运行一个,Job,的时候,事件被写入,Jobs,的运行的日志,例如:记录了何时开始运行,Jobs,,何时停止,何时终止。,日志记录的事件增长量很大,“,Auto-purpe of job log”,选择框可以让指定用什么条件来筛选这些事件。,可以限制记录时间的每天的数量或者运行,Jobs,运行的数量。,40,工程属性的“,Permissions”,页框,41,使用这个页框可以设置访问和使用,Datastage,的用户组权限。,所有的,Datastage,用户中,在登录,Datastage,之前,都必须拥有一个公认的,属于自己的用户角色,使之用来进行登录,这样可以用来防止匿名的方式使用,Datastage,工程。,这里有三种,Datastage,用户角色:,1,,,Datastage Developer,,可以访问,Datastage,工程 全部的范围。,2,,,Datastage Operator,,可以运行、释放、,Datastage,的,Jobs,。,3,,,Datastage Production Manager,,可以管理,Datastage,产品组件。,42,工程属性的“,Tracing”,页框,43,在这个页面设置是否在,Datastage,服务端进行跟踪处理。,Datastage,服务端进行跟踪处理默认是无效的。,当使其有效,,Datastage,客户端运行项目的时候,所有的记录信息都要在,Datastage,服务端进行监控,并写入监控文件。使用这些底层系统知识可以帮助找到,Datastage,客户端的问题所在,如果跟踪设置为有效,当调用一个,Datastage,的客户端的时候,用户会收到一些警告的信息。,警告:,跟踪会消耗,Datastage,服务器大量的系统资源,除非用户需要诊断重大的问题,一般不建议设置跟踪有效。,44,工程属性的“,Schedule”,页框,使用“,Schedule”,页框,来指定在选择的项目中运行计划任务的,jobs,的用户名和口令,如果没有指定,,Jobs,会在当前系统的计划任务的用户名下运行。,45,工程属性的“,Tunables”,页框,在“,Tunable”,页框中,可以指定当用来读取,Hash,文件记录时的缓存的大小,,Hash,文件大多数用于查找操作,这部分介绍会在下面的介绍中进行。,46,第四章 设计并运行,Datastage,的,Job,下面的讲解中,将可以了解到:,描述什么是,Datastage,的,Job,。,一步步讲述如何建立,Datastage Job,。,描述,Link,和,Stage,。,识别不同类型的,Stage,。,设计一个简单抽取和加载的,Job,。,编译、验证和运行,Job,。,监控,Job,的执行。,47,什么是,Job,48,Job,开发的浏览,在,Manager,导入数据源和目标数据库的数据结构定义。,在,Designer,加入,Stage,定义数据的抽取和加载。,加入,Transformer,和其它的,Stage,来定义转换。,从源数据到目的数据,加入,Link,来定义数据的流向。,编译,Job,。,在,Director,中,验证、运行和监控,Job,。,在这个讲解中,将通过一个单一,Job,的过程第一步,着手定义元数据。,49,Designer,的工作区域,50,中间偏右是,Datastage,的设计区域,可以将,Stage,和,Link,从工具的板块上拖动过来放在上面,左边是“,Repository”,(存储)窗口,显示的是,Manager,中的分支。,Manager,中的分支,就像,Jobs,和表定义一样可以直接拖拽到设计区域,点击“,View,Repository”,来显示“,Repository”,窗口。,点击“,View,Property Browser”,来显示“,Property Browser”,窗口,显示在设计区选择的项目的属性。,51,Designer,的工具栏,工具栏中的一些图标可以快捷的调用一些,Datastage,的内部函数,更加方便进行,Jobs,的设计工作。,52,Designer,的,Stage,工具面板,工具面板中包含描述的图标,可以将其加入到,Jobs,设计当中。,53,当安装,Datastage,的时候,很多的,Stage,都会自动地进行安装,也可以根据特定的目的安装另外的,Stage,,这些被叫做插件。,例如,那个叫做“,Sort”,的插件就是用来对数据排序的。,插件的介绍将在以后的讲解来介绍。,54,下面将部分的,Stage,进行简单的说明(有些,Stage,在普通应用中并不常用):,55,56,57,58,59,60,61,62,63,64,被动,Stage,和主动,Stage,被动,Stage,的定义是用来读写数据源的,Stage,。,被动,Stage,包括:,Sequential,,,Odbc,,,Hash,文件的,Stage,。,主动,Stage,的定义是用来数据的筛选和转换部分的,Stage,。,主动,Stage,包括,:Transformer,、,Aggregator,和,Sort,的插件。,65,这里有俩种类型的,Stage,:,被动,Stage,,是用来读写数据源的数据的,包括,Sequential,、,Odbc,、,Hash,文件的,Stage,,等等。,主动,Stage,:是用来筛选和转换部分的,Stage,,包括,Transformer,、,Aggregator,和,Sort,的插件,等等。,Datastage,测试:,问题一:,Sequential Stage,是一个主动地,Stage,。(,Yes/No,),答案一:,No,,由于,Sequential Stage,可以用于读取数据源和写入数据,但是又不能对数据进行转换,所以不是主动的,Stage,,而是被动的,Stage,。,66,Sequential Stage,导出数据或加载数据到一个,Sequential,文件。,为,Sequential,指定完整的路径。,指定文件的格式,:,定义宽度或者分隔符。,指定列的定义。,指定写的形式:覆盖、追加。,67,Sequential,文件时用来从一个,Sequential,文件导出或者加载到一个,Sequential,文件中。,在修改,Sequential,文件的时候需要指定一下内容:,1,、文件的路径和名称。,2,、文件的格式。,3,、列的定义。,4,、如果,Sequential Stage,被用作一个目标的话,指定写入动作时选择:覆盖已存在的文件或者在文件基础上进行追加。,68,编辑目标端的一个,Sequential,文件,Stage,69,定义一个,Sequential,的目标,Stage,类似于定义一个源的,Sequential Stage,。,在输入的,Link,中,定义数据导入到,Stage,的数据格式。从“,Input Box”,中输入,Link,的列表进行选择。,定义一个文件的,Job,,定义文件被写入,如果文件不存在,,Datastage,将会自动建立,在“,Update action”,中指定数据文件是否覆盖或者追加。,“,General”,页框中的“,FilterCommand”,,可以指定一个过滤程序,可以使用其在抽取数据的过程中进行数据的过滤。,举例,在读取数据之前要有一个解压缩的过程。从中选择类型或者浏览从过滤程序中,在输入框中指定命令行,只有在“,General”,页框中的,Stage,页面中选择了“,Stage uses filter commands”,的选择框,这个输入框变为可用,如果指定了过滤命令,数据浏览没有定义,那么“,ViewData”,按钮不可用。,70,在“,Format”,页框中,指定不同格式的目标文件,同指定源文件相同。,如果目标文件不存在,在,Jobs,运行之后,才可以浏览数据。如果这时点击了“,ViewData”,按钮,,Datastage,将会返回一个“,Failed to Open,.”,的错误。,在源数据的,Stage,里定义输出数据的列定义,同时定义目标,Stage,中的相应的输入,Link,。,可以将,Link,想象成为一个通道,从一头流到另外一头,所以输入和输出的格式要保持一致。,71,Transformer Stage,很关键的主动,Stage,。,使用,Transformer Stage,可以定义条件、来源和字段的对应关系。,输入的列和输出的列进行对应。,在这个讲解中,我们将定义列的对应。,72,Transformer Stage,是一个重要的主动,Stage,,其它主动地,Stage,执行很多指定类型的转换。,在,Transformer Stage,中可以指定:,1,、列的对应。,2,、数据的来源。,3,、过滤条件。,字段对应是指输入字段和输出字段进行对应,从输入列到输出列数值直接通过。,数据来源的值经过计算写入到输出的列,以输入列为基础。,在引入的行将被写入到输出的列,约束指定的条件将有效。,73,Transformer Stage,元素,74,Transformer,有以下元素:,在上方,左边的区域显示输入,Link,的列信息,如果有很多的输入,Link,,就会有许多的列显示。,在上方,右边的区域显示的输出,Link,的内容,我们不能在这里定义字段,如果有很多的输出,Link,,就会有很多的列显示。,现在,忽略右上方的“,Stage Variables”,窗口,我们将在以后的讲解进行讲述。,下方显示元数据的列定义,输入和输出的,Link,。,如果有很多的输入和输出的,Link,,那么将出现很多的页框。,75,Annotation Stage,使用它来在,Job,上增加文本注释。,输入框有不同格式的设置。,当,Job,打印的时候显示。,描述注释的,Stage,将在下一节介绍。,增加一个或多个“,Annotation”,的,Stage,就像一个文本数据框一样进行设置,可以通过在工具栏上的设置要求其是否进行显示。,这里有俩个“,Annotation”,的,Stage,,“”,Description Annotation Stage”,将在下面一个讲解中进行讲述。,76,编辑,Annotation Stage,输入框内输入的是文本类型,指定的设置有:,1,、文本的字体和颜色。,2,、输入框的颜色。,3,、文字的横纵位置。,77,编译,Job,在运行,Jobs,之前,必须要对其进行编译,在服务端的机器上产生可以运行的编码,对于编译,Jobs,,点击“,File,Compile”,或者在工具栏上点击“,Compile”,按钮,编译,Jobs,的窗口显示,Jobs,编译的情况。,编译如果发生错误:,点击“,Show error”,来定位错误的位置。,点击“,More”,来返回关于错误更多的信息。,78,运行,Job,从,Datastage,的,Designer,切换到,Director,。,在,Director,的列表中,选择要运行的,Job,点击运行。,选择运行的属性。,验证这个,Job,。,运行,Job,,并在日志浏览中监控,Job,运行的过程。,79,就像知道的那样,在,Datastage,的,Director,中运行,Job,,可以从,Designer,中的“,Tools”,菜单中启动,,Datastage,的,Director,。,可以通过这个方法在,Director,、,Manager,和,Designer,之间进行切换。,这里有俩种方法运行一个,Job,:,1,、直接运行。(可以在,Designer,运行,也可以切换 到,Director,中运行),2,、在以后的时间或日期里调用计划任务执行。,对于直接运行的,Job,:,1,、在列表中选择需要运行的,Job,,这个,Job,必须是经过 编译的。,2,、点击,Job,菜单中的运行,或者点击工具栏中的运 行。这是,Job,运行时的设置窗口会显示出来。,80,Datastage Director,在,Director,中显示,Jobs,状况的列表,运行一个,Job,,选择一个而后点击,Job,菜单中的运行。,其它查看内容:,1,、,Job,的日志,从,Job,运行产生的数量。,2,、计划任务,预览在计划的时间或日期运行,Job,。,81,运行参数设置,82,Director,的日志浏览,在工具栏上点击,Log,按钮来查看,Job,的日志,,Jobs,日志集合了,Jobs,执行期间的所有事件信息。,这些事件,包括:控制事件,如:开始、结束和中止、报告信息、警告信息、错误信息、和程序发生信息。,83,当点击,Job,菜单中运行的时候,,Job,运行设置的窗口会显示出来。,这个窗口允许用户在以下情况下停止,Job,的运行。,1,、指定行数。,2,、指定警告消息的数量。,在运行,Job,之前可以将其验证,验证是保证,Job,运行成功地关键。包括:,1,、验证,Link,的数据源是否准备好。,2,、验证文件是否被打开。,3,、验证,SQL,是否可以查询数据。,经过验证后点击,Run,运行,Job,,在,Job,运行时列的状况会显示出来。,84,第五章 操作元数据,下面的讲解中,将可以了解到:,介绍,DataStage,的,Manager,的构成和功能。,导入和导出,Datastage,的项目。,从,Sequential,文件中导入元数据。,加载元数据到,Sequential Stage,中。,85,什么是元数据,Datastage,和,Manager,是一个图形化管理,Datastage,项目存储的工具,包括元数据和,Datastage,的其它构成,如,Jobs,和,Routines,等等。,元数据是数据源和目标数据的描述的标准化。它包括诸如记录列和分割的通用信息,分割标志,还包括指定列的定义,等等。,86,87,左边的包括工程的树。分了八大分支,但是可以在其下创建下一级文件夹,在工程树下选择一个文件夹显示它的组成。在这个例子中,在工程里一个命名为”,WHBI”,的文件夹下创建很多,Job,。,“,DataElements”,分支:列出内置的和自定义的数据元素。(数据元素是数据类型的扩展,将在下面讲述),“,Jobs”,分支,显示在当前工程的,Jobs,列表。,“,Routines”,分支:先是内置和自定义的,Routines,,,Routines,是,Datastage Basic,代码的一部分,可以引入到一个,Job,中。,88,“ShareContainers”,分支:共享容器就是,Datastage,的一个单独的,Satage,的组成。,“,StageType”,分支:列出在一个,Jobs,中可用的,Stage,的类型。内置的,Stage,包括在,Designer,中的结果部分和转换部分的,Stage,。,“,TableDefinitions”,分支:显示加载到一个,Job,的有效的表结构定义。,“,Transformer”,分支:先是内置和自定义的,Transformer,。,Transformer,是可以用于,Job,的数据转换函数。,89,Manager,内容,数据源和目标数据的元数据描述。,Datastage,项目。,Jobs,。,Routines,。,表单。,90,Datastage,的,Manager,管理俩个不同类型的项目:,数据源和目标数据的元数据描述。,在,Manager,中叫做表单定义。,Datastage,表单定义用于描述各种类型源的列定义的格式:结果、有关的、,Hash,文件等等。,可以在,Manager,或者,Designer,中创建表单的定义,可以从源或者目的导入其结构。,91,Datastage,的构成,在,Datastage,中任何一个项目(,Jobs,,,Routines,,表定义,等等)在,Datastage,中存储,Manager,是接口用来存储。,Datastage,组成包括整个项目,都可以从导出的文件中导入到,Manager,中。,92,Import,和,Export,Manager,中的所有项目,都可以导出成为一个文件。,导出整个工程。,用于备份,用于版本控制。,用于,Datastage,的项目从一个工程到其它工程的移动。,对于其它开发者,用于共享,Datastage,的,Job,和项目。,93,Datastage,中的项目包括整个工程,全部都在,Manager,进行存储,可以将其导出成为一个文件。这个导出的文件能够重新导入回,Datastage,。,导入和导出能用作很多的目的,包括:,备份,Jobs,和工程。,维持不同,Jobs,或者工程的版本。,从一个工程到另外一个工程,,Datastage,项目的移动。将导出的项目,移动到其它的工程,将其重新导入到新的工程里。,在开发者之间共享,Jobs,和工程。导出的文件,当被压缩以后,变得很小,很容易从一个开发者到其他人之间传递。,94,导出过程,在,Manager,中,点击“,Export,Datastage Components”,。,选择,Datastage,需要到导出的项目。,指定导出的类型:,dsx,,,xml,。,在客户端机器上指定导出文件的路径。,95,在,Manager,中点击“,Export,Datastage Components”,开始导出的过程。,在,Manager,中任何的项目都可以将其导出成为一个文件。使用这个程序可以对工作进行备份或者将项目从一个工程移动到另一个工程中。,选择导出文件的类型,可以选择整个工程或者在一个工程中的一部分项目。,指定导出文件的类型,默认的,项目被导成一个文本格式的文件,默认的导出文件是“,Dsx”,格式的。也可以将项目导出成为“,XML”,格式的文档。,导出的文件目录是在,Datastage,的客户端,而不是在服务器。,96,Datastage,测试,问题一:,可以将,Datastage,工程中的,Jobs,导出来,但是却不能将元数据导出,所以不能将元数据的定义导出成为一个文本。(,Yes/No,),答案一:,No,,元数据的定义的结构,都存在于“,Table Definitions”,中,而表单的定义是可以通过导入导出流通于各个工程之间。,问题二:,Datastage,工程导出的目的是存放在客户端,而不是存放在服务器。(,Yes/No,),答案二:,Yes,。,97,导出,Datastage,的项目,在,Datastage,的,Manager,的菜单上点击“,Export,Datastage Components”,。,选择“,Whole Project”,或根据需要进行选择,而后进行导出。,98,99,导入,Datastage,工程,在,Manager,中,点击“,Import,Datastage Components”,。,选择要导入的,Datastage,项目文件。,选择要导入的文件,点击“,Import All”,开始导入或者“,Import Select”,从浏览的项目中选择一个导入。选择“,Overwrite Withnot Query”,按钮来覆盖那些同名但没有警告的项目。,100,导入元数据,从,Sequential,文件中导入格式和列的定义。,导入关联表的列的定义。,导入,Hash,文件的列的定义。,导入的信息在“,Table Definitions”,。,在,Job,中,Stage,可以将表定义进行加载进来。,101,表格定义对于一些变化的数据文件和表单进行格式的定义。这些定义可以重复的是用于设计的,Jobs,,来指定数据的格式。,举例,可以导入“,Customers.txt”,文件的格式和列的定义,可以将其加载到源的“,Sequential Stage”,中,表示,Job,是从“,Customers.txt”,中抽取数据。,102,可以加载这些相同的元数据到其它的,Stage,中,用来访问同样格式的数据。可以感觉到,元数据是可以再度使用的,它可以被用于格式相同的文件和数据上。,如果需要的列定义很相似,可以编辑定义并将其保存在一个新的名字下面。,也可以使用不同类型的数据相同的表单定义使用同样的格式。举例,可以导入一个表单定义从一个“,Sequential”,文件,并使其指定一个,ODBC,的表单的格式。可以清楚地看到元数据在格式定义上是宽松灵活的。,可以导入和定义几个不同类型的表单定义,包括:“,Sequential”,文件、,ODBC,数据源、,Hash,文件和全部的表单。,103,Sequential,文件导入过程,在,Datastage Manager,中,点击“,Import,Table Definitions,Sequential File Definistions”,选择指定的“,Sequential”,文件的目录和名称。,选择,Manager,的分类。,检查格式和列定义和编辑必要的信息。,104,要开始导入,点击“,Import,Table Definitions,Sequential File Definitions”,,“,
展开阅读全文