资源描述
Kettle产品详细介绍
2017-12-9
晴天云
Kettle产品详细介绍
目录
Kettle产品详细介绍 0
Kettle产品详细介绍 2
1.Kettle简介 2
2.Kettle 的安装 2
3.Kettle 的详细介绍 3
3.1Kettle 资源库管理 3
3.1.1新建资源库 4
3.1.1新建资源库 4
3.1.2更新资源库 7
3.1.3资源库登陆和用户管理 8
3.1.4资源库登录和没有资源库登录的区别 9
3.2菜单栏介绍 11
3.2.1文件 11
3.2.2 编辑 14
2.2.3 视图 20
2.2.4 资源库 21
3.2.5 转换 23
3.2.6 作业 29
3.2.7 向导 32
3.2.8 帮助 34
3.3工具栏介绍 35
3.3.1 transformation的工具栏 35
3.3.2 Jobs工具栏 36
3.4主对象树介绍 37
3.4.1Transformation的主对象树 37
3.4.2Jobs主对象树 52
3.5核心对象介绍 59
3.5.1Transformation核心对象 59
3.5.2Jobs核心对象 220
3.6 transformation功能 281
3.7 Jobs功能 282
4 Kettle 优点 282
5 Kettle 缺点 282
Kettle产品详细介绍
1.Kettle简介
简单地说,Kettle 就是国外一个开源的ETL工具。其主要功能就是对源数据进行抽取、转换、装入和加载数据。也就是将源数据整合为目标数据。Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。
Spoon 是一个图形用户界面,它允许运行转换或者任务,其中转换是用pan工具来运行,任务是用Kitchen来运行。Pan 是一个数据转换引擎,它可以执行很多功能。例如从不同的数据源读取、操作和写入数据。Kitchen 是一个可以运行利用xml或数据资源库描述的任务,通常任务是在规定的时间间隔内用批处理的模式自动运行。
Kettle主要包括以下三大块:
一、Spoon——转换/工作(transform/job)设计工具 (GUI方式);
二、Kitchen——工作(job)执行器 (命令行方式) ;
三、Span——转换(trasform)执行器 (命令行方式)。
2.Kettle 的安装
首先,必须先安装Sun 公司的JAVA 运行环境1.4以上的版本(包括1.4),并配置好环境变量;
然后,将下载的Kettle软件解压到目标目录,就可以看到Kettle的启动文件Kettle.exe或Spoon.bat;
最后,运行启动文件。
Windows 平台的启动:双击spoon.bat。
Linux 平台的启动:双击Spoon.sh。
3.Kettle 的详细介绍
3.1Kettle 资源库管理
登陆时可以选择”没有资源库”即可进入Kettle,此时所定义的转换和工作将只能存储在本地磁盘上,以.ktr文件和.kjb文件的方式。若使用资源库登录,则所有定义的转换和工作将会存储到资源库里。实际上,资源库就是一个数据库,比如SQL SERVER数据库,里面存储了Kettle定义的元素的相关元数据,简单而言,就是元数据库。如果资源库创建完毕,则资源库的相关信息将存储在文件 “reposityries.xml”中,它位于你的缺省home 目录的隐藏目录“.kettle”中。如果是windows 系统,这个路径就是 c:\Documents andSettings\<username>\.kettle。
3.1.1新建资源库
第一步:点击登录时弹出界面的中的“新建”按钮,即会弹出以下界面:
3.1.1新建资源库
第一步:点击登录时弹出界面的中的“新建”按钮,即会弹出以下界面:
第二步:再继续点击第一步中界面的“新建”按钮,即可弹出一下界面:
第二步:再继续点击第一步中界面的“新建”按钮,即可弹出一下界面:
第三步:填写完以上对话框后,点击“Test”按钮,如果出现下图中的提示的“正确连接到数据库”,及创建成功,然后点击“OK”即可进入下一步。
第四步:完善资源库信息后,点击“确定”即可完成资源库信息创建。
3.1.2更新资源库
创建了资源库后我们可以更新资源库,点击首页的“编辑” 、 “新建”按钮均可以进入到创建资源库界面。
当数据库连接选择后,就可以开始创建资源库了,单击“创建或更新”按钮可以创建新资源库或者更新原来已有的资源库,弹出:
选择“是”,弹出:
输入 Admin用户 的密码(资源库登陆和用户管理中描述) ,确定,更新资源库的步骤类似创建资源库,不同的是它是创建索引。
3.1.3资源库登陆和用户管理
R_User 和 R_Profile 两个表存储了资源库的用户信息,包括登录名、密码和用户权限。展开两个表分别做以下说明:
R_Profile 表
它说明有 3 种权限的用户:
1)Administrator 权限超级管理员,可以管理其它用户 ;
2)User 权限普通用户,可以使用所有工具;
3)Read-only只读用户,理解为只可读不可写,即可以使用工具,但是不能保存信息。
后面再进一步研究R_User 表:
LOGIN 是登录名,PASSWORD 是密码(注意密码是经过加密的,所以在此才会以 16 进制显示,在这里我们不研究加密算法),ENABLED 表示用户是否可用,Y 是可用,N 是不可用,在工具里体现为:
我们从表中可以看出密码是经过加密的, 由于我们不知道他的加密算法, 我们不知道原密码。但是我们想通过资源库登录 Kettle,如果用 admin(具有超级管理员权限)能登陆,则可以创建其它权限的用户,从而不再需要这些初始化的用户信息。
3.1.4资源库登录和没有资源库登录的区别
使用资源库登录后在 Kettle 中定义的转换和 Job 均存储到资源库的相关表中, 若没有资源库登录,则会以.ktr 和.kjb 格式存储在硬盘上。此外两者登录后菜单栏显示的将不同,并且有些选项功能也不一样。
1)菜单栏显示不同
没有资源库:
有资源库:
2)文件菜单栏相关选项功能不同
l 没有资源库:
“打开”、“从 url 文件打开”均是打开硬盘目录下的 .kjb 和 .ktr 文件。
“保存”和“另存为”是把转换和工作以 .ktr 和 .kjb 文件存储到硬盘上。
l 资源库登录:
“打开”是打开存储在资源库里的转换和工作 。
“从 url 文件打开”是打开硬盘目录下的 .kjb 和 .ktr 文件。
“保存”是把相关转换存储到资源库。
“另存为”是把转换和工作以 .kjb 和 .ktr 文件存储到硬盘上。
把本地的转换和工作存储到资源库只用先打开本地的转换和工作, 点击保存即可以保存到资源库中。
第五步:填写登录密码后点击“确定”,即可进入主界面:
3.2菜单栏介绍
3.2.1文件
新建:新建包括新建转换和新建作业,如下图所示:
点击上图中的转换或作业,都可以弹出新建转换或新建作业的窗口。
打开:打开已经存在的转换或作业。
l 在连接资源后点击打开,是选择打开资源库中已经存在的对象。
例如:
l 在不连接资源库的情况下点击打开时,是选择存放在硬盘上的转换或作业打开。
例如:
从URL打开文件:从URL地址打开已经存在硬盘上的转换或作业。
例如:
导出到 XML 文件:将定义的转换和 Job 导出到 xml 文件:
从 XML 文件导入:从导出的 xml 文件中导入定义的转换或 Jobs。
Export all linked resources to XML:导出所有相关的资源保存为.Zip文件。目前解压后再次导入时报错。
保存:保存当前的转换或作业(Jobs)。
另存为(VFS) :VFS 的作用就是采用标准的 Unix 系统调用读写位于不同物理介质上的不同文件系统。
关闭:关闭当前转换或当前作业。
打印:打印当前转换或当前作业。
退出:退出应用程序,即闭Kettle的运行程序。
3.2.2 编辑
l 撤销:撤销前一步操作 。
l 搜索元数据:搜索当前转换或 Jobs 的相关元数据,可以过滤,可以查看所有,资源库实际上就是元数据库。
这个选项将在可用的字段、连接器、注释以及所有加载的任务和转换中搜索,并展示搜索的结果。
l 设置环境变量:
添加设置环境变量的功能,使动态的测试转换变为可能。通常变量被一个任务中不同的转换设置。不管怎么样,在开发或者测试期间,你可能需要手动的设置变量。
可以通过“编辑/Set Environment variables”或者CTRL+J来使用这个特性。当运行一个未定义的变量时将出现这个窗口,可以在执行的时候去定义它。
变量最先的使用是设置环境变量。例如很容易指定临时文件的位置,可以使用变量:
${java.io.tepdir},这个变量在/Unix/Linux/OSX 机器上的位置是:directory/tmp,在 Windows 机器上的目录是: c: \Documents and Settings\<username>\Local Settings \ Temp。
l 显示环境变量:见变量叙述 。
l 显示参数:
l 清除选择: 清除所选的转换或作业等的步骤,即取消选择的步骤。
l 选择所有的步骤:全选定义的转换或 jobs 的所有步骤。
l 复制所选的步骤到剪贴板:复制当前所选择的转换步骤到剪切板。
l 从剪贴板复制步骤:相当于粘贴步骤。
l 浏览数据库:单击浏览数据库,弹出选择对话框
选中一个连接,确定,查看数据库表和视图等。
数据库浏览器允许你浏览你连接的数据库。在这个时候,它仅仅显示可用的表、目录或者表模式。
可以利用右边的按钮最低限度的展示表或者视图。你可以选择下面的选项:
Ø Preview first 100 rows of the table(显示表最开始的100行)
Ø Preview first … rows of the table(根据你输入的行数展示表)
Ø Number of rows of the table(显示表的行数)
Ø Show layout out of the table(显示表结构)
Ø Generate the DDL(生成该表的DDL语句)
Ø Generate the DDL for another connection(在其它的数据库连接中生成该表的DDL语句)
Ø Open for SQLthe table(in SQL Editor)(在SQL编辑器中生成读取该表的SQL语法)
Ø Truncate table (生成“Truncate table”的语句)
l 一般项:
Kettle的一般属性配置选择,可以改变很多选项来增强图形用户界面的个性化。
l 观感:
Kettle界面外观的设置,例如设置窗体字体大小、颜色以及背景颜色等等。此选项在 编辑—>选项—>观感中设置。
2.2.3 视图
工作区大小设定,如下图所示:
放大(I):放大工作区。
缩小(O):缩小工作区。
等比例(P):回到最开始的工作区。
2.2.4 资源库
l 连接资源库:进入登录首页连接资源库。
输入资源库名称、登录的用户、密码等信息后,点击“确定”按钮进行登录,如果点击“取消”,则退出连接资源库界面;如果点击“没有资源库”,则自动进入没有连接资源库的界面。
l 断开资源库连接: 断开当前已经连接上的资源库。
l 探索资源库:管理转换、工作、用户、档案等。详情见资源库中 Administrator 权限。
l 编辑当前用户:编辑密码和权限
3.2.5 转换
l 运行:执行当前转换。
l 预览:预览本次转换的结果。
l 调试:和预览类似。
l 重放:重新运行转换
l 校验:检验转换的输出
l 影响分析:分析转换的影响
l 获取 SQL:
l 显示最近一次影响分析:
例如:
l 显示最近一次影响结果:
例如:
l 复制转换到剪贴板: 将当前的转换复制到剪切板。
l 从剪贴板粘贴转换: 将复制到剪切板的转换粘贴到新的转换中。如果在同一个开发界面,则需要关闭复制的那个转换,才能对其复制操作。
l 复制转换图片到剪贴板: 类似于将当前转换截图,可将其图保存到需要的地方。
l 设置:设置转换的属性
3.2.6 作业
l 运行:运行本作业 。
l 复制job到剪切板: 将当前job复制到剪切板。
l 从剪切板粘贴Paste job:将复制到剪切板的job粘贴到新的job中。
l 设置:设置 JOB 的属性, “日志”可以存储日志信息到数据库表中。
3.2.7 向导
l 创建数据库连接向导:
l 复制表向导:
l 拷贝表向导:
3.2.8 帮助
l 每天提示:
l 显示欢迎屏幕:
l 显示步骤的插件信息:
l 显示作业项插件:
l 关于:
3.3工具栏介绍
3.3.1 transformation的工具栏
Transformation的工具栏如下图所示:
功能对应菜单栏里的转换、文件、视图等。
l 新建:新建转换、工作等。
l 打开:打开转换或作业。
l 保存当前转换或工作。
l 以不同名字保存当前转换或工作,即另存为。
l 运行当前工作或转换。
l 暂停当前运行的工作或者转换。
l 停止当前运行的工作或转换。
l 预览这个转换。
l debug 这个转换。
l 重放这个转换。
l 校验这个转换。
l 分析这个转换在数据库中的影响。
l 获取 SQL:产生需要运行这个转换的 SQL。
l 相当于编辑下的浏览数据库。
l 隐藏、显示执行结果面板。
l 相当与菜单栏里的视图,放大、缩小工作区。
3.3.2 Jobs工具栏
l 新建:新建转换、工作等。
l 打开:打开转换或作业。
l 保存当前转换或工作。
l 以不同名字保存当前转换或工作,即另存为。
l 运行当前工作或转换。
l 停止当前运行的工作或转换。
l 获取 SQL:产生需要运行这个转换的 SQL。
l 相当于编辑下的浏览数据库。
l 隐藏、显示执行结果面板。
l 相当与菜单栏里的视图,放大、缩小工作区。
3.4主对象树介绍
主对像树包括转换transformation和作业Jobs,如下图所示:
3.4.1Transformation的主对象树
3.4.1.1新建transformation
双击“转换”或右击“转换”再选择“新建”,都可以创建一个transformation。创建后的转换transformation界面如下所示:
3.4.1.2 transformation设置
右键单击“设置…”属性:
单击“设置…”转换属性后界面如下图所示:
转换transformation的属性设置界面分别如下所示:
l 转换:
l paramenters:
l 日志:
l 日期:
l 依赖:
l 杂项:
l 分区:
l 监控:
设置中各选项说明如下:
选项
描述
转换名称
转换的名称,如果你想保存到资源库中,就需要指定一个名称。
描述
转换的简短描述,将在资源库浏览器中展示。
扩展描述
转换的详细描述。
状态
草稿或者产品状态
版本
描述版本
目录
你想保存转换到资源库的目录
创建者(Created by)
创建转换的用户名称
转换创建的时间(Last modified at)
转换创建的时间
转换最后修改者的姓名(Last modified by)
转换最后修改的用户
转换最后修改的时间(Last modified at)
转换最后修改的时间
READ日志步骤
将当前步骤读取行的编号写入日志表。READ含义:从源步骤读取
INPUT日志步骤
将当前步骤输入行的编号写入日志表。INPUT含义:从文件或者数据库输入
WRITE日志步骤
将当前步骤写入行的编号写入日志表。WRITE含义:写入到目标步骤
OUTPUT日志步骤
将当前步骤输出行的编号写入日志表。OUTPUT含义:输出到文件或者数据库
UPDATE日志步骤
将当前步骤更新行的编号写入日志表。UPDATE含义:在数据库更新
日志数据库连接
使用这个连接写到日志表
日志表
指定日志表的名称
使用批处理-ID
如果想使用批处理-ID,选中此选项
使用日志表来记录登录
用CLOB字段在日志表中存储登录文本
最大日期数据库连接
通过这个连接获取日期范围
最大日期表
通过这个表获取日期范围
最大日期字段
通过这个字段获取日期范围
最大日期偏移
用这个数量来增长日期
最大日期区别
根据日期围范获取最大日期差异
依赖
这个表允许你输入所有的依赖
记录集合里面的记录数
这个选项允许你改变一个转换中两个步骤缓冲区的尺寸
打开日志视图:
打开历史视图:‘
3.4.1.3 DB 连接
右键 “DB连接”属性
选择“新建”,或双击“DB连接”,都能弹出创建窗口:
Kettle支持多种Connection Type,现以oracle为例,创建DB连接,具体如下图所示:
3.4.1.4 Steps(步骤)
显示当前转换或者工作的所有步骤:
l Edit:编辑该步骤的属性 。
l Duplicate:副本,复制步骤 。
l 删除:删除步骤 。
l Share:共享步骤。
3.4.1.5 Hops(节点连接)
显示当前转换或工作的所有节点连接(即各步骤之间的数据连接,表示数据流向) 。 一个连接连接两个步骤。数据流的方向使用箭头来指定。连接可以使它可用或者禁用。
l Edit:可以对改节点进行编辑操作。
l 删除:即删除该节点。
3.4.1.6 数据库分区 schems
右键数据库分区:
选择“新建”菜单:
3.4.1.7 子服务器
右键单击“子服务器 ”,如下图所示:
选择“新建”菜单,进入子服务器新建界面:
服务:
代理:
3.4.1.8 Kettle 集群 schems
右键“Kettle集群schems”:
双击“Kettle集群schems”或右键“Kettle集群schems”后,再选择“新建”,都会弹出新建“Kettle集群schems”的新建界面:
3.4.2Jobs主对象树
Jobs主对象树包括DB连接、作业项目、子服务器,具体如下图所示:
3.4.2.1 新建 Job
右键“Jobs”后选择“新建”菜单或直接双击“Jobs”菜单,都可以实现Job的新增:
3.4.2.2 设置 Job 属性
右键“Jod”,可选择“设置”菜单:
单击“设置”菜单,即会弹出job设置界面,可以对其属性进行修改:
打开日志视图:
打开历史视图:
3.4.2.3 DB 连接
一个连接描述了Kettle连接数据库的方法,在左边树菜单的顶部展示了所有可用的连接。
右键 DB 连接属性:
新建、编辑数据库连接:
l Connection name:定义转换或者任务访问的连接的唯一名称。
l Connection type:连接的数据类型。
l Method of access:可以是Native(JDBC),ODBC,或者OCI。
l Server host name:指定数据库部署的主机或者服务器的名称,也可以指定IP地址。
l Database name:指定连接的数据库的名称,如果是ODBC方式就指定DSN名称。
l Port number:设定数据库监听的TCP/IP端口号。
l User name/password:指定连接数据库的用户名和密码。
数据库的用法如下:
数据库
访问方法
服务器名称/地址
数据库名称
端口(缺省)
用户名/密码
Oracle
Native
需要
Oracle database SID
需要(1521)
需要
ODBC
ODBC DSN name
需要
OCI
Database TNS name
需要
MySQL
Native
需要
MySQL database name
可选(3306)
密码可选
ODBC
ODBC DSN name
密码可选
MS Access
ODBC
ODBC DSN name
可选
MS SQL Server
Native
需要
Database name
需要(1433)
需要
ODBC
ODBC DSN name
需要
IBM DB2
Native
需要
Database name
需要(50000)
需要
ODBC
ODBC DSN name
需要
AS/400
Native
需要
AS/400 Library name
可选
需要
ODBC
ODBC DSN name
需要
Sybase
Native
需要
Database name
需要(5001)
需要
ODBC
ODBC DSN name
需要
3.4.2.4 作业项目
显示该作业中的所有项目:
3.4.2.5 子服务器
右键单击“子服务器”选择“新建”或双击“子服务器”都可新建子服务器:
新建“子服务器”的界面如下所示:
3.5核心对象介绍
核心对象包括转换transformation和作业Jobs的核心对象。即转换和作业中用到的各种组件。
3.5.1Transformation核心对象
Transformation核心对象是Kettle中转换的所有组件。具体如下图所示:
3.5.1.1 Transform
Transform:转换。
Dummy Plugin:空操作,即是一个空的测试步骤。
3.5.1.2 Input
Input:导入数据。
3.5.1.2.1 ESRI Shape
ESRI Shape:读取矢量数据,即从SHP文件中读取图形数据和属性数据。
Shape以矢量数据表达和储存地图要素的数据文件格式;
1)shp文件:它是shapefiles的主体文件,用来储存地图要素坐标数据及几何数据。
2)shx文件:它是用来储存地图要素之间隶属关系的索引文件 。
3)dbf文件它是以DBase关系数据文件的方式储存各地图要素的属性。
3.5.1.2.2 S3 CSV Input
S3 CSV Input:CSV文件输入,即将读取的CSV文件数据并行存储到Amazon中。
3.5.1.3 输入
Kettle支持以下各种数据输入选项:
3.5.1.3.1 Access Input
Access Input:导入数据库文件,即从微软数据库文件中读取数据。
右键单击或者直接双击图标,选择“编辑步骤”开始配置:
(1)先选择源 ACCESS 文件
文件中先点击浏览,定位到已存在的 ACCESS 数据库文件:
当点击“增加”按钮后,即可将文件路径添加到选中的文件筐中:
(2)内容中选择表
(3)字段选择
选择输入数据的字段
3.5.1.3.2 CSV
CSV :导入CSV文件,即导入简单的CSV文件。
CSV 逗号分隔值文件(Comma Separated value) ,是一种用来存储数据的纯文本文件格式,通常用于电子表格或数据库软件。
l Step name:步骤名称。
l :文件名称。
l Delimiter:分隔符。
l Endosure:
l NIO buffer size:NIO 缓存大小。
l Lazy conversion:
l Header row present:
l Add to result:
l The row number field name(optional):
l Running in parallel:并行运行。
l : 字符集选择。
3.5.1.3.3 Cube 输入
Cube 输入:导入Cube文件,即从一个cube文件中读取数据。
在 BI 领域,CUBE 是多维立方体的简称,主要用于支持联机分析应用(OLAP) ,为企业决策提供支持。Cube 文件扩展名是.cube。
3.5.1.3.4 Excel 输入
Excel 输入:导入Excel文件,即从微软的Excel文件中读取数据,兼容Excel 95,97,2000。
(1)文件
浏览并选择 Excel 文件,然后点击增加按钮增加选中的文件到列表中。
(2)工作表
选择 EXCEL 文件中的工作表:
(3)内容
以下设置会在输出表中显示:
(4)错误处理
如果选择忽略错误选项后,上图中的灰色部分变为可用,如下图所示:
(5)字段
输入数据的相关字段,例如:
选项内容说明如下:
l 头部:检查是否工作表指定了一个头部行。
l 非空记录:检查是否不需要空行输出。
l 停在空记录:当步骤在读取工作表遇到一个空行的时候停止读取。
l 文件名称字段:步骤输出指定一个包含文件名的字段。
l 工作表名称字段:步骤输出指定一个包含工作表名称的字段。
l Sheet row nr field:步骤输出指定一个包含工作表行数的字段。工作表行数是实际的EXCEL工作表的行数。
l Row nr written field: 步骤输出指定一个包含行数的字段。
l 限制:限制输出的行数,0代表输出所有行。
3.5.1.3.5 Fixed
Fixed :导入文本文件,即导入文本文件。
固定长度的数据输入,编辑步骤:
3.5.1.3.6 Generate random value
Generate random value:生成随机数,即随机数生成器。
产生一个某类型的随机值,编辑步骤:
3.5.1.3.7 Get
Get :获得文件名称,即从系统中获得文件并将其发送到下一步。
得到硬盘上文件的详细信息:
文件:
过滤:
3.5.1.3.8 Get Files Rows Count
Get files Rows Count:获取文件行数,即获取文件行数。
文件:
内容:
3.5.1.3.9 Get SubFolder names
Get SubFolder names:获取子文件夹名称,即读取一个主文件夹获取所有的子文件。
文件:
设置:
3.5.1.3.10 Get data from XML
Get data from XML:从xml文件中获取数据,即使用XPath路径读取xml文件,这个步骤也允许你解析以前字段定义的xml文件。
选择.xml文件后点击“Add”按钮后如下图所示:
文件:
内容:
字段:
3.5.1.3.11 LDAP Input
使用LDAP协议读取远程数据,即利用LDAP协议连接远程主机读取数据。
一般:
内容:
字段:
3.5.1.3.12 LDIF Input
LDIF Input:导入LDIF文件,即从LDIF文件中读取数据。
文件:
内容:
字段:
3.5.1.3.13 Mondrian Input
Mondrian Input:导入MDX文件,即用MDX查询语句执行和审核数据,分析LDAP服务器。
3.5.1.3.14 Property Input
Property Input:导入属性文件,即从属性文件中读入键值对。
从 properties 文件中输入数据:
文件:
内容:
字段:
3.5.1.3.15 RSS Input
RSS Input:导入RSS订阅,即读取RSS订阅信息。
一般:
内容:
字段:
3.5.1.3.16 SalesForce Input
SalesForce Input:导入salesforce服务,即读取slaseforce模块服务,并将其转换成数据,并把这些数据写入多个输出流。
设置:
内容:
字段:
3.5.1.3.17 XBase 输入
XBase输入:导入DBF文件,即从一个XBase类型的DBF文件中读取记录。
使用这一步可以读取大多数被称为XBase family 派生的 DBF 文件:
l 步骤名称:步骤的名称,在单个转换中必须唯一。
l 文件名:用变量支持。
l Limit size:读取行的数量,0表示不限制。
l 增加记录行数:用包含行号的指定名称,添加一个字段到输出中。
3.5.1.3.18 文本文件输入
从文本文件中读取数据出来,编辑步骤
(1) 文件
增加文件,包括路径:
(2)内容:
按照文本内容的分隔样式来输入数据
(3)错误处理
当错误发生的时候错误处理标签允许你指定这个步骤将重新做些什么。
选项
描述
忽略错误
如果在解析的时候忽略错误,就指定这个选项
跳过错误行
使用这个选项来跳过那些出现错误的行。你可以生成另外的文件来包含发生错误的行号。如果不跳过错误行,解析错误字段将是空的
错误计数字段
在输出流行中增加一个字段,这个字段将包含错误发生的行数
错误字段字段名
在输出流行中增加一个字段,这个字段将包含错误发生的字段名称
错误文本字段名
在输出流行中增加一个字段,这个字段将包含解析错误发生字段的描述
警告文件目录
当警告发生的时候,它们将被放进这个目录。文件名将是<警告目录>/文件名.<日期时间>.<警告文件扩展>
错误文件目录
当错误发生的时候,它们将被放进这个目录。文件名将是<错误文件目录>/文件名.<日期时间>.<错误文件扩展>
失败行数文件目录
当解析行的时候发生错误,行号将被放到这个目录。文件名将是<错误行目录>/文件名.<日期时间>.<错误行扩展>
(4)过滤
在“过滤”标签中,你可以指定文本文件中要过滤的:
选项
描述
过滤字符
搜索字符串
过滤位置
在行中过滤字符串必须存在的位置。0是起始位置,如果你指定一个小于0的值,过滤器将搜索整个字符
停止在过滤器
如果你想在文本文件遇到过滤字符的时候,停止处理,就指定Y
(5)字段
选项
描述
名称
字段名称
类型
字段类型(String、Date、Number等)
格式
长度
对于Number:有效数的数量
对于String:字符的长度
对于Date:打印输出字符的长度(例如4代表返回年份)
精度
对于Number:浮点数的数量
对于String,Date,Boolean:未使用
货币类型
用来解释如$10,000.00的数字
小数
小数点可以是”.”(10;000.00)或者”,”(5.000,00)
分组
分组可以是”.”(10;000.00)或者”,”(5.000,00)
如果为空
空值处理为
默认
字段为空的时候的默认值
去空字符串
处理之前先去空
重复
Y/N:如果在当前行中对应的值为空,则重复最后一次不为空的值
3.5.1.3.19 生成记录
生成一些空记录或相等的行,编辑步骤,例如:
点击“预览”后,则出现以下界面
3.5.1.3.20 获取系统信息
获取系统的相关信息,编辑步骤:
输入名称,点击类型,选择信息的类型,有以下类型的数据:
3.5.1.3.21 表输入
从数据库表中读取信息:
这一步常常用来利用连接和SQL,从数据库中读取信息。自动生成基本的SQL语句。
选项
描述
步骤名称
步骤的名称,在单一的步骤中,名称必需唯一
连接
读取数据的数据库连接
SQL
SQL语句用来从数据库连接中读取数据
从步骤插入数据
指定我们期待读取数据的步骤名称。这些信息能被插入到SQL语句
限制
设置从数据库中读取的行数。0所有行
(1) 若选中,会发现中文内容会显示为乱码 。
(2) 记录数限制为 0 时即无限制 。
(3) 意为从前面步骤插入数据到此
(4)点击按钮,弹出数据库内容对话框:
点击左边的表,右边呈现可用状态
选择输入表后,点击“确认”按钮,会提示:
再点击“是”按钮,机会出现以下界面:
再点击上图中的“确定”按钮后,即完成输入表的配置。
3.5.1.4 输出
Kettle支持以下各种形式的数据输出,具体如下图所示:
3.5.1.4.1 Access Output
Access Output:导出数据,即记录存储到微软的数据库表中。
Database 直接输入名字即可,不需要首先创建,最好不要用中文 Target table 直接输入名字即可,不要用中文,转换运行过程中自动创建 ACCESS 数据库文件和表。Access 输出是输出从前面来的所有字段信息,若要选择相关字段,则在之前用到以下控件:
3.5.1.4.2 Cube 输出
Cube输出:导出Cube文件,即数据写入Cube文件中。
在 BI 领域,CUBE 是多维立方体的简称,主要用于支持联机分析应用(OLAP) ,为企业决策提供支持。输出数据到 Cube 文件中:
3.5.1.4.3 Excel Output
Excel Output:导出Excel文件,即储记录到Excel格式化文档中。
(1) 文件
Excel输出中文件选项设置界面如下图所示:
(2) 内容
(3) 字段
3.5.1.4.4 Properties Output
Properties Output:导出属性信息,即数据写入属性文件。
Properties 格式文件是 Java 中的文件,类似 XML 文件,都是用来按一定结构保存数据的,一般用于资源文件、配置文件,xml 也多用于数据传输。具体干什么用要看业务需求。使用 MyEclipse Text Editor 可以编辑、打开此格式文件:
编辑步骤:
选择字段名称和字段值:
一般:
Content(内容) :选择输出文件路径
3.5.1.4.5 RSS Output
RSS Output:导出RSS订阅信息,即读RSS订阅信息流。
Chanel:
Item:项。
custom outpu
展开阅读全文