ImageVerifierCode 换一换
格式:DOCX , 页数:281 ,大小:6.26MB ,
资源ID:9760211      下载积分:20 金币
快捷注册下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/9760211.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

开通VIP折扣优惠下载文档

            查看会员权益                  [ 下载后找不到文档?]

填表反馈(24小时):  下载求助     关注领币    退款申请

开具发票请登录PC端进行申请

   平台协调中心        【在线客服】        免费申请共赢上传

权利声明

1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:0574-28810668;投诉电话:18658249818。

注意事项

本文(Kettle产品详细介绍.docx)为本站上传会员【精****】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4009-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

Kettle产品详细介绍.docx

1、Kettle产品详细介绍 2017-12-9 晴天云 Kettle产品详细介绍 目录 Kettle产品详细介绍 0 Kettle产品详细介绍 2 1.Kettle简介 2 2.Kettle 的安装 2 3.Kettle 的详细介绍 3 3.1Kettle 资源库管理 3 3.1.1新建资源库 4 3.1.1新建资源库 4 3.1.2更新资源库 7 3.1.3资源库登陆和用户管理 8 3.1.4资源库登录和没有资源库登录的区别 9 3.2菜单栏介绍 11 3.2.1文件 11 3.2.2 编辑 14 2.2.3 视图 20 2

2、2.4 资源库 21 3.2.5 转换 23 3.2.6 作业 29 3.2.7 向导 32 3.2.8 帮助 34 3.3工具栏介绍 35 3.3.1 transformation的工具栏 35 3.3.2 Jobs工具栏 36 3.4主对象树介绍 37 3.4.1Transformation的主对象树 37 3.4.2Jobs主对象树 52 3.5核心对象介绍 59 3.5.1Transformation核心对象 59 3.5.2Jobs核心对象 220 3.6 transformation功能 281 3.7 Jobs功能 282 4 Kettle 优点

3、 282 5 Kettle 缺点 282 Kettle产品详细介绍 1.Kettle简介 简单地说,Kettle 就是国外一个开源的ETL工具。其主要功能就是对源数据进行抽取、转换、装入和加载数据。也就是将源数据整合为目标数据。Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。 Spoon 是一个图形用户界面,它允许运行转换或者任务,其中转换是用pan工具来运行,任务是用Kitchen来运行。Pan 是一个数据转换引擎,它可以执行很多功能。例如从不同的数据源读取、操作和

4、写入数据。Kitchen 是一个可以运行利用xml或数据资源库描述的任务,通常任务是在规定的时间间隔内用批处理的模式自动运行。 Kettle主要包括以下三大块: 一、Spoon——转换/工作(transform/job)设计工具 (GUI方式); 二、Kitchen——工作(job)执行器 (命令行方式)     ; 三、Span——转换(trasform)执行器 (命令行方式)。 2.Kettle 的安装 首先,必须先安装Sun 公司的JAVA 运行环境1.4以上的版本(包括1.4),并配置好环境变量; 然后,将下载的Kettle软件解压到目标目录,就可以看到Kettle的启动

5、文件Kettle.exe或Spoon.bat; 最后,运行启动文件。 Windows 平台的启动:双击spoon.bat。 Linux 平台的启动:双击Spoon.sh。 3.Kettle 的详细介绍 3.1Kettle 资源库管理 登陆时可以选择”没有资源库”即可进入Kettle,此时所定义的转换和工作将只能存储在本地磁盘上,以.ktr文件和.kjb文件的方式。若使用资源库登录,则所有定义的转换和工作将会存储到资源库里。实际上,资源库就是一个数据库,比如SQL SERVER数据库,里面存储了Kettle定义的元素的相关元数据,简单而言,就是元数据库。如果资源库创建完毕,则资源库的

6、相关信息将存储在文件 “reposityries.xml”中,它位于你的缺省home 目录的隐藏目录“.kettle”中。如果是windows 系统,这个路径就是 c:\Documents andSettings\\.kettle。 3.1.1新建资源库 第一步:点击登录时弹出界面的中的“新建”按钮,即会弹出以下界面: 3.1.1新建资源库 第一步:点击登录时弹出界面的中的“新建”按钮,即会弹出以下界面: 第二步:再继续点击第一步中界面的“新建”按钮,即可弹出一下界面: 第二步:再继续点击第一步中界面的“新建”按钮,即可弹出一下界面:

7、第三步:填写完以上对话框后,点击“Test”按钮,如果出现下图中的提示的“正确连接到数据库”,及创建成功,然后点击“OK”即可进入下一步。 第四步:完善资源库信息后,点击“确定”即可完成资源库信息创建。 3.1.2更新资源库 创建了资源库后我们可以更新资源库,点击首页的“编辑” 、 “新建”按钮均可以进入到创建资源库界面。 当数据库连接选择后,就可以开始创建资源库了,单击“创建或更新”按钮可以创建新资源库或者更新原来已有的资源库,弹出: 选择“是”,弹出: 输入 Admin用户 的密码(资源库登陆和用户管理中描述) ,确定,更新资源库的步骤类似创建资源库,不

8、同的是它是创建索引。 3.1.3资源库登陆和用户管理 R_User 和 R_Profile 两个表存储了资源库的用户信息,包括登录名、密码和用户权限。展开两个表分别做以下说明: R_Profile 表 它说明有 3 种权限的用户: 1)Administrator 权限超级管理员,可以管理其它用户 ; 2)User 权限普通用户,可以使用所有工具; 3)Read-only只读用户,理解为只可读不可写,即可以使用工具,但是不能保存信息。 后面再进一步研究R_User 表: LOGIN 是登录名,PASSWORD 是密码(注意密码是经过加密的,所以在此才会以 16 进制

9、显示,在这里我们不研究加密算法),ENABLED 表示用户是否可用,Y 是可用,N 是不可用,在工具里体现为: 我们从表中可以看出密码是经过加密的, 由于我们不知道他的加密算法, 我们不知道原密码。但是我们想通过资源库登录 Kettle,如果用 admin(具有超级管理员权限)能登陆,则可以创建其它权限的用户,从而不再需要这些初始化的用户信息。 3.1.4资源库登录和没有资源库登录的区别 使用资源库登录后在 Kettle 中定义的转换和 Job 均存储到资源库的相关表中, 若没有资源库登录,则会以.ktr 和.kjb 格式存储在硬盘上。此外两者登录后菜单栏显示的将不同,并且有些选项功

10、能也不一样。 1)菜单栏显示不同 没有资源库: 有资源库: 2)文件菜单栏相关选项功能不同 l 没有资源库: “打开”、“从 url 文件打开”均是打开硬盘目录下的 .kjb 和 .ktr 文件。 “保存”和“另存为”是把转换和工作以 .ktr 和 .kjb 文件存储到硬盘上。 l 资源库登录: “打开”是打开存储在资源库里的转换和工作 。 “从 url 文件打开”是打开硬盘目录下的 .kjb 和 .ktr 文件。 “保存”是把相关转换存储到资源库。 “另存为”是把转换和工作以 .kjb 和 .ktr 文件存储到硬盘上。 把本地的转换和工

11、作存储到资源库只用先打开本地的转换和工作, 点击保存即可以保存到资源库中。 第五步:填写登录密码后点击“确定”,即可进入主界面: 3.2菜单栏介绍 3.2.1文件 新建:新建包括新建转换和新建作业,如下图所示: 点击上图中的转换或作业,都可以弹出新建转换或新建作业的窗口。 打开:打开已经存在的转换或作业。 l 在连接资源后点击打开,是选择打开资源库中已经存在的对象。 例如: l 在不连接资源库的情况下点击打开时,是选择存放在硬盘上的转换或作业打开。 例如: 从URL打开文件:从URL地址打开已经存在硬盘上的转换或作业。 例如: 导出到 XM

12、L 文件:将定义的转换和 Job 导出到 xml 文件: 从 XML 文件导入:从导出的 xml 文件中导入定义的转换或 Jobs。 Export all linked resources to XML:导出所有相关的资源保存为.Zip文件。目前解压后再次导入时报错。 保存:保存当前的转换或作业(Jobs)。 另存为(VFS) :VFS 的作用就是采用标准的 Unix 系统调用读写位于不同物理介质上的不同文件系统。 关闭:关闭当前转换或当前作业。 打印:打印当前转换或当前作业。 退出:退出应用程序,即闭Kettle的运行程序。 3.2.2 编辑 l 撤销:撤销前一步

13、操作 。 l 搜索元数据:搜索当前转换或 Jobs 的相关元数据,可以过滤,可以查看所有,资源库实际上就是元数据库。 这个选项将在可用的字段、连接器、注释以及所有加载的任务和转换中搜索,并展示搜索的结果。 l 设置环境变量: 添加设置环境变量的功能,使动态的测试转换变为可能。通常变量被一个任务中不同的转换设置。不管怎么样,在开发或者测试期间,你可能需要手动的设置变量。 可以通过“编辑/Set Environment variables”或者CTRL+J来使用这个特性。当运行一个未定义的变量时将出现这个窗口,可以在执行的时候去定义它。 变量最先的使用是设置环境变量。例如很容

14、易指定临时文件的位置,可以使用变量: ${java.io.tepdir},这个变量在/Unix/Linux/OSX 机器上的位置是:directory/tmp,在 Windows 机器上的目录是: c: \Documents and Settings\\Local Settings \ Temp。 l 显示环境变量:见变量叙述 。 l 显示参数: l 清除选择: 清除所选的转换或作业等的步骤,即取消选择的步骤。 l 选择所有的步骤:全选定义的转换或 jobs 的所有步骤。 l 复制所选的步骤到剪贴板:复制当前所选择的转换步骤到剪切板。 l

15、从剪贴板复制步骤:相当于粘贴步骤。 l 浏览数据库:单击浏览数据库,弹出选择对话框 选中一个连接,确定,查看数据库表和视图等。 数据库浏览器允许你浏览你连接的数据库。在这个时候,它仅仅显示可用的表、目录或者表模式。 可以利用右边的按钮最低限度的展示表或者视图。你可以选择下面的选项: Ø Preview first 100 rows of the table(显示表最开始的100行) Ø Preview first … rows of the table(根据你输入的行数展示表) Ø Number of rows of the table(显示表的行数) Ø Sho

16、w layout out of the table(显示表结构) Ø Generate the DDL(生成该表的DDL语句) Ø Generate the DDL for another connection(在其它的数据库连接中生成该表的DDL语句) Ø Open for SQLthe table(in SQL Editor)(在SQL编辑器中生成读取该表的SQL语法) Ø Truncate table (生成“Truncate table”的语句) l 一般项: Kettle的一般属性配置选择,可以改变很多选项来增强图形用户界面的个性化。 l 观感: Kettl

17、e界面外观的设置,例如设置窗体字体大小、颜色以及背景颜色等等。此选项在 编辑—>选项—>观感中设置。 2.2.3 视图 工作区大小设定,如下图所示: 放大(I):放大工作区。 缩小(O):缩小工作区。 等比例(P):回到最开始的工作区。 2.2.4 资源库 l 连接资源库:进入登录首页连接资源库。 输入资源库名称、登录的用户、密码等信息后,点击“确定”按钮进行登录,如果点击“取消”,则退出连接资源库界面;如果点击“没有资源库”,则自动进入没有连接资源库的界面。 l 断开资源库连接: 断开当前已经连接上的资源库。 l 探索资源库:管理转换、工作、用户、档案等

18、详情见资源库中 Administrator 权限。 l 编辑当前用户:编辑密码和权限 3.2.5 转换 l 运行:执行当前转换。 l 预览:预览本次转换的结果。 l 调试:和预览类似。 l 重放:重新运行转换 l 校验:检验转换的输出 l 影响分析:分析转换的影响 l 获取 SQL: l 显示最近一次影响分析: 例如: l 显示最近一次影响结果: 例如: l 复制转换到剪贴板: 将当前的转换复制到剪切板。 l 从剪贴板粘贴转换: 将复制到剪切板的转换粘贴到新的转换中。如果在同一个开发界面,则需要关闭复制的那个

19、转换,才能对其复制操作。 l 复制转换图片到剪贴板: 类似于将当前转换截图,可将其图保存到需要的地方。 l 设置:设置转换的属性 3.2.6 作业 l 运行:运行本作业 。 l 复制job到剪切板: 将当前job复制到剪切板。 l 从剪切板粘贴Paste job:将复制到剪切板的job粘贴到新的job中。 l 设置:设置 JOB 的属性, “日志”可以存储日志信息到数据库表中。 3.2.7 向导 l 创建数据库连接向导: l 复制表向导: l 拷贝表向导: 3.2.8 帮助 l 每天提示:

20、l 显示欢迎屏幕: l 显示步骤的插件信息: l 显示作业项插件: l 关于: 3.3工具栏介绍 3.3.1 transformation的工具栏 Transformation的工具栏如下图所示: 功能对应菜单栏里的转换、文件、视图等。 l 新建:新建转换、工作等。 l 打开:打开转换或作业。 l 保存当前转换或工作。 l 以不同名字保存当前转换或工作,即另存为。 l 运行当前工作或转换。 l 暂停当前运行的工作或者转换。 l 停止当前运行的工作或转换。 l 预览这个转换。 l debug 这个转换。 l 重放这个转换。

21、 l 校验这个转换。 l 分析这个转换在数据库中的影响。 l 获取 SQL:产生需要运行这个转换的 SQL。 l 相当于编辑下的浏览数据库。 l 隐藏、显示执行结果面板。 l 相当与菜单栏里的视图,放大、缩小工作区。 3.3.2 Jobs工具栏 l 新建:新建转换、工作等。 l 打开:打开转换或作业。 l 保存当前转换或工作。 l 以不同名字保存当前转换或工作,即另存为。 l 运行当前工作或转换。 l 停止当前运行的工作或转换。 l 获取 SQL:产生需要运行这个转换的 SQL。 l 相当于编辑下的浏览数据库。 l 隐藏、显示执行结果

22、面板。 l 相当与菜单栏里的视图,放大、缩小工作区。 3.4主对象树介绍 主对像树包括转换transformation和作业Jobs,如下图所示: 3.4.1Transformation的主对象树 3.4.1.1新建transformation 双击“转换”或右击“转换”再选择“新建”,都可以创建一个transformation。创建后的转换transformation界面如下所示: 3.4.1.2 transformation设置 右键单击“设置…”属性: 单击“设置…”转换属性后界面如下图所示: 转换transformation的属性设置界面分别如下所

23、示: l 转换: l paramenters: l 日志: l 日期: l 依赖: l 杂项: l 分区: l 监控: 设置中各选项说明如下: 选项 描述 转换名称 转换的名称,如果你想保存到资源库中,就需要指定一个名称。 描述 转换的简短描述,将在资源库浏览器中展示。 扩展描述 转换的详细描述。 状态 草稿或者产品状态 版本 描述版本 目录 你想保存转换到资源库的目录 创建者(Created by) 创建转换的用户名称 转换创建的时间(Last modified at) 转换创建的时间 转换最后修改者的姓

24、名(Last modified by) 转换最后修改的用户 转换最后修改的时间(Last modified at) 转换最后修改的时间 READ日志步骤 将当前步骤读取行的编号写入日志表。READ含义:从源步骤读取 INPUT日志步骤 将当前步骤输入行的编号写入日志表。INPUT含义:从文件或者数据库输入 WRITE日志步骤 将当前步骤写入行的编号写入日志表。WRITE含义:写入到目标步骤 OUTPUT日志步骤 将当前步骤输出行的编号写入日志表。OUTPUT含义:输出到文件或者数据库 UPDATE日志步骤 将当前步骤更新行的编号写入日志表。UPDATE含义:在数据库更

25、新 日志数据库连接 使用这个连接写到日志表 日志表 指定日志表的名称 使用批处理-ID 如果想使用批处理-ID,选中此选项 使用日志表来记录登录 用CLOB字段在日志表中存储登录文本 最大日期数据库连接 通过这个连接获取日期范围 最大日期表 通过这个表获取日期范围 最大日期字段 通过这个字段获取日期范围 最大日期偏移 用这个数量来增长日期 最大日期区别 根据日期围范获取最大日期差异 依赖 这个表允许你输入所有的依赖 记录集合里面的记录数 这个选项允许你改变一个转换中两个步骤缓冲区的尺寸 打开日志视图: 打开历史视图:‘ 3.4.1.3

26、DB 连接 右键 “DB连接”属性 选择“新建”,或双击“DB连接”,都能弹出创建窗口: Kettle支持多种Connection Type,现以oracle为例,创建DB连接,具体如下图所示: 3.4.1.4 Steps(步骤) 显示当前转换或者工作的所有步骤: l Edit:编辑该步骤的属性 。 l Duplicate:副本,复制步骤 。 l 删除:删除步骤 。 l Share:共享步骤。 3.4.1.5 Hops(节点连接) 显示当前转换或工作的所有节点连接(即各步骤之间的数据连接,表示数据流向) 。 一个连接连接两个步骤。数据流的方向使用箭头来指定

27、连接可以使它可用或者禁用。 l Edit:可以对改节点进行编辑操作。 l 删除:即删除该节点。 3.4.1.6 数据库分区 schems 右键数据库分区: 选择“新建”菜单: 3.4.1.7 子服务器 右键单击“子服务器 ”,如下图所示: 选择“新建”菜单,进入子服务器新建界面: 服务: 代理: 3.4.1.8 Kettle 集群 schems 右键“Kettle集群schems”: 双击“Kettle集群schems”或右键“Kettle集群schems”后,再选择“新建”,都会弹出新建“Kettle集群schems”的新建界面:

28、 3.4.2Jobs主对象树 Jobs主对象树包括DB连接、作业项目、子服务器,具体如下图所示: 3.4.2.1 新建 Job 右键“Jobs”后选择“新建”菜单或直接双击“Jobs”菜单,都可以实现Job的新增: 3.4.2.2 设置 Job 属性 右键“Jod”,可选择“设置”菜单: 单击“设置”菜单,即会弹出job设置界面,可以对其属性进行修改: 打开日志视图: 打开历史视图: 3.4.2.3 DB 连接 一个连接描述了Kettle连接数据库的方法,在左边树菜单的顶部展示了所有可用的连接。 右键 DB 连接属性: 新建、编辑数据库连

29、接: l Connection name:定义转换或者任务访问的连接的唯一名称。 l Connection type:连接的数据类型。 l Method of access:可以是Native(JDBC),ODBC,或者OCI。 l Server host name:指定数据库部署的主机或者服务器的名称,也可以指定IP地址。 l Database name:指定连接的数据库的名称,如果是ODBC方式就指定DSN名称。 l Port number:设定数据库监听的TCP/IP端口号。 l User name/password:指定连接数据库的用户名和密码。 数据库的用法如下:

30、 数据库 访问方法 服务器名称/地址 数据库名称 端口(缺省) 用户名/密码 Oracle Native 需要 Oracle database SID 需要(1521) 需要 ODBC ODBC DSN name 需要 OCI Database TNS name 需要 MySQL Native 需要 MySQL database name 可选(3306) 密码可选 ODBC ODBC DSN name 密码可选 MS Access ODBC ODBC DSN name 可选 MS SQ

31、L Server Native 需要 Database name 需要(1433) 需要 ODBC ODBC DSN name 需要 IBM DB2 Native 需要 Database name 需要(50000) 需要 ODBC ODBC DSN name 需要 AS/400 Native 需要 AS/400 Library name 可选 需要 ODBC ODBC DSN name 需要 Sybase Native 需要 Database name 需要(5001) 需要 ODBC

32、 ODBC DSN name 需要 3.4.2.4 作业项目 显示该作业中的所有项目: 3.4.2.5 子服务器 右键单击“子服务器”选择“新建”或双击“子服务器”都可新建子服务器: 新建“子服务器”的界面如下所示: 3.5核心对象介绍 核心对象包括转换transformation和作业Jobs的核心对象。即转换和作业中用到的各种组件。 3.5.1Transformation核心对象 Transformation核心对象是Kettle中转换的所有组件。具体如下图所示: 3.5.1.1 Transform Transform:转换。 Du

33、mmy Plugin:空操作,即是一个空的测试步骤。 3.5.1.2 Input Input:导入数据。 3.5.1.2.1 ESRI Shape ESRI Shape:读取矢量数据,即从SHP文件中读取图形数据和属性数据。 Shape以矢量数据表达和储存地图要素的数据文件格式; 1)shp文件:它是shapefiles的主体文件,用来储存地图要素坐标数据及几何数据。 2)shx文件:它是用来储存地图要素之间隶属关系的索引文件 。 3)dbf文件它是以DBase关系数据文件的方式储存各地图要素的属性。 3.5.1.2.2 S3 CSV Input

34、 S3 CSV Input:CSV文件输入,即将读取的CSV文件数据并行存储到Amazon中。 3.5.1.3 输入 Kettle支持以下各种数据输入选项: 3.5.1.3.1 Access Input Access Input:导入数据库文件,即从微软数据库文件中读取数据。 右键单击或者直接双击图标,选择“编辑步骤”开始配置: (1)先选择源 ACCESS 文件 文件中先点击浏览,定位到已存在的 ACCESS 数据库文件: 当点击“增加”按钮后,即可将文件路径添加到选中的文件筐中: (2)内容中选择表 (3)字段选择 选择输入数据的

35、字段 3.5.1.3.2 CSV CSV :导入CSV文件,即导入简单的CSV文件。 CSV 逗号分隔值文件(Comma Separated value) ,是一种用来存储数据的纯文本文件格式,通常用于电子表格或数据库软件。 l Step name:步骤名称。 l :文件名称。 l Delimiter:分隔符。 l Endosure: l NIO buffer size:NIO 缓存大小。 l Lazy conversion: l Header row present: l Add to result: l The row number field

36、name(optional): l Running in parallel:并行运行。 l : 字符集选择。 3.5.1.3.3 Cube 输入 Cube 输入:导入Cube文件,即从一个cube文件中读取数据。 在 BI 领域,CUBE 是多维立方体的简称,主要用于支持联机分析应用(OLAP) ,为企业决策提供支持。Cube 文件扩展名是.cube。 3.5.1.3.4 Excel 输入 Excel 输入:导入Excel文件,即从微软的Excel文件中读取数据,兼容Excel 95,97,2000。 (1)文件 浏览并选择 Excel 文件,然后点击增加按钮

37、增加选中的文件到列表中。 (2)工作表 选择 EXCEL 文件中的工作表: (3)内容 以下设置会在输出表中显示: (4)错误处理 如果选择忽略错误选项后,上图中的灰色部分变为可用,如下图所示: (5)字段 输入数据的相关字段,例如: 选项内容说明如下: l 头部:检查是否工作表指定了一个头部行。 l 非空记录:检查是否不需要空行输出。 l 停在空记录:当步骤在读取工作表遇到一个空行的时候停止读取。 l 文件名称字段:步骤输出指定一个包含文件名的字段。 l 工作表名称字段:步骤输出指定一个包含工作表名称的字段。 l Sheet row

38、 nr field:步骤输出指定一个包含工作表行数的字段。工作表行数是实际的EXCEL工作表的行数。 l Row nr written field: 步骤输出指定一个包含行数的字段。 l 限制:限制输出的行数,0代表输出所有行。 3.5.1.3.5 Fixed Fixed :导入文本文件,即导入文本文件。 固定长度的数据输入,编辑步骤: 3.5.1.3.6 Generate random value Generate random value:生成随机数,即随机数生成器。 产生一个某类型的随机值,编辑步骤: 3.5.1.3.7 Get Get :获得

39、文件名称,即从系统中获得文件并将其发送到下一步。 得到硬盘上文件的详细信息: 文件: 过滤: 3.5.1.3.8 Get Files Rows Count Get files Rows Count:获取文件行数,即获取文件行数。 文件: 内容: 3.5.1.3.9 Get SubFolder names Get SubFolder names:获取子文件夹名称,即读取一个主文件夹获取所有的子文件。 文件: 设置: 3.5.1.3.10 Get data from XML Get data from XML:从xml文件中获取数据,

40、即使用XPath路径读取xml文件,这个步骤也允许你解析以前字段定义的xml文件。 选择.xml文件后点击“Add”按钮后如下图所示: 文件: 内容: 字段: 3.5.1.3.11 LDAP Input 使用LDAP协议读取远程数据,即利用LDAP协议连接远程主机读取数据。 一般: 内容: 字段: 3.5.1.3.12 LDIF Input LDIF Input:导入LDIF文件,即从LDIF文件中读取数据。 文件: 内容: 字段: 3.5.1.3.13 Mondrian Input Mondrian Input:

41、导入MDX文件,即用MDX查询语句执行和审核数据,分析LDAP服务器。 3.5.1.3.14 Property Input Property Input:导入属性文件,即从属性文件中读入键值对。 从 properties 文件中输入数据: 文件: 内容: 字段: 3.5.1.3.15 RSS Input RSS Input:导入RSS订阅,即读取RSS订阅信息。 一般: 内容: 字段: 3.5.1.3.16 SalesForce Input SalesForce Input:导入salesforce服务,即读取slaseforc

42、e模块服务,并将其转换成数据,并把这些数据写入多个输出流。 设置: 内容: 字段: 3.5.1.3.17 XBase 输入 XBase输入:导入DBF文件,即从一个XBase类型的DBF文件中读取记录。 使用这一步可以读取大多数被称为XBase family 派生的 DBF 文件: l 步骤名称:步骤的名称,在单个转换中必须唯一。 l 文件名:用变量支持。 l Limit size:读取行的数量,0表示不限制。 l 增加记录行数:用包含行号的指定名称,添加一个字段到输出中。 3.5.1.3.18 文本文件输入 从文本文件中读取数据出来,编辑步骤

43、 (1) 文件 增加文件,包括路径: (2)内容: 按照文本内容的分隔样式来输入数据 (3)错误处理 当错误发生的时候错误处理标签允许你指定这个步骤将重新做些什么。 选项 描述 忽略错误 如果在解析的时候忽略错误,就指定这个选项 跳过错误行 使用这个选项来跳过那些出现错误的行。你可以生成另外的文件来包含发生错误的行号。如果不跳过错误行,解析错误字段将是空的 错误计数字段 在输出流行中增加一个字段,这个字段将包含错误发生的行数 错误字段字段名 在输出流行中增加一个字段,这个字段将包含错误发生的字段名称 错误文本字段名 在输出流行中增加一个字段,这

44、个字段将包含解析错误发生字段的描述 警告文件目录 当警告发生的时候,它们将被放进这个目录。文件名将是<警告目录>/文件名.<日期时间>.<警告文件扩展> 错误文件目录 当错误发生的时候,它们将被放进这个目录。文件名将是<错误文件目录>/文件名.<日期时间>.<错误文件扩展> 失败行数文件目录 当解析行的时候发生错误,行号将被放到这个目录。文件名将是<错误行目录>/文件名.<日期时间>.<错误行扩展> (4)过滤 在“过滤”标签中,你可以指定文本文件中要过滤的: 选项 描述 过滤字符 搜索字符串 过滤位置 在行中过滤字符串必须存在的位置。0是起始位置,如果你指定一

45、个小于0的值,过滤器将搜索整个字符 停止在过滤器 如果你想在文本文件遇到过滤字符的时候,停止处理,就指定Y (5)字段 选项 描述 名称 字段名称 类型 字段类型(String、Date、Number等) 格式 长度 对于Number:有效数的数量 对于String:字符的长度 对于Date:打印输出字符的长度(例如4代表返回年份) 精度 对于Number:浮点数的数量 对于String,Date,Boolean:未使用 货币类型 用来解释如$10,000.00的数字 小数 小数点可以是”.”(10;000.00)或者”,”(5.000,00)

46、 分组 分组可以是”.”(10;000.00)或者”,”(5.000,00) 如果为空 空值处理为 默认 字段为空的时候的默认值 去空字符串 处理之前先去空 重复 Y/N:如果在当前行中对应的值为空,则重复最后一次不为空的值 3.5.1.3.19 生成记录 生成一些空记录或相等的行,编辑步骤,例如: 点击“预览”后,则出现以下界面 3.5.1.3.20 获取系统信息 获取系统的相关信息,编辑步骤: 输入名称,点击类型,选择信息的类型,有以下类型的数据: 3.5.1.3.21 表输入 从数据库表中读取信息: 这一步常常

47、用来利用连接和SQL,从数据库中读取信息。自动生成基本的SQL语句。 选项 描述 步骤名称 步骤的名称,在单一的步骤中,名称必需唯一 连接 读取数据的数据库连接 SQL SQL语句用来从数据库连接中读取数据 从步骤插入数据 指定我们期待读取数据的步骤名称。这些信息能被插入到SQL语句 限制 设置从数据库中读取的行数。0所有行 (1) 若选中,会发现中文内容会显示为乱码 。 (2) 记录数限制为 0 时即无限制 。 (3) 意为从前面步骤插入数据到此 (4)点击按钮,弹出数据库内容对话框: 点击左边的表,右边呈现可用状态 选择输入表后,点击“确认”按

48、钮,会提示: 再点击“是”按钮,机会出现以下界面: 再点击上图中的“确定”按钮后,即完成输入表的配置。 3.5.1.4 输出 Kettle支持以下各种形式的数据输出,具体如下图所示: 3.5.1.4.1 Access Output Access Output:导出数据,即记录存储到微软的数据库表中。 Database 直接输入名字即可,不需要首先创建,最好不要用中文 Target table 直接输入名字即可,不要用中文,转换运行过程中自动创建 ACCESS 数据库文件和表。Access 输出是输出从前面来的所有字段信息,若要选择相关字段,则在之前用到以下控

49、件: 3.5.1.4.2 Cube 输出 Cube输出:导出Cube文件,即数据写入Cube文件中。 在 BI 领域,CUBE 是多维立方体的简称,主要用于支持联机分析应用(OLAP) ,为企业决策提供支持。输出数据到 Cube 文件中: 3.5.1.4.3 Excel Output Excel Output:导出Excel文件,即储记录到Excel格式化文档中。 (1) 文件 Excel输出中文件选项设置界面如下图所示: (2) 内容 (3) 字段 3.5.1.4.4 Properties Output Properties Output:导

50、出属性信息,即数据写入属性文件。 Properties 格式文件是 Java 中的文件,类似 XML 文件,都是用来按一定结构保存数据的,一般用于资源文件、配置文件,xml 也多用于数据传输。具体干什么用要看业务需求。使用 MyEclipse Text Editor 可以编辑、打开此格式文件: 编辑步骤: 选择字段名称和字段值: 一般: Content(内容) :选择输出文件路径 3.5.1.4.5 RSS Output RSS Output:导出RSS订阅信息,即读RSS订阅信息流。 Chanel: Item:项。 custom outpu

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2026 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服