资源描述
1 Informatica概述 3
2 安装Informatica8.6.1 3
2.1 服务端安装 3
2.2 客户端安装 7
3 配备管理服务器 9
3.1 创立知识库和集成服务 9
3.2 客户端到集成服务端连接 12
4 PowerCenter Designer学习 13
4.1 概念和基本定义 13
4.2 Mapping设计和组件使用 15
4.2.1 实例一:聚合抽取 15
4.2.2 实例二:取TOP前三条记录 16
4.2.3 实例三:抽取XML源 19
4.3 WorkFlow设计和使用 20
4.3.1 创立Session 20
4.3.2 设计WorkFlow 22
4.4 Repository Manager 23
1 Informatica概述
Informatica始终致力于为客户提供具备强大元数据管理、数据集成和个性化分析递送功能世界通行原则统一数据服务平台。Informatica基本设施产品以可伸缩、可扩展公司级数据集成平台为特点,并广泛支持来自Informatica和其她领先商务智能提供商数据仓库基本设施和分析型应用软件开发和管理,提供元数据管理解决方案,协助公司集成、优化、审核信息资产以提高运营效率,增长客户收益,获得竞争优势。
详见文档:
2 安装Informatica8.6.1
这里以Informatica8.6.1为例:
2.1 服务端安装
找到安装目录pc861_win32_x86.zip\Server\Windows\Disk1\InstData\VM下
点击安装
选取安装语言,这里以中文版为例
点击下一步,并选取安装PowerCenter8.6.1
必要选取事先准备好安装密匙
选取安装途径
HTTPS配备,配备管理控制台与配备管理器安全通信(如果没有使用该端口就采用默认)
配备好Informatica域并进行下一步,取掉为特定顾客启动Informatica Services,点击完毕安装
2.2 客户端安装
选取安装
设立安装途径
安装完毕后可以看到包括所有工具
3 配备管理服务器
3.1 创立知识库和集成服务
接下来咱们重要是配备知识库管理服务器,PowerCenter数据整合引擎是基于元数据驱动,提供了基于元数据驱动元数据知识库(Repository),知识库是PowerCenter核心。
在Informatica Services启动状况下,咱们可以通过管理控制台来操作。
从控制台里咱们可以看到诸多选项,咱们重要是创立存储库服务(Repository)和集成服务,存储库服务(Repository) 存储所有ETL元数据,涉及:源、目的表物理和逻辑元数据, ETL转换规则,知识库顾客权限,ETL任务运营历史信息等元数据。
一方面咱们创立一种用于测试学习存储服务器,事先在Oracle中建好要用到数据库
此处如果无法创立成功有如下也许:
1. 需要设立环境变量,将C:\Informatica\PowerCenter8.6.1\Server\bin;C:\Informatica\PowerCenter8.6.1\RepositoryServer\bin;移到Path最前边
2. 代码页一定要如下选取
3. 设立知库链接用数据库顾客要有DBA角色权限
连接字符串设立为当前Oracle服务名
接下来创立集成服务,由于集成服务是依赖于知识库,注意关联存储库服务选取刚建好学习测试存储库,存储库默认要设立顾客名和密码为:Administrator
至次咱们完毕了服务端基本配备,服务端可以对知识库备份和恢复等诸多功能,也可以建立其相应服务,这里不再多述!
3.2 客户端到集成服务端连接
咱们开发ETL要使用到PowerCenter Designer工具,详细简介在概述中有,接下咱们配备好Designer与集成服务连接:
从客户端工具中打开PowerCenter Repository Manager
从菜单上选取存储库>配备域 如下:
这样就连接上集成测试用例库,选取学习测试用例库,从文献夹选项目创立文献夹,相称于在集成库下一层子目录
至此,打开PowerCenter Designer就可开发使用了
4 PowerCenter Designer学习
4.1 概念和基本定义
最基本ETL涉及源定义,目的定义,和映射,此外咱们还可以创立可以重用Mapplet。
使用到工具如下
源分析器:
目的设计器:
映射设计:
传播件设计:
Mapplet组件设计:
源分析器是用来定义源构造,这里源虽然是从某个数据库导出进来表构造也可以是某个XSD定义XML构造等等,但是仅仅绑定了数据库类型,并不是指定了链接要从那个数据库里抽取数据。这里咱们从菜单可以导入表构造,Informatica 提供了ODBC方式链接各种数据源
咱们以一种DW事实表为例:
同样咱们可以定义目的构造,常规也是导入表构造,咱们也可以在Mapping设计中自动创立目的表构造,源定义和目的定义中,咱们可以对导进来表名以及表构造进行修改以满足咱们设计需求,但是咱们在WorkFlow中实现数据抽取中相应源和目的要和此构造相似,如果要满足变化源和目的,可以通过Visio设计来转换为Mapping来实现。
4.2 Mapping设计和组件使用
PowerCenter Designer通过Mapping来完毕从源到目的转换,Mapping设计器中包括了大量转换组件
关于组件详尽阐明,可以打开文档详细学习:
转换组件普通包括,转换、端口、属性、以及元数据扩展
转换:可以对该转换更改名称和附加详细阐明。
端口:转换组件大都包括转换输入端口和输出端口以及特定操作或表达式。
属性:该转换组件特定设立
元数据扩展:
下边以两个实例来解说组件使用
4.2.1 实例一:聚合抽取
从源到目的,咱们中间用聚合组件,对OWE_CHARGE进行SUM并按几种维组来聚合,如下图:
从下图咱们可以看到该组件端口中字段属包括:I、O、V、表达式、GroupBy等属性,对于OWE_CHARGE字段咱们仅设立输入,创立自定义属性端口SUM_OWE_CHARGE,其表达式为SUM(OWE_CHARGE),对于维度键勾选GroupBy,这样实现了细粒度到粗粒度聚合
每种组件均有自己特定属性和特定端口属性,咱们通过属性设立或表达式来实现组件特性,不同组件搭配来完毕整个Mapping设计
4.2.2 实例二:取TOP前三条记录
源表数据
目的:取Score1 TOP前3条记录、和Score2 TOP前3条记录
实现:
对源表分别用两个Rank组件,Rank组件有分组排序取前N或后N条记录功能,如下图
端口属性如下:RankIndex 为自动产生Rownum,score1后R表达以此排序
组件属性设立如下:
top/bottom:取前或后
Number Of Ranks:取多少位
抽取成果:
4.2.3 实例三:抽取XML源
雇员DTD定义:
设计如下:
导入XML源构造为源,通过SQ分别将雇员信息分解为雇员表,雇员电话,雇员邮件,雇员薪水,详细设计如下图:
4.3 WorkFlow设计和使用
4.3.1 创立Session
在做完Mapping设计之后,咱们要抽取数据,接下来任务就是WorkFlow设计,在WorkFlow设计器中,数据抽取基本组件是Session,Session是映射一种详细实例,在创立一种Session时必要指定一种映射,并由这个Session决定了数据抽取默认源和目的。
咱们打开WorkFlow设计工具,从工具上选取,这样咱们就可以创立Session,
从库中选取已经设计好Mapping,拟定
双击已经创立好Session,设立默认映射,源,以及目的实例,例如在设计源时候,咱们源是Oracle表构造,在这里相应设立数据库连接即可,如果源是文献,则要指定途径和文献名,咱们将源Tracing Level设立为Normal, Tracing Level为数据抽取监控日记级别
4.3.2 设计WorkFlow
在完毕Session创立后,点击设计工作流,工作流是对Session在抽取流程上定制,通过事件、变量、定期器、判断等一系列组件来实现。
如下图, 咱们创立一种工作流,其中由启动连接到实例一中映射所实例Session,这样就实现了工作流
接下来咱们启动该WorkFlow
从WorkFlow Monitor上可以看到动行状况并查看日记,
至此,咱们完毕典型WorkFlow开发,在WorkFlow中,对于可重用某些,咱们可以在中定义,关于更多WorkFlow组件使用这里就不在细述。
4.4 Repository Manager
Repository Manager工具可以以便咱们对知识库导入和平台转移,例如咱们从Windows平台可以导知识库轻松转移到Linux平台,同步Repository Manager可以对库进行历史版本控制。
从下图一方面可以连接知识库,然后咱们可以对映射和工作流等导入和导出,以XML中间构造转储
如果咱们在安装Informatica时,选取了启用历史版本功能,则可以像下图,设立知识库版本
综上所述,Repository为咱们协作开发和统一管理提供了有效手段。
1
2
展开阅读全文