pentaho工具使用基础手册.docx

资源描述

1、 Pentaho工具使用手册作者：马腾，李洪宇版本：1.0目录BI 介绍2Pentaho产品介绍3Pentaho产品线设计4Pentaho BI Platform安装4Pentaho Data Integration-Kettle8Pentaho Report Designer12Saiku23Schema Workbench27附件32BI 介绍1. BI基础介绍BI（BusinessIntelligence）即商务智能，它是一套完整处理方案，利用数据仓库、数据挖掘技术对用户数据进行系统地储存和管理，并经过多种数据统计分析工具对用户数据进行分析，提供多种分析汇报，为企业多种经营活动提供决议信

2、息。其中关键点是数据管理，数据分析，支持决议。依据要处理问题不一样，BI系统产出通常包含以下三种：2. BI系统产出2.1 固定格式报表固定格式报表是BI最基础一个应用，其目标是展示目前业务系统运行状态。固定格式报表一旦建立，用户就不能够更改报表结构，只能依据数据库数据不停刷新报表，方便取得较新数据。在pentaho产品线中，我们使用pentaho report designer来实现固定格式报表需求。2.2 OLAP分析OLAP分析是指创建一个动态报表展示结构，用户能够在一个IT预定义数据集中自由选择自己感爱好特征和指标，利用钻取，行列转换等分析手段实现得到知识，或验证假设目标。在pent

3、aho产品线中，我们使用Saiku来实现OLAP分析需求。2.3 数据挖掘数据挖掘是BI一个高级应用。数据挖掘是指从海量数据中经过数据挖掘技术得到有用知识，而且以通俗易懂方法表示知识，方便支持业务决议。在pentaho产品线中，我们使用weka来实现数据挖掘需求。Pentaho产品介绍1. 产品介绍Pentaho是世界上最流行开源商业智能软件，以工作流为关键、强调面向处理方案而非工具组件BI套件，整合了多个开源项目，目标是和商业BI相抗衡。它是一个基于java平台商业智能套件，之所以说是套件是因为它包含一个web server平台和多个工具软件：报表，分析，图表，数据集成，数据挖掘等，能够说包

4、含了商业智能方方面面。2. Pentaho架构图Pentaho架构图以下，简明解释以下：3rd party applications指交易系统，也就是数据仓库原系统。Data & Application Integration关键指定义数据仓库元数据，在数据仓库结构设计完成后，经过ETL过程将原系统数据送入数据仓库。Business Intelligence Platform指pentaho提供BI平台，在这个平台上能够进行平台安全设置，平台管理之类工作，这个平台也是BI服务基础。Reporting，Analysis，Dashboards，Process Management是基于BI平台上P

5、entaho能够实现服务，比如报表，分析，仪表盘，服务自动控制等。Presentation Layer指展示层，在这一层，我们能够把其下层做好报表等分析结果经过门户网站，Email等多种方法展示给用户。Pentaho产品线设计1. 产品线设计Pentaho作为一个开源BI套件，商业版和小区版加起来共有几十种产品。考虑到恒信实际业务开展情况，和未来可能需求，确定产品线以下。BI Function ProductETLKettleMetadata ManagementPentaho Metadata Editor (PME)OLAPSaiku + Schema WorkbenchReport to

6、olsFixed report：Pentaho report designerAd-hoc report：Saiku Dashboard：CDE Data MiningWeka BI platformPentaho BI PlatformR languageRBig DataPentaho for Big Data产品线设计并非一成不变，伴随需求增加，当一些需求无法利用现有产品线实现时，能够继续添加组件，方便形成更为完善BI体系。Pentaho BI Platform安装1. 安装步骤将下载下来biserver-ce-X.X.X-stable.zip文件解压到D:下，将会产生administr

7、ation-console和biserver-ce两个文件夹，前者是pentaho控制台，后者是pentaho BI服务器。默认时，Pentaho BI 平台会使用内置JRE，它在 D:biserver-cejre 位置。假如用户机器上安装了 JDK，并设置了 JAVA_HOME，则 Pentaho BI 平台会使用用户指定 JDK。运行D:biserver-ce下“start-pentaho.bat”批处理脚本能够开启 Pentaho BI 服务器，它运行在 Apache Tomcat容器中，并采纳了 HSQLDB 数据库（）。2. 开启/停止BI server现在，打开浏览器，并访问htt

8、p:/localhost:8080/pentaho，则将看到登录界面，当 joe/password 用户登录后，BI 服务器主界面将展现在眼前。假如需要停止 Pentaho BI 服务器，则于 D:biserver-ce 目录下运行“stop-pentaho.bat”批处理脚本即可。它将同时停止 Pentaho BI 服务器和 HSQLDB 数据库。3. 启用/停止Pentaho管理控制台于 D:administration-console 目录运行以下“start-pac.bat”批处理脚本能够开启 Pentaho管理控制台。默认时，它宿主在 Jetty Web 容器中。将浏览器定位到htt

9、p:/localhost:8099/网址后，并输入默认admin/password用户，即可登录到Pentaho管理控制台中。Pentaho 管理控制台是整个 BI 平台关键后端软件，系统管理员经过它能够完成各类操作，比如维护用户及角色信息、注册新业务库（数据库连接）、控制 BI 服务器中多种敏感信息、使用调度服务等。假如要停止 Pentaho 管理控制台，则于 D:administration-console 目录下运行“stop-pac.bat”批处理脚本即可。4. HSQLDB迁移到MySQL DB4.1 迁移原因Pentaho BI 服务器很多关键信息存放在数据库中，其默认使用 HSQ

10、LDB 数据库，即借助它存放本身资料库，比如 Quartz 调度信息、业务资料库连接信息（数据源）等。HSQLDB 是不能够支撑真实企业应用，生产环境必需替换它，所以我们需要将HSQLDB迁移至MySQL。4.2 创建MySQL数据库分别实施下面加粗sql脚本。前后次序不限。运行方法是多个，能够经过MySQL Workbench导入工具实现。我们设定导入MySQL数据库地址为jdbc:mysql:/localhost:3307，用户名root，密码root。biserver-cedatamysql5create_quartz_mysql.sqlbiserver-cedatamysql5crea

11、te_repository_mysql.sqlbiserver-cedatamysql5create_sample_datasource_mysql.sql其中1. create_repository_mysql.sql 创建hibernate 数据库，用于存放用户授权认证，solution repository和数据源。2. create_sample_datasource.sql 为sample数据添加pentaho全部基础实例数据源。3. create_quartz_mysql.sql 为Quartz计划任务器创建资源库。4.3配置Pentaho1 给pentaho添加JDBC文件下载M

12、ySQLJDBC驱动：MySQLmysql-connector-java-x.x.x.jar将其拷贝至biserver-cetomcatlib和administration-consolejdbc下，方便BI service和administration console访问MySQL数据库。2 修改以下文件biserver-cepentaho-solutionssystemapplicationContext-spring-security-jdbc.xmlbiserver-cepentaho-solutionssystemapplicationContext-spring-security-

13、hibernate.propertiesbiserver-cepentaho-solutionssystemhibernatehibernate-settings.xmlbiserver-cepentaho-solutionssystemhibernatemysql5.hibernate.cfg.xmlbiserver-cetomcatwebappspentahoMETA-INFcontext.xml以上文件关键是替换SQL驱动，SQL用户名和密码等信息。修改详情以下，红色部分代表文件名，黑体代表更改点。applicationContext-spring-security-jdbc.xml a

14、pplicationContext-spring-security-hibernate.propertiesjdbc.driver=com.mysql.jdbc.Driverjdbc.url=jdbc:mysql:/localhost:3307/hibernatejdbc.username=rootjdbc.password=roothibernate.dialect=org.hibernate.dialect.MySQL5InnoDBDialecthibernate-settings.xmlsystem/hibernate/mysql5.hibernate.cfg.xmlmysql5.hib

15、ernate.cfg.xmlcom.mysql.jdbc.Driverjdbc:mysql:/localhost:3307/hibernate org.hibernate.dialect.MySQL5InnoDBDialect rootrootcontext.xml 现在能够开启pentaho服务了。能够看到BI环境准备就绪。Pentaho Data Integration-Kettle1. Kettle安装要运行此工具你必需安装 Sun 企业 JAVA 运行环境 1.4 或更高版本。Kettle 下载可经过。我们将下载 pdi-ce-4.4.0-stable.zip 解压到想要放置路径，并实

16、施这一目录中Spoon.bat文件，Kettle主界面将展现在我们面前。左侧部分是对转换和作业进行数据库等相关配置设置区域。Design是对应组件明细。右边部分是ETL主界面，我们需要把Design页面中相关组件在上面设计展示。Kettle 中有两种脚本文件，transformation和job，transformation完成针对数据基础转换，job 则完成整个工作流控制。Kettle体系结构：2. Kettle使用2.1 数据库连接使用 kettle 进行数据抽取和转换之前必需连接数据库，你能够同时创建多个不一样数据库连接，如：Oracle、sql server、MySQL 等。下图是对当

17、地mysql数据库建立连接。点击test按钮进行数据库连接测试2.2 新建一个转换Transformation(Ctrl+N)eg要求：将数据库中交易表数据按时间增量抽取并过滤输出到目标数据库中另一张表中。第一步要先创建一个新 transformation,再创建数据库连接；第二步从输入中找到【表输入】，拖到主窗口释放鼠标。接下来双击表输入写查询语句；【获取目标表中对应字段最新时间，没有就给个初始时间。】第三步从输入中找到【表输入】，拖到主窗口释放鼠标。按住 shift 键，用鼠标点中第二步表输入和第三步表输入进行连接；在sql中从点击获取sql查询语句中选择需要进行增量操作表，然后确定需要显

18、示列名，出现没有where条件sql语句，然后自己在sql中增加where 条件用？代表从上一个步骤中传过来变量，在下面替换sql语句里变量，打勾，确保到时问号符号能用被替换，从步骤插入数据下拉菜单中选择上一步操作，在实施每一行上打勾。第四步从输入中找到【字段选择】，拖到主窗口释放鼠标。按住 shift 键，用鼠标点中表输入和字段选择进行连接；第五步双击【字段选择】，可在依据需求选择保留字段；第六步是找到【过滤统计】连接方法同上，双击过滤统计，在里面进行字段选择，并在中键入值。确定保留。最终找到【表输出】并对其连接，设置好输出表名等信息后。点击保留，然后点击运行可进行转换。整个结构图以下：2

19、.3 新建一个作业Jobs(Ctrl+ALT+N)eg要求：将多个转换根据处理次序保留到实施计划中。并能够对其进行定时实施。第一步要先创建一个新 transformation,再创建数据库连接；第二步从通用组件中找到【开始】，拖到主窗口释放鼠标。接下来双击能够进行定时设置.第三步从通用组件中找到【转换】，拖到主窗口释放鼠标，按住 shift 键，用鼠标点中开始和转换进行连接；最终从脚本中找到【SQL】并对其连接，设置实施SQL后。点击保留，然后点击运行可根据start定义方法进行实施。整个结构图以下：因为组件种类繁多，相关Design中其它组件使用方法能够参考附件中官方文档 Pentaho_D

20、ata_Integration_4_Cookbook.pdfPentaho Report Designer1. Pentaho Report Designer安装开发者可经过，我们将下载 prd-ce-3.9.1-GA.zip 解压到想要放置路径，并实施这一目录中 report-designer.bat 批处理文件，PRD 主界面将展现在我们面前。2. PRD使用例子2.1 新建一个报表(Ctrl+N)对报表界面做简明介绍：左侧竖条展示了我们在设计报表时可能用到工具。中间部分是报表主界面，我们需要把报表结果在主界面上排版展示右边标签Structure能够看到报表结构，Data标签里有全部要展示

21、数据。包含报表query结果，和多种函数。2.2 创建query在Data标签下右击data sets，选择JDBC连接，以下界面将会跳出。左侧框格显示了全部已存在数据库连接，我们能够点击框格上方按钮来增删改数据库连接。右上侧框格展示了我们对应于某个数据库连接有哪些已存在query。一样能够经过右上角按钮来增删query。右下侧框格是query专题部分，能够点击铅笔图标进入图形化SQL编辑器，也能够直接在显示query语句中编辑SQL语句。2.3 设计query字段展示。在右侧data标签中找到query查询结果字段，按住左键将其拖入到报表设计主界面。切换右上角标签页到Structure标签，

22、单击报表设计主界面上对象，在右下角Style和Attributes标签上能够看到这个对象风格和属性。Style标签定义了这个对象展示风格，比如字体颜色，背景色等内容。Attributes标签定义了对象属性，比如对象类型，名字等内容。能够看到报表设计主界面被分为了不一样区域，她们表示了报表结构。Page Header和Page Footer中对象会在报表每页全部显示。Report Header中对象只在报表开头时展示一次，Detail中对象会完全罗列query中结果，Report Footer中对象会只在report结尾显示一次。在右上角Structure标签中也能够显著看出报表结构，甚至能够看

23、到在主界面上不显示结构，比如Details Header。同时，在各个报表功效区域下，我们还能够看到主页面上对象，比以下图中，我们能够经过Structure标签就能够知道在主界面Details区域内我们放置了两个字段，sourceName和sourceID。Structure标签中报表结构是最为完整报表结构，我们在主界面上看不到一些区域是因为软件默认在主界面上隐藏这些区域。我们能够在Structure标签中点击对应对象解除隐藏。比如在Structure标签中单击Details Header，在Attributes标签中把hide-on-canvas改为False。这么就能够在主界面上显示Det

24、ails Header区域。2.4 对数据做图PRD中提供作图功效，我们能够对数据表进行作图方便愈加好地显示。从左侧工具条中找到“chart”对象，将其拖到主界面上想要放置位置。在主界面上双击图片区域，能够修改图种类和选项，我们以饼图为例，解释以下图。饼图效果以下:2.5 报表参数设计PRD支持报表参数设计，我们能够利用参数来实现报表filter。具体做法以下，右击Data标签中parameter点击新增或修改Data Sources新加一个query，取名Query company nameSQL代码为接下来我们做以下配置：为parameter取名为f，指定query为Query compa

25、ny name。这么我们就产生了一个名为f参数。不过这个参数现在并不能起作用。我们需要在报表查询主query中把参数加入才行。在主query中需要把参数f写为$f格式才能起作用。报表将会显示当company name=参数f值时，Select语句所选择字段。以下例子中，我们创建了两个参数，f代表company name和f1代表日期。当我们运行报表时，对参数“企业”和“日期”选择具体值，就能够看到报表查询主query依据指定企业和指定日期查询得到结果。2.6 公式PRD提供了强大公式功效，不仅内建了很多实用公式，比如“目前页数/总页数”，“总行数”，还支持自定义公式。公式入口在Data标签下F

26、unctions上，右击增加公式，我们能够选择PRD内建好公式，也能够自定义公式。公式根据功效已经分类，除了内建公式之外，我们点击Open Formula能够自定义公式。2.7 子报表，SubreportPRD在软件设计时限制一个报表只能选定一个query在主界面上放置字段，也就是说一个报表同一时刻只支持从一个query查询到数据而且显示出来。那么当我们需要在一个报表上同时显示多个数据集，多个query查询结果时该怎么办？措施就是添加一个subreport，在主报表从左侧工具栏上拖入sub-report到想要位置，双击进入subreport，会发觉subreport和主报表设计器几乎一模一样，

27、能够定义query，能够设置公式，唯一不一样是subreport不能新建参数，只能从主报表传输参数过来。Saiku1. Pentaho Saiku安装Saiku关键提供两种安装方法。独立运行和集成在Pentaho BI平台上，我们这里采取集成在Pentaho BI平台这种方法运行。点击pentaho-solutionssystem下，并重启BI平台服务。登录BI平台并点击saiku按钮就能够看到Saiku真面目了。2. Saiku使用例子使用saiku分析之前要准备好cube。通常见Schema Workbench建立。相关Schema Workbench使用，下节有专门介绍。2.1 新建一个

28、分析报表点File选择new Saiku Analytics进入到分析设计画面，点击左边cube面板上下拉按钮，选择一个cube。选择steelwheelSales后，下面维度和度量值就会显示出来拖拽Demensions和Measures中内容依据需要放到右面设计面板上。默认情况，结果面板会立即对设计结果给予预览展示。点击saiku工具条保留按钮，将设计好OLAP分析结果公布到PentahoBI平台上。Ps.临时不支持汉字保留2.2 查看一个分析报表点击BI平台按钮将左边画面展开，安装刚保留路径逐一点击后显示下面画面Files中testSaiku就是刚刚保留好。双击即可应用。Schema Wo

29、rkbench1. Schema Workbench安装1，需要jdk1.5+，下载psw-ce-3.4.1.1并解压缩到自定义路径如D:/。2，修改workbench.bat文件,找到“rem you should also put mondrian.properties on the calsspath for it to be picked up”这一行并在下方添加 set CP=%CP%;./mondrian.properties；找到“rem add all needed JDBC drivers to the classpath”这一行并在下方添加set CP=%CP%;lib/j

30、dbc.jar（假如有多个驱动JAR文件，就添加多行）3，重新开启workbench.bat4，点击tools-connection配置数据库，在弹出对话框处填写JDBC连接信息。注意：要把对应JDBC驱动包拷贝到schema-workbenchlib下面。5，file-new-schema出来界面以下图2. 制作CUBE数据立方体1.创建或编辑元素，workbench会自动依据你改动获取和校验相关表和字段。2.一旦犯错，会在软件下方区域提醒错误信息相关书写细节参考附件官方文档官方CUBE编写指南3确定无错误并保留4. 点击file-new-MDX Query 输入语句，点击Execute即可校验结果5.公布到pentahoBI平台公布成功后到saiku设计画面就能够看到新建CUBE附件A. Pentaho_Data_Integration_4_Cookbook.pdfB. Kettle 3.2 使用说明书.pdfC. 官方CUBE编写指南.pdf

展开阅读全文