收藏 分销(赏)

经分系统总体设计说明书数据质量样本.doc

上传人:二*** 文档编号:4747580 上传时间:2024-10-11 格式:DOC 页数:20 大小:407.54KB
下载 相关 举报
经分系统总体设计说明书数据质量样本.doc_第1页
第1页 / 共20页
本文档共20页,全文阅读请下载到手机保存,查看更方便
资源描述
内蒙古移动经营分析系统2.0 集团客户系统总体设计阐明书 10月 本文档及其所含信息为机密材料 并且由中华人民共和国移动集团公司和NCR(中华人民共和国)有限公司共同拥有。 本文档中任何某些未经中华人民共和国移动集团和NCR(中华人民共和国)有限公司书面授权, 不得将材料泄露给第三方,也不得以任何手段、任何形式进行复制与传播 Copyright © NCR版权 保存所有权利 目 录 S1 综述 3 1.1 编写目 3 1.2 读者对象 3 1.3 参照资料 3 2 系统总体架构 4 2.1 数据集市数据质量管理方案 4 2.2 其她模块阐明 4 2.3 数据质量交互方式 4 2.4 FTP轮询方式 5 3 系统软硬件总体构造 5 3.1 硬件技术构造 5 3.2 软件技术构造 6 4 技术设计 5 4.1 术语阐明 5 4.2 普通构造 10 4.3 建议构造 11 5 数据质量检查互交格式定义 14 6 平台设计 14 6.1 设计原则 15 6.2 系统数据接口 15 6.3 数据转换 17 6.4 数据加载 17 7 数据模型 17 7.1 逻辑数据模型 17 7.2 物理数据模型 17 7.3 数据模型管理 18 1 综述 1.1 编写目 编写本功能规格阐明书目,重要是对内蒙移动数据质量管理系统建设项目总体设计思想、功能明确阐述;使顾客和软件开发者双方对数据质量管理系统功能点有一种共同理解,为开展数据质量管理系统开发工作提供指引,保证系统功能满足集团规定和顾客需要。 1.2 读者对象 本文档适合于如下人员阅读和参照: Ø 开发、测试人员。 Ø 业务开发人员。 Ø 系统分析师。 Ø 系统架构师。 1.3 参照资料 《中华人民共和国移动省级经营分析系统规范总册v2.0》 《中华人民共和国移动省级经营分析系统数据质量管理系统业务技术规范v2.0.doc》 2 系统总体架构 2.1 数据集市数据质量管理方案 2.2 其她模块阐明 Ø 数据接口:是为了保证数据构造、意义、编码、保持一致。 Ø 数据质量管理:保证从数据源抽取数据质量。 Ø 数据模型:涉及逻辑数据模型和物理数据模型。 2.3 数据质量交互方式 • 交互频率 > 准时时提供 • 交互方式 > Ftp文献轮询 • 交互格式 > 交互格式为XML,详细格式和阐明由Teradata提供 2.4 FTP轮询方式 3 系统软硬件总体构造 3.1 硬件总体构造 产品型号 产品名称 配备 数量 厂家及阐明 NCR5450 数据仓库服务器 92TB(裸盘) 16节点 NCR/生产系统 NCR5380 数据仓库服务器 12TB(裸盘) 5节点 NCR/生产系统 NCR5350 数据仓库服务器 9TB(裸盘) 3节点 NCR/生产系统 小计: 103TB(热备) 22节点 NCR/生产系统 L700 磁带库 8个LTO1驱动器 1台 NCR-Library SL500 磁带库 18个LTO3驱动器 1台 NCR-Library IBM P460 ETL服务器 4CPU,8GRAM,2*73GB 2台 IBM HP DL630 应用服务器 2颗Inter® CPU 1.4GHz,2G内存 2台 HP HP rx4640 WEB服务器 4颗Inter® CPU 1.4GHz,4G内存,2块36G SCSI硬盘 2台 HP-PCServer 3.2 软件总体构造 1. NCR 5450/5380/5350 Teradata数据仓库服务器 操作系统:NCR UNIX SVR4 MP-RAS 数据库系统:NCR Teradata海量并行解决数据库管理系统 工具:NCR Teradata公用程序 MultiLoad FastLoad Bteq FastExport Arcmain 2. NCR A16数据仓库系统管理工作站 操作系统:NCR UNIX SVR4 MP-RAS 工作站管理软件 3. ETL服务器 操作系统:IBM AIX5.0 工具:NCR Teradata公用程序 MultiLoad FastLoad Bteq FastExport Perl ETL Automation 4. OLAP服务器 操作系统:HP Unix 工具:ESSBASE多维分析服务器版本 工具:NCR Teradata公用程序 MultiLoad FastLoad Bteq FastExport Perl ETL Automation 5. WEB服务器 操作系统:HP Unix & Windows Server 工具:Hyperion Brio Client版本与BEA WEBLogic 4 技术设计 内蒙经分系统核心技术设计是依托Teradata数据库PI及PARTITION等技术,Teradata是Relational Database Management System---RDBMS,可用于UNIX,WINDOWS NT,相应于工业化ANSI原则,Teradata用于大型数据库服务器,支持并发访问,并发操作祈求使其有能力解决海量数据,可在单节点或者多节点上运营,是公司级数据库首选解决方案. 4.1 术语阐明 下表阐明所使用专有名词: 名称 定义 数据库(Database) 数据库(database)是一种区域,其上可建立对象,例如表、视图及宏。表是数据储存地方,而经由视图及宏可控制数据存取能力。 数据库有配备磁盘空间。 数据库构造是层次性式架构(hierarchical),子数据库(child databases) 建立在母数据库(parent databases)之下。 数据库DBC是一种特殊数据库,它在系统定义时即已存在,且为分类及字典表(catalogue and dictionary tables)预设区域。DBC亦为数据库层次构造顶层。 PI 数据分布机制,数据分布与否均匀,直接影响到查询效率。 PARTITION (Partitioned Primary Index),分区索引,通过建立分区主索引(PPI),从而更好运用Teradata强大并行能力,使咱们可以在主表里同步储存历史数据和当前数据,也不会减少效能,并减少查询复杂性。 顾客(User) 顾客(user)是一种可登入至系统特殊数据库。 每一位顾客皆被配备一种严格限制永久空间,让顾客储存个人资料。 永久空间(Permanent Space) 永久空间 (perm或perm space) 为系统中可用以容纳数据库表磁盘空间总合。永久空间系配备给数据库以便储存数据之用。 只在一数据库所属于母数据库(parent database)当前有剩余可用空间时才干配备永久空间给该数据库。 一开始,Teradata数据库中所有空间皆为特殊数据库DBC所拥有。 Spool空间(Spool Space) Spool空间(spool)是数据库系统(DBMS)需要提供应表用以在执行SQL陈述指令期间暂时储存中间成果储存量总合。 预设作为spool空间大小是,最小必要有25%可用空间或最大资料表1.3倍,两者取较大者。 应将此首要规则视为最低规定,且可视解决程序而变化。在没有Spool空间状况下,查询无法执行 。 普通Spool空间是配备给顾客而不是数据库。Spool配备并非依照其直接母体(immediate parent) 可用空间,而是一任意总量,用以限制一位使用者所可以执行工作量。没有spool使用者无法执行任何工作,而具备很大spool使用者几乎可以执行任何复杂SQL工作。 帐号字符串(Account Strings) 帐号字符串用以辨认顾客组及顾客系统优先权,它们普通与个别顾客组有关而非特定顾客,但可觉得特定顾客建立它们。 宏(Macro) 宏是一组执行一项工作SQL,类似预存程序(stored procedure),但完全是SQL程序代码,不包括其他程序代码语言。 宏储存在数据库中且由顾客运用SQL命令执行。 Teradata 数据仓库所在数据库系统。 4.2 普通构造 一种称作DBC数据库是Teradata数据库中最高层次。它拥有系统中所有资源。DBC数据库中存在有各种系统及目录对象(dictionary objects)。没有任何顾客对DBC有拥有权。 DBC具备其他各种在系统产生时自动建立数据库,且这些数据库与特定工程任务及系统维护任务有关联,例如SystemFE及Crashdump数据库。对数据库及对象拥有权是层次性架构,且继承至其下层之子对象。对较高层或旁系阶层之数据库、视图或宏存取必要单独予以不同权利。 在内蒙移动,在DBC顾客下建立了一种 NMCCDW数据库,其下包括了所关于于数据数据库, 涉及数据、视图、宏与顾客。NMCCDW将是内蒙移动数据库管理员管理员ID(administrator id),并且拥有NMCCDW之下所有对象。 运用这种方式,管理员DBC可独立出来且不必要每天对它作管理工作。这样就可以保证DBC顾客安全性并可以避免未经允许即对DBC目录 (catalog) 及其他系统表变化。 DBC及NMCCDW这两种顾客都必要设定特定权利。数据库管理员(DBAs)应当使用不同身份登录数据库并用不同ID来执行数据库管理。 4.3 建议构造 数据库层次最顶层为DBC,如下图: 名称 阐明 $NETVAULT_CATALOG BakBone NETVAULT备份工具CATALOG库 CrashDumps CrashDumps数据库是系统重新激活时,系统内存倾泻(system memory dumps)之储存区域。如此可查看系统重新激活时发生状况,并且对于NCR实验室而言是解决问题时很有用工具。 此数据库必要可以保存3个CrashDumps。 DBCMngr SysAdmin Sys_Calendar Default All Console Public TDPUser 这些所有都是体系构造顾客。 普通而言,这些顾客ID不会指定给特定人员,但是会由负责 DBA保存,用它建立顾客并授予她们存取权。 Dbqm Teradata Query Management工具使用库 NETVAULT NETVAULT工具数据库恢复顾客,顾客可以自行创立 SystemFE 这个数据库存有NCR数据库执行维护和监督各项活动所需要各种视图 NMCCDW 获得DBC大某些存储资源,存储经营分析系统基本数据、汇总数据、视图、宏、日记、顾客信息等。 MMART 专项分析数据库 NMART 应用数据库 PData 这是基本数据(base production data)存储位置。 同步也是数据模型资料表存储位置 表是在LDM及PDM中资料表。 只有DBA才有权利在这个数据库中建立新表 在某种状况下,也可以删除、更改数据库中数据 SDATA 数据暂时区,也称缓冲区 PMART 中间层汇总数据库及应用层数据库 Temp 在测试工作中所产生暂时资料表在这里产生 建立数据库管理员在数据库中建立和删除表,在系统正常运营后仅使用这些表。 在这个数据库中也可以保存衍生数据和汇总表,这些表不是LDM/PDM一某些,而是依照系统实际需要产生。 PView 在这个数据库中保存系统正式运营后所有视图。 这些是基本视图,数据视图为普通执行系统作业时执行 PView 对PData有 Select权利。 只有DBA才可以在此数据库中建立对象。 ETL 在这个数据库中包括所有可以执行数据转换、备份工作顾客ID 每个作业/脚本都应当有唯一顾客ID 这些顾客ID并不分派给特定人员,而是分派给特定作业和脚本。 应当只对这又这些顾客ID才可以对正式运营数据,有Pdata及PView,更新权限 DBODB 深度运营平台数据库 MARTDB 数据集市数据库 5 数据质量检查交互格式定义 发送xml: rule-id :检查规则ID,由TD提供 instance-id :检查实例ID,由TD提供 rule-code :检查规则类型,由TD提供 should-exectime :应当提交执行时间,由TD提供 data-date :数据日期,由TD提供 script-sql :检查sql 接受xml: rule-id :检查规则ID,由TD提供,直接返回即可 instance-id :检查实例ID,由TD提供,直接返回即可 rule-code :检查规则类型,由TD提供,直接返回即可 should-exectime :应当提交执行时间,由TD提供,直接返回即可 data-date :数据日期,由TD提供,直接返回即可 result-code :执行成果代码,00执行失败,01执行成功 result-value :执行成果(详细数值) result-desc :执行信息(如果失败,报错信息) 6 平台设计 • 数据管理体系构造基本概念是针对各数据集市数据质量管理,采用统一配备,分布执行,统一管理方式。 为了获得最佳效果,需在不同服务器之间分派工作负荷,工具也相应地放置于最适当服务器之内。整个数据管理系统体系构造图如下图所示: 6.1 设计原则 • 对数据集市数据质量管理只在经分建立一套数据质量管理系统,对个数据集市开发统一数据质量规则接口 > 统一在经分数据质量管理系统中定义数据集市各自数据质量检测规则, > 经分定期传递规则给集市,详细执行在各个数据集市上面完毕。 > 集市将执行成果返回给经分数据质量管理系统,进行统一判断、告警、管理和报告 6.2 系统数据接口 当前有六种数据来源: BOSS系统: 属于内蒙移动BOSS系统,其中涉及了计费和营帐系统与解决帐务及客户资料系统。计费系统以HP 9000为平台,营帐系统同样以HP 9000为平台。 BOSS系记录费系统 BOSS系统营帐系统 商务分公司短信业务和移动梦网系统 数据分公司上网直通车业务 客户服务中心大客户服务业务 客户服务系统: 属于客户服务中心客户服务系统(1860),以HP Unix为平台,建立在Oracle数据库上华为客服系统。 MISC系统: 由卓望公司实行。 彩铃平台系统: 由华为公司实行。 话务网管系统: 由亿阳公司实行。 中央音乐平台: 由集团统一下发接口。 对于客户资料应将进行汇总整合,以利数据之一致性并避免重复。在总体设计上,当前是各个业务系统将数据通过接口或者文献方式传送给BOSS系统作解决,NCR建议由BOSS系统通过解决后统一传送给内蒙移动经营分析系统。 咱们筹划以上数据来源传送机制都经由ASCII文献。在BOSS系统中通过FTP办法,传送给ETL加载服务器,再由ETL加载服务器装载入NCR数据仓库服务器中。 对于新增长某些和数据更新某些,经双方共同确认后,由内蒙移动BOSS系统,将新增长某些和更新某些按数据传送规范,以FTP方式传送给NCRETL数据加载服务器。 数据加载将会自动化进行,采用程序轮询解决办法。能及时发现源系统已经传送了新数据资料,这些数据文献将置于ETL加载服务器上指定目录。程序将在ETL加载服务器上执行。它们会寻找这些档案,如果能获得这些档案,程序就会获取这些档案,并传送到转换服务器。程序会进行完整性检查,以保证档案传送与接受都对的。 6.3 数据转换 这项操作一某些将于ETL加载服务器上进行。如有需要,可撰写某些Perl程序,转换程序将于第7章详细阐明。另一某些在入库后,运用数据库强大性能支撑下由SQL脚本实现。这两某些程序都将会自动化运营。 6.4 数据加载 这项操作将于ETL加载服务器上进行,以涉及FastLoad、MultiLoad、Bteq等等高效Teradata加载公用程序来执行。这某些程序将会自动化运营。 咱们将会开发增量加载程序,这是针对大数据量数据单元,咱们将使用增量更新,而非全量更新。 7 数据模型 逻辑数据模型化通过图形技术,来阐明对于Entity (称为实体) 具备重要性对象有关商业规则;其中涉及实体以为重要对象属性或特性,以及不同对象之间关系。咱们使用逻辑一词,由于强调重点是理解资料基本逻辑构造,而非产生这份资料如何建设到详细档案或数据库之内设计。支持任何商业领域逻辑数据模型普通非常稳定,长时间内发生变化是基本构造延伸。 数据模型建立通过证明是非常优秀办法,以商业及技术人员能理解方式来发掘、纪录、与沟通需求。但是模型化长处并不止于此,由于模型所包括信息需求格式能兼容于不同项目,因此别人易于在其模型内纳入相似需求。这种模型重复使用性,将协助达到一致、可共享资料目的,这也是咱们在数据库设计与开发方面第一步。 7.1 逻辑数据模型 这是对于已规划系统范畴为基本资料逻辑视图,产生于系统初始调查期间,这是全面属性化数据模型,由于回答商业问题所需所有信息是由数据仓库最后实现得出。 7.2 物理数据模型 物理数据模型与逻辑数据模型不同,由于考虑到数据实际储存量。在此阶段之前,并没有考虑数据实际储存量,数据库管理系统能使用是逻辑型态。在此阶段不需新增额外元素,虽然会考虑涉及从已经确认信息 (例如总销售额、每月销售额等) 中获得元素,或变化构造以符合任何预先定义功能原则。 7.3 数据模型管理 对于维护定义好数据模型层次构造,用程序来支持模型强化与维护是非常重要工作。咱们关注课题是它们容易丧失同步与数值,加上内容与地点错误假设而增长了风险。 这显然需要密切管理,咱们必要拟定下列程序来保证维持模型完整性: 存取 必要维持对于存取类型严格管制。目的是模型成为技术与商业使用者对于事业内信息参照点,因而必要提供及时可用读取功能,但是对于模型变化必要审慎管制。 登录 要变化模型时,必要有某种形式签出,并阐明变化理由。 版本控制 这从上一种章节讨论中应当明显可知,但是容易忽视。 审核纪录 变化完毕之后,如果制作审核记录将有好处。 测试 所有变化都必要通过某种型态测试,或品质检查,其中涉及支持模型文献。 上述考虑 (或课题) 应由IT部门解决。也许需要建立数据管理功能,而这个功能也可以交给DBA群组来负责。
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传
相似文档                                   自信AI助手自信AI助手

当前位置:首页 > 教育专区 > 初中其他

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4009-655-100  投诉/维权电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服