1、数据分析与数据建模 信息资源规划(IRP)系列讲座之六 我们前面讲信息资源规划“建立两种模型和一套标准”工作,是分两个阶段完成:第一阶段需求分析,第二阶段系统建模。上一讲介绍功效需求分析和建模,这一讲介绍数据需求分析和建模。 从用户视图开始数据需求分析 我们讲过,用户视图(User View)是一些数据集合,它反应了最终用户对数据实体看法,包含单证、报表、账册和屏幕格式等。威廉德雷尔(William Durell)主张基于用户视图做数据需求分析,认为所谓“数据流”实际上就是用户视图流动。采取这一思绪进行数据需求分析,可大大简化传统实体-关系(E-R)分析方法,有利于发挥业务分析员知识经验 。
2、用户视图分析过程,就是调查研究和规范化表示用户视图过程,包含掌握用户视图标识、名称、流向等概要信息和用户视图组成信息。比如,用户视图标识“D041309”是按一定规则编码,其名称是“材料申报单”,而其组成是: 序号 数据项/元素名称 数据项/元素定义 01 NY 年月 02 DWBM 单位编码 03 CLBM 材料编码 04 SL 数量 05 YTDM 用途代码 一个制造厂人力资源、生产管理、物资采购、产品销售等职能域,通常都有几十个至几百个用户视图, 一个制造厂人力资源、生产管理、物资采购、产品销售等职能域,通常都有几十个至几百个用户视图,对它们进行如上例分析和规范化表述,实际上是一次从未做
3、过、工作量较大数据流梳理基础工作,对全方面把握信息需求有主要意义。尤其系统分析设计人员在业务人员提供所需信息内容基础上,按照数据结构规范化理论,对需要存放用户视图结构做标准化“范式”重新组织,能够直接为数据库规划设计做好准备。 数据模型与IRM基础标准 数据库设计是为了取得支持高效率存取数据结构,在信息资源规划第二阶段展开数据建模工作,就是数据库设计最主要前导性工作。 数据模型分为概念数据模型和逻辑数据模型。概念数据模型是由一系列概念数据库组成。概念数据库(Conceptual Database)是最终用户对数据存放看法,反应了用户综合性信息需求。逻辑数据库(Logical Database)
4、是系统分析设计人员观点,是对概念数据库深入分解和细化,一个逻辑数据库是由一组规范化基本表(Base Table)组成。比如:人力资源管理中“员工主题数据库”,其概念数据库可表示为: 员工(员工编号,员工姓名,出生日期,文化程度,简历,培训统计,) 而其逻辑数据库规范化表示为: 主键:员工代码 员工基本信息 员工代码,姓名,出生日期,民族,家庭住址,电话, 员工简历 主键:员工代码+起始日期 员工代码,起始日期,单位, 培训统计 主键:员工代码员工,起始代码日期,培训+起始日期 内容, 其中,“主键”是唯一确定一条统计机制;基本表“员工基本信息”一条统计会对应多条“员工简历”统计。 一个制造厂会
5、有 50 个左右主题数据库,把它们列出来就是全域概念数据模型;而每个主题数据库会有几个到十几个基本表,所以,全域逻辑数据模型会有数百个基本表(按主题分为 50 个左右组)。假如按子系统划分,比如“人力资源子系统”,概念数据模型会有十个左右主题数据库,而基本表则有30-40个。 我们第三讲介绍信息资源管理(IRM)基础标准中前三个(数据元素标准、信息分类编码标准、用户视图标准)和这里讲后两个标准(概念数据库标准、逻辑数据库标准),是紧密联络。如上例,概念数据库和逻辑数据库基本表中数据内容要遵照数据元素标准和信息分类编码标准;而用户视图标准为数据库标准建立提供了依据,同时也为数据库使用提供了依据。
6、 数据模型作用数据环境重建 企业信息化建设处于从初级阶段向中高级阶段转折时期,最严峻挑战就是数据环境改造和重建。因为,这之前企业信息资源开发是处于无序状态,各部门在开发或引进各种应用软件时,都是单打一地追求各自功效实现,不会去按全局观点做信息流分析和相互协调,不会去遵照统一数据标准,大家都是按小农生产模式“自采自用”各自信息,全部“数据库”差不多都是按报表格式建立。在这么混乱数据环境中,根本无法实现信息快捷流通,无法实现信息共享。 怎样改造低级次数据环境,建立以主题数据库为主体高档次数据环境呢?首先要建好数据模型,然后,以数据模型基本表为标准,来逐一衡量已经有数据存放结构,找出详细差距,看看哪
7、些数据结构能够修改、补全,哪些数据结构不合理需要抛弃,还要增加哪些新数据结构;随即,组织数据加载、更新,建立新数据存放。 企业数据环境改造和重建工作,是项复杂艰巨系统工程,需要科学方法和精心组织,并分期分批进行实施,通常需要3到5年时间,最快也需要2 到3年时间。下面是一集团企业数据环境改造重建跨越式发展曲线与较迟缓进度曲线对照图。 3年 较迟缓进度曲线 跨越式发展曲线 2年 1年 100% 75% 50% 25% 图. 主题数据库环境建设过程曲线 假如要使该企业多年来形成混乱数据环境能够在短时间内上档次,就需要跨越式发展,在头六个月里完成主题数据库建设任务占整个规划任务二分之一以上。这是数据
8、环境重建“爬陡坡”时期。这段时期即使困难很大,是通常没有数据库工作经验人极难了解,但假如企业领导和信息中心人员有了充分认识和思想准备,再加上“一把手”支持及业务人员紧密配合与主动参加,就能够顺利渡过这段时期。比如,山东海化集团信息资源规划与数据环境重建实践经验就证实了这点。该集团信息资源规划方案全域数据模型由 42 个主题数据库、182 个基本表组成,头六个月要开发四个子系统(综合查询、人力资源、生产管理、设备管理)所包含主题数据库有 22 个,基本表 112 个,即占整个数据库开发实现工作50%以上。 当前,有些企业、行业在进行“数据大集中”,有在建立数据仓库应用。理论与实践都已证实:只有搞好信息资源规划,建立企业、行业信息资源管理基础标准和数据模型,才能有效地搞好这种信息资源整合、建立高档次数据环境工作。