资源描述
----------------------------精品word文档 值得下载 值得拥有----------------------------------------------
----------------------------------------------------------------------------------------------------------------------------------------------
《专家系统与知识工程》复习要点
知识是数据和信息集合的整体。只有当信息被系统地、有目的地积累起来时,才能转变成知识。
知识是由信息描述的,信息则是用数据来表达的;
知识工程是设计和实现知识库系统及知识库应用系统的理论、方法和技术,是研究知识获取、知识表示、知识管理和知识运用的一门学科。
数据工程处理的对象是数据,即反映信息的数据。
知识工程处理的对象是知识。即信息之间关联的关联。
软件工程处理的对象是模块,即软件模块或构件。
知识工程是一个远比数据工程复杂的多的领域,也是一个比数据工程更富于挑战性的领域,表现在:1、知识种类比较多2、知识的表示方式比较多3、要有一个较好的知识表示方式和知识管理机制。
知识工程与数据工程关系:
数据工程是为了创建一种数据库系统以及数据库应用系统,知识工程则是为了创建一种知识库系统以及知识库应用系统。它们都是一种应用软件或软件系统,其开发过程也遵从软件工程的一般原则。但也有其本质上的差别:
知识工程应用系统的形成也需要经过三个阶段:
1、需求分析阶段(what-to-do):数据工程:把E-R图作为分析阶段的结果。知识工程:还要分析问题之间的关联关系,从而定义问题的求解规则。
2、设计阶段(how-to-do):数据工程:要解决的问题是从概念结构的关联中寻找极小化的逻辑结构。知识工程:要解决的问题是从概念结构的关于关联的关联中寻找极小化的逻辑结构。
3、实现阶段(do-to-do):数据工程:按照要求对数据库中的数据进行适当的调整。 知识工程:除了针对具体问题做一些适当的调整外,几乎不做什么事情。
在知识工程中,最为困难的问题是知识获取,一般来说,知识获取的方法有两种情况:
1、由知识工程师从领域专家那里获取知识,即:人工获取。
2、从数据库数据中发现知识(KDD),即数据挖掘。
决策支持系统(DSS—decision support system)
数据挖掘(DW—Data Warehouse )
数据仓库是一个“面向主题的”、“完整的”、“非易失的”、“不同时间的”、“用于支持决策管理”的数据集合,用以支持经营管理中的决策制定过程。
数据仓库 是为决策支持服务的; 数据库系统是为事务处理服务的。
非易失性指的是数据仓库是只读的,数据一旦经集成进入数据仓库后,数据一般不能被回写,也就是说数据是稳定的,具有稳定性
数据仓库中的数据时限为: 5-10年
数据仓库和数据库存在着根本不同:1、数据存储方式的不同 2、数据存储量的不同 3、存储的结构不同
数据仓库的数据量是数据库数据量的100倍,数据量大的原因在于:
(1)数据库中的数据是按决策主题重新组织并集成起来的数据;
(2)保留了大量的历史数据,用于预测分析;
(3)对当前数据进行了轻度或高度综合后形成 了综合数据。
数据仓库中的数据
=当前数据 + 历史数据 + 综合数据
粒度反映了数据仓库中数据单位中保存数据的细化或综合程度的级别,是数据仓库中数据的最基本元素或单位。
确定数据粒度是设计数据仓库的重要环节,它决定了“怎样去载入数据”,也反映了数据仓库设计师对用户的要求和系统传递的信息单位。在许多实际应用中,数据的粒度级别是不同的。一般来说,细化程度越高,粒度级别就越小;反之,细化的程度越低,粒度级别就越大。高粒度数据不仅只需要很少的字节去存储数据,而且索引项也比较小,这对于节省存储空间提高数据分析效率是有益的。如果数据仓库的空间是有限的话,用高粒度表示数据比用低粒度表示数据的效率高得多。
元数据在数据仓库的建模和运行中起着及其重要的作用,它描述了数据仓库中的各个对象以及数据仓库中的各个方面,是整个数据仓库的核心。元数据描述了数据仓库的数据和环境,是关于数据的数据,
数据仓库中的元数据不仅定义了数据仓库有什么,指明了数据仓库中信息的内容和位置,刻画了数据的抽取和转换规则,存储了与数据仓库主题有关的各种商业信息,而且整个数据仓库的运行都是基于元数据的,如数据的修改、跟踪、抽取、载入和综合等。
标准化实体关系与关系数据库的目标是增加更新效率,但是决策支持数据模型的目标是增加查询效率。
构建星型模型的常用方法有三种:
1、修正方案
2、模型创建
3、自主开发
数据仓库必须具有安全性,通常所采取的安全措施有:
1、服务器的安全管理(包括软、硬件);
2、工作站的安全管理;
3、数据访问的安全管理
所谓基于角色的安全就是指在角色被创建并被授予了适当的数据库权限之后,新的用户仅需要根据与数据仓库交互的需要,注册到一个或多个角色中就行了。
OLAP(联机分析处理,区别于 OLTP联机事务处理)
三层结构不是简单地将数据仓库的处理划分为客户端和一些数据库服务器,而是在客户端和数据仓库之间增加了应用服务器,
信息的急剧增长在给人们带来方便的同时,也带来了一系列的问题:
1、信息过量,难以消化;
2、信息真伪,难以辨识;
3、信息形式不一致,难以处理;
4、信息安全,难以保证。
KDD ( KNOWLEDGE DISCOVERY IN DATABASE)
DM(DATA MINGING)
知识发现和数据挖掘技术的出现还依赖于以下几个技术的支持:1、数据库技术2、机器学习3、专家系统:
知识发现和数据挖掘说白了就是利用机器学习的方法、主动地从数据库的大量数据中提取有价值的知识的过程,
尽管知识发现和数据挖掘与机器学习一样都是从数据中提取知识,但它们之间也存在许多不同:(1)机器学习所使用的数据是专门为机器学习而特别准备的数据,而知识发现和数据挖掘所使用的数据是来自现实世界的实际数据。(2)机器学习所用的数据一般比较规范,而知识发现和数据挖掘所使用数据的完整性、一致性和正确性难以保证。 (3)机器学习所用数据量一般比较少,而知识发现和数据挖掘所处理的数据量都比较大。
知识发现是从大量数据中提取出可信的、新颖的、有效的并能被人们理解的模式的处理过程。
数据挖掘是指从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、潜在的、有用的信息或知识的过程。
数据预处理任务: 1、消除噪声数据; 2、弥补、推导、计算缺值的数据; 3、消除冗余数据或记录; 4、完成数据类型的转换 。
挖掘出来的模式主要有以下几类: 1、关联模式2、分类模式3、聚类模式4、回归模式5、序列模式
知识发现和数据挖掘模型是一个多阶段的处理过程,通常有以下三种模型: 1、以数据库为中心的模型 2、以领域专家为中心的模型 3、以用户为中心的模型
给出五种常用的知识发现与数据挖掘方法。
知识工程是建立知识库之上的关于知识表示、知识管理和知识利用的一门学科,知识库管理和知识工程的开发方法是知识工程中的重要研究内容。
谓词逻辑是知识表示的主要框架,主要理由如下: ① 谓词逻辑具有完整的理论基础和严密的表示规范。 ② 谓词逻辑的语义比较丰富,可以用不同的方式加以解释;操作或证明论语义;模型论语义;过程语义。 ③ 具有完备的演绎推理能力。④ 与书写次序无关。
领域知识 (Domain-Knowledge)。
(OSS—Object-Oriented Structure
LSKB------Large scale Knowledge Base
KD-----Knowledge Dictionary
数据工程和知识工程遵循的主要开发模型是螺旋式开发模型,产生结果是满足需求的数据和知识库。
在这个过程中,知识是整个开发工程核心环节,原因是: ① 知识是数据:是知识工程的处理对象。 ② 知识是程序:大量功能性的程序都是用知识表示的一种形式——规则或逻辑公式。 ③ 知识是语义约束:语义约束规则或逻辑公式就是以表示知识的约束条件。
KDL----Knowledge disruption Language
知识工程的开发模型 = 知识工程开发过程三个阶段
+ 增量式开发方法
+ 快速原型系统
尽管知识是知识工程中最重要的内容,但知识的获取往往比较困难,原因有: 1、知识资源稀少,大量获取比较困难。 2、人们对知识的认识有一个渐进的过程,不能一下子获得。 从 “初级知识→中级知识→高级知识”有一个理解过程。 3、不同领域的人对知识的认识不同,常说“隔行如隔山”,领域的划分造成知识获取的障碍。这也就是我们经常所说的跨学科发展的原因,只有这样才能创新。4、知识经验性或经验性知识,往往“只可意会不可言传”,如:经验、技能、窍门等。
AOP---Agent-Oriented Programming
OOP---Object-Oriented Programming
软件工程技术自诞生以来,主要经历了四个发展阶段和发展过程:
面向过程 ® 面向实体 ® 面向对象 ® 面向智能体
而面向对象和面向Agent的不同之处在于:对象是被动的,而Agent是主动的。
专家系统是基于知识库的知识利用系统,是人工智能的应用工程——“知识工程”的典型代表,专家系统是知识信息处理系统,
专家系统是一个(或者一组)能在某特定领域内,以人类专家水平去解决该领域中困难问题的计算机程序。
(KE)---Knowledge Engineer
ES----Expert System ,
给出五种类型的专家系统
与人类相比,研究专家系统的意义何在?知识广度、深度、精度、速度
ES的组成结构除了知识库、推理机两个主要部分外,还有四个组成部分:综合数据库、人机接口、解释程序和知识获取程序。
开发和改进专家系统必不可少的三大因素:领域专家(DE) 、知识工程师(KE)和大量的实例。
知识工程采用螺旋结构的原因如下:
1. 螺旋模型是一种螺旋上升逐步演进的软件开发过程模型。它把软件开发过程组成一个逐步细化的定义周期序列,每经历一个周期,系统就得到进一步的细化和完善。
2. 螺旋模型强调不断地判断、确定、修改用户的需求,用户需求的变化可以动态地体现出来。
3. 每一个螺旋周期可以分为以下几个步骤:规划、风险分析、产品开发和用户评议。因为每个周期中都要根据上一周期的用户评议的结果进行新的规划和风险分析,所以螺旋模型使原型能收敛于既定目标,同时也使项目易于管理。
4. 这种开发方法符合人认知过程的特点,项目参加者之间进行交流也比较容易。
专家系统与传统的计算机程序的主要区别如下:
1.传统的计算机程序是对数据结构以及作用于数据结构的确定型算法的表述,即 传统程序 = 数据结构 + 算法; 而专家系统是通过运用知识进行推理,力求在问题领域内推导出满意的解答,即 专家系统 = 知识 + 推理。
2.传统程序把关于问题求解的知识隐含于程序中,而专家系统则把应用领域中关于问题求解的知识单独地组成一个知识库。也就是说,传统程序将其知识组织为两级,即数据级和程序级,而专家系统则将其知识组成三级,即数据级、知识库级和控制级。
3.传统程序一般是通过查找或计算来求取问题的答案,基本上是面向数值计算和数据处理的,而且在问题求解过程中先做什么及后做什么都是由程序规定的;而专家系统是通过推理来求取问题的答案或证明某个假设,本质上是面向符号处理的,其推理过程随着情况的变化而变化,具有不确定性及灵活性。
4.传统程序处理的数据多是精确的,对数据的检索是基于模式的布尔匹配;而专家系统处理的数据及知识大多是不精确的、模糊的,知识的模式匹配也多是不精确的,需要为其设定阈值。
5.传统程序一般不具有解释功能,而专家系统一般具有解释机构,可对自己的行为做出解释。
6.传统程序与专家系统具有不同的体系结构。
关系数据库
综合数据
当前数据
历史数据
用户查询工具
可视化工具
OLAP工具
DM工具
其它
数据源
数据文件
DW管理工具
抽取、转换、净化
元数据库
数据建模工具
展开阅读全文