1、不完备模糊信息系统中的模糊分类摘 要 考虑既有模糊属性,又有不确定属性值的不完备模糊信息系统,采用两种不同的数据补齐方式来讨论对象之间的相似程度,建立了一种新的模糊容差关系以对不完备模糊信息系统中的对象进行模糊分类。在此基础上,新定义了不完备模糊信息系统中模糊知识的粗糙熵,并进行了相关性质的探讨。关键字 不完备模糊信息系统;模糊容差关系;熵1 引言 粗糙集理论1,2(Rough Set Theory,RST)是由波兰学者Pawlak于上世纪八十年代初提出的一种处理含糊和不精确性问题的新型数学工具。传统粗集模型的处理对象是具有离散属性值的完备信息系统(Complete Information S
2、ystem,CIS),并且Pawlak所做的工作都是基于这样一个假设,即CIS中的知识是确定的。然而,模糊集的创始人Zadeh告诉我们现实世界中的大部分知识不是精确而是模糊的,因此对于客观存在的模糊信息系统3,4(Fuzzy Information System,FIS)的研究不仅是必要的,而且相对于CIS的研究来说,具有更为广泛的意义。 不完备模糊信息系统 (Incomplete Fuzzy Information System,IFIS)是一种更为复杂的信息系统形式,其中既有模糊知识,又可能存在未知的模糊属性值。由于RST建立在分类机制的基础上,所以对于IFIS,文献首先采用数据补齐方式来
3、处理未知的模糊属性值,然后建立了IFIS中的模糊容差关系以进行对象的模糊分类,并进行了模糊知识的约简研究。文献在IFIS中进行数据补齐时简单地将未知模糊属性值用模糊属性的全体值域来填充,然而经过笔者的研究,发现这种简单的数据补齐方式并不能很完整地刻画对象之间的模糊相似程度。因此,本文中采用了两种不同的数据补齐方式来处理不确定模糊属性值,分别得到对象间相似程度的乐观和悲观估计,从而构成相似度的估计区间,由此建立的新的模糊容差关系实际上是文献中的模糊容差关系的一种推广形式。 本文的主要内容安排第一节简要介绍模糊信息系统中的相关知识;第二节采用两种不同的数据补齐方式处理未知模糊属性值,建立了一种新的
4、模糊容差关系;第三节重新定义了不完备模糊信息系统中模糊知识的粗糙熵,并进行了相关性质的讨论;第四节总结全文。2 不完备模糊信息系统 定义1 一个模糊信息系统(FIS)为二元组S =U,AT ,其中U是一个非空有限对象集合,称为论域,U上的模糊子集族记为F(U ),AT为模糊属性集合。 令S为一FIS,对于,有a:UVa,Va表示模糊属性a的值域;对于,a(x)表示x在模糊属性a上的取值,即为Va的一模糊子集;对于表示x在模糊属性a上取值为v的可能性程度且。 FIS是集值信息系统、完备信息系统1,2的拓展形式,若对于,有,则FIS就退化为集值信息系统;更进一步地,若有,则FIS就退化成为完备信息
5、系统,由此可见,FIS是CIS的一种广义化的表现形式。但是,由于FIS中存在的是模糊知识,因此经典粗集理论中的不可分辨关系已不再适用,取而代之的是模糊等价关系或其他更弱的模糊二元关系。 定义2 设S为一FIS,对于,定义二元模糊关系如下所示:, 其中x,yU. 关系Ra(x,y)表示对象x与y在模糊属性a上取值的相似程度,对于,有Ra(x,y)0,1,容易验证Ra满足自反性和对称性,但并不一定满足传递性,因此称Ra为一个模糊容差关系。 命题1 设S为一FIS,对于,则由模糊属性集合A决定的模糊容差关系记为RA且,其中x,yU. 定义3 设S为一FIS,其中,对于,则x基于RA的模糊容差类记为F
6、(a)(x)且 在Pawlak所讨论的CIS的基础上,已有很多学者将信息系统的概念进一步拓展,讨论了其中存在未知属性值的情况,这种未知属性值类似于关系数据库系统中的“Null”值,称这种信息系统为不完备信息系统79(Incomplete Information System,简称IIS). 对于IIS,一般来说有2种处理方式:间接处理,即数据补齐或数据删除,将IIS转化为CIS来处理;直接处理,对不可分辨关系进行扩展,建立了容差关系、相似关系、限制容差关系等较弱的二元关系。 对于模糊信息系统来说,由于数据测量的误差、对数据理解或获取的限制等原因,也可能存在数据遗漏等不完备、不确定的情况。设S为
7、一FIS,当且仅当至少存在一个不确定值使得a (x) = *,则称其为不完备模糊信息系统(Incomplete Fuzzy Information System,IFIS).3 数据补齐方式 在FIS中,我们不能说一个对象是否完全属于一个模糊容差类,而只能称这个对象以何种程度属于某个模糊容差类,因此对于IFIS中的未知模糊属性值,只能采用间接方式进行处理。 定义4 设S为一IFIS,其中aAT,对于,则x与y的乐观相似度表示为RaOPT:RaOPT (x,y) = Ra (x,y), 其中a (x)= *= a (x)= Va . 定义4 是文中的模糊分类方法,a (x)= *= a (x)=
8、 Va表示x在模糊属性a上确实有可能取值,只是由于某些原因目前无法取何值,因此假定所取的值为a的值域。关系RaOPT(x,y)表示对象x与y在模糊属性a上的相似程度的最大值。 命题2 设S为一IFIS,其中aAT,x,yU,若a (x)= *且a (y) *,则。 证明:根据定义4,因为a (x)= *,所以假设a (x) = Va,那么对于,就有a (x) (v)a (y) (v) = a (y) (v),再由定义2就可以得到。 特别地,若a (x)=*且a (y)=*,则RaOPT (x,y)=1。 表1是文用来分析的一个不完备模糊信息系统,其中a (O7)= b (O3)= c (O3)
9、=*,由定义4,可以得到RaOPT (O2,O7)=1,RaOPT (O2,O3)=1,RaOPT (O2,O3)=1. 然而,若假设a (O7)= /H+1/N,可以求得O2与O7之间的相似程度为,这个结果与RaOPT差距很大,所以说仅仅用RaOPT并不能客观地表示具有不完备模糊属性值的对象之间的相似程度,于是引入对象间的悲观相似度如定义5所示。表1 不完备模糊信息系统UabcHNLRSTmnpOOO3100*O4011001010OOO7*O 定义5 设S为一IFIS,其中aAT,对于x,y U,则x与y的悲观相似度表示为RaPES:RaPES (x,y) = Ra (x,y),其中a (
10、x)= *= a (x)= . 在定义5中,我们使用空集来替代“*”,这样做的目的是由于目前的模糊属性值未知,所以就假定这样的模糊属性值是不存在的。 命题3 设S为一IFIS,其中a AT,x,yU,若a (x)= *,则对于,有RaPES(x,y) = 0。 证明:因为a (x)= *,所以根据定义5,就可以假设a (x)= ,即。那么根据定义2就可以得到,其中vVa,所以RaPES(x,y) = 0。 命题3说明了由于未知模糊属性值被认为是不存在的,所以具有未知模糊属性值的对象与其他对象的相似度就为0,即两者之间被认为是不可比的。例如对于表1所示的IFIS,根据定义5,可以得到RaPES
11、(O2,O7) = 0,RaPES (O2,O3) = 0,RaPES (O2,O3) = 0。 通过对表1的分析可以发现,根据两种不同的数据补齐方式,可以分别求得两种不同的模糊相似程度。对于具有不完备模糊属性值的对象来说,乐观相似度表示了两对象间的最大可能的相似程度,而悲观相似度表示了两对象间的最小可能的相似程度,即为0。综上,具有不完备模糊属性值的对象之间的相似程度实际上是落在一个区间值范围内,这个区间的上下界分别是乐观、悲观相似度。 命题4 设S为一IFIS,对于,若a (x) = *且a (y) *,则x与y的模糊相似程度, 其中x,yU. 特别地,若a (x)= *且a (y)= *
12、,则Ra (x,y)0,1。 命题4表示了具有未知模糊属性值的对象与其他对象之间的模糊相似程度实际上是不确定的,落在一个区间范围内。在进行模糊知识约简时,可以设置一个阈值,根据不同的需求选取不同的模糊相似程度。 设S为一IFIS,其中A,对于,yU,记B(x,y)=a A:a (x) * a (y) *. 定义6 设S为一IFIS,其中,对于,yU,则由A决定的模糊容差关系记为RA且 由定义6可以看出,由于在模糊信息系统中出现了模糊属性值不完备的情况,因此将x与y的模糊相似程度分成两部分来计算。表示根据具有完备属性值的属性,计算出x与y确切的相似度;表示对于具有不完备性属性值的属性,利用悲观和
13、乐观估计,分别计算出两对象之间的相似度的区间值,然后利用阈值a在相似区间上确定一个模糊相似度,其中a0,1,由决策者选择。可以看出,若取a1,则RA (x,y)表示的是对象间的乐观相似度;若取a0,则RA (x,y)表示的是对象间的悲观相似度。 例如对于表1所示的不完备模糊信息系统,有B(O2,O7)=b,c,则, ,若设a,则RA(O2,O7),若设a1,则RA(O2,O7) 定义7 设S为一IFIS,对于xU,则x 基于RA的模糊容差类记为F(A)(x)且 例如对于表1所示的IFIS,Aa,b,c,若设a=,则可得到对象的模糊容差类如下所示:F(A)(O1) =1/ O1+1/ O2+/
14、O3+0/ O4+0/ O5+/ O6+0/ O7+0/ O8F(A)(O2) =1/ O1+1/ O2+/ O3+/ O4+/ O5+/ O6+/ O7+/ O8F(A)(O3) =/ O1+/ O2+1/ O3+0/ O4+0/ O5+/ O6+/ O7+0/ O8F(A)(O4) =0/ O1+/ O2+0/ O3+1/ O4+0/ O5+0/ O6+/ O7+1/ O8F(A)(O5) =0/ O1+/ O2+0/ O3+0/ O4+1/ O5+/ O6+0/ O7+/ O8F(A)(O6) =/ O1+/ O2+/ O3+0/ O4+/ O5+1/ O6+0/ O7+/ O8F(A)
15、(O7) =0/ O1+/ O2+/ O3+/ O4+0/ O5+0/ O6+1/ O7+/ O8F(A)(O8) =0/ O1+/ O2+0/ O3+1/ O4+/ O5+/ O6+/ O7+1/ O8 由以上分析可以看出,使用对象间相似度的乐观和悲观估计可以更为客观、完整地刻画具有不完备模糊属性值的对象之间的模糊相似程度。在一个IFIS中,若令U / RA表示所有模糊容差类的集合,即U / RA = F(A)(x):x U ,则U / RA构成了论域上的一个模糊覆盖10。4 模糊知识的粗糙熵 在Pawlak研究的完备信息系统中,梁吉业11等人将信息熵的概念引入其中,建立了知识的粗糙熵及粗糙
16、集的粗糙熵的概念,用于度量知识和粗糙集的不确定性。 定义8 设在一完备信息系统中,R是论域U上的一等价关系,由等价关系R形成的论域划分U / R = P1,P2,Pm,则知识R的粗糙熵记为E(R)且. 定义9 设S为一IFIS,对于,模糊知识A的粗糙熵记为E(A)且, 其中| F(a)(x) |表示模糊集合F(a)(x)的基数且. 若设由模糊知识A所形成的模糊容差类构成了论域上的一个划分,即U / RA = X1,X2,Xn ,且对于,有XiXj=,于是可做如下形式的推导 由以上推导过程可以看出,定义9中的模糊知识的粗糙熵实际上是定义8中粗糙熵的一种推广形式。 命题5 设S为一IFIS,若,则
17、有. 命题6 设S为一IFIS,对于,有E (AB)min (E (A),E (B),E (AB)max(E (A),E (B).5 结束语 IFIS是一种既具有模糊知识又具有不确定性信息的特殊信息系统,相比于传统RST所研究的信息系统来说,具有更广义的形式。笔者使用两种不同的数据补齐方式来处理IFIS中的未知属性值,从而定义了一种新的模糊容差关系,使得对象间相似程度的刻画更为客观。在此基础上,对IFIS中的模糊知识的粗糙熵给出了新的定义,取得了一些重要结论。在今后的工作中,笔者将根据本文所建立的模糊容差关系设计IFIS中的知识约简算法,进行模糊决策分析的研究。参考文献1 Pawlak Z.
18、Rough set theory and its applications to data analysis J. Journal of Cybernetics and Systems,1998,29: 661688Pawlak Z. Rough sets and intelligent data analysis J. Journal of Information Sciences,2002,147: 112Wu Weizhi,Zhang Wenxiu,Li Huaizu. Knowledge acquisition in incomplete fuzzy information syste
19、ms via the rough set approach J. Expert Systems,2003,20(5): 280286 Bosc P,Kraft D,Petry F. Fuzzy sets in database and information systems: status and opportunitiesJ. Fuzzy Sets and Systems,2005,156(3): 418426张铃,张钹. 模糊商空间理论(模糊粒度计算方法)J. 软件学报,2003,14(4): 770776张文修,吴伟志. 信息系统与知识发现M. 西安交通大学出版社,2003Kryszki
20、ewicz M. Rough set approach to incomplete information systems J. Journal of Information Sciences,1998,112: 3949Stefanowski J. Incomplete information tables and rough classification J. Journal of Computational Intelligence,2001,17(3): 545566王国胤. Rough集理论在不完备信息系统中的扩充J. 计算机研究与发展,2002,39(10): 1238124310
21、Intan R,Mukaidono M. Degree of similarity in fuzzy partitionJ. In proceedings of AFSS02,LNAI,Springer-Verleg,2002: 202611Liang Jiye,Shi Zhongzhi. The information entropy,rough entropy and knowledge granulation in rough set theory J. International Journal of Uncertainty,Fuzziness and Knowledge Based Systems,2004,12(1): 3746