资源描述
基于模糊集的分类方法在高校评教系统中的应用
[摘要]数据库中蕴藏着大量的信息,通过对其进行分析,可以令我们做出明智的决策。分类是一种数据分析的形式,可以用于提取描述重要数据类的模型。这种分析有助于我们全面地理解数据。传统的数据分类方法(如决策树分类器,贝叶斯分类器……)大都采用基于规则的分类技术,这样分类系统有一个缺点,那就是对于具有连续性取值的属性,它们对其进行了陡峭的截断。
为了对这种苛刻的阈值规则进行消除,本文介绍了一种基于模糊逻辑的分类方法,它允许对每个类定义“模糊”阈值或边界。对于某个给定的类成员,相对于使用类之间的精确截断来表示类别,模糊逻辑使用0.0~1.0之间的一个值来表示该类成员对于给定类别的隶属程度,从而达到更为精确的分类效果。
关键词:数据挖掘 分类 模糊集
隶属度 决策支持
一.引言
近年来,数据挖掘引起了信息产业界和整个社会的极大关注,其主要原因是存在可以广泛使用的大量数据,并且迫切需要将这些数据装换成有用的信息和知识。获取的信息和知识可以广泛用于各种应用,包括市场分析、欺诈检测、顾客保有、产品控制和科学探索等。顾名思义,数据挖掘是探查和分析大量数据以及发现有意义的模式和规则的过程。
分类是数据挖掘最常见的任务之一,包括考察一类新出现的对象的特征,并归类到已定义类中。分类的对象通常表示为数据库表或文件中的记录,分类工作包括向数据库添加一个新列,并给出某种分类代码。分类工作首先要有一个清晰定义的类,还要有一系列已分类实例。分类过程实际上是先建立某种模型,然后将其用于对未分类数据进行分类。例如贷款应用数据的“安全”或“风险”,销售数据的“是”或“否”,医疗数据的“疗法A”,“疗法B”,“疗法C”。这些类属可以用离散值表示,其中值之间的序没有意义。
模糊集是模糊数学的理论基础,模糊集理论也称可能性理论,作为传统的二值逻辑和概率论的一种替代,它允许我们处理高层抽象,并且提供了一种处理数据的不精确测量的手段。模糊性是指存在于现实中的不分明现象。如“稳定”与“不稳定”、“健康”与“不健康”之间找不到明确的边界。从差异的一方到另一方,中间经历了一个从量变到质变的连续过渡过程。相对于经典集模型(所描述的事物本身的含义是确定的),模糊性的数学模型用于描述本身含义不确定的事物。模糊集反映了“亦此亦彼”的模糊性,不满足互补律。
传统的以经典集为基础的基于规则的分类方法有一个缺点,那就是对于那些连续的属性,有着陡峭的截断。例如,考虑高收入人群的集合,定义月收入大于等于10000的人群为高收入人群,若是低于10000,则为非高收入人群。该规则可用伪代码描述为
if(people.income≥10000) return high income;
else return low income;
如果该规则用于信用卡申请,那么在这样的规则下,对于一个月收入10001的人将申请到信用卡,而一个月收入9999的人将得不到申请,这种苛刻的阈值看来并不公平。换一种方式,我们可以将income离散化成分类的,如{low_income, medium_income, high_income},然后使用模糊逻辑,允许对每个类定义“模糊”阈值或边界。模糊逻辑使用0.0~1.0之间的真值表示一个特定的值是一个给定类成员的隶属程度,而不是用类之间的精确截断。每个类表示一个模糊集。使用模糊逻辑,可以表达这样的概念:在某种程度上,9999元的月收入是高的,尽管没有10001元的收入高。
二.模糊集理论简介
模糊集理论最早于1965 年由Zadeh提出, 它可以用来处理不确定事件。作为对古典集合的扩展,在模糊集合中,论域X上的模糊集合A由隶属函数表示,对于任意的x∈X,都有唯一确定的隶属函数与之对应。则A可表示为:。设X为有限集,且,其中的元素对应的隶属函数为,则此时A可以表示为:。模糊集合的并,交,补运算以隶属函数之间的关系来确定。设A,B是论域X上的模糊集,记A和B的并,交运算分别为A∪B,A∩B,A的补集为,则它们的隶属函数可以表示为:,,。对于模糊集合上的二元关系R(模糊关系),可以定义为论域U与论域V的笛卡尔乘积(U×V)上的一个模糊子集,它的隶属函数R:U×V→[0,1],(u,v)|→R(u,v)确定了U中的元素u与V中的元素v的关系程度。设和分别是定义在U×V 和V×W上的两个模糊关系, 它们的合成运算结果为U×W上的模糊集,其合成运算可表示为:·(u,v)=其中表示取大运算,表示取小运算。
三.使用模糊集进行分类的方法
设U={}为待分类的全体,其中每一个待分类对象可由一组属性表征如下:
=(,,……,)
对于中的每个属性域,可根据需要分类的类别(类别1,类别2,类别3……)定义模糊集(,,……)。以中的属性对于模糊集的隶属度作为关系值,可得到如下属性——类别模糊关系矩阵:
类别1
类别2
……
类别n
属性1
属性2
……
属性m
根据所有属性分别在各个类别模糊集上的隶属度的和,按照最大隶属原则,可得出待分类元组所属的类别。
四.教师评教系统实例分析
在本例中,采用如下表所示评教指标:
序号
指标内容
权重
评分等级
1
认真负责,要求严格
20
ABCD
2
重视课堂互动,耐心解答学生疑问
20
ABCD
3
内容充实,条理清晰,表达清楚
20
ABCD
4
教学组织有序,时间安排合理
15
ABCD
5
选用的教学方法和手段适合于本课程的学习
15
ABCD
6
我较好地掌握了本课程的内容,知识和能力得到明显提升
10
ABCD
表格 1
对于上述评教等级(A,B,C,D)可构造四个模糊集:,,,,分别对应于A,B,C,D四个等级,在论域(0,100)上其隶属函数可定义如下:
(0≤x≤100) (0≤x≤100)
(0≤x≤100) (0≤x≤100)
在经过学生打分评教后,数据库中可存在如下数据表:
工号
姓名
课程
指标1
指标2
指标3
指标4
指标5
指标6
1
张
数电
80
75
70
75
78
80
1
张
数电
74
78
86
90
78
69
1
张
数电
69
68
71
79
58
78
1
张
数电
57
59
51
63
72
60
1
张
数电
62
59
94
67
79
56
1
张
数电
88
61
67
92
85
84
……
……
……
……
……
……
……
……
……
1
张
模电
86
88
85
92
95
88
1
张
模电
63
77
64
67
76
65
1
张
模电
65
42
53
69
77
78
1
张
模电
87
66
73
71
76
73
1
张
模电
70
71
81
73
77
54
1
张
模电
74
58
70
55
63
65
……
……
……
……
……
……
……
……
……
2
王
物理
78
81
97
87
88
62
2
王
物理
62
93
86
64
94
89
2
王
物理
77
72
64
81
58
78
2
王
物理
95
73
89
94
84
82
2
王
物理
71
75
71
73
58
58
2
王
物理
97
87
83
82
85
74
……
……
……
……
……
……
……
……
……
3
李
英语
91
80
92
91
81
96
3
李
英语
97
75
67
78
91
63
3
李
英语
97
88
63
68
62
76
3
李
英语
74
65
73
89
86
83
3
李
英语
86
89
72
80
88
81
3
李
英语
78
89
88
81
84
88
……
……
……
……
……
……
……
……
……
4
赵
高数
65
67
66
61
78
69
4
赵
高数
88
97
78
87
87
83
4
赵
高数
40
44
53
63
71
76
4
赵
高数
61
90
72
85
67
78
4
赵
高数
88
57
69
64
71
76
4
赵
高数
83
80
70
67
72
81
……
……
……
……
……
……
……
……
……
表格 2
上表为简化数据表,省略了每个元组的标识字段,对于每一门课程,存在多个打分情况,因此在进行评判之前,需要对同一门课程的多个评分情况进行处理。首先需要去除无意义数据,在本例中,认为任何一个指标低于40分的元组为无效评分数据,将其删除。随后对一门课程的所有评分情况取平均值,得到一门课程的最终评分情况。经上述步骤处理后的数据如下表所示:
工号
姓名
课程
指标1
指标2
指标3
指标4
指标5
指标6
1
张
数电
72
67
73
78
75
71
1
张
模电
74
67
71
71
77
70
2
王
物理
80
80
81
80
78
74
3
李
英语
87
81
76
81
82
81
4
赵
高数
71
73
68
71
74
77
表格 3
根据上表中每个元组的各个指标数据可得出它们对应于A,B,C,D四个等级的模糊集:,,,的隶属度,定义普通集合U{指标1,指标2,指标3,指标4,指标5,指标6},V{,,,},从而可以定义U,V上的模糊关系R,以各个指标相对于四个模糊集的隶属度作为模糊关系R的值,以第一条元组为例可得到下表:
工号为“1”,姓名为“张”,课程为“数电”的元组的指标—等级关系表:
指标1
0.72
0.85
0.97
0.69
指标2
0.67
0.79
0.96
0.78
指标3
0.73
0.86
0.96
0.67
指标4
0.78
0.92
0.89
0.58
指标5
0.75
0.88
0.93
0.64
指标6
0.71
0.84
0.99
0.71
表格 4
根据各个指标属性对于,,,的隶属度进行求和,可以得出用于评判整个元组的指标,即:
4.36
5.14
5.7
4.07
根据最大隶属原则,可将此元组归类为C级,如下表所示:
工号
姓名
课程
指标1
指标2
指标3
指标4
指标5
指标6
评教
等级
1
张
数电
72
67
73
78
75
71
C
表格 5
同理,可对“表格4”中所有元组根据其指标属性进行评级,此处不再赘述。
五.结语
本文介绍了一种基于模糊集的分类方法,并以高效评教系统为例对该方法进行了具体说明。相对于传统的分类方法,使用模糊集分类法可避免对于具有连续性取值的属性的陡峭截断,因此该方法更具有科学性和合理性。在使用本方法进行分类时,关键在于用于表示类别的模糊集的隶属函数的确定,在本文所举的评教系统的例子中,使用100,85,70,55四个分数指标作为四个类别模糊集的核,以具体属性值相对于核的接近程度作为隶属度量。必须指出的是,隶属函数的确定既重要又比较复杂,需要针对具体的应用情况而定。因此,该方法的不足之处在于分类指标的不确定性,当采用不同的分类指标时(例如以95,80,65,50四个分数指标作为类别模糊集的核),可能会得到不同的分类结果,如何制定一套合理的分类指标,需要结合实际应用情况进行进一步的研究。使用该方法进行决策辅助时,具有一定的偏差是可以接受的。
参考文献:
[1] .(加)Jiawei Han Micheline Kamber 著 范明 孟小峰 译.《数据挖掘——概念与技术》,机械工业出版社.2007.3
[2] .(美)Michael J.A.Berry Gordon S . Linoff 著 别荣芳 尹静 邓六爱 译.《数据挖掘技术》,机械工业出版社.2006.7
[3] .杨纶标,高英义.《模糊数学原理及应用》,华南理工大学出版社.2005.6
[4] .许华勇,陈志刚.模糊集在军队人才选拔中的应用研究[J].电脑与信息技术,2008,(1) :63-65
展开阅读全文