1、厦门大学数据挖掘厦门大学数据挖掘数据的排序即有向数据的排序即有向聚类分析聚类分析5.1 引 言 数据排序在数据挖掘中显得尤为重要,但往往被人们所忽视.因为在数据量较少时,对于排序看起来不是什么问题,也无需专门去研究和讨论.然而,对于海量数据的分析,排序问题就不是那么简单了.可以想象利用Web的有关资料,我们如何将网络广告、街头广告、报刊广告等对电视广告的影响程度排序呢?又如,在大学生成长和发展过程,因素q1,q2,.,q25所起的作用大小又是如何呢?这些问题的解决不仅为进一步的数据挖掘提供适合的数据形式,而且为数据分析过程中的算法改进、提高精度、增强有效性奠定了理论基础.5/24/2024 数
2、据排序必须要有研究对象,即我们是对属性项(变量)进行排序,还是对事务项(样本)进行排序,这一点必须要明确.研究对象要根据问题的研究目的和内容来确定.在明确了排序的对象后,进行排序前还要确定一个排序标准,标准不一样,排序的结果不一样.排序标准的确定不是那么轻而易举的,如果标准确定不好,不仅反映不出实际问题,而且还有可能误导人们对问题的认识.因此,排序标准的确定既要建立在一定的理论基础上,而且又要有一定的实际背景.这方面的内容我们将在后面详细探讨.5/24/2024 随着对数据的进一步考虑,我们将会发现,排序后数据之间的“距离”(包括相似的概念,以后不再强调)并不相等,也就是排序后数据的稀疏程度不
3、均匀.由于数据量过大,我们自然要关心的是对一个数据集合进行分析,这样就提出了如何对排序资料进行聚类分析.5/24/2024 我们知道聚类分析源于许多研究领域,包括数据挖掘、统计学、生物学以及机器学习,但对有序样品的聚类分析的理论内容并不多(胡国定,张润楚(1989),286-319),而且所研究的内容立足点是,已知变量(或样品)具有一定的顺序,其顺序在聚类中是不能打乱的,即只能按其顺序分成若干类.例如,欲了解儿童的生长发育规律,对所获得的儿童的体重按发育阶段进行分类,这里很清楚,只能按年龄由小到大分成若干个发育阶段,如果按不同的年龄(非顺序性)将儿童的体重进行聚类分析,这样的结果不适合生长发育
4、规律的要求.这类有序变量(或样品)是客观现实中存在的,这种有序我们称为客观有序.5/24/2024 对于非有序数据进行聚类分析,这在数据挖掘中已经成为一个非常活跃的研究课题(Trespv,V.(2001),Van Hulle,M.M.(2000),Gardner,M.,Lalmas,M.and Ruthven,I.(2001),Friedman,J.H.(1997).但是根据我们研究的内容和聚类的目的,将数据排序后,再进行聚类分析,这样不仅会对聚类的结果有更细致深刻的认识,还会大大提高聚类的运算速度.在这里我们所涉及到的有序数据是根据某一研究的目的排列而成的,这种有序我们称为目的有序.5/24
5、/20245.2.1 以信息源为标准的排序5.2 事务项(样品)的排序标准5/24/20245/24/20245.2.2 以综合属性项为标准的排序5/24/20245/24/20245/24/20245/24/20245/24/20245.2.3 移动通讯用户综合费用排序 我们已经对某地区中国移动通讯用户数据库进行了压缩分析,得到了关于属性子集A=本地话费、长途话费、漫游费的压缩信息系统.现在将利用上面的方法对移动通讯用户的消费情况进行综合评价,以2001年10月的压缩信息系统为例分析.计算出综合评价指标Z,将其可视化得到2001年10月移动通讯用户消费属性综合评价分布(图1-b),比较接近用
6、户消费概率分布(图1-a),综合排序以后的分布见图2,由于图2反映出排序以后前20位的综合指标较大,将其事务项列出见下表.5/24/2024 图1-a 图1-b 移动通讯用户消费概率分布与综合属性评价分布比较5/24/2024图 2移动通讯用户消费综合属性评价排序5/24/20245/24/2024 通过分析我们可以挖掘出以下知识:i).以此排序结果看,该地区移动手机用户平均消费最大的综合评价指标值是0.9865,即本地话费在3档上(100-300元),长途话费和漫游费的消费在2档上(0-100元).从总体上,该地区的移动手机用户的本地话费消费群体集中在3档,长途话费和漫游费的消费群体集中在2
7、档上,处于中低档消费水平.ii).这里需要特别说明的是,所有的1档消费群体综合评价指标值为0.0513,排在第13位,这些消费者虽然拥有手机但没有消费,它直接影响着该地区移动通讯的业务总收入量,这部分消费者具有潜在流失倾向,公司应该针对此情况采取措施.我们对以后的几个月进行分析,发现这种情形越发严重.这种异常现象的发现,充分体现了数据挖掘的特点.5/24/20245.3 属性项(变量)的排序标准5/24/20245.3.1 以平均水平为标准的排序5/24/20245/24/20245/24/20245.3.2 以秩效应为标准的排序5/24/20245/24/20245/24/20245/24/
8、20245/24/20245.4 5.4 数据的衍生数据的衍生5.4.1 数据矩阵 聚类分析是一种重要的人类行为,通过聚类人们能够识别密集和稀疏的区域,因而发现全局的分布模式,以及数据属性之间有趣的相互关系.聚类分析作为数据挖掘的一种功能,不仅能独立地来获得数据分布情况,观察每个族的特点,集中对待定的某些族作出进一步的分析,而且还是进行其它数据分析(如回归、分类、网络分析等)的预处理过程(Owen,A.B.(1999).可以说,聚类分析不论在理论上,还是在应用上正在蓬勃发展,有贡献的研究领域包括数据挖掘(Trespv,V.(2001)、统计学(Van Der Ark,L.A.,Van Der
9、Heijden,P.G.M.and Sikkel,D.(1999)、机器学习(Krieger,A.M.and Green,P.E.(1999)、空间数据库技术(Nelson,D.E.(2001)、生物学(Segal,E.and Koller,D.)以及市场营销(Yun,C.H.,Chuang,K.T.and Chen,M.S.)等.由于数据库中收集了大量的数据,聚类分析的研究工作已经涉及到大型数据库的有效和实际的聚类分析寻找适当的方法上.那么,聚类分析所针对的数据类型如何呢?这一问题的明确,将会为聚类分析的方法研究澄清思路.5/24/20245/24/20245.4.2 相异度矩阵5/24/2
10、0245/24/20245/24/20245/24/20245.5 5.5 有序近邻聚类分析有序近邻聚类分析5.5.1 相似指标的确定及聚类分析5/24/20245/24/20245/24/20245/24/20245.5.2 Fisher最优求解法与有序近邻方法的比较5/24/20245/24/20245/24/20245/24/20245/24/20245/24/20245/24/20245/24/20245/24/20245/24/20245/24/20245/24/20245.6 有序平均秩效应聚类分析5.6.1 平均秩效应原则及聚类方法5/24/20245/24/20245/24/2
11、0245/24/20245/24/20245/24/20245/24/20245/24/20245/24/2024 通过上面的计算结果我们可以挖掘出一下知识:i).第一类与第二类所包含水平的影响程度明显地高于平均影响程度,而且第一类远远高于其他类对大学生成长与发展的影响,说明个人对未来的发展动机与家庭状况对自己的成长与发展影响最大.第二类仅次于平均影响程度,说明大学生对专业知识的加强在自己的成长与发展中起着相当重要的作用.ii).第三类包括社会政治环境、报刊杂志的内容、兄弟姐妹言行、校风学风状况.由于报刊杂志的内容、兄弟姐妹言行、校风学风状况均与社会环境的好坏有着密切的关系,我们可以将这一类概
12、括为在现社会大环境因素,它对大学生成长和发展的影响与平均影响程度没有显著性的差异.iii).第四类、第五类与第六类所包含水平的影响程度均低于平均影响程度.5/24/2024 第四类所包括的内容从两个方面影响大学生的成长与发展,即一是对物质方面的追求,二是老师言行及典型人物的影响,例如科学家和英雄人物.第五类包括校园文化活动、学校管理制度和学校周围环境.说明学校的各种状况对大学生成长与发展有一定的影响.第六类所包括的水平有一般性的学术讲座、学校政治思想工作、同班同学言行举止、录像或电影内容、老乡的各种行为,这一类涉及的内容比较广,称其为综合水平.其中老乡的各种行为影响程度最小,而且它与其它水平影
13、响程度的差异比较大,说明老乡的各种行为在大学生成长与发展中作用极小.在这里需要强调的是,一般性的学术讲座和学校政治思想工作的影响程度略低于第五类,表明它们对大学生成长与发展有影响,但这种影响远远低于平均影响程度.这就要求学校有针对性的开展一般性的学术活动和政治思想工作.5/24/2024 最后需要说明的是,平均秩效应聚类分析是建立在秩分析基础之上的,类与类之间可以比较影响程度的大小,从中可以寻找出主要因素类和次要因素类,为解决实际问题提供较为可靠的依据.为了特别地突出主次之分,在平均秩效应聚类过程中,以1/2的平均影响程度或以3/2的平均影响程度为标准进行聚类分析.为了分析的更加细腻,可以将这些标准联合运用进行平均秩效应聚类分析.5/24/2024聚类分析的效应检验聚类分析的效应检验5/24/20245/24/20245/24/20245/24/2024参考文献参考文献5/24/20245/24/2024本章结束5/24/2024