1、9.7分类问题第1页第1页一、引例 1981年生物学家格若根(W Grogan)和维什(WWirth)发觉了两类蚊子(或飞蠓midges)他们测量了这两类蚊子每个个体翼长和触角长,数据下列:翼长 触角长 类别 1.64 1.38 Af 1.82 1.38 Af 1.90 1.38 Af 1.70 1.40 Af 1.82 1.48 Af 1.82 1.54 Af 2.08 1.56 Af翼长 触角长 类别1.78 1.14 Apf1.96 1.18 Apf1.86 1.20 Apf1.72 1.24 Af2.00 1.26 Apf2.00 1.28 Apf1.96 1.30 Apf1.74 1
2、.36 Af数数学学模模型型第2页第2页v问:假如抓到三只新蚊子,它们触角长和翼长分别为(l.24,1.80);(l.28,1.84);(1.40,2.04)问它们应分别属于哪一个种类?解法一:把翼长作纵坐标,触角长作横坐标;那么每个蚊子翼长和触角决定了坐标平面一个点.其中 6个蚊子属于 APf类;用黑点“”表示;9个蚊子属 Af类;用小圆圈“。”表示得到结果见图1 图1飞蠓触角长和翼长 数数学学模模型型第3页第3页v思绪:作始终线将两类飞蠓分开 比如;取A(1.44,2.10)和 B(1.10,1.16),过A B两点作一条直线:y 1.47x -0.017其中X表示触角长;y表示翼长 分类
3、规则:设一个蚊子数据为(x,y)假如y1.47x -0.017,则判断蚊子属Apf类;假如y1.47x -0.017;则判断蚊子属Af类 数学模型数学模型第4页第4页v分类结果:(1.24,1.80),(1.28,1.84)属于Af类;(1.40,2.04)属于 Apf类图2 分类直线图 数学模型数学模型第5页第5页缺点:依据什么原则拟定分类直线?若取A=(1.46,2.10),B=(1.1,1.6)不变,则分类直线变为 y=1.39x+0.071分类结果变为:(1.24,1.80),(1.40,2.04)属于Apf类;(1.28,1.84)属于Af类 哪一分类直线才是正确呢?因此如何来拟定这
4、个判别直线是一个值得研究问题普通地讲,应当充足利用已知数据信息来拟定判别直线数学模型数学模型第6页第6页v再如,下列情形已经不能用分类直线办法:数学模型数学模型第7页第7页第8页第8页1.距离判别法1.1欧氏Euclidean distance距离判别法1.2马氏(P.C.Mahalanobis)距离判别法1.3海明Hamming距离判别法两个合法代码对应位上编码不同位数称为海明距离。第9页第9页合理距离v假如用dij表示第i个样品和第j个样品之间距离,那么对于一切i,j和k,dij应当满足下列三个条件:v dij0,当且仅当i=j时,dij=0(非负性非负性)v dijdji (对称性对称性
5、)v dijdikdkj(三角不等式三角不等式)显然,欧氏距离满足以上三个条件。第10页第10页欧氏距离缺点v欧氏距离即使简朴,但也有显著缺点。它将样本不同属性(即各指标或各变量)之间差异等同对待,这一点有时不能满足实际要求。第11页第11页马氏距离优缺点v1)马氏距离计算是建立在总体样本基础上,这一点能够从上述协方差矩阵解释中能够得出,也就是说,假如拿一样两个样本,放入两个不同总体中,最终计算得出两个样本间马氏距离通常是不相同,除非这两个总体协方差矩阵恰巧相同;v2)在计算马氏距离过程中,要求总体样本数大于样本维数,不然得到总体样本协方差矩阵逆矩阵不存在,这种情况下,用欧式距离计算即可。v3
6、)还有一个情况,满足了条件总体样本数大于样本维数,不过协方差矩阵不可逆,比如三个样本点(3,4),(5,6)和(7,8),这种情况是因为这三个样本在其所处二维空间平面内共线。这种情况下,也采取欧式距离计算。v4)在实际应用中“总体样本数大于样本维数”这个条件是很容易满足,而全部样本点出现3)中所描述情况是极少出现,因此在绝大多数情况下,马氏距离是能够顺利计算,不过马氏距离计算不稳定,不稳定起源是协方差矩阵,这也是马氏距离与欧式距离最大差异之处。v优点:不受量纲影响,两点之间马氏距离与原始数据测量单位无关;由标准化数据和中心化数据(即原始数据与均值之差)计算出二点之间马氏距离相同。马氏距离还能够
7、排除变量之间相关性干扰。缺点:夸大了改变微小变量作用。第12页第12页2.Fisher判别法vFisher判别基本思想是将k个总体全部p维空间样本点投影到一维空间上,使投影后组与组之间尽也许分开,然后利用方差分析方法推出判别函数。为了简朴起见,通常利用线性判别函数u(x)=aTx.v寻找一个最恰当方向a,使在这个方向上,组间方差与组内方差商最大第13页第13页求解最优判别方向等价于求解带约束函数优化问题能够证实:第14页第14页v 第15页第15页Fisher判别法v依据各个样本均值在最优方向上投影值 从小到大将样本集重新编号,假设序号仍然为G1Gk。v定出Gj和Gj+1分界值uj,j=1k-
8、1,比如:v拟定样本类别:第16页第16页Bayes判别法v距离判别法即使简朴,便于使用。但是该办法也有它明显不足之处。第一,判别办法与总体各自出现概率大小无关;第二,判别办法与错判之后所造成损失无关。Bayes判别法就是为了处理这些问题而提出一个判别办法。第17页第17页一、Bayes判别基本思想第18页第18页第19页第19页第20页第20页第21页第21页Bayes判别基本办法v 假如已知样品X来自总体Gi 先验概率为qi,则在规则R下,由(4.12)式知,误判总平均损失为第22页第22页第23页第23页第24页第24页第25页第25页第26页第26页第27页第27页其它相关知识v主成份分析法PCAv支持向量机SVMv.第28页第28页