资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,学习指南,前面章节讨论的问题,主要讨论模式识别的重要概念,贝叶斯分类器、线性分类器、非线性分类器、KNN等,设计分类器时的讨论问题,在d维特征空间已经确定的前提下,讨论分类方法与分类器设计,即:对要分类的样本怎样描述这个问题是已经确定的,学习指南,前面章节讨论的问题,例如对苹果与梨的划分问题,我们使用尺寸、重量和颜色三种度量来描述,这种度量方法是已经确定好的,在这种条件下研究用线性分类器好还是非线性分类器好,以及这些分类器的其它设计问题,学习指南,本章讨论的问题,对已有的特征空间进行改造,着重于研究对样本究竟用什么样的度量方法更好,譬如用三种度量来描述苹果与梨,那么是否运用这三种度量是最有效的呢?,颜色:,这一个指标对区分红苹果与梨很有效,区分黄苹果与梨就会困难得多,即,这个指标就不很有效了,学习指南,本章讨论的问题,使用什么样的特征描述事物,也就是说使用什么样的特征空间是个很重要的问题,由于对特征空间进行改造目的在于提高其某方面的性能,因此又称特征的优化问题,学习指南,降维主要有两种途径,对特征空间的改造、优化、主要的目的是降维,即把维数高的特征空间改成维数低的特征空间,降维主要有两种途径,特征的选择:一种是删选掉一些次要的特征,问题在于如何确定特征的重要性,以及如何删选,特征的提取:另一种方法是使用变换的手段,在这里主要限定在线性变换的方法上,通过变换来实现降维,本章重点,1弄清对特征空间进行优化的含义,2对特征空间进行优化的两种基本方法特征选择与特征的组合优化,3对特征空间进行优化的一些常用判据,4利用线段变换进行特征空间优化的基本方法,,本章知识点,8.1 基本概念,已经讨论的问题,是在d维特征空间已经确定的前提下进行的,讨论的分类器设计问题是:选择什么准则、使用什么方法,将已确定的d维特征空间划分成决策域的问题,另一个重要问题,如何确定合适的特征空间,如何描述每个样本和每个模式,基本概念,基本概念,基本概念,基本概念,问题的重要性,如果所选用的特征空间能使同类物体分布具有紧致性,即各类样本能分布在该特征空间中彼此分割开的区域内,这就为分类器设计成功提供良好的基础。,反之,如果不同类别的样本在该特征空间中混杂在一起,再好的设计方法也无法提高分类器的准确性。,基本概念,三个不同的层次描述,1.物理量的获取与转换,指用什么样的传感器获取电信号,摄取景物则要用摄像机,文字与数字识别首先要用扫描仪等设备,手写体文字所用传感器与印刷体文字也很可能不同,这些都属于物理量的获取,并且已转换成电信号,为计算机分析打下了基础,对从传感器中得到的信号,可称之为原始信息,它要经过加工、处理才能得到对模式分类更加有用的信号,基本概念,三个不同的层次描述,2描述事物方法的选择与设计,在得到了原始信息之后,要对它进一步加工,以获取对分类最有效的信息,这部分信息必须对原始信息进行加工,而设计所要信息的形式是十分关键的,例如:对阿拉伯数字的识别可以提出各种不同的想法,*分析从框架的左边框到数字之间的距离变化反映了不同数字的不同形状,这可以用来作为数字分类的依据,*强调分析不同截面的信号,如在框架的若干部位沿不同方向截取截面分析从背景到字,以及从字到背景转换的情况,基本概念,阿拉伯数字的识别可以提出各种不同的想法,基本概念,三个不同的层次描述,2描述事物方法的选择与设计,设计对事物的描述方法是充分发挥设计者智慧的过程,这个层次的工作往往因事物而易,与设计者本人的知识结构也有关,这是一个目前还无法自动进行的过程,这个层次的工作是最关键的,但因为太缺乏共性,也不是本章讨论的内容,基本概念,三个不同的层次描述,3.特征空间的优化,这个层次的工作发生在已有了特征的描述方法之后,也就是已有了一个初始的特征空间,如何对它进行改造与优化的问题,所谓优化是要求既降低特征的维数,又能提高分类器的性能,这就是本章着重讨论的问题,这里讨论的是一些不同模式识别系统中具有共性的问题,,特征选择与特征提取,基本概念,例 用RGB颜色空间和HSI颜色空间,RGB和HSI是两种常用的颜色空间,,虽然它们描述颜色的范围是一样的,,也有确定的转换关系,,但是用这两种不同的特征描述图像,,对以后的识别工作会有很大影响,基本概念,基本概念,特征选择和特征提取,对特征空间进行优化有两种基本方法,一种为特征选择,,一种为特征提取,两者区别,特征选择:删掉部分特征,特征提取:通过一种映射,也就是说新的每一个特征是原有特征的一个函数,基本概念,特征选择和特征提取,两者区别,假设已有D维特征向量空间,,特征选择:,样本由d维的特征向量描述:,dD,由于X只是Y的一个子集,因此每个分量xi必然能在原特征集中找到其对应的描述量xiyj,基本概念,特征选择和特征提取,两者区别,假设已有D维特征向量空间,,特征提取:,找到一个映射关系:,A:YX,使新样本特征描述维数比原维数降低。其中每个分量xi是原特征向量各分量的函数,即,基本概念,特征选择和特征提取,两者区别,因此这两种降维的基本方法是不同的。,在实际应用中可将两者结合起来使用,,比如先进特征提取,然后再进一步选择其中一部分,或反过来。,8.2 类别可分离性判据,为什么需要类别可分离性判据,特征选择与特征提取的任务是求出一组对分类最有效的特征,所谓有效是指在特征维数减少到同等水平时,其分类性能最佳,因此需要有定量分析比较的方法,判断所得到的特征维数及所使用特征是否对分类最有利,这种用以定量检验分类性能的准则称为,类别可分离性判据,类别可分离性判据,为什么需要类别可分离性判据,一般说来分类器最基本的性能评估是其分类的错误率,如果能用反映错误率大小的准则,在理论上是最合适的,对错误率的计算是极其复杂的,以至于很难构筑直接基于错误率的判据,为此人们设法从另一些更直观的方法出发,设计出一些准则,用来检验不同的特征组合对分类性能好坏的影响,甚至用来导出特征选择与特征提取的方法,这些准则就是类别可分离性判据,类别可分离性判据,类别可分离性判据的种类,基于距离度量的可分性判据,基于概率分布的可分性判据等,8.2.1基于距离的可分性判据,基于距离的可分性判据,基于距离度量是人们常用来进行分类的重要依据,一般情况下同类物体在特征空间呈聚类状态,即从总体上说同类物体内各样本由于具有共性,因此类内样本间距离应比跨类样本间距离小,Fisher准则正是以使类间距离尽可能大同时又保持类内距离较小这一种原理为基础的,同样在特征选择与特征提取中也使用类似的原理,这一类被称为基于距离的可分性判据。,基于距离的可分性判据,基于距离的可分性判据,在讨论Fisher准则时曾用过两个描述离散度的矩阵,一个是类间离散矩阵S,b,另一个是类内离散度矩阵S,W,S,W,S,1,+S,2,基于距离的可分性判据,基于距离的可分性判据,如果推广至c类别情况,其中 为所有样本的总均值向量,P,i,表示各类别的先验概率,E,i,表示i类的期望符号。,基于距离的可分性判据,1 计算特征向量间平均距离的判据,该式可写成,在欧氏距离情况下有,基于距离的可分性判据,1 计算特征向量间平均距离的判据,利用均值向量 与总均值向量 ,有,基于距离的可分性判据,2 考虑类内类间欧氏距离的其它判据,判据J,d,(X)是计算特征向量的总平均距离,以下一些判据则基于使类间离散度尽量大,类内离散度尽量小的考虑而提出:,8.2.2 基于概率分布的可分性判据,基于概率分布的可分性判据,上一节讨论的是样本在特征空间的分布距离作为特征提取的依据。,该种原理直观,计算简便。,但是这种原理没有考虑概率分布,因此当不同类样本中有部分在特征空间中交迭分布时,简单地按距离划分,无法表明与错误概率之间的联系。,基于概率分布的可分性判据则依据如下观察到的现象。,8.2.2 基于概率分布的可分性判据,基于概率分布的可分性判据,观察现象:不考虑各类的先验概率,或假设两类样本的先验概率相等,基于概率分布的可分性判据,基于概率分布的可分性判据,观察现象,如果两类条件概率分布互不交迭,即对p(X|2)0处都有p(X|1)0,则这两类就完全可分;,另一种极端情况是对所有X都有p(X|1)p(X|2),则两类就完全不可分。,基于概率分布的可分性判据,基于概率分布的可分性判据,因此人们设计出与概率分布交迭程度有关的距离度量方法,这些距离Jp有以下几个共同点:,1.Jp是非负,即Jp0,2.当两类完全不交迭时Jp达到其最大值,3.当两类分布密度相同时,Jp0这种函数的一般式可表示为:,基于概率分布的可分性判据,一些常用的概率距离度量,Bhattacharyya距离和Chernoff界限,Bhattacharyya距离的定义用下式表示,Chernoff界限的定义与其相似,为,因此J,B,是J,C,的一个特例,上一节讨论的是样本在特征空间的分布距离作为特征提取的依据。,按欧氏距离度量的特征提取方法,基于概率分布的可分性判据,基于概率分布的可分性判据,由散度JD的定义,得,按欧氏距离度量的特征提取方法,正态分布时基于概率分布距离度量,但是用这两种不同的特征描述图像,,即:W=1,2 d,考虑以Rx的特征向量作为A的列,则,Principle Component Analysis,这一节只是在正态分布条件下的一种特殊情况进行分析,不作基本要求。,S*w=WT Sw W,正态分布时基于概率分布距离度量,=a1,a2an T 1a1,2a2nan,基于概率分布的可分性判据,一些常用的概率距离度量,散度,另一种常用的基于概率距离度量的判据是利用似然比或对数似然比。,对两类问题,其对数似然比为,如果对某个X,则 ,反之若两者差异越大,则 的绝对值也大。,基于概率分布的可分性判据,一些常用的概率距离度量,散度,以上只是对某一X值而言,为了对整个特征空间概率分布的差异程度作出评价,将对wi类及对wj 的可分性信息分别定义为,基于概率分布的可分性判据,一些常用的概率距离度量,散度,而总的平均可分信息则可表示成,基于概率分布的可分性判据,一些常用的概率距离度量,正态分布时基于概率分布距离度量,显然在一般情况下由于概率分布本身的复杂形式,以上这些基于概率分布的距离相当复杂。,下面讨论两类别正态分布时散度判据的表达式,这些判据在概率分布具有某种参数形式,尤其是正态分布时可以得到进一步简化,基于概率分布的可分性判据,一些常用的概率距离度量,正态分布时基于概率分布距离度量,设两类别分别表示为,则,基于概率分布的可分性判据,一些常用的概率距离度量,正态分布时基于概率分布距离度量,对数似然比,基于概率分布的可分性判据,一些常用的概率距离度量,正态分布时基于概率分布距离度量,利用矩阵迹的性质A,T,B=tr(BA,T,),其中A、B表示向量,上式可改写成,基于概率分布的可分性判据,一些常用的概率距离度量,正态分布时基于概率分布距离度量,将其代入Iij的计算公式,并化简得,基于概率分布的可分性判据,一些常用的概率距离度量,正态分布时基于概率分布距离度量,由散度J,D,的定义,得,显然,如果两类协方差矩阵相等,则,基于概率分布的可分性判据,一些常用的概率距离度量,正态分布时基于概率分布距离度量,在正态分布时Bhattacharyya距离J,B,可表示成:,基于概率分布的可分性判据,一些常用的概率距离度量,正态分布时基于概率分布距离度量,显然,如果两类协方差矩阵相等,则,8.2.3基于熵函数的可分性判据,我们知道一个样本不同类的后验概率是贝叶斯决策的依据,因此在特征空间的任何一点,如果它对不同类别的后验概率差别很大,则为分类提供了很明确的信息,而Shannon信息论定义的熵就可以用来对可分类性作出评价,故这方面可分性判据的定义称之为基于熵函数的可分性判据,基于熵函数的可分性判据,基于熵函数的可分性判据,分析,如果对某些特征,各类后验概率都相等,即,此时,这也就是错误率最大的情况。,基于熵函数的可分性判据,基于熵函数的可分性判据,分析,考虑另一极端,假设能有一组特征使得,那末此时的X肯定可划分为,i,,而错误率为零,由此可看出,后验概率越集中,错误概率就越小,反之后验概率分布越平缓,即接近均匀分布,则分类错误概率就越大,按欧氏距离度量的特征提取方法,类别可分离性判据的种类,使用J2判据进行特征提取,按欧氏距离度量的特征提取方法,这是大部分特征提取方法的基本做法。,正态分布时基于概率分布距离度量,一些常用的概率距离度量,做到既降维,又能尽可能体现类间分离,类内聚集的原则,对特征空间的改造、优化、主要的目的是降维,即把维数高的特征空间改成维数低的特征空间,降维主要有两种途径,2描述事物方法的选择与设计,由于对特征空间进行改造目的在于提高其某方面的性能,因此又称特征的优化问题,J2(W)=1+2+d,一些常用的概率距离度量,例 用RGB颜色空间和HSI颜色空间,1 2 D,,基于熵函数的可分性判据,基于熵函数的可分性判据,熵,为了衡量后验概率分布的集中程度,可以借助于信息论中熵的概念,制订定量指标。,Shannon熵为,另一常用的平方熵,基于熵函数的可分性判据,基于熵函数的可分性判据,两者共性,1.熵为正且对称,即函数式内项的次序可以变换不影响熵的值;,2.如,3.对任意的概率分布,8.3 特征提取,按欧氏距离度量的特征提取方法,按概率距离判据提取特征,特征提取方法小结,按欧氏距离度量的特征提取方法,按欧氏距离度量的特征提取方法,基于距离可分性判据的特征优化过程是通过一个线性变换实现,特征提取在这里意味着找到一个线性变换W,对原始特征向量Y=y,1,,y,D,T,实行映射变换W:YX,得到维数减少的向量X=x,1,,x,d,T,,即,W为Dd矩阵,按欧氏距离度量的特征提取方法,欧氏距离的判据,按欧氏距离度量的特征提取方法,利用W(Dd矩阵)线形变换后,希望变换后的特征向量能满足使某个准则函数达到极值的要求,使用,J,2,判据进行特征提取,注意:如果对特征空间实行一个DD矩阵的非奇异线性变换,,J,2,保持不变,按欧氏距离度量的特征提取方法,例如,对原特征空间实行一DD线性变换A,令,S,w,S,b,为原空间离散度矩阵,S*,w,S*,b,为映射后的离散度矩阵,则:,S*,b,=,A,S,b,A,T,S*,w,=,A,S,w,A,T,经变换后的,J,2,变为:,J,2,*,(,A,)=tr(,A,S,w,A,T,),-1,A,S,b,A,T,=tr(,A,T,),-1,S,w,-1,S,b,A,T,=tr,S,w,-1,S,b,=,J,2,(,A,),按欧氏距离度量的特征提取方法,使用,J,2,判据进行特征提取,因而以下讨论的特征提取变换,只考虑是降维的,即用Dd矩阵(dD)进行变换,其目的是在维数d的条件下,使相应的判据为最大,按欧氏距离度量的特征提取方法,使用,J,2,判据进行特征提取,将,J,2,判据表示成变换W的函数,令,S,w,S,b,为原空间离散度矩阵,,S*,w,S*,b,为映射后的离散度矩阵:,S*,b,=,W,T,S,b,W,S*,w,=,W,T,S,w,W,则经变换后的,J,2,变为:,J,2,(,W,)=tr(,W,T,S,w,W,),-1,W,T,S,b,W,按欧氏距离度量的特征提取方法,使用,J,2,判据进行特征提取,求使J2(W)最大的W解可利用特征值方法,对,W,的各分量求偏导数,并另其为零,可以确定,W,值。,结论:对,J,2,,,J,2,,,J,5,来说,使判据达到最大的变换,W,如下:,设矩阵,S,w,-1,S,b,的本征值为,1,,,2,D,,按大小顺序排列为:,1,2,D,,,按欧氏距离度量的特征提取方法,使用,J,2,判据进行特征提取,则选前d个本征值对应的本征向量作为,W,即:,W,=,1,,,2,d,此时:,J,2,(,W,)=,1,+,2,+,d,按欧氏距离度量的特征提取方法,例,协方差矩阵是:,给定先验概率相等的两类,其均值向量分别为:,求用J2判据的最优特征提取,1 计算特征向量间平均距离的判据,1 2 D,,一些常用的概率距离度量,这一个指标对区分红苹果与梨很有效,它要经过加工、处理才能得到对模式分类更加有用的信号,x表示y1ym在原空间中对应的表示方法,在特征提取方法中希望所使用的各种判据能够满足以下几点要求:,区分黄苹果与梨就会困难得多,因此通过改变这些参数的值就可实现对模型的有效描述,这在图象生成中是很有用的。,求使J2(W)最大的W解可利用特征值方法,一些常用的概率距离度量,按欧氏距离度量的特征提取方法,例,解:,根据前面的分析,应先求,再求此矩的特征矩阵,今有混合均值,类间离散度矩阵:,按欧氏距离度量的特征提取方法,例,解:,则,类内离散度矩阵,按欧氏距离度量的特征提取方法,例,解:,需求 的特征值矩阵,的秩是1,只有一个非零特征值,解方程:,得到,因此利用W向量对原始的两维样本进行线性变换,得到新的一维分布,特征空间从两维降到一维,并满足J2判据。,8.3.2按概率距离判据提取特征,这一节只是在正态分布条件下的一种特殊情况进行分析,不作基本要求。,8.3.3 特征提取方法小结,特征提取方法从其工作原理来看可以分成两大类,对样本在特征空间分布的距离度量,其基本思想是通过原有特征向量线性组合而成新的特征向量,做到既降维,又能尽可能体现类间分离,类内聚集的原则,特征提取方法小结,对样本在特征空间分布的距离度量,在欧氏距离度量的条件下所提出的几种判据都是从这一点出发的,特征提取方法小结,从概率分布的差异出发,制订出反映概率分布差异的判据,以此确定特征如何提取,这类判据由于与错误率之间可能存在单调或上界关系等,因此从错误率角度考虑有一定的合理性,但是使用这种方法需要有概率分布的知识,并且只是在概率分布具有简单形式时,计算才比较简便,特征提取方法小结,从概率分布的差异出发,制订出反映概率分布差异的判据,以此确定特征如何提取,熵概念的运用是描述概率分布另一种有用的形式,利用熵原理构造的判据,进行特征提取,特征提取方法小结,各个方法中都有一个共同的特点,即判别函数的极值往往演变为找有关距阵的特征值与特征向量,由相应的特征向量组成坐标系统的基向量,计算有关矩阵的特征值矩阵与特征向量,选择前d个大特征值,以它们相应的特征向量构成坐标系统,这是大部分特征提取方法的基本做法。,特征选择方法不相同,特征提取方法小结,在特征提取方法中希望所使用的各种判据能够满足以下几点要求:,(1)与错误概率或其上界或下界有单调关系,(2)判据在特征独立时有可加性,特征提取方法小结,在特征提取方法中希望所使用的各种判据能够满足以下几点要求:,(3)可分性判别应满足可分性,及对称性,特征提取方法小结,在特征提取方法中希望所使用的各种判据能够满足以下几点要求:,(4)单调性,是指维数增多时,判据值不应减少。,主成分分析,PCA,Principle Component Analysis,通过k-l变换实现主成分分析,K-L变换,特征提取思想,用映射(或变换)的方法把原始特征变换为较少的新特征,降维,主成分分析(PCA)基本思想,进行特征降维变换,不能完全地表示原有的对象,能量总会有损失。,希望找到一种能量最为集中的的变换方法使损失最小,K-L变换,原始输入:x,变换后特征:y,变换矩阵(线性变换):A,则:y=A,T,x,K-L变换,思考:,希望特征之间关联性尽可能小,变换后的相关矩阵:,R,y,Eyy,T,=EA,T,xx,T,A,=A,T,R,x,A,我们是不是希望R,y,是个对角矩阵?,如何选择A?,K-L变换,考虑以R,x,的特征向量作为A的列,则,R,y,=A,T,R,x,A,=,a,1,a,2,a,n,T,R,x,a,1,a,2,a,n,=,a,1,a,2,a,n,T,1,a,1,2,a,2,n,a,n,=,为对角矩阵,对角线元素为,1,2,n,达到变换后特征不相关的目的,以上为K-L变换,K-L变换,思考K-L变换性质:,如果降维,有什么结果,原有N维,只保留m维,即去掉y,m+1,y,N,希望:和原来的表示方法差别最小,即:E|x-x|,2,最小,x表示y,1,y,m,在原空间中对应的表示方法,K-L变换,K-L变换,结论,如果对特征向量排序,舍到最小的特征,则损失的能量最小,K-L变换,典型应用,1降维与压缩,对一幅人脸图象,如果它由M行与N到象素组成,则原始的特征空间维数就应为MN。,而如果在K-L变换以及只用到30个基,那么维数就降至30,由此可见降维的效果是极其明显的。,譬如原训练样本集的数量为V,而现采用30个基,数据量是大大降低,K-L变换,典型应用,2构造参数模型,使用K-L变换不仅仅起到降维与压缩数据的作用,更重要的是每个描述量都有明确的意义,因此通过改变这些参数的值就可实现对模型的有效描述,这在图象生成中是很有用的。,K-L变换,典型应用,3人脸识别,首先搜集要识别的人的人脸图象,建立人脸图象库,,然后利用K-L变换确定相应的人脸基图象,,再反过来用这些基图象对人脸图象库中的有人脸图象进行K-L变换,在识别时,先对一张所输入的脸图象进行必要的规范化,再进行K-L变换分析,得到其参数向量。,K-L变换,典型应用,4人脸图象合成,
展开阅读全文