资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,相关学科,统计学,概率论,线性代数(矩阵计算),形式语言,人工智能,图像处理,计算机视觉,等等,1,教学目标,掌握模式识别的基本概念和方法,有效地运用所学知识和方法解决实际问题,为研究新的模式识别的理论和方法打下基础,2,基本要求,基本,:完成课程学习,通过考试(或者小论文),获得学分。,提高,:能够将所学知识和内容用于课题研究,解决实际问题。,飞跃:,通过模式识别的学习,改进思维方式,为将来的工作打好基础,终身受益。,3,第一章 引论,1.1,概述,1.2,特征矢量和特征空间,1.3,随机矢量的描述,1.4,正态分布,6,概念,模式识别,(Pattern Recognition),:,确定一个样本的类别属性(模式类)的过程,即把某一样本归属于多个类型中的某个类型。,样本(,Sample),:,一个具体的研究(客观)对象。如患者,某人写的一个汉字,一幅图片等。,模式,(Pattern),:,对客体(研究对象)特征的描述(定量的或结构的描述),是取自客观世界的某一样本的测量值的集合(或综合)。,特征,(Features),:,能描述模式特性的量(测量值)。在统计模式识别方法中,通常用一个矢量 表示,称之为特征矢量,记为,模式类,(Class),:,具有某些共同特性的模式的集合。,概念,模式识别的例子,计算机自动诊断疾病,:,获取情况,(,信息采集,),测量体温、血压、心率、血液化验、,X,光透射、,B,超、心电图、,CT,等尽可能多的信息,并将这些信息数字化后输入电脑。当然在实际应用中要考虑采集的成本,这就是说,特征要进行选择,的。,运行在电脑中的,专家系统,或专用程序可以分析这些数据并进行,分类,,得出正常或不正常的判断,不正常情况还要指出是什么问题。,对象空间,模式空间,特征空间,类型空间,各类空间(,Space),的概念,模式采集:,从客观世界(对象空间)到模式空间的过程称为模式采集。,特征提取和特征选择:,由模式空间到特征空间的变换和选择。,类型判别:,特征空间到类型空间所作的操作。,模,式,识,别,三大,任务,10,1.1,概述模式识别系统基本原理,数据采集,特征提取,二次特征,提取与选择,分类,识别,待识,对象,识别结果,通常在采集信息过程中,还要去除所获取信息中的噪声,增强有用的信息等工作。这种使信息纯化的处理过程叫做信息的,预处理,。,分类识别是根据事先确定的,分类规则,对前面选取的特征进行,分类,(即识别)。,通常能描述对象的元素很多,为节约资源和提高处理速度,有时更为了可行性,在满足分类识别正确率要求的条件下,按某种准则尽量选用对正确分类识别作用较大的特征。使得用较少的特征就能完成分类识别任务。,预处理,这个环节的内容很广泛,与要解决的具体问题有关,例如,从,图象,中将,汽车车牌,的号码,识别,出来,就需要先将,车牌,从,图像,中找出来,再对,车牌,进行,划分,,将每个,数字,分别,划分,开。做到这一步以后,才能对每个,数字,进行,识别,。以上工作都应该在预处理阶段完成。,数字化,比特流,11,数据采集,特征提取,二次特征,提取与选择,分类,识别,待识,对象,识别结果,数据采集,特征提取,改进分类识别规则,二次特征提取与选择,训练,样本,改进采集,提取方法,改进特征提取与选择,制定改进分类识别规则,人工,干预,正确率,测试,12,模式识别系统的主要环节:,特征提取:,符号表示,如长度、波形、。,特征选择:,选择有代表性的特征,能够正确分类,学习和训练:,利用已知样本建立分类和识别规则,分类识别:,对所获得样本按建立的分类规则进行分类识别,13,纸币识别器对纸币按面额进行分类,面额,1.1,概述系统实例,5,元,10,元,20,元,50,元,100,元,14,1.1,概述系统实例,长度,(mm),宽度,(mm),5,元,13663,10,元,14170,20,元,14670,50,元,15170,100,元,15677,15,1.1,概述系统实例,磁性金属条位置,(,大约,),5,元有,54/82,10,元有,54/87,20,元有,57/89,50,元有,60/91,100,元有,63/93,16,5,元,10,元,20,元,50,元,100,元,1,2,3,4,5,6,7,8,反射光波形,1.1,概述系统实例,数据采集、特征提取:,长度、宽度、磁性、磁性的位置,光反射亮度、光透射亮度等等,特征选择:,长度、磁性及位置、反射亮度,分类识别:,确定纸币的面额及真伪,18,1.1,概述系统实例,训练集:,是一个已知样本集,在监督学习方法中,用它来开发出模式分类器。,测试集:,在设计识别和分类系统时没有用过的独立样本集。,系统评价原则:,为了更好地对模式识别系统性能进行评价,必须使用一组独立于训练集的测试集对系统进行测试。,19,例,:,汽车车牌识别,从摄像头获取包含车牌的彩色图象,车牌定位和获取,字符分割和识别,输入图象,特征提取,粗略定位,分割字符,确定类型,精细定位,识别、输出,20,21,22,1.1,概述模式识别的基本方法,一、统计模式识别,二、句法模式识别,三、模糊模式识别,四、人工神经网络法,五、人工智能方法,23,1.1,概述模式识别的基本方法,一、统计模式识别,模式描述方法:,特征向量,模式判定:,模式类用条件概率分布,P(X/,i,),表示,m,类就有,m,个分布,然后判定未知模式属于哪一个分布。,24,1.1,概述模式识别的基本方法,一、统计模式识别,理论基础:,概率论,数理统计,主要方法:,线性、非线性分类、,Bayes,决策、聚类分析,主要优点:,1,)比较成熟,2,)能考虑干扰噪声等影响,3,)识别模式基元能力强,主要缺点:,1,)对结构复杂的模式抽取特征困难,2,)不能反映模式的结构特征,难以描述模式的性质,3,)难以从整体角度考虑识别问题,25,1.1,概述模式识别的基本方法,二、句法模式识别,模式描述方法:,符号串,树,图,模式判定:,是一种语言,用一个文法表示一个类,,m,类就有,m,个文法,然后判定未知模式遵循哪一个文法。,26,例,2,:如下图中一幅图形,要识别图中的物体,选用句法模式识别方法,.,1.1,概述模式识别的基本方法,27,解:,图形结构复杂,首先应分解为简单的子图(背景、物体)。构成一个多级树结构:,1.1,概述模式识别的基本方法,28,在学习过程中,确定基元与基元之间的关系,推断出生成景物的方法。,判决过程中,首先提取基元,识别基元之间的连接关系,使用推断的文法规则做句法分析。若分析成立,则判断输入的景物属于相应的类型。,1.1,概述模式识别的基本方法,29,理论基础:,形式语言,自动机技术,主要方法:,自动机技术、,CYK,剖析算法、,Early,算法、转移图法,主要优点,:,1,)识别方便,可以从简单的基元开始,由简至繁。,2,)能反映模式的结构特征,能描述模式的性质。,3,)对图象畸变的抗干扰能力较强。,主要缺点:,当存在干扰及噪声时,抽取特征基元困难,且易失误。,1.1,概述模式识别的基本方法,30,1.1,概述模式识别的基本方法,三、模糊模式识别,模式描述方法:,模糊集合,A=(,a,a),(,b,b),.(,n,n),模式判定:,是一种集合运算。用隶属度将模糊集合划分为若干子集,,m,类就有,m,个子集,然后根据择近原则分类。,31,理论基础:,模糊数学,主要方法:,模糊统计法、二元对比排序法、推理法、模糊集运算规则、模糊矩阵,主要优点,:由于隶属度函数作为样本与模板间相似程度的度量,故往往能反映整体的与主体的特征,从而允许样本有相当程度的干扰与畸变。,主要缺点:,准确合理的隶属度函数往往难以建立,故限制了它的应用。,1.1,概述模式识别的基本方法,32,1.1,概述模式识别的基本方法,四、人工神经网络法,模式描述方法:,以不同活跃度表示的输入节点集(神经元),模式判定:,是一个非线性动态系统。通过对样本的学习建立起记忆,然后将未知模式判决为其最接近的记忆。,33,理论基础:,神经生理学,心理学,主要方法:,BP,模型、,HOP,模型、高阶网,主要优点,:可处理一些环境信息十分复杂,背景知识不清楚,推理规则不明确的问题。允许样本有较大的缺损、畸变。,主要缺点:,模型在不断丰富与完善中,目前能识别的模式类还不够多。,1.1,概述模式识别的基本方法,34,1.1,概述模式识别的基本方法,五、逻辑推理法(人工智能法),模式描述方法:,字符串表示的事实,模式判定:,是一种布尔运算。从事实出发运用一系列规则,推理得到不同结果,,m,个类就有,m,个结果。,35,理论基础:,演绎逻辑,布尔代数,主要方法:,产生式推理、语义网推理、框架推理,主要优点,:已建立了关于知识表示及组织,目标搜索及匹配的完整体系。对需要众多规则的推理达到识别目标确认的问题,有很好的效果。,主要缺点:,当样本有缺损,背景不清晰,规则不明确甚至有歧义时,效果不好。,1.1,概述模式识别的基本方法,36,1.1,概述模式识别的发展简史,1929,年,G.Tauschek,发明阅读机,能够阅读,0-9,的数字。,30,年代,Fisher,提出统计分类理论,奠定了统计模式识别的基础。,50,年代,Noam Chemsky,提出形式语言理论,傅京荪提出句法,/,结构模式识别。,60,年代,L.A.Zadeh,提出了模糊集理论,模糊模式识别方法得以发展和应用。,37,1.1,概述模式识别的发展简史,80,年代,以,Hopfield,网、,BP,网为代表的神经网络模型导致人工神经元网络复活,并在模式识别得到较广泛的应用。,90,年代,小样本学习理论,支持向量机也受到了很大的重视。,38,1.1,概述模式识别的应用,(,举例,),生物学,自动细胞学、染色体特性研究、遗传研究,天文学,天文望远镜图像分析、自动光谱学,经济学,股票交易预测、企业行为分析,医学,心电图分析、脑电图分析、医学图像分析,39,1.1,概述主要实用系统举例,文字识别(,Character Recognition,),OCR,(,Optical Character Recognition,),智能交通(,Intelligent Traffic,),车牌、车型。,语音识别(,Speech recognition,),翻译机,身份识别等,目标识别,ATR,(,Automaic Target Recognition,),40,41,1.2,特征矢量和特征空间,42,1.3,随机矢量的描述,随机矢量:,在模式识别过程中,要对许多具体对象进行测量,以获得许多次观测值。,每次观测值不一定相同,所以对许多对象而言,各个特征分量都是随机变量,即许多对象的特征向量在,n,维空间中呈随机性分布,称为随机矢量。,43,1.3,随机矢量的描述,(,一,),随机矢量的分布函数:,设 为随机矢量,,为确定性矢量。,随机矢量的联合概率分布函数定义为:,式中 表示括号中事件同时发生的概率。,44,1.3,随机矢量的描述,(,一,),随机矢量的分布函数:,随机矢量 的联合概率密度函数定义为:,45,1.3,随机矢量的描述,46,1.3,随机矢量的描述,x,p(x),),(,1,w,x,p,),(,2,w,x,p,47,1.3,随机矢量的描述,48,1.3,随机矢量的描述,(,二,),随机矢量的数字特征:,其中,的分量:,式中,是 的第 个分量的边缘密度。随机矢量 的均值矢量 的各分量是相应的各随机分量的均值。,49,1.3,随机矢量的描述,(,二,),随机矢量的数字特征:,条件期望,在模式识别中,经常以类别 作为条件,在这种情况下随机矢量 的条件期望矢量定义为,50,1.3,随机矢量的描述,随机矢量 的自协方差矩阵表征各分量围绕其均值的散布情况及各分量间的相关关系,其定义为:,(,二,),随机矢量的数字特征:,协方差矩阵,51,1.3,随机矢量的描述,52,1.3,随机矢量的描述,53,1.3,随机矢量的描述,(,二,),随机矢量的数字特征:,相关系数,由布尼亚科夫斯基不等式知,:,相关系数矩阵定义为,:,54,1.3,随机矢量的描述,55,1.3,随机矢量的描述,56,1.3,随机矢量的描述,57,1.3,随机矢量的描述,58,1.4,正态分布,59,1.4,正态分布,(,1,)一维随机变量的正态分布,60,1.4,正态分布,61,1.4,正态分布,(,2,)随机矢量的正态分布,正态分布随机矢量,的概率密度函数定义为:,62,1.4,正态分布,63,1.4,正态分布,(,2,)二维随机变量的正态分布,64,1.4,正态分布,65,范例,木板,图象,512512,d=3,长度,纹理,亮度,c=2,松木,桦木,维数,无限,有限,/,很大,R,有限,d,不大,c,总结:模式识别过程,dR,无限,模式采集,模式空间,特征提取,/,选择,类型空间,分类,特征空间,客观世界,待识别对,象,识别过程,错误概率检测,制定分类的,判决规则,特征提取,/,选择方法校正,学习过程,采集方法校正,已知对象,预处理,试证明,对于正态分布,不相关与独立是等价的。,试证明,多元正态随机矢量的线性变换仍为多元正态随机矢量。,试证明,多元正态随机矢量,X,的分量的线性组合是一正态随机变量。,习题,67,
展开阅读全文