1、目录摘要IABSTRACTII第一章 绪论1第一节 课题研究背景及意义1第二节 本论文的主要工作7第二章 人脸图像分析技术常用方法8第一节 人脸检测常用方法8一、基于特征的方法9二、基于支持向量机的方法9第二节 人脸识别常用方法10一、基于特征脸的识别方法10二、弹性图匹配方法10三、基于非线性数据降维的方法11第三节 本章小结12第三章 局部二值模式(LBP)13第一节 关于LBP的介绍13第二节 LBP方法的优点与不足20第三节 本章小结20第四章 变阈值局部二值模式21第一节 变阈值局部二值式的定义与性质21第二节 基于变阈值局部二值模式的纹理特征提取24第三节 本章小结25第五章 基于
2、变阈值局部二值式人脸表情识别的实现及实验结果26第一节 基于变阈值局部二值式的人脸表情识别的实现26第二节 实验讨论变阈值的调整27第三节 实验设计与结果分析28第四节 总结与展望31一、 总结已有工作31二、 对未来的展望31致谢32参考文献3335摘要作为智能化人机交互技术中的一个重要组成部分,人脸表情识别越来越受到重视,它是涉及模式识别、机器视觉、图像处理、心理学等研究领域的一个极富挑战性的交叉课题之一,是近年来模式识别与人工智能领域的一个研究热点。一般而言,人脸表情识别主要有四个基本部分组成:表情图像获取、表情图像预处理、表情特征提取和表情分类。本文重点集中在对表情特征提取问题的研究上
3、,研究工作如下:本文提出了一种LBP的扩展形式,即变阈值局部二值模式。变阈值局部二值模式通过引入变阈值扩展了变换后的特征空间,并且可以通过调整变阈值的值在特征空间基于改进LBP的人脸表情识别方法中寻找适合于特定分类问题的子空间。经过改进,变阈值局部二值模式对于噪声和光照变化相对于LBP更加鲁棒,而且特征抽取的过程也能够相对灵活。最后本文以变阈值局部二值模式直方图作为特征向量,采用2概率统计来计算各特征向量的距离,选用最近邻分类器进行特征分类,求出识别率。我们使用matlab语言将上述算法应用于人脸表情识别,取得了较好的识别效果。关键字:人脸表情识别,特征提取,LBP,变阈值局部二值模式 ABS
4、TRACT As an important part of the technology for man-machine interaction, more and more attention to facial expression recognitionIt is one of the most challenging problems in the fields of pattern recognition, machine vision, image processing and psychology, and it has become a hot research topic i
5、n the field of pattern recognition and artificial intelligence in recent yearsGenerally speaking,facial expression recognition included four parts:expression image acquisition, expression image preprocessing,facial feature extraction and expression classificationIn this thesis we focused on the prob
6、lem of facial feature extraction. My primary work was summarized as follow: This improved LBP is we called local thresholdLocal threshold extends the feature space through the introduction of parameter changeable threshold, and can find a suitable for a particular classification by adjusting the val
7、ue of changeable threshold in the feature spaceLocal threshold is more robust to LBP for noise and illumination changes,and feature extraction process can also be relatively flexibleFinally we use local threshold histogram as feature vectors,using 2 probability statistics to calculate the distance b
8、etween each feature vectors,choosing the nearest neighbor classifier for feature classification, and then calculate recognition rateThe above algorithm had been applied to facial expression recognition by using the matlab language,and after the simulation achieved a better recognition effectKeywords
9、:facial expression recognition, feature extraction, LBP, local threshold ,expression classification第一章 绪论第一节 课题研究背景及意义 上世纪90年代,Pentland提出了著名的特征脸方法。此后,基于统计的人脸识别方法就成了人脸识别的主流方法。人脸表情在人们的交流中起着非常重要的作用,是人们进行非语言交流的一种重要方式。表情含有丰富的人体行为信息,是情感的主载体,包含了丰富的情感信息,通过脸部表情能够表达人的微妙的情绪反应以及人类对应的心理状态,由此可见表情信息在人与人之间交流中的重要性。人
10、脸表情识别技术随着人们对表情信息的日益重视而受到关注,成为目前一个研究的热点。所谓人脸表情识别就是利用计算机对人脸的表情信息进行特征提取并分类的过程,它使计算机能获知人的表情信息,进而推断人的心理状态,从而实现人机之间的智能交互。表情识别技术是情感计算机研究的内容之一,是生物特征识别、人工心理理论、情感计算、生理学、心理学、计算机视觉等多学科交叉的一个极富挑战性的课题,它的研究对于自然和谐的人机交互、远程教育、安全驾驶等都有重要的意义,具体表现在以下几个方面:(1) 智能人机交互的实现:人脸面部表情的分析、编码、识别以及在此基础上的表情动作跟踪的研究,对实现自然的、智能化的人机交互和计算机自动
11、图像理解都有重要的意义。例如在人机界面中如果能够出现安慰与鼓励等方面的文字、图像与声音,用户会感觉更加亲切。不仅如此,如果使得计算机可以通过计算机视觉的方法分析出用户的面部表情信息,那么就可能使得计算机表现出更多人类所特有的本领。也许它会知道你喜欢什么歌曲,喜欢哪个影星表演的电影,知道你所处的情绪状态(正面情绪还是负面情绪),甚至可能做出一些人性化的举动,真正实现智能化。(2) 远程教育:有过远程教育经历的老师普遍觉得很难掌握学生对课程的掌握程度,如果在正常的授课中,老师可以通过实时的监控学生的表情来调节和控制课程的进度,那么将使教师更好的把握课程进度,大大地提高学习效率。(3) 安全领域:在
12、一些特定的工作中,表情的自动监视与分析也非常有用比如,对机动车司机、飞机驾驶员来说,一时的疲倦就有可能会产生严重的后果加入表情自动分析技术的系统就可以实时的监控其表情的变化,判断其精神状态,对可能出现的危险情况发出警告。在类似这种不能由他人监控,而工作者的精神状态不佳又会产生严重后果的工作中,表情自动分析系统都可以得到应用。(4) 电脑游戏:这可能是脸部表示识别和制作最有应用价值的一个领域。电脑游戏中的人物若能读懂游戏者的表情,如喜、怒、哀、乐来做出实时的反应,并与之亲切交流,那么这样的游戏肯定比那些传统规定好规则的游戏更加吸引人,会给游戏者以更加身临其境的感觉。(5) 压力检测:同自动驾驶中
13、的表情检测一样,表情检测与分析对一些工作压力较大的工人同样是必须的。如果从他们的表情中检测到痛苦或其它不适的表情,那么就需要马上对他们进行治疗,否则会出现危险。(6) 医疗领域:表情识别还可用于机器人手术操作和电子护士的护理。可以根据患者面部表情变化及时发现其身体状况的变化,避免悲剧发生。(7) 心理学:心理学家在研究人类交往活动中的信息表达时发现表情起到了重要的作用,假设开发出的家庭机器人能够自动识别分析人类的各种表情,将可以帮助判断人们的精神状态甚至心理健康状况,更好的与人合作,帮助我们协调人与人的关系等等。总之,人脸表情识别技术作为一种高端生物特征识别技术,有着极其广阔的应用前景,将会涉
14、及到人们日常生活的许多方面,对改善和提高人们的生活质量以及生活方式都有极其重要的作用和意义。国际上关于面部表情的分析与识别的研究工作可分为基于心理学和计算机两类。早在1872年,著名生物学家达尔文1就对人脸表情的相似性和延续性进行了研究,他指出:面部表情不随种族、国家、性别等的不同而不同,并且表情行为可以继承。1978年美国心理学家Ekman和Friesen2开发了面部动作编码系统FACS(Facial Action coding system)来检测面部表情的细微变化。它采用44个能够独立运动的表情活动单元(Active Unit,Au)描述面部动作,这些单元与使用面部表情改变的肌肉结构紧密
15、相连。在这个系统中,他将表情分为六个基本类别:愤怒、厌恶、恐惧、高兴、悲伤和惊奇以及33种不同的表情倾向,说明了具有这六种表情的人脸特征与无表情人脸特征相比具有相对独特的肌肉运动规律,后来进一步的研究大多是在FACS系统的基础上构建的人脸表情模型,所以说这一系统的提出具有里程碑的意义。计算机方面,Suwa和Sugie3等人于1978年对表情识别做了一个最初的尝试,他们跟踪一段脸部视频动画,得到每帧图片上20个关键点的运动规律,并将此运动规律与预先建立的不同表情的关键点运动模型相比较。同年,Terzopoulous和Waters4则运用了简化的Ekman-Friesen模型,用计算机产生人脸动画
16、,同时也做了人脸视频序列的表情分析。直到1981年才有人用仿生学方法从肌肉角度的观点为面部表情建立模型。到现在为止,人脸表情识别已经经过了40年的发展。尤其是近年来,随着计算机硬件性能的提高和人类对人机交互的热切盼望,它更成为一个热门的研究课题。美国、日本、英国、德国、荷兰、法国等经济发达国家和发展中国家如印度、新加坡都有专门的研究组进行这方面的研究。其中美国的麻省理工学院(MIT)的多媒体实验室的感知计算组、卡耐基梅隆大学(CMU)机器人研究所、马里兰大学的计算机视觉实验室、斯坦福大学、日本城蹊大学、东京大学、大阪大学、日本的国际电信技术研究所(ATR)的贡献尤为突出。到目前为止,人脸表情识
17、别的方法大概可以分为以下几类:(1) 基于几何特征提取的方法基于几何特征的表情识别是对人脸表情的显著特征,如眼睛、鼻子、眉毛、嘴等的形状和位置变化进行定位、测量,确定其大小、距离、形状及相互比例,进行表情识别。Bourel等人5定义了面部特征点之间的九个距离并通过它们构建了表情特征向量进行表情分析。Chibelushi等人6也采用了面部几何特征点并采用Kanade-Tucas-Tomasi7特征点跟踪算法实现特征点跟踪,然后通过计算得到九个特征系数,而这九个系数构成了特征流,描述了由于表情的发生而引起的面部特征点的几何关系的变化。Pantie等人8-9进行面部特征检测并确定面部几何关系。然后他
18、们通过规则推理系统将这种面部几何关系转化为面部动作单元的活动,最终通过专家系统实现表情识别。Lanitis10用脸部一系列的特征点组成可变形的模型,通过测量特征点的相互位置和形状来识别人脸表情。Pantic11等人利用定位与跟踪脸上特征部位的变化来取得脸部的几何变化信息,然后将这种信息投影到肌肉块的“运动单元”(Action Units,AU)空间中,最后通过二级结构识别出28个AU和6种基本表情。(2) 基于统计特征提取的方法与提取图像的几何特征相比,这种统计特征是基于图像的整体灰度特征,它强调尽可能多的保留原始面部表情图像的信息,通过对大量样本的训练,获得其统计特征。其基本思想是将面部表情
19、图像映射到特征空间,将大量图像数据降维后进行模式分类,因此提取统计特征实际就是“子空间分析法。如果将子空间的正交基按照图像阵列排列,则可以看出这些正交基呈现人脸的形状,因此这些正交基也被称作特征脸,这种识别方法也叫特征脸方法。关于正交基的选择有不同的考虑,采用主分量作正交基的方法称为主成分分析法(PCA),它曾经是人脸识别中最常用的方法12。1999年,Ginalueal13等在以前人脸识别算法的基础上,将PCA算法应用到表情识别上。他们使用整体PCA方法,即将PCA算法应用于整幅人脸图像,进行了实验,当取前30个主分量并使用欧氏距离时,达到了最好的79.3的识别率。2001年,Andrew
20、JCalder等利用PCA在面部表情识别方面做了详尽细致的工作,分别从识别理论和社会科学两个角度说明了主分量分析的可行性和有效性。PCA现己成功用于人脸识别和表情识别。但是由于PCA只考虑到图像数据当中的二阶统计信息,并未利用高阶统计信息,Bartlett于1998年提出了基于独立分量分析ICA的算法。ICA方法是基于信号的高阶统计特性的分析方法,经过分解出的各个信号分量是相互独立的。其基本思想是:用一些基函数来表示一系列随机变量,而假设它的各个成分之间是统计独立的或者尽可能独立。CHavran等也是采用了类似方法,对经过PCA特征提取的图像进行独立分量分析,试验表明这种表情提取方法比单独用主
21、分量分析的表情提取方法更有效,对主分量的特征空间维数的选择具有更低的敏感度。(3) 基于奇异值分解的方法奇异值特征是一种反映图像本质属性的代数特征。在某种程度上,奇异值具有代数和几何上的双重稳定性,还具有比例不变性、旋转不变性等重要性质,因此将人脸特征矩阵进行奇异值分解可以很好的取出图像的代数特征,然后进行匹配识别。奇异值分解方法是在奇异值分解的基础上,产生多种人脸识别方法。例如基于图像集似然度的人脸识别,首先用图像集中每个图像的奇异值向量构造出一个新的矩阵-图像集特征矩阵,据算待检测人脸集的特征矩阵与已知的各类人脸集的特征矩阵的似然度,最终判断带检测人脸属于哪一类。(4) 基于支持向量机的方
22、法支持向量机(SVM,Support Vector Machines)是由V.Vapnik与其领导的贝尔实验室的小组一起开发出来的一种新的机器学习技术。SVM的理论基础来自于Vapnik等提出的统计学习理论,它的基本思想是,首先通过非线性变换将输入空间变换到一个高维空间,然后在这个新空间中求取最优线性分类面,而这种非线性变换时通过定义适当的内积函数实现的。与传统统计学相比,统计学理论(Statistical Learning Theory 或SLT)是一种专门研究小样本情况下机器学习规律的理论。该理论针对小样本统计问题简历了一套新的理论体系,在这种体系下推理规则不仅考虑了对渐进性能的要求,而且
23、追求在现有有限信息的条件下取得最优结果。支持向量机用于分类,构造的复杂程度取决于支持向量的数目,而不是特征空间的维数,这就有效解决了机器学习中非线性与维数灾难问题。(5)基于频率域特征提取的方法。近来,有不少人对Gabor小波进行了深入研究并用于面部表情识别,取得了优异的识别结果。Gabor小波是一组窄带带通滤波器,在空间域和频率域均有较好的分辨能力,有明显的方向选择和频率选择特性。Hong等人在加权线框图中的每个节点上计算多尺度多方向的Gabor变换系数构成特征向量并应用弹性匹配的方法实现线框图与实际人脸数据的匹配,最终通过比较两幅图像上的线框图的相似性实现表情分析。Zhang等人通过对图像
24、中基准点的位置以及从基准点的位置上抽取的Gabor系数并应用多层感知器进行分类,从而实现了表情分析。Lyons等人14对图像进行二维Gabor变换,对变换后的幅度图像作自动或者是人工人脸网格标定,再对标定区域的图像形成矢量,利用线性判别分析(LDA)的方法来进行最后的性别、种族、表情识别,当UII训练图像增加到27幅时,3个方面的识别率达到90。(6) 基于运动和形变特征提取的方法基于运动和形变的特征抽取方法关注由面部表情引起的面部变化。它们通过参考中性脸分析各个面部特征区域内的形变或运动信息并以此构建特征向量进行表情识别。早期面部表情识别的研究,Mase15使用了光流来估计面部肌肉的一个子集
25、的活动。Essa和Pemland16扩展了这种方法,使用光流来估计面部解剖学和物理学模型中的面部运动。Cohn等开发了一个基于特征点跟踪的面部运动分类系统。该系统手动选取36个特征点,通过光流分析这些特征点的位移再使用判别函数进行分类。Tian等人提出了一种不同的元素模型,其中嘴唇、眼睛、眉毛和颧骨被用作特征点跟踪,以根据隐藏的面部特征的变形而获得模型的轮廓。Yacoob和Davis17使用光流跟踪眉毛、眼睛、嘴巴等区域的运动。Horn和SChunck最早提出来基于梯度的光流场计算法,Otsuka和Ohya在眼部和嘴巴两个区域分别提取运动向量,再分别对竖直和水平方向的光流进行二维傅立叶变换得到
26、特向量。Black等人使用多项式构建局部参数模型并通过参数模型对图像运动信息进行刻画从而实现了面部非刚体运动的估计。在估计出参数后,他们通过规则判断实现表情分类。Rosenblum等人则借助特征点,采用矩形进行脸部感兴趣区域的跟踪。Essa等人将光流技术与基于几何、生理、运动的动态模型结合起来实现面部特征的描述。Yoneyama等人利用Horn和SChunck提出的基于梯度的光流场提取人脸归一化图像中80个20x20大小的图像块的光流特征,并使用Hopfield神经网络对这些特征向量进行分类并最终实现了面部表情分类。Cohen等人采用Tao等人提出的非刚体模型进行运动矢量的抽取并以此构成用于表
27、情分析的特征向量,并且通过HMM和学习Bayesian网进行表情识别。 (7) 基于模型的方法基于模型的方法以图像中人脸对象的形状和纹理结构为基础建立二维或三维模型,以此模型的参数化变形来适配人脸图像中的人脸部分,这些模型的参数就是所提取的特征。可以说基于模型的方法是对基于图像的方法的一种扩展和改进的结果。Huang等采用PDM和嘴巴模板来提取人脸的表情特征,PDM是利用六种表情训练图像中手工提取的90个特征点得到的。AAM也是一种基于模型的方法,它建立了一种对目标对象变化程度的参数化描述。EdwardS提出的活动外观模板AAM,在图像中手动标定122个点用来描述人脸特征信息。LantiS等人
28、使用了活动外观模型方法提取人脸图像特征,活动外观模型通过对人脸对象的形状和纹理进行PCA分析,从而用较少的参数来表达人脸对象的形状与纹理特征。Terzopoulos17等人设计了一个复杂的基于生理学的面部模型。他们通过对视频中的人脸信息进行分析得到模型的形变估计并最终实现面部形态的合成与仿真。Choi18等人通过对输入图像进行分析得到了头部运动参数以及面部表情参数的估计;然后他们以迭代的方式对这两类参数进行进一步的调整。最终通过模型与这两类参数的结合实现面部形态的合成。HaiBo19等人建立了一个融入面部形状与面部表情先验信息的运动模型。他们在这个模型中通过反馈机制实现了计算机图形学技术与计算
29、机视觉技术的结合。在这种机制里可以将图形学中的合成技术嵌入到面部分析阶段并最终实现了较好的表情分析。Black和Yacoob,及Yacoob和Davis提出了面部的局部参数运动模型。该模型能在局部的空间和时间区域上精确的描述非刚性的面部运动,采用少量的参数描述了嘴巴、鼻子、眼皮、眉毛等器官与边缘相关的运动。但他们的方法只能对非暂时性的特征进行描述,忽视了其它的暂时性表情特征。国内在人脸表情识别方面的研究起步较晚,但发展很快。目前,从事这方面研究的主要有清华大学、中国科学技术大学、浙江大学、上海交通大学、哈尔滨工业大学、中科院自动化所、中科院计算所、联合实验室、南京理工大学、北方交通大学等多所著
30、名大学和研究机构都有人员从事人脸表情识别的研究。最早进行计算机表情分析、编码与识别研究的是哈尔滨工业大学高文教授领导的团队。高文和金辉20等通过对若干类面部表情图像的分析,建立了基于部件分解组合的人脸图像模型,在他们的另一篇文献中,在对动态表情图像序列的时序分析的基础上,提出了对混合表情的识别系统。中国科技技术大学的尹星云21用隐马尔科夫模型(HMM)的基本理论和方法设计了人脸表情识别系统。哈尔滨工业大学的赵力庄、高文22等将Eigenfaee多子空间分类方法用于面部表情识别;天津大学的左坤隆、刘文耀等利用活动外观模板(AAM)提取的人脸表情特征来进行人脸表情识别;东南大学的姜璐、章品正等利用
31、矩分析的方法进行面部表情的识别,将Zemike矩和小波矩运用于面部表情识别问题;北京科技大学的刘芳、王志良等将黑斑特征算法应用于面部表情的识别,该算法对于一幅输入的人脸图像,依次进行灰度化、二值化、滤波、特征提取等处理后,通过采用基于黑斑特征的算法进行表情的自动识别。东南大学的何良华、邹采荣提出了一种基于DWT-DCT的面部表情识别算法。清华大学的王玉波等使用了Adaboost进行实时的表情识别。人脸表情识别是一个具有挑战性的课题,现在还处于研究阶段,各种算法还在摸索,还不十分成熟。面部表情识别的主要难点是:(1) 对各种表情的体验。表情的表现有缓和的和激动的、细微的和强烈的、轻松的和紧张的等
32、诸多形式,它的生理因素也是细微多变,所以非常复杂,现在的识别方法对比较夸张和明显的表情能够有较好的识别率,但是对变化不太明显的表情识别率是较低的。(2) 受不同年龄、种族、性别、头发、饰物等的影响较大。(3) 光照和人脸姿态对识别结果影响较大。(4) 难以建立一个理想的人脸表情模型,因为人脸是一个柔性体,而非刚体,很难用模型来准确描述。第二节 本论文的主要工作人脸表情识别主要有四个基本部分组成:表情图像获取、表情图像预处理、表情特征提取和表情分类。本文的主要工作集中于人脸表情特征的提取,即基于改进的局部二值模式(LBP,Local Binary Pettern)的面部表情特征提取。LBP算法一
33、般定义为33的窗口,以窗口中心点的灰度值为阈值对窗口内其它像素作二值化处理,然后根据像素不同位置进行加权求和得到该窗口的LBP值。该方法来源于纹理分析领域,刻画了局部图像纹理的空间结构,具有对纹理图像光照变化不敏感的特点,且计算简单易于实现。LBP方法的局限之处在于对所有问题都采用了单一的变换映射,没有考虑待分类样本的分布特征以及分类目标的差异性。本章提出了一种LBP的扩展形式,即变阈值局部二值式。变阈值局部二值式通过引入参数变阈值扩展了变换后的特征空间,并且可以通过调整变阈值的值在特征空间中寻找适合于特定分类问题的子空间。经过改进,变阈值局部二值式对于噪声和光照变化相对于局部二值式更加鲁棒,
34、而且特征抽取的过程也能够相对灵活。最后本文以变阈值局部二值式直方图作为特征向量,采用2概率统计来计算各特征向量的距离,选用最近邻分类器进行特征分类,求出识别率。本文剩余章节安排如下:第二章介绍了局部二值式基本理论知识;第三章介绍了改进的局部二值式,阐述改进的局部二值式的基本理论;第四章为基于变阈值局部二值式的人脸表情识别的实现及实验设计和结果分析。第二章 人脸图像分析技术常用方法第一节 人脸检测常用方法 人脸检测就是要在大量图片中判断是否存在人脸图像,或者对一张照片进行扫描检测人脸的具体位置与大小。人脸检测根据人脸图像类型、背景以及图像前景的不同,检测所用到的技术也各不相同,图2.1对涉及到的
35、人脸检测类别做了分类汇总。 图2.1 人脸检测的分类 由图2.1我们知道根据图像色彩的不同,分为对彩色图像的人脸检测与对灰度图像的人脸检测,其中对灰度图像的研究是人脸检测研究的重点。本文是对灰度人脸图像进行研究识别的,因此重点介绍针对灰度图像人脸检测的常用方法。对灰度人脸图像进行检测的方法又可分为两个方向,基于知识模型的方法和基于统计模型的方法,下面对这些方法做一些简单介绍。一、基于特征的方法基于特征方法主要是寻找能够有效表示人脸的不变特征来用于人脸检测,人脸特征不仅能反映隐含在人脸内部的信息,也能表达出人脸的机构关系。此类方法最大的特点就是不首先确定人脸是否存在,而是先检测人脸的面部特征,根
36、据提取的人脸面部特征,简历统计模型进行人脸检测。人脸面部特征比较明显,例如眉毛、眼睛、嘴巴和鼻子等。近年来,提出不少对人脸特征有效抽取的方法,有主分量分析方法(PCA)、线性判别分析(LDA)、流形方法(I SOMAP,LLE)等,其中主分量分析是一种常用方法,此方法是由Turk等提出来的,能抽取有效的特征来进行人脸检测。首先将将人脸图像进行正交变换,把人脸图像降维到特征子空间,以消除原特征数据间的相关性,得到较小的特征数据集,用同样的过程对非人脸训练数据进行操作,然后将待检测的人脸也投影到次特征子空间,通过跟人脸与非人脸训练特征数据进行举例比较,最终检查出人脸,此方法被称为Distance
37、from Face Space(DFFS)方法,DFFS方法对检查人脸正面图像有横好的效果,其缺点是计算量比较大。二、基于支持向量机的方法从人脸与非人脸图像中提取的特征数据维数较高,将提取的特征数据也即建立的人脸模式投影到较低的维数空间,然后在人脸与非人脸数据中寻求最优判别函数,是解决人脸检测的一种典型方法。而今年来提出来的支持向量机是将人脸模式投影到比较高的维数特征空间。支持向量机最早是由Vapink依据统计学习理论提出来的基于结构风险最小化的一种学习机,目的是用来结局分类问题。Osuna等人后来讲支持向量机方法用在了人脸检测领域,首先训练SVM分类器,用有限的人脸与非人脸数据样本来进行训练
38、,讲数据投影到较高的维数空间,寻找最优判断分类面,最终得到SVM分类器,用在人脸检测中。此方法是一种能有效的处理大量样本问题,速度较高,去的了较好的效果。第二节 人脸识别常用方法 人脸识别是在人脸检测基础上的进一步的身份识别,根据图像的不同可以分为对静止图像人脸识别和对视频流中的人脸识别。人脸检测的主要目的是要检测确定出人脸的具体位置与大小,而人脸识别就要根据检测出的人脸图像确定人的身份,具体是哪个人,以此获得相关信息,包括人的姓名、年龄、职业、性别以及工作等具体详细的信息。人脸识别可以分为下列几种方法。一、基于特征脸的识别方法特征脸方法以主成分分析(PCA)方法为代表,属于基于统计学习方法中
39、的一种方法,也是现在人脸识别中的一种典型方法。特征脸方法或者特征子脸方法都是选取合适的人脸空间基,将人脸图像投影到人脸空间中,目的是对人脸图像数据降维并描述不同人脸之间的变化,然后进行判别分析,最终识别出人脸图像。最早是由Pearson提出来的,后来由Hotelling实现了此方法,并给出了具体的计算过程。随后由Sirovich等人将PCA方法用在了人脸图像分析区领域,并进行人脸识别。主成分分析方法原理比较简单且容易实现,将高维人脸数据较少,提高了计算复杂度,但是这种方法容易受到光照等的影响,没有考虑到人脸的个性差异,所以从理论来说这种方法具有一定的缺陷性,但是这种方法近年来也被广泛应用在模式
40、识别领域。二、弹性图匹配方法弹性匹配方法是由Lades等人提出来的一种人脸识别方法,实质上是一种模板匹配方法,弹性图匹配方法将动态链接结构用到了人脸识别中,此方法能够克服光照的影响,同时对人脸图像识别效果影响比较大的位移、旋转和人脸尺度变化都不敏感,这点比起其它算法占据优势,但是,这种方法计算量较大,运算识别速度较其他算法比较慢。弹性图匹配方法将人脸图像用网状的稀疏图来表示,其中稀疏图的变表示人脸中的眼睛、鼻子和嘴巴这些器官的拓扑结构,而图的顶点用一个特征向量来表示,这个特征向量是用图像位置的Gabor小波变换分解得到的,记录了人脸在此特征向量附近的特征信息。将待检测人脸图像的弹性匹配图与人脸
41、库中的人脸模板图进行匹配,找出最相似的模板图,然后在对具体的图顶点进行匹配,这种匹配会产生一个变形图,这也是为什么称此方法为“弹性图”的原因。三、基于非线性数据降维的方法典型的数据非线性降维方法又多维尺度分析(MDS),以及建立在MDS上的等距离映射算法(I SOMAP)和局部线性嵌入算法(LLE)等。将I SOMAP应用在人脸识别领域的好处是这种非线性降维方法能够更好的提取数据的本质结构,尤其是眼睛模型的特征。其具体过程可以用图2.2来表示。 图2.2 I SOMAPA降维方法实现人脸识别的流程第三节 本章小结 本章简单介绍了用在人脸检测以及人脸识别中的常用方法和一些经典方法。这些方法在本章
42、中知识做了简单的介绍,后面章节中,将具体介绍一种人脸检测和人脸识别的方法。第三章 局部二值模式(LBP)第一节 关于LBP的介绍LBP(即Local Binary Pattern,局部二进制模式的缩写)方法,最初是作为一种纹理算子来分析图像纹理特征,由Ojala23等人提出的。LBP算子是一种灰度范围内的纹理度量,是从一种纹理局部近邻定义中衍生出来,它利用结构法思想分析固定窗口特征,再利用统计法作整体的特征提取。LBP算法一般定义为33的窗口,以窗口中心点的灰度值为阈值对窗口内其它像素作二值化处理,然后根据像素不同位置进行加权求和得到该窗口的LBP值。LBP算子刚提出来的时候,基本的概念就是图
43、像纹理中某个指定的中心像素点(g)及其周围紧邻的8个像素点(g-g)所组成的局部区域,如图3.1所示。 图3.1 标准的LBP算子基本方法里所用的是经过处理后所得到的灰度图像,每一个像素点的灰度值是0255中的一个值。当指定了某一个像素点作为中心像素点(g)之后(此时暂不考虑图像边界上的像素点),其周围的8个像素点(g-g)的灰度值即可随之确定下来。我们以中心像素点(g)的灰度值作为阈值(thresholded value),将gc周边相邻的8个像素点的灰度值与阈值进行比较,如果某相邻像素点的灰度值大于或等于该阈值,则令该像素点的赋值为1;如果相邻像素点的灰度值小于该阈值,则令该像素点的赋值为
44、0。这样,在顺次将周围像素点的灰度值与阈值进行比较之后,就可以得到一个局部二进制的模式(Local Binary Pattern)。接下来,从左上角的第一个像素点(g)开始,2n将权值(n=0,17)按照顺时针次序依次赋予周围各个像素点,并与该像素点经过阈值化之后所赋的二进制值相乘。最后,当每一个像素点都依次进行了上述运算之后,将所有8个像素点运算所得的结果相加,即为该中心像素点(gc)的LBP值。现举例说明LBP算子基本方法的计算方式。如图3.2所示,样本的中心像素的灰度值为6,以之作为阈值,同其周边8个像素点的灰度值依次进行比较,此过程称为阈值化(thresholding)。在进行了阈值化
45、之后,我们可以得到一个局部二进制的模式11110001;与此同时,将权值2 “(n=0,l7)从g0点开始按照顺时针顺序依次赋予周边的8个像素点,这些点的赋值依次是g=l,g=2,g=4,g=8,g=16,g=32,g=64,g=128。此后,把各像素点阈值化之后所得的二进制值和所赋权值一一对应相乘11,02,04,08,l16,132,l64,l128;最后将所得结果相加一1+16+32+64+128=241,即为中心像素点(gc)的LBP值。示例灰度值 阈化值 权重值 Pattern=11110001 LBP=1+16+32+64+128=241 图3.2 LBP算子基本方法的简单示例通过
46、以上的例子可以看出,LBP算子的基本方法在理论上是十分易于理解的,并且由于参与运算的值都是权值2 “(n=0,l,n),因而此方法在计算上也十分简便。2002年,0jala等人对LBP的定义进行了拓展。首先设单色调图像局部邻域纹理特征为T,用来指代灰度级为P(P0)的图像中所有像素的灰度联合分布,如式3.1所示:T=t(gc,g, gp-1 ) (3.1)式中,gc是局部邻域的中心像素点的灰度值,gp(p=0,P-1)是在半径为R(R0)的圆形对称区域内P个相等空间像素灰度值。如果gc的坐标是(0,0),那么gp的坐标是(-Rsin(2pP),Rcos(2pP),当邻域值不能精确的落到像素的中
47、心时,采用双线性二插值的方法进行估计。此时就构成了一个拓展的LBP算子所处理的局部区域,示例如图3.3所示(注:P代表像素点的个数;R代表以像素为单位的圆周半径)。图3.3 几种不同P,R值对应的圆形邻域由于随着距离的增大,像素之间的相关性逐渐减小,因此,在较小的邻域中即可获得绝大部分纹理信息。在不丢失信息的前提下,我们可以用圆周上像素点的灰度值gp减去中心像素点的灰度值gc,这样局部的纹理T就可以看做是中心像素点灰度值和圆周上的像素点灰度值的联合分布,其分布如式3.2所示:T=t(gc,g0-gc,gp-1-gc) (3.2)假定中心像素点gc的灰度值与纹理的变化无关,gc与周边像素点的差值独立于中心像素点的值,则以上分布可以进一步化为式3.3所示的形式:Tt(gc)t(g0-gc,gp-1-gc) (3.3)事实上,这种独立性并不总是成立,由于数字图像中的灰度取值范围有限,那些较大的或者较小的gc值分布会明显降低差值的