1、 人脸识别研究的背景意义现状及特征提取方法研究1研究背景与意义12国内外研究现状22.1 人脸识别的研究现状22.2 人脸识别中稀疏编码的研究现状33人脸的特征提取方法概述53.1 基于局部特征的方法53.2 基于整体特征的方法5基于特征脸方法6基于弹性匹配的方法6基于神经网络的方法6基于不变性的方法6基于Fisher线性判别方法71研究背景与意义人脸识别技术具有广泛的应用前景,在国家安全、军事安全和公共安全领域,智能门禁、智能视频监控、公安布控、海关身份验证、司机驾照验证等都是典型的应用;在民事和经济领域,各类银行卡、金融卡、信用卡、储蓄卡的持卡人的身份验证,社会保险人的身份验证等具有重要的
2、应用价值;在家庭娱乐等领域,人脸识别也具有一些有趣有益的应用,比如能够识别主人身份的智能玩具、家政机器人,具有真实面像的虚拟游戏玩家等等。近年来许多神经生理学家在视觉系统上已展开了全面深入的研究,并且取得了一些有重要意义的研究成果。这就使得在工程上利用计算机来模拟视觉系统成为可能。基于这一认识,利用已有的生物学科研成果,联系信号处理、计算理论以及信息论知识,通过对视觉系统进行计算机建模,使计算机能在一定程度上模拟人的视觉系统,以解决人工智能在图像处理领域中碰到的难题。神经稀疏编码算法正是这样一种建模视觉系统的人工神经网络方法。这种算法编码方式的实现仅依靠自然环境的统计特性,并不依赖于输入数据的
3、性质,因而是一种自适应的图像统计方法。传统的人脸识别系统中,不管是基于整体的或者局部特征的人脸识别方法,都需要建立很好的模型来提取特征,而稀疏编码理论对特征的选取方面要求相对较低,所以结合特征提取方法再对稀疏编码算法进行深入研究,并应用到人脸识别中,扩展了人脸识别的方法理论,将会对该领域的研究起到一定的促进作用,因此具有很重要的学术意义。目前,稀疏编码SC方法在盲源信号分离、语音信号处理、自然图像特征提取、自然图像去噪以及模式识别等方面已经取得许多研究成果,具有重要的实用价值,是当前学术界的一个研究热点。进一步研究稀疏编码技术,不仅会积极地促进图像信号处理、神经网络等技术的研究,而且也将会对相
4、关领域新技术的发展起到一定的促进作用。2国内外研究现状2.1 人脸识别的研究现状人脸识别的研究历史比较悠久,Galton早在1888年和1910年就分别在Nature杂志发表了两篇关于利用人脸进行身份识别的文章,对人类自身的人脸识别能力进行了分析,但当时还不可能涉及到人脸的自动识别问题。最早的关于人脸识别问题的研究论文见于1964年Bertillon在Panoramic Research Inc.发表的技术报告,和1965年Chan在Panoramic Research Inc.发表的技术报告,到现在已有四十余年的历史。近年来,人脸识别研究得到了诸多研究人员的青睐,涌现出了诸多技术方法。尤其是
5、1990年以来,人脸识别更得到了长足的发展,每年都有大量的学术论文发表。现在,几乎所有知名的理工科大学和IT产业的主要公司都有研究组在从事人脸识别的研究。人脸识别的研究大致可分为四个阶段。第一个阶段以Bertillon,Allen和Parke为代表,主要研究人脸识别所需要的面部特征。该阶段是人脸识别研究的初级阶段,非常重要的成果不是很多,也基本没有获得实际应用。第二个阶段是人机交互识别阶段。该阶段代表性工作是Goldstion,Harmon和Lesk等用几何特征参数来表示人脸正面图像。他们用21维特征矢量表示人脸面部特征,并设计了基于这一特征表示的识别系统。在这个阶段,Kanade博士于197
6、3年在京都大学完成了第一篇人脸识别方面的博士论文。该阶段的方法仍摆脱不了操作员的干涉。第三个阶段是真正的机器自动识别阶段。这一阶段时间相对短暂,但却是人脸识别研究的高潮期,不但诞生了主成分分析、线性判别分析、弹性图匹配、局部特征分析、独立分量分析、支持向量机、神经网络、隐马尔可夫模型、柔性模型 (FlexibleModels)(包括主动形状模型(ASMs)和主动表观模型(AAMs)等若干代表性的人脸识别算法,美国军方还组织了著名的FERET人脸识别算法测试,并出现了若干商业化运作的人脸识别系统,最为著名的是Visionics(现为Idenfx)的Facelt系统。这一阶段的人脸识别技术发展非常
7、迅速,所提出的算法在较理想图像采集条件、用户配合、中小规模正面人脸数据库上达到了非常好的性能。从技术方案上看,2D人脸图像线性子空间判别分析、统计表观模型、统计模式识别方法是这一阶段的主流技术。第四个阶段是鲁棒的人脸识别技术的研究阶段。近几年来,研究人员针对影响人脸识别的一些主要因素,例如光照、姿态、表情、年龄、遮挡、低分辨率等变化因素,提出了很多解决方法。如对于光照变化的处理方法主要有熵图像法、光照锥法、球谐波函数法、九点光源法等。对于姿态变化的处理方法主要有多视角法、局部到整体几何特征变换匹配法、通用3D模型法、3D形变模型法、光流场法7等。总体而言,目前非理想成像条件下(尤其是光照和姿态
8、)、用户不配合、大规模人脸数据库上的人脸识别问题逐渐成为研究的热点。解决这类问题的方法的特点是通过描述和补偿变化因素,从而提高算法的性能。非线性建模方法、基于Boosting的学习技术、基于3D模型的人脸建模与识别方法等逐渐成为备受重视的技术发展趋势。目前,国外对人脸识别问题的研究很多,比较著名的有CMU( 卡耐基 梅隆大学)、MIT( 麻省理工学院)、YALE( 耶鲁大学) 等机构;国内的清华大学、中国科学院自动化研究所、上海交通大学、南京理工大学、哈尔滨工业大学等单位都有人员从事人脸识别相关工作的研究。关于人脸识别研究的重要国际会议有IEEE 的FG(IEEE International
9、Conference Automatic Face and Gesture Recognition)、ICIP(International Conference on Image Processing)、CVPR(Conference on Computer Vision and Pattern Recognition ) 等。2.2 人脸识别中稀疏编码的研究现状 假设条件稀疏编码模型能够表示初级视觉皮层简单细胞编码外界视觉刺激图像的过程和特征,这种动态映射和表达层细胞的发放特性导致了细胞发放的稀疏分布。由于哺乳动物的视觉生理过程是很复杂的,在用稀疏编码模型模拟初级视觉系统神经元的感受野特性时
10、,通常需要设置以下的假设:1) 输入数据具有稀疏性(或超高斯性)结构;2) 各个稀疏系数之间是统计独立的;3) 稀疏变换是一种线性变换;4) 基函数非奇异,即特征矩阵的行列式;5) 有噪声时,稀疏分量和噪声信号是相互独立的。 稀疏编码模型基于上述假设的稀疏编码模型的研究主要内容有:1) Olshausen等人把超完备基(基函数A的维数大于输出神经元的个数)引入到稀疏编码模型中,利用概率密度估计模型建模V1区感受野,并应用于时变的(time-varying)自然图像数据;此模型比静止自然图像的稀疏编码模型计算复杂,训练时间也较长;2) Tenenbaum等人提出了双线性稀疏编码模型,对稀疏系数和
11、基函数进行两次稀疏变换,能够更好地体现自然图像的内容和类型,但训练速度较慢;3) Olshausen和Simocelli从小波变换的角度对自然数据进行神经表示和有效编码,这是一种完备基(基函数A的维数等于输出神经元的个数)的稀疏编码模型,此模型对图像数据的类型具有依赖性;4) Oja 和Hyvrinen等人围绕ICA模型和不变特征子空间展开深入研究,由于ICA方法要求的假设条件太强,其应用范围受到限制;5) Hoyer在Olshausen和Field提出的标准稀疏编码模型的基础上,提出一种非负稀疏编码(NNSC)模型。NNSC模型考虑了人眼以不同的通道(ON-channel和OFF-chann
12、el)接收非负数据,符合人眼的生理特性和主视皮层V1区简单细胞神经元的电生理特性,但由于模型过于简化,易受噪声的干扰;6) Donoho等人提出的经过L1范数最小化的通用字典的最佳稀疏表示方法。该方法的困难在于如何选择恰当的“字典”,以获得最大的稀疏性;7) 我国的杨谦9等利用二维Gabor小波函数建立的一个基于超定完备基的简单细胞群稀疏编码的计算模型,并实现了自然图像的编码;8) 我国的孙玉宝等提出的基于Gabor感知多成份字典的图像稀疏表示算法,根据图像的几何结构特征建立匹配各层面图像结构的Gabor感知多成分字典,该字典具有对图像中平滑、边缘与纹理结构的自适应性。 稀疏编码存在的问题目前
13、,由于人们对主视皮层V1区如何对复杂的自然环境进行有效编码的过程仍然知之甚少,所以上述的稀疏编码模型只是一种启发式的学习方法。主要存在的问题10是:1) 理论依据不完善。主视皮层V1区的稀疏编码的研究首先必须借助感知神经科学的研究成果,必须结合计算技术、统计学理论、估计理论、人工神经网络等基础理论。这些理论的发展和完善有助于稀疏编码理论的发展;2) 神经元估计模型不精确。稀疏编码算法必须依靠一个好的神经元的计算模型,这个计算模型必须建立在神经生理科学研究的成果上。目前科学家们对V1区神经细胞复杂的响应特性的研究仍处于探索阶段,故对V1区的神经元建模问题仍处于不断发展和完善的状态。3人脸的特征提
14、取方法概述人脸特征主要可分为几何特征和代数特征两大类:几何特征也称为直观特征,它是以人脸器官的形状和几何关系为基础的特征矢量,其分量通常包括人脸指定两点间的欧氏距离、曲率、角度等;代数特征即人脸图像在本征空间形成的降维投影。人脸的几何特征比较稳定,受人脸的姿态变化与光照条件等因素的影响小,但是不容易抽取,而且测量精度也较差;人脸的代数特征容易得到,但是稳定性较差,容易受到外界因素的影响。目前国内外研究人脸识别的方法层出不穷,人脸特征提取的方法可分为基于局部特征的识别和基于整体特征的识别。下面对这些方法进行分别介绍。3.1 基于局部特征的方法基于局部特征的方法是从脸部器官的形状及其相互位置关系为
15、出发点,提取与识别人脸特征。尽管各个人的脸部器官在形状、大小上存在一定的差异,但其相互位置关系及特征点形状等特性方面均有一定的规律,这为人脸特征提取与识别提供了可能。局部模板匹配是一种较为常用的方法。文献11采用可变形模板技术建立眼睛模型,根据能量函数调整模板参数达到最佳匹配,以实现人脸识别目标。受人脸侧面轮廓的启发,使用一种简单而有效的灰度投影方法进行人脸特征提取与识别,并运用于三维人脸识别。由于灰度投影法的特性,可将其与模板匹配方法结合,提高识别的效果。3.2 基于整体特征的方法基于整体特征的方法从整体上对人脸进行特征提取,进而识别人脸。单个器官的某些变化不会对整个人脸识别造成多大影响。此
16、类方法较多,它是目前人脸识别领域的一种主流方法。基于特征脸方法特征脸方法是从主分量分析法导出的一种人脸识别方法。K-L变换是种常用的正交变换,将其用于人脸识别取得了较好的效果。它根据一组人脸图像构造主分量子空间,由于主元具有人脸的形状,也称特征脸。将测试图像投影到主分量子空间上,得到了一组投影系数,与各个已知的人脸图像进行比较识别,取得了较好的识别效果。特征脸方法原理简单、易于实现,实质上是一种统计性的模板匹配方法。特征脸方法把人脸作为一个整体来处理,大大降低了识别复杂度。但是,由于忽视了人脸的个性差异,该方法有一定的理论缺陷。研究表明,随着光照条件、人脸角度及人脸相对尺寸的变化,识别率将急剧
17、下降。实验证明,特征脸方法的识别率随训练图像数目的增大而增大,当然,计算复杂程度也相应增加了。基于弹性匹配的方法该方法采用网格作为模板,将图像间的比较变为网格间的比较。使用一种基于动态链接结构的弹性匹配法来定位人脸,并根据人脸数据库进行匹配识别。将物体用稀疏图形描述,其顶点用局部能量谱的多尺度描述来标记,边则表示拓扑连接关系,并用几何距离标记,再应用弹性图形匹配技术来寻找最近的已知图形。弹性匹配方法整体识别性能优于特征脸方法,但计算量大、识别速度慢。基于神经网络的方法人工神经网络目前正越来越被频繁地应用于人脸识别,大部分的人脸识别神经网络都采用多层感知器和BP(Back propagation
18、)学习算法。实验表明该法具有较强的适应能力和鲁棒性,可以有效地运用与多人脸、不同尺寸、不同姿态、不同肤色、不同光照条件和复杂背景的情况,是一种有效的人脸识别方法。而且通过适当增加训练样本的数量和类型,可以进一步提高识别性能。由于神经网络方法具有良好的学习特性,且不受模式形变的影响,所以使用神经网络的方法识别效果较好,其发展趋势是使用混合神经网络或神经网络群来达到更好的识别效果。基于不变性的方法利用人脸的某种稳定的不变性特征也可进行人脸识别。奇异值具有稳定性、不变性(旋转、平移、转置不变性),可用于描述人脸。因此将人脸图像看作一个数值矩阵,用奇异值分解提取奇异值,构成奇异值向量用于人脸识别14。用于图像识别的不变矩理论也常用于人脸的识别,同类人脸图像产生的不变矩特征相差不大,不同类人脸图像产生的不变矩特征相差较大。实际表明,不变矩适用于人脸识别效果较好。基于Fisher线性判别方法基于线性判别分析的Fisher线性判别方法是解决小样本问题的一种方法,其实质是将人脸图像表示成一个列向量,通过LDA变换提取其特征向量。一般先对人脸图像运用PCA方法进行变换降维,再使用LDA方法,以避免LDA方法对高维人脸图像空间计算的不稳定性。