资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,深度学习人脸识别,PCA,是将分散在一组变量上的信息集中到某几个综合指标(主成分)上的数学方法,实际上起着数据降维的作用,并保证降维过程最大化保留原数据的差异。,这对最大化类间差异(即不同人之间的差异)并最小化类内差异(即同一人的不同图像间的差异)很有效,用,PCA,将,2,维数据降到,1,维的例子,绿色点表示二维数据,,PCA,的目标就是找到这样一条直线,使得所有点在这条直线上的投影点之间的平均距离最大。也就是最大化地保留了原数据的差异性。,本征脸,(,eigenface,),方法,是人脸识别的基准技术,并已成为事实上的工业标准,,该方法基于主成分分析(,PCA,),深度学习人脸识别,本征脸方法,如果将本征向量恢复成图像,这些图像很像人脸,因此称为“本征脸”。,M.Turk&A.Pentland,JCN91,本征脸法,认为图像的,全局,结构信息对于识别最重要,,将图像看做矩阵,计算本征值和对应的本征向量作为代数特征进行识别,具有无需提取眼,、,嘴,、,鼻等几何特征的优点,但在,单样本时识别率不高,且在人脸模式数较大时计算量大,。,深度学习人脸识别,本征特征(,eigenfeature,)方法,利用,PCA,分析眼、鼻、嘴等,局部,特征,即本征特征方法,R.Brunelli&T.Poggio,TPAMI93,A.Pentland,et al.,CVPR94,这实际上相当于:为若干重要的特征建立本征空间,然后将多个本征空间集成起来,深度学习人脸识别,本征脸,vs,本征特征,本征脸利用全局特征,本征特征利用局部特征,二者各有优势,待识别图像,本征脸识别结果,本征特征识别结果,A.Pentland,et al.,CVPR94,深度学习人脸识别,本征脸,vs,本征特征,(2),(1),(3),(4),难题,能否自动确定:,该用哪些特征?,(眼睛?鼻子?嘴?,),特征的确切位置在哪儿?,(从哪儿到哪儿算眼睛?,),将二者结合,可以得到更好的识别效果,同样,这实际上相当于:为若干重要的特征建立本征空间,然后将多个本征空间集成起来,由于嘴部受表情影响很严重,因此未考虑嘴部特征,深度学习人脸识别,深度模型,(Deep models),受限波尔兹曼机,RBM,深度信念网络,DBN,卷积受限波尔兹曼机,CRBM,混合神经网络,-,受限波尔兹曼机,CNN-RBM,.,“,深度模型,”,是手段,,“,特征学习,”,是目的!,深度学习人脸识别,深度学习,1.,什么是深度学习?,2.,深度学习的基本思想,3.,深度学习的常用方法,1,)自动编码机,(AutoEncoder),2,)稀疏编码(,Sparse Coding,),3,)受限波尔兹曼机(,Restrict Boltzmann Machine,RBM,),深度学习人脸识别,什么是深度学习,?,2006,年,加拿大多伦多大学教授、机器学习领域的泰斗,Geoffrey Hinton,和他的学生,RuslanSalakhutdinov,在科学上发表了一篇文章,开启了深度学习在学术界和工业界的浪潮。,深度学习是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本,,它,是无监督学习的一种。,深度学习的实质,是通过构建具有,很多隐层的机器学习模型和海量的训练数据,,,来学习更有用的特征,,从而最终提升分类或预测的准确性。,深度学习人脸识别,深度学习的基本思想,假设我们有一个系统,S,,它有,n,层(,S1,Sn,),它的输入是,I,,输出是,O,,形象地表示为:,I=S1=S2=.=Sn=O,,如果输出,O,等于输入,I,,即输入,I,经过这个系统变化之后没有任何的信息损失,。,深度学习人脸识别,深度学习的常用方法:,1.,自动编码机,(AutoEncoder),Deep Learning,最简单的一种方法是利用,人工神经网络,的特点,,自动编码器就是一种尽可能复现输入信号的神经网络。,为了实现这种复现,自动编码器就必须捕捉可以代表输入数据的最重要的因素,就像,PCA,那样,找到可以代表原信息的主要成分。,深度学习人脸识别,1,)给定无标签数据,用非监督学习学习特征,深度学习人脸识别,2,)通过编码器产生特征,然后训练下一层。这样逐层训练:,深度学习人脸识别,稀疏自动编码器,(,Sparse AutoEncoder,):,如果在,AutoEncoder,的基础上加上,L1,的,Regularity,限制(,L1,主要是约束每一层中的节点中大部分都要为,0,,只有少数不为,0,,这就是,Sparse,名字的来源),我们就可以得到,Sparse AutoEncoder,法。,深度学习人脸识别,稀疏自动编码器,(Sparse AutoEncoder),Input Patch,Filters,Features,Sparse Coding,深度学习人脸识别,2.,稀疏编码(,Sparse Coding,),如果我们把输出必须和输入相等的,限制放松,,同时利用线性代数中,基,的概念,即,O=a,1,*,1,+a,2,*,2,+,.+a,n,*,n,,,i,是基,,a,i,是系数,我们可以得到这样一个优化问题:,Min|I,O|,,其中,I,表示输入,,O,表示输出。,通过求解这个最优化式子,我们可以求得系数,a,i,和基,i,,这些系数和基就是输入的另外一种近似表达。,因此,它们可以用来表达输入,I,,这个过程也是自动学习得到的。如果我们在上述式子上加上,L1,的,Regularity,限制,得到:,Min|I,O|+u*(|a,1,|+|a,2,|+,+|a,n,|),深度学习人脸识别,3.,受限波尔兹曼机,RBM,假设有一个二部图,(,二分图,),,每一层的节点之间没有链接,一层是可视层,即输入数据层(,v),,一层是隐藏层,(h),,如果假设所有的节点都是随机二值变量节点(只能取,0,或者,1,值),同时假设全概率分布,p(v,h),满足,Boltzmann,分布,我们称这个模型是,Restricted BoltzmannMachine(RBM),。,深度学习人脸识别,深,度,信,念,网络,(,Deep Belief Networks,),深度信念网络是一个包含多层隐层(隐层数大于,2,)的概率模型,每一层从前一层的隐含单元捕获高度相关的关联。,深度学习人脸识别,DBNs,是一个概率生成模型,与传统的判别模型的神经网络相对,生成模型是建立一个观察数据和标签之间的联合分布,对,P(Observation|Label),和,P(Label|Observation),都做了评估,。,典型的,DNBs,可视数据,v,和隐含向量,h,的关系可以用概率表示成如下所示形式:,深度学习人脸识别,CRBM,是为识别二维图像信息而特殊设计的一个多层感知器。,概念示范:输入图像通过与,m,个可训练的滤波器和可加偏置进行卷积,在,C1,层产生,m,个特征映射图,然后特征映射图中每组的,n,个像素再进行求和,加权值,加偏置,通过一个,Sigmoid,函数得到,m,个,S2,层的特征映射图。这些映射图再进过滤波得到,C3,层。这个层级结构再和,S2,一样产生,S4,。最终,这些像素值被光栅化,并连接成一个向量输入到传统的神经网络,得到输出。,卷积波尔兹曼机(,Convolutional RBM,),深度学习人脸识别,权值共享,减少参数的方法:,每个神经元无需对全局图像做感受,只需感受局部区域(,Feature Map,),在高层会将这些感受不同局部的神经元综合起来获得全局信息。,每个神经元参数设为相同,即权值共享,也即每个神经元用同一个卷积核去卷积图像。,卷积波尔兹曼机(,Convolutional RBM,),Fully connected neural net,Locally connected neural net,深度学习人脸识别,卷积波尔兹曼机(,Convolutional RBM,),多滤波器情形,不同的颜色表示不同种类的滤波器,每层隐层神经元的个数按滤波器种类的数量翻倍,每层隐层参数个数仅与滤波器大小、滤波器种类的多少有关,例如:隐含层的每个神经元都连接,10 x10,像素图像区域,同时有,100,种卷积核(滤波器)。则参数总个数为:(,10 x10+1,),x100=10100,个,深度学习人脸识别,卷积波尔兹曼机(,Convolutional RBM,),隐层神经元数量的确定,神经元数量与输入图像大小、滤波器大小和滤波器的滑动步长有关。,例如,输入图像是,1000 x1000,像素,滤波器大小是,10 x10,,假设滤波器间没有重叠,即步长为,10,,这样隐层的神经元个数就是,(1000 x1000)/(10 x10)=10000,个,深度学习人脸识别,卷积波尔兹曼机(,Convolutional RBM,),卷积过程,:用一个可训练的滤波器,fx,去卷积一个输入的图像(第一阶段是输入的图像,后面的阶段就是,Feature Map,了),然后加一个偏置,bx,,得到卷积层,Cx,。,子采样过程,:每邻域,n,个像素通过,池化(,pooling,),步骤变为一个像素,然后通过标量,W,x+1,加权,再增加偏置,b,x+1,,然后通过一个,sigmoid,激活函数,产生一个大概缩小,n,倍的特征映射图,S,x+1,。,深度学习人脸识别,FIP,特征脸法,FIP,(,Face Identity-Preserving,)特征学习采用的是一种多层深度模型,不像,DNB,与,DBM,只利用全局特征,它结合了,局部和全局,的特征,网络架构类似于,CRBM,(卷积波尔兹曼机),但,FIP,是一种,有监督,的特征学习方式,并且,FIP,要求能重建恢复正面的人脸,因此这种方法对姿态和光照变量具有更好的鲁棒性。,深度学习人脸识别,(a)LBP,:,Local Binary Pattern(,局部二值模式,),(b)LE:an unsupervised feature learning method,PCA,(c)CRBM:,卷积受限波尔兹曼机,(d)FIP:Face Identity-Preserving,深度学习人脸识别,FIP,深度模型网络架构,(,Architecture of the deep network,),深度学习人脸识别,第一个特征提取层中,,X,0,经过,X,1,层后产生,32,个特征映射图 ,它是通过一个包含,32,个子矩阵的权重矩阵,W,1,滤波后,对,X,0,的某个局部特征的稀疏保留。,where is the rectified linear function that is feature-intensity-invariant.,其中,深度学习人脸识别,
展开阅读全文