深度学习人脸识别.ppt_咨信网zixin.com.cn

资源描述

单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,深度学习人脸识别,PCA,是将分散在一组变量上的信息集中到某几个综合指标（主成分）上的数学方法，实际上起着数据降维的作用，并保证降维过程最大化保留原数据的差异。,这对最大化类间差异（即不同人之间的差异）并最小化类内差异（即同一人的不同图像间的差异）很有效,用,PCA,将,2,维数据降到,1,维的例子，绿色点表示二维数据，,PCA,的目标就是找到这样一条直线，使得所有点在这条直线上的投影点之间的平均距离最大。也就是最大化地保留了原数据的差异性。,本征脸,（,eigenface,）,方法,是人脸识别的基准技术，并已成为事实上的工业标准，,该方法基于主成分分析（,PCA,）,深度学习人脸识别,本征脸方法,如果将本征向量恢复成图像，这些图像很像人脸，因此称为“本征脸”。,M.Turk&A.Pentland,JCN91,本征脸法,认为图像的,全局,结构信息对于识别最重要，,将图像看做矩阵,计算本征值和对应的本征向量作为代数特征进行识别,具有无需提取眼,、,嘴,、,鼻等几何特征的优点,但在,单样本时识别率不高,且在人脸模式数较大时计算量大,。,深度学习人脸识别,本征特征（,eigenfeature,）方法,利用,PCA,分析眼、鼻、嘴等,局部,特征，即本征特征方法,R.Brunelli&T.Poggio,TPAMI93,A.Pentland,et al.,CVPR94,这实际上相当于：为若干重要的特征建立本征空间，然后将多个本征空间集成起来,深度学习人脸识别,本征脸,vs,本征特征,本征脸利用全局特征，本征特征利用局部特征，二者各有优势,待识别图像,本征脸识别结果,本征特征识别结果,A.Pentland,et al.,CVPR94,深度学习人脸识别,本征脸,vs,本征特征,(2),(1),(3),(4),难题,能否自动确定：,该用哪些特征？,（眼睛？鼻子？嘴？,）,特征的确切位置在哪儿？,（从哪儿到哪儿算眼睛？,）,将二者结合，可以得到更好的识别效果,同样，这实际上相当于：为若干重要的特征建立本征空间，然后将多个本征空间集成起来,由于嘴部受表情影响很严重，因此未考虑嘴部特征,深度学习人脸识别,深度模型,(Deep models),受限波尔兹曼机,RBM,深度信念网络,DBN,卷积受限波尔兹曼机,CRBM,混合神经网络,-,受限波尔兹曼机,CNN-RBM,.,“,深度模型,”,是手段，,“,特征学习,”,是目的！,深度学习人脸识别,深度学习,1.,什么是深度学习？,2.,深度学习的基本思想,3.,深度学习的常用方法,1,）自动编码机,(AutoEncoder),2,）稀疏编码（,Sparse Coding,）,3,）受限波尔兹曼机（,Restrict Boltzmann Machine,RBM,）,深度学习人脸识别,什么是深度学习,？,2006,年，加拿大多伦多大学教授、机器学习领域的泰斗,Geoffrey Hinton,和他的学生,RuslanSalakhutdinov,在科学上发表了一篇文章，开启了深度学习在学术界和工业界的浪潮。,深度学习是机器学习研究中的一个新的领域，其动机在于建立、模拟人脑进行分析学习的神经网络，它模仿人脑的机制来解释数据，例如图像，声音和文本,，它,是无监督学习的一种。,深度学习的实质，是通过构建具有,很多隐层的机器学习模型和海量的训练数据,，,来学习更有用的特征,，从而最终提升分类或预测的准确性。,深度学习人脸识别,深度学习的基本思想,假设我们有一个系统,S,，它有,n,层（,S1,Sn,），它的输入是,I,，输出是,O,，形象地表示为：,I=S1=S2=.=Sn=O,，如果输出,O,等于输入,I,，即输入,I,经过这个系统变化之后没有任何的信息损失,。,深度学习人脸识别,深度学习的常用方法：,1.,自动编码机,(AutoEncoder),Deep Learning,最简单的一种方法是利用,人工神经网络,的特点，,自动编码器就是一种尽可能复现输入信号的神经网络。,为了实现这种复现，自动编码器就必须捕捉可以代表输入数据的最重要的因素，就像,PCA,那样，找到可以代表原信息的主要成分。,深度学习人脸识别,1,）给定无标签数据，用非监督学习学习特征,深度学习人脸识别,2,）通过编码器产生特征，然后训练下一层。这样逐层训练：,深度学习人脸识别,稀疏自动编码器,（,Sparse AutoEncoder,）：,如果在,AutoEncoder,的基础上加上,L1,的,Regularity,限制（,L1,主要是约束每一层中的节点中大部分都要为,0,，只有少数不为,0,，这就是,Sparse,名字的来源），我们就可以得到,Sparse AutoEncoder,法。,深度学习人脸识别,稀疏自动编码器,(Sparse AutoEncoder),Input Patch,Filters,Features,Sparse Coding,深度学习人脸识别,2.,稀疏编码（,Sparse Coding,）,如果我们把输出必须和输入相等的,限制放松,，同时利用线性代数中,基,的概念，即,O=a,1,*,1,+a,2,*,2,+,.+a,n,*,n,，,i,是基，,a,i,是系数，我们可以得到这样一个优化问题：,Min|I,O|,，其中,I,表示输入，,O,表示输出。,通过求解这个最优化式子，我们可以求得系数,a,i,和基,i,，这些系数和基就是输入的另外一种近似表达。,因此，它们可以用来表达输入,I,，这个过程也是自动学习得到的。如果我们在上述式子上加上,L1,的,Regularity,限制，得到：,Min|I,O|+u*(|a,1,|+|a,2,|+,+|a,n,|),深度学习人脸识别,3.,受限波尔兹曼机,RBM,假设有一个二部图,(,二分图,),，每一层的节点之间没有链接，一层是可视层，即输入数据层（,v),，一层是隐藏层,(h),，如果假设所有的节点都是随机二值变量节点（只能取,0,或者,1,值），同时假设全概率分布,p(v,h),满足,Boltzmann,分布，我们称这个模型是,Restricted BoltzmannMachine(RBM),。,深度学习人脸识别,深,度,信,念,网络,（,Deep Belief Networks,）,深度信念网络是一个包含多层隐层（隐层数大于,2,）的概率模型，每一层从前一层的隐含单元捕获高度相关的关联。,深度学习人脸识别,DBNs,是一个概率生成模型，与传统的判别模型的神经网络相对，生成模型是建立一个观察数据和标签之间的联合分布，对,P(Observation|Label),和,P(Label|Observation),都做了评估,。,典型的,DNBs,可视数据,v,和隐含向量,h,的关系可以用概率表示成如下所示形式：,深度学习人脸识别,CRBM,是为识别二维图像信息而特殊设计的一个多层感知器。,概念示范：输入图像通过与,m,个可训练的滤波器和可加偏置进行卷积，在,C1,层产生,m,个特征映射图，然后特征映射图中每组的,n,个像素再进行求和，加权值，加偏置，通过一个,Sigmoid,函数得到,m,个,S2,层的特征映射图。这些映射图再进过滤波得到,C3,层。这个层级结构再和,S2,一样产生,S4,。最终，这些像素值被光栅化，并连接成一个向量输入到传统的神经网络，得到输出。,卷积波尔兹曼机（,Convolutional RBM,）,深度学习人脸识别,权值共享,减少参数的方法：,每个神经元无需对全局图像做感受，只需感受局部区域（,Feature Map,），在高层会将这些感受不同局部的神经元综合起来获得全局信息。,每个神经元参数设为相同，即权值共享，也即每个神经元用同一个卷积核去卷积图像。,卷积波尔兹曼机（,Convolutional RBM,）,Fully connected neural net,Locally connected neural net,深度学习人脸识别,卷积波尔兹曼机（,Convolutional RBM,）,多滤波器情形,不同的颜色表示不同种类的滤波器,每层隐层神经元的个数按滤波器种类的数量翻倍,每层隐层参数个数仅与滤波器大小、滤波器种类的多少有关,例如：隐含层的每个神经元都连接,10 x10,像素图像区域，同时有,100,种卷积核（滤波器）。则参数总个数为：（,10 x10+1,）,x100=10100,个,深度学习人脸识别,卷积波尔兹曼机（,Convolutional RBM,）,隐层神经元数量的确定,神经元数量与输入图像大小、滤波器大小和滤波器的滑动步长有关。,例如，输入图像是,1000 x1000,像素，滤波器大小是,10 x10,，假设滤波器间没有重叠，即步长为,10,，这样隐层的神经元个数就是,(1000 x1000)/(10 x10)=10000,个,深度学习人脸识别,卷积波尔兹曼机（,Convolutional RBM,）,卷积过程,：用一个可训练的滤波器,fx,去卷积一个输入的图像（第一阶段是输入的图像，后面的阶段就是,Feature Map,了），然后加一个偏置,bx,，得到卷积层,Cx,。,子采样过程,：每邻域,n,个像素通过,池化（,pooling,）,步骤变为一个像素，然后通过标量,W,x+1,加权，再增加偏置,b,x+1,，然后通过一个,sigmoid,激活函数，产生一个大概缩小,n,倍的特征映射图,S,x+1,。,深度学习人脸识别,FIP,特征脸法,FIP,（,Face Identity-Preserving,）特征学习采用的是一种多层深度模型，不像,DNB,与,DBM,只利用全局特征，它结合了,局部和全局,的特征，网络架构类似于,CRBM,（卷积波尔兹曼机），但,FIP,是一种,有监督,的特征学习方式，并且,FIP,要求能重建恢复正面的人脸，因此这种方法对姿态和光照变量具有更好的鲁棒性。,深度学习人脸识别,(a)LBP,：,Local Binary Pattern(,局部二值模式,),(b)LE:an unsupervised feature learning method,PCA,(c)CRBM:,卷积受限波尔兹曼机,(d)FIP:Face Identity-Preserving,深度学习人脸识别,FIP,深度模型网络架构,（,Architecture of the deep network,）,深度学习人脸识别,第一个特征提取层中，,X,0,经过,X,1,层后产生,32,个特征映射图，它是通过一个包含,32,个子矩阵的权重矩阵,W,1,滤波后，对,X,0,的某个局部特征的稀疏保留。,where is the rectified linear function that is feature-intensity-invariant.,其中,深度学习人脸识别,

展开阅读全文