资源描述
,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,第,4,章 人机主要交互技术,(,新一代人机交互技术,),人行为识别与理解是指对人的行为模式进行分析和识别,并用自然语言等加以描述,.,这种技术包含从视频序列中抽取相关的视觉信息、用一种合适的方法进行表达,然后解释这些视觉信息,从而实现识别人的行为。,人体行为识别,人体行为识别种类,头部运动,手势识别,手语识别,体势识别,下肢运动,人体行为识别的意义,1.,感知接口(,Perceptual Interface,),基于视觉的形体语言作为语音和自然语言理解的有效补充来完成更加智能的人机交互。对于机场等高噪声的场合,基于视觉的高级用户接口能够提供比语音识别更加准确的信息输入。,2.,智能监控(,Smart Surveillance,),实时主动的监控,而不是察看已经发生犯罪事实记录,从而避免犯罪的发生,同时也减少雇佣大批监视人员所需要的人力、物力和财力的投入,.,3.,运动分析(,Motion Analysis,),建立人体几何模型、解释人体的运动行为机制,从而提高运动性能,可应用于体育运动、舞蹈等训练中,也应用于医学康复,.,4.,虚拟现实(,Virtual Reality,),电脑游戏中人的形体、运动和行为交互的设计逼真性实际得益于物理空间中人的运动分析,虚拟环境中人体运动建模如关节运动机制等,.,人体行为识别类型,静态人体行为识别系统,:,指姿态,单幅图像,动态人体行为识别系统,:,指动作,由一系列姿态组成,检测定位,行为识别,特征提取,输入图象,识别结果,静态人体行为识别系统,输入图像中是否有人或所关心部位,?,什么特征能够用来有效地表示行为?,如何进行行为分类?,静态人体行为识别系统,其方法与人脸识别和面部表情识别一样,包括总体的检测与定位,特征提取,识别方法等,.,只是具体特征等不一样,.,人的运动图像序列进行分析处理,涉及到运动检测、目标分类、人的跟踪及行为理解与描述。,运动检测、目标分类、人的跟踪属于视觉中的低级和中级处理部分(,Low-level and Intermediate-level Vision,),.,行为理解和描述则属于高级处理(,High-level Vision,),动态人体行为识别的过程,运动检测,运动检测的目的是从序列图像中将变化区域从背景图像中提取出来。运动区域的有效分割对于目标分类、跟踪和行为理解等后期处理是非常重要的,因为以后的处理过程仅仅考虑图像中对应于运动区域的像素。然而,由于背景图像的动态变化,如天气、光照、影子及混乱干扰等的影响,使得运动检测成为一项相当困难的工作,1,)背景减除(,Background Subtraction,),2,)时间差分(,Temporal Difference,),3,)光流(,Optical Flow,),目标分类,运动目标中人的检测,从检测到的运动区域中将对应于人的运动区域提取出来。,不同的运动区域可能对应于不同的运动目标,比如交通道路上监控摄像机所捕捉的序列图像中可能包含行人、车辆及其它诸如飞鸟、流云、摇动的树枝等运动物体,为了便于进一步对行人进行跟踪和行为分析,运动目标的正确分类是完全必要的。,这个步骤在一些情况下可能是不必要的(比如已经知道场景中仅仅存在人的运动时)。,目标分类方法,1,)基于形状信息的分类,(,Shape-based Classification,),用区域的分散度、面积、宽高比,区分人车及混乱扰动,人体轮廓模式的形状参数从图像中检测运动的人,2,)基于运动特性的分类,(,Motion-based Classification,),人体运动的周期性进行目标分类,计算运动区域的残余光流来分析运动实体的刚性和周期性,非刚性的人的运动相比于刚性的车辆运动而言具有较高的平均残余光流,同时它也呈现了周期性的运动特征,据此可以将人区分出来,人的跟踪,跟踪等价于在连续的图像帧间创建基于位置、速度、形状、纹理、色彩等有关特征的对应匹配问题,.,常用的数学工具有卡尔曼滤波(,Kalman Filtering,)、,Condensation,算法及动态贝叶斯网络(,Dynamic Bayesian Network,)等。,Kalman,滤波是基于高斯分布的状态预测方法,不能有效地处理多峰模式(,Multi-mode,)的分布情况;,Condensation,算法是以因子抽样为基础的条件密度传播方法,结合可学习的动态模型,可完成鲁棒的运动跟踪。,跟踪分类,就跟踪对象而言,有跟踪如手、脸、头、腿等身体部分与跟踪整个人体的;,就跟踪视角而言,有对应于单摄像机的单一视角、对应于多摄像机的多视角和全方位视角;,还可以通过跟踪空间(二维或三维)、跟踪环境(室内或户外)、跟踪人数(单人、多人、人群)、摄像机状态(运动或固定)等方面进行分类。,1,)基于模型的跟踪(,Model-based Tracking,),a,)线图法(,Stick Figure,):将身体的各个部分以分段直线来近似,b,)二维轮廓(,2D Contour,):将人的肢体用一组连接的平面区域块所表达,c,)立体模型(,Volumetric Model,):利用广义锥台、椭圆柱、球等三维模型来描述人体的结构细节,因此要求更多的计算参数和匹配过程中更大的计算量,2,)基于区域的跟踪(,Region-based Tracking,),人体看作由头、躯干、四肢等身体部分所对应的小区域块所组成,通过跟踪各个小区域块来完成整个人的跟踪。,跟踪方法,3,)基于活动轮廓的跟踪(,Active Contour Based Tracking,),利用封闭的曲线轮廓来表达运动目标,并且该轮廓能够自动连续地更新。,4,)基于特征的跟踪(,Feature-based Tracking,),基于特征的跟踪包括特征的提取和特征的匹配两个过程。特征如质心速度、纹理、彩色及形状等。以卡尔曼滤波形式的点、线特征的跟踪技术在计算机视觉领域中已被很好地开发,可参考的动态人脸跟踪方法,动态人脸检测与跟踪的解决思路可以归结为四类:,基于运动信息的方法:充分利用运动连续性规律,进行图象在连续帧间的跟踪、预测,以达到快速跟踪的目的。,基于彩色信息的方法:利用人脸彩色信息,提取人脸特征中相对固定不变的颜色信息,(,如肤色、虹膜等,),进行人脸检测,它具有速度快、姿态不变性等特点。,基于参数模型或模板的方法:通过获取目标的先验知识,建立参数模型,对输入的每一帧图像通过滑动窗口进行模型匹配,实现人脸跟踪。,基于人脸局部特征的方法:根据不同的人脸器官特征信息进行器官跟踪,。,行为理解与描述,运动检测、目标分类与人的跟踪是人运动分析中研究较多的三个问题,而人的行为理解与描述是近年来被广泛关注的研究热点,它是指对人的运动模式进行分析和识别,并用自然语言等加以描述。,行为理解可以简单地被认为是,时变数据的分类问题,,即将测试序列与预先标定的代表典型行为的参考序列进行匹配。,行为理解的关键问题是如何从学习样本中获取参考行为序列,并且学习和匹配的行为序列必须能够处理在相似的运动模式类别中空间和时间尺度上轻微的特征变化。,动态行为识别方法,1,)模板匹配方法(,Template Matching,),采用模板匹配技术的行为识别方法首先将图像序列转换为一组静态形状模式,然后在识别过程中和预先存储的行为标本相比较。,2,)状态空间方法(,State Space Approaches,),基于状态空间模型的方法定义每个静态姿势作为一个状态,这些状态之间通过某种概率联系起来。任何运动序列可以看作为这些静态姿势的不同状态之间的一次遍历过程,在这些遍历期间计算联合概率,其最大值被选择作为分类行为的标准。目前,状态空间模型已经被广泛地应用于时间序列的预测、估计和检测,最有代表性的是,HMMs,。每个状态中可用于识别的特征包括点、线或二维小区域。,状态空间方法虽然能克服模板匹配的缺点,但通常涉及到复杂的迭代运算,.,3,)其它方法,:,如基于模型的方法,模板匹配方法举例,Bobick,与,Davis,采用运动能量图像,MEI,(,Motion Energy Images,)和运动历史图像,MHI,(,Motion History Images,)来解释图像序列中人的运动。序列中的运动图像首先经差分运算并二值化;而后这些包含运动区域的二值化运动图像随着时间累加形成,MEI,;最后,MEI,增强为,MHI,,,MHI,中每个像素的值与该位置的持续运动时间成比例。每个行为由不同视角下图像序列的,MEI,和,MHI,所组成,从中可以提取出基于矩的行为特征,(,7,个,Hu,矩作为特征向量,),用于识别阶段的模板匹配。,Polana,与,Nelson,利用二维网格的特征进行人的运动识别,首先计算连续帧间的光流场,并将每个光流帧在空间栅格上沿,X,和,Y,方向分解,每个单元格的幅度被累加,从而形成一高维特征向量用于识别;为了归一化运动的持续时间,他们假设人的运动是周期性的,并将整个序列分解为该行为的许多循环过程;最后,采用最近邻算法进行行为识别。,模板匹配法特点,模板匹配技术的优点是计算复杂度低、实现简单,.,对于噪声和运动时间间隔的变化是敏感的,.,是一种基于运动的低级特征的方法,识别率较低,状态空间方法的时变数据匹配,a,)动态时间规整,DTW,:,DTW,具有概念简单、算法鲁棒的优点,早期被广泛地应用于语音识别中,并且最近才被用于匹配人的运动模式;对,DTW,而言,既使测试序列模式与参考序列模式的时间尺度不能完全一致,只要时间次序约束存在,它仍能较好地完成测试序列和参考序列之间的模式匹配。,b,)隐马尔可夫模型,HMM,:,HMM,更加成熟的匹配时变数据的技术,它涉及到训练和分类两个阶段,训练阶段包括指定一个隐马尔克夫模型的隐藏状态数,并且优化相应的状态转换和输出概率以便于产生的输出符号与在特定的运动类别之内所观察到的图像特征相匹配。每一个运动类别,对应一个,HMM,。匹配阶段涉及到一个特定的,HMM,可能产生相应于所观察图象特征的测试符号序列的概率计算。,HMMs,在学习能力和处理未分割的连续数据流方面比,DTW,有更好的优越性,当前被广泛地应用于人的运动模式匹配中。,c,)神经网络,NN,:,同样是目前比较感兴趣的匹配时变数据的方法,如径向基函数网络,状态空间方法举例,Yamato,等利用二维小区域块的运动、彩色、纹理等特征进行人的行为识别:人的运动区域块的网格特征被用作学习和识别的低级特征;学习是利用,HMM,来为每个类别产生符号模式;模型参数的优化是利用,Baum-Welch,算法实现的;识别是以给定序列图像下前向计算(,Forward Calculation,)的结果而确定。,Bregler,基于人体动力学在不同抽象等级的统计分解提出了一个综合性的网络用来识别人的运动:识别过程起始于低级处理,基于运动、彩色相似度和空间接近程度等的小区域块以混合高斯模型来估计,不同的身体部分区域在图像序列中被跟踪;在中级处理阶段,具有一致运动特性的区域被匹配为动力学系统中的简单运动(如行走被认为是两个简单运动的组成,一个是腿的支撑,一个是腿在空中的摆动);高级阶段,,HMM,被用来作为这些中级动力系统的混合模型来表达复杂的运动,识别过程通过最大化,HMMs,的后验概率来完成。,人体行为的语义描述,它是应用自然语言的概念,选择一组运动词语或短句来报告场景中运动目标的行为。,图像序列中人的运动描述是复杂的;而且,关于行为、事件、状态有着不同的概念,因此如何选择有效充分的表达方式来传达场景的内容是很困难的。,目前人的行为描述还只局限于简单的语义解释,对复杂场景中人的行为的语义描述工作还相当艰巨。,
展开阅读全文