1、目 录目 录I摘 要II第 1 章 绪论11.1 研究背景与意义11.2 智能视频监控概述21.2.1 智能视频监控的发展21.2.2 智能视频监控的研究内容31.3 行人检测与跟踪31.3.1 行人检测41.3.2 行人跟踪41.4 国内外研究现状41.5 论文主要研究内容与章节安排6第 2 章 视频序列图像中运动目标检测与跟踪方法72.1 图像处理基础72.1.1 颜色空间72.1.2 图像预处理102.1.3 形态学方法102.2 运动目标检测方法102.2.1 背景差分法102.2.2光流法112.2.3 边缘检测方法122.3 运动目标跟踪方法122.3.1 基于特征的跟踪方法132
2、.3.2 基于模型的跟踪方法142.3.3 基于主动轮廓的跟踪方法152.4 本章小结16三、设计内容XVII3.1背景减法运动目标检测XVIII3.2阈值的选取XX3.3形态学滤波XXI四、实验结果及分析XXV结束语XXVII摘 要 智能视频监控是计算机视觉领域新兴的研究方向,它通过对摄像机拍摄的视频图像序列进行自动分析来对被监控场景中的事物变化进行定位、跟踪和识别,并以此对相关目标的行为进行分析和判别,在实现了日常管理工作的同时又能对目标的异常行为做出及时反应。行人目标检测与跟踪算法是智能视频监控系统中的核心问题,研究相关算法对于提高智能视频监控系统的性能具有重要的意义。本文在熟悉和掌握了
3、有关数字图像处理原理和技术的基础上,分析对比了常用的目标检测和跟踪方法,针对不同条件下的行人目标检测和跟踪进行了研究。本文完成的主要研究工作如下:1)针对运动摄像机跟踪行人所导致的背景运动与行人尺寸变化问题,提出了一种综合应用梯度方向直方图和粒子滤波的行人跟踪算法。该方法以粒子滤波为跟踪框架,利用改进的小型化梯度方向直方图方法实现了小尺度行人跟踪,并根据其检测结果确定目标,不断修正粒子采样,有效实现了行人跟踪。仿真实验结果表明,与传统的粒子滤波算法相比,该算法能够更加准确有效地跟踪动态背景中尺寸变化的行人目标。2)介绍了智能视频监控系统的重要应用社会治安视频监控系统,在分析其图像处理技术及架构
4、后,针对实际监控条件与要求,完成了行人检测和跟踪模块的设计,采用matlab平台和 OpenCV 算法库进行了图像提取和预处理、运动目标分割、目标分类、目标特征提取、行人目标跟踪等部分的功能实现。实验结果表明,本模块能够处理一般静态背景条件下的行人目标,满足了实际应用的初步要求。关键词:智能视频监控 行人检测 行人跟踪 粒子滤波 动态背景 梯度方向直方图IIII第 1 章 绪论1.1 研究背景与意义 计算机视觉是计算机科学和人工智能的一个重要分支。它研究的主要内容包括怎样利用各种成像系统代替视觉器官来获取信息,由计算机代替大脑完成对信息的处理和解释使计算机具有人一样的视觉功能。智能视频监控技术
5、是计算机视觉领域近年来新兴的一个研究方向,是模式识别技术在视频监控领域的重要应用。智能视频监控的研究对象为监控视频中的行人、车辆和其他物体。它通过对视频中的运动目标进行实时检测、跟踪和行为分析,使得系统能够自动去除大量的非必要信息。通过分析视频图像中目标的运动行为,它可以为实时的监控和预警提供更为有效的信息。 智能视频监控技术将计算机视觉同网络化的视频监控结合起来,增强了系统的智能化自动处理能力,从而极大地减少主观干扰,增强监控效果,在减轻了相关人员的工作量的同时,对视频监控场景中的目标实现了自动实时的检测、跟踪、识别与分析等功能。智能视频监控技术可用于安防监控、智能交通、医院护理等众多方面,
6、具有重要的研究意义和美好的应用前景。当前较多的应用主要集中在以下几个方面:行人和车辆目标的自动检测、跟踪和识别,目标异常行为预警,敏感场所的异常物体滞留以及物品丢失,人流量估计、人群运动监测及拥塞控制,行人和车辆的交通流量监测等。 作为当前视频监控系统发展的必然方向,近年来智能视频监控相关技术的研发受到一些发达国家的重视,其商业化应用也得到了很大的发展。尤其在 2001年美国 9.11 事件及 2005 年英国 77 伦敦地铁爆炸案等恐怖暴力事件的发生后,出于对反恐、社会安定、国家公共安全等多方面的考虑,世界各国更是都高度重视如何在重要、敏感的安全相关部门和拥有很大人流量的公共场合实现 24
7、小时自动化实时的监测,智能视频监控成为了国际上最被关注的前沿研究领域之一。考虑到监控场景中行人是作为主要目标,因而行人行为分析作为智能视频监控的重要功能部分,正受到当前诸多研究人员的关注。行人行为分析的实现要以行人检测与跟踪为基础,所以对行人的检测和跟踪是一个至关重要的问题。对运动人体快速而准确的检测和跟踪是一项十分重要且极具挑战性的工作,这属于智能视频监控系统的前端工作,其工作性能的好坏将直接影响后续工作以至整个系统的性能。除了视觉监控之外,人体检测和跟踪在高级人机交互、动画制作等方面也有着广泛的应用。1.2 智能视频监控概述1.2.1 智能视频监控的发展智能视频监控是在传统的视频监控基础上
8、发展起来的。传统的视频监控自投入应用已有数十年,其发展经历了三个时代。第一代:模拟时代。上个世纪末以前,初始的视频监控以模拟式磁带录像机(Video Cassette Recorder, VCR)为代表。此时的视频监控存储量大,信息检索和查询相对困难。第二代:数字时代。进入 21 世纪后,随着数字视频压缩编码技术的产生和发展,数字式视频录像机(Digital Video Recorder, DVR)投入使用。数字化存储极大增强了对视频信息的处理效率,事后的信息检索也变得相对简单。第三代:网络时代。从 2004 年开始,随着网络带宽的提高和成本的降低、硬盘容量的加大和中心存储成本的降低,以及各种
9、实用视频处理技术的出现,视频监控步入了全数字化的网络时代,DVR 系统进一步发展为网络数字视频录像机(Network DVR, NVR),实现了视频信息的数字化网络传播。更进一步,发展成为了网络化视频监控系统,又称 IP 监控系统(IP Video Surveillance, IPVS)。网络化视频监控系统基于 TCP/IP 协议,采用开放式架构,其视频信息从摄像机或网络视频服务器下来就直接进入网络,以数字视频的压缩、传输、存储和播放为基础,通过强大的平台软件实施管理。视频监控系统在系统功能和设备性能上得到了很大的提高,但是仍然受到了一些固有因素的限制,整个系统在安全性和实用性方面难以满足人们
10、不断提高的要求(李子青,2007)。具体的制约因素如下:(1)人类自身的弱点。很多情况下,由于生理上的弱点,人们经常无法觉察安全威胁,从而产生了漏报(false negatives)的现象。(2)监控时间。大多数视频监控系统难以按照 1:1 的比例来配置监控摄像机和视频显示装置,尤其是在机场、港湾等大型的视频监控系统中,各个监控点很难都处于监控之下。(3)误报和漏报。这是视频监控系统中最常见的两大问题,误报(falsepositives)会浪费人力物力,漏报可能会导致非常危险的后果发生。这两种情况都会大大降低人们的信任,进而降低监控系统的应用价值。(4)数据分析困难。传统的视频监控系统缺乏智能
11、因素,录像数据无法被有效地分类存储,更毋论其他的智能处理,因此数据分析工作要耗费相当多的时间。而经常发生的误报漏报现象也造成了无用数据的进一步增加,带来更大的困难。(5)响应时间长。对于安全威胁的响应速度直接关系到一个安全系统的整体性能。传统的视频监控系统通常由人来对威胁做出响应和处理,而实际处理问题时,往往同时涉及到多个功能部分,需要多个相关部门的协调配合,共同处理,因而对响应时间有了更高的要求。为了解决上述导致视频监控系统效率低下的问题,人们把计算机视觉的相关技术引入视频监控中,从而发展起新型的视频监控技术智能视频监控,也称自动视频监控,在视频监控系统中处于核心地位,对于整个系统的效率提高
12、具有重要意义。1.2.2 智能视频监控的研究内容智能视频监控的研究内容包括运动目标检测、运动目标跟踪以及对监视场景中目标行为的理解与描述,如图 1.1 所示。图 1.1 中,目标检测、目标分类、目标识别和目标跟踪是视频处理中的基础部分,而行为分析和理解则属于更高级的处理分析部分。运动检测、目标分类和目标跟踪是研究者们关心最多的三个基本问题;而行为分析与理解因为跟应用直接相关,所以近些年成为被广泛关注的热点问题。1.3 行人检测与跟踪视频监控场景中行人是监控的主要对象,因此对行人的检测和跟踪是一个至关重要的问题,这属于智能视频监控系统的底层工作,其性能好坏将直接影响后续工作乃至整个系统的性能。1
13、.3.1 行人检测行人检测就是把视频图像中的行人目标从背景中分割出来并精确定位。基于视觉的行人检测目前仍旧是计算机视觉领域的一个公认的难题。原因在于:行人同背景混合在一起,行人可能走,也有可能站着或者不可预测地改变运动方向;行人所处的背景非常复杂,特别是当视觉系统基于运动云台上的摄像系统时,背景的突然改变不可避免。到目前为止,一些人体检测系统在某些约束环境中被证明能有效地检测行人,从而鼓舞了研究人员开展进一步的研究工作。行人的衣着、运动姿态、光照存在着很大的差异,并且存在背景复杂、遮挡和其它运动物体的干扰,这些因素是行人检测要解决的重点问题。1.3.2 行人跟踪行人跟踪监视人体在视频中的空间和
14、时间变化,包括人体的出现、位置变化、大小信息、形状等,在连续帧上匹配目标区域,求解时间上的对应问题。基于视觉的人体跟踪一般从人体检测开始,而且在后继的视频序列中需要不断地检测人体以校验跟踪和维持跟踪连续进行,它是人体的姿态估计和活动识别的基础。跟踪过程根据应用场景中的目标数目分为单目标和多目标。场景中目标数目的不同,跟踪的难易程度不同,所采用的技术也不同。1.4 国内外研究现状伴随着视频处理、数据库、人工智能等学科的发展,智能视频监控越来越显现出广阔的应用前景和潜在的经济价值。欧美等国家将其作为是维护社会安全的重要手段,投入大量人力、财力以促进其发展。例如,1997 年美国国防高级研究项目署(
15、DARPA)设立了 VSAM(VisualSurveillance And Monitoring)(Collins et al. 2000)项目,该系统融合多种不同类型传感器,研究军事和民用场景下视频理解技术。2004 年,英国的雷丁大学与法国 INRIA 等研究机构共同开展了智能监控项目 AVITRAC(Sullivan5et al. 2000)的研究,研究对机场地面目标进行智能跟踪和异常行为监控与报警的系统解决方案。智能视频监控更是受到很多学者的高度关注,在理论方面取得了长足的进展。计算机视觉领域中的著名期刊如 IJCV、CVIU、PAMI、IVC 和重要的学术会议如 ICCV、CVPR、
16、ECCV、IWVS 等先后刊登了大量智能视觉监控领域相关的最新研究成果。国际上也有许多公司研究智能视频监控技术并推出了市场化的产品(焦波,2005)。其中有美国的 Vidient 和 ObjectVideo 等公司。Vidient 前身为 NEC 公司的一个实验室,产品 SmartCatch,能检测包括移动物体检测、遗留物体检测、周边入侵检测等的多种异常行为,其主要用户为机场;ObjectVideo 公司的产品类型包括边界保安和入侵探测、可疑人员逗留、物品遗留异样物体探测、财产保护防盗探测、人流物流监控,图像变化摄像机检测、交通工具监控和测速等等。还有以色列的 Mate、NiceVision
17、和 Ioimage 等公司也提供了市场化的产品。Mate 的主要产品为 BehaveWatch,可检测六种异常行为,包括路径检测、突然出现报警、定向运动检测等,提出三层防护概念;NiceVision 视频分析仪对不同的威胁提供实时侦测功能,其检测活动包括对闯入者、车辆、被遗弃的行李和包裹、周边及设施保护、阻塞安全出入口及消防路线、盗窃侦测防止安全设备被移动、计算人数,车辆和其它其物件、显示人群聚集、监控安全率水平、量度人流、显示企图尾随进入入口处控制点等;Ioimage 的产品能实现五种行为的检测,包括入侵探测、PTZ 自动跟踪、遗留物体探测、非法滞留探测、移动物体探测等。以及法国的 Citi
18、Log 公司,其核心技术是自主研发的动态图像背景自适应技术和车辆图像跟踪技术,彻底消除了光线、雨雪、灰尘对系统的影响,可以及时检测监控区域内发生的交通事件,采集交通数据,辅助进行交通控制等。智能化监控技术在中国起步较晚,其技术研发和市场推广都有待进一步发展,当前大多数国内视频监控产品都是非智能化的。随着公共安全意识的提高,国内市场上对智能化视频监控产品的需求日益增大,己经有部分公司如海康威视、智安邦等企业开展相关的研究。但是,受到国内研发能力限制,当前大多公司都是引进国外成熟技术,推出面向中国市场的相关产品。如汉王科技公司与Mate 公司合作推出了基于多种行为的嵌入式视频检测产品。国内的科研机
19、构近年来也在积极展开智能视频监控系统的研究与商业产品开发(李子青,2007)。中国科学院自动化所模式识别国家重点实验室视觉监控小组总结了英国雷丁大学 VIEWS 的车辆交通监控原型系统的研究经验,在以往的理论研究的基础上,自行设计并初步实现了一个拥有完全自主知识产权的交通监控原型系统 Vstar(Visual Surveillance Star)。另外还有南京大学、南京长城6信息系统有限公司和江苏省公安厅刑警总队联合研制的“基于单幅训练图像的多表情人脸自动识别系统”等等。行人检测是指将行人区域从视频图像中分割出来,其分割的有效与否影响后期目标跟踪、行为分析和理解等高层处理的效果。因为图像背景存
20、在动态变化,以及阴天、雨雪、光照阴影和其他干扰等的影响,使得运动检测工作具有相当困难,当前的常用方法有背景差分法(Haritaoglu et al. 2000)、相邻帧差分(Collins et al. 2000)、光流法(Mayer et al. 1998)以及基于目标特征的统计识别(Stauffer and Grimson 2000)等检测方法。行人跟踪大多是基于位置、速度、色彩、纹理等特征的目标匹配跟踪,存在很多的相关算法。Polana et al(1994)和 Daniel et al(2002)都提出基于运动特征的跟踪方法,Polana 以质心为特征实现了行人运动跟踪,Daniel
21、利用了颜色特征,对多目标进行分类、识别和跟踪。Kass et al(1992)利用 Snake 轮廓模型进行目标跟踪。Park et al(200l)对 Snake 方法有所改进,提出一种指向型的Snake 模型,可减少边缘定位错误。Gardner et al(1996)提出了基于 3D 模型的方法,Ralf et al(2001)在此基础上建立了人体 3D 模型。Avidan et al(2004)提出了支持向量跟踪算法(Support Vector Tracking),通过将支持向量机与基于光流场的跟踪器相结合,在目标邻域搜索具有最大 SVM 得分的区域进行跟踪。Isard 和Blake(
22、1998)等提出condensation (conditional Density Propagation)算法,通过先验概率采样,再根据观测似然修正权值,以此近似后验概率。Deutscher et al(2001)等采用退火粒子滤波(Annealed Particle Filtering),并采用自动空间分解和交叉算子进行跟踪。当前在行人检测和跟踪方面已经开展了大量的工作,取得了很多研究成果,但面临各种具体情况,仍存在着许多问题有待解决。本文针对动态场景和静态场景进行了研究,分别提出了有特色的行人检测和跟踪方法。1.5 论文主要研究内容与章节安排本文主要研究社会治安视频监控中行人目标的检测与
23、跟踪,为更高级的行为分析和异常行为检测奠定基础。本文在分析常用运动目标检测以及运动跟踪方法的基础上,结合行人目标特点,实现了社会治安视频中行人目标的智能检测与跟踪。同时针对运动摄像机跟踪行人所导致的背景运动与行人尺寸变化问题,本文提出了一种综合应用梯度方向直方图(Histograms of Oriented Gradients,HOG)和粒子滤波的行人跟踪算法。第 2 章 视频序列图像中运动目标检测与跟踪方法智能视频监控中的行人检测与跟踪方法涉及到很多研究领域,如数字图像处理、计算机视觉、信息融合、模式识别与人工智能等。为了后续各章内容的展开,本章系统地介绍相关的一些预备知识和常用的目标检测与
24、跟踪方法。2.1 图像处理基础数字图像处理涉及的领域相当广泛,其各种理论算法、技术应用更是不胜枚举。篇幅起见,本节仅简要介绍相关的颜色空间、图像预处理和形态学方法等内容。2.1.1 颜色空间颜色空间也称彩色模型,又称彩色空间或彩色系统,它的用途是在某些标准下用通常可接受的方式对彩色加以说明。本质上,彩色模型是坐标系统和子空间的阐述,位于系统的每种颜色都由单个点表示。颜色空间从提出到现在已经有上百种,大部分只是局部的改变或专用于某一领域,现在采用的大多数颜色模型都是面向硬件或面向应用的。数字图像处理中常用的是 RGB(Red, Green, Blue)、HSI(Hue, Saturation,I
25、ntensity)和 HSV(Hue, Saturation, Value)模型。(1)RGB 彩色模型RGB 彩色模型是工业界最为常见的颜色模型,它也是人们最为熟悉常见的颜色模型。它以红、绿、蓝为原色,建立三维直角坐标系,通过混合各个原色以产生各种复合色彩。通过对红、绿、蓝三种颜色施加变化以及叠加可以得到各种颜色。RGB 即是代表红、绿、蓝三种色彩组成的颜色空间,这一颜色空间几乎包括人类能感知的所有颜色,因而应用最为广泛。RGB 颜色空间的设计是以颜色发光为原理的,简单理解其颜色混合方式就好像有红、绿、蓝三盏不同颜色的彩灯,当三盏灯的光相互混合的时候,其色彩相混,而亮度等于三者总和,也即满足
26、加法混合。知道其原理后,在很多图像处理软件中进行的 RGB 颜色设定就很容易理解了。图 2.1 形象地显示了 RGB 颜色空间。(2)HSV 模型RGB 和 CMY 彩色模型对硬件实现很理想,另外它同人眼对红、绿、蓝三原色的强烈感觉相匹配,但是这一模型不能很好地解释实际的颜色。观察一个彩色物体时,人们用色调(Hue)、色饱和度(Saturation)和强度(Value)来描述它,相比较而言,HSV 颜色模型是面向用户的,该模型对应于圆柱坐标系的一个圆锥形子集。色调 H:与光波的波长有关,它表示人的感官对不同颜色的感受,如红色、绿色、蓝色等,它也可表示一定范围的颜色,如暖色、冷色等。饱和度 S:
27、表示颜色的纯度,纯光谱色是完全饱和的,加入白光会稀释饱和度。饱和度越大,颜色看起来就会越鲜艳,反之亦然。强度 V:对应成像亮度和图像灰度,是颜色的明亮程度。HSV 颜色空间如图 2.2 所示,其空间模型为一个圆锥。圆锥的顶面对应的强度 V 为 1,代表最亮的颜色。绕 V 轴的旋转角代表色彩 H,红、黄、蓝分别对应于 0、120、240。在这一颜色模型中,每一种颜色和其补色相差 180。由圆心向圆周移动时,饱和度 S 的取值从 0 变化到 1。由于 HSV 颜色模型所代表的颜色域是属于 CIE 色度图的一个子集,所以其最大饱和度的颜色的纯度值并不到 100。在下方的圆锥顶点处,V 为 0,H 和
28、 S 无定义,代表黑色。圆锥顶面中心处 S 为 0,V 为 1,H 无定义,代表白色,从该点到顶点代表亮度渐暗的白色,即不同灰度的白色。所有 V、 S 都为 1 的颜色都是纯色。图 2.2 HSV 彩色空间HSV 颜色模型类似画家配色时采用的方法。而画家常通过改变色深和色浓来从纯色中得到各种色调的颜色。具体做法为:在纯色中加入黑色可以改变色深,加入白色可以改变色浓,同时加入一定比例的黑色、白色即可得到某种色调的颜色。(3)颜色空间变换颜色空间变换可以分为从 RGB 到 HSV 转换以及从 HSV 到 RGB 的转换两种。从 RGB 到 HSV 转换时,设(r,g,b)分别是一个颜色的红、绿和蓝
29、坐标,它们的值是 0 到 1 之间的实数。设 max 等价于 r,g 和 b 中的最大者。设 min 等于这些值中的最小者。要找到在 HSL 空间中的(h,s,v)值,这里的 h0,360)是角度的色相角,而 s,v0,1是饱和度和亮度。2.1.2 图像预处理常用的图像预处理过程都涉及到一些滤波的方法。由于图像在拍摄过程中往往会由传感器引入噪声,因此需要在目标分割前对图像进行预处理,来减除噪声的干扰,增强目标提取的效果。通常可采用低通滤波的方法来消除噪声。低通滤波既可在频域进行也可在空域进行。常见的频域低通滤波器有巴特沃兹低通滤波器和高斯低通滤波器。常见的空域低通滤波器主要有均值滤波器、加权均
30、值滤波器和中值滤波器。2.1.3 形态学方法形态学(morphology)原本代表的是生物学的一个学科,在这里介绍的是数学形态学(mathematical morphology)。作为一种图像处理工具,它被用于对图像区域进行处理,以提取对于表示和描述有用的图像分量。下面要介绍的是图像处理中常用到的膨胀和腐蚀,以及开操作和闭操作。2.2 运动目标检测方法运动目标检测是指将运动区域从视频图像中分割出来。运动目标检测从视频图像序列中检测出运动目标,减小图像处理计算量,得到所需的目标信息,为后续的识别和跟踪奠定基础。由于运动目标的正确检测与否将直接影响后续的目标跟踪与分类效果,所以它也成为智能视频监控
31、系统相关技术中深受关注的研究重点。运动目标检测过程包括运动目标检测的预处理和运动目标的分割两大步。目前常用的运动目标检测方法有四种:帧差法,背景差分法,光流法,边缘检测法等。2.2.1 背景差分法背景差分法也是常用的运动目标检测方法之一。这种方法将新的视频图像同已经建立的背景模型进行比较,通过图像灰度值或其他参考量的变化来估计目标运动。大量的研究人员都在致力于开发不同的背景模型,以解决不同场景条件下目标分割所要面对的各种问题。在种类纷繁的背景建模方法中,较为常用的有时间平均法、像素估计法和混合高斯模型法。(1)时间平均法(Time Average Background Initializing
32、, TABI)是最简单直接的方法,即求一时间序列上的视频图像的平均值作为背景的估计值。这种方法计算虽然简单,但是容易将前景物体混入背景中,使得背景模糊,不清晰。(2)像素估计法就是从过去的一组视频序列中按照一定的算法估计出每个像素的背景值。时间中值法(Time Median Background Initializing, TMBI)是其中最具有代表性的方法。其原理比较简单。一般认为,背景至少可以在 50%的时间内被观测到,因而图像序列中处于每个像素点亮度值中间的那个点的值即为该位置处的背景值。著名的 W4 系统在背景初始化阶段就采用了中值法的思想。(3)混合高斯模型法(Gaussian Mi
33、xture Model ,GMM)也称为统计背景模型法。该算法的思想是:对于缓慢变化的背景,可以用正态分布来表征像素灰度值的变化。每一种背景像素的值都可以通过多个高斯分布的加权和来描述。最早提出的是三分布 GMM,每个像素点用三个高斯分布来分别表征背景、前景的阴影、前景这三种不同的模式,但实际情况很复杂,对背景、前景等模式都限定只用一个高斯分布来描述是不够的。因而以后又出现了固定分布数 K 的混合高斯分布模型(Fixed-K Gaussian Mixture Model ),以及后面发展而来的基于自适应分布数 K 的混合高斯分布模型(Adaptive-K Gaussian Mixture Mo
34、del, AKGMM)。在一般静态场景下,背景建模方法在进行目标检测时可以获得良好的效果,但是在处理动态场景视频时,由于背景本身就存在相对运动,所以需要其他方法来解决这一问题。2.2.2光流法物体运动时其表面像素点的亮度也随之运动,在视频图像中表现为光流,对应图像中产生的瞬时速度场就是光流场。从光流中可以获得物体形状结构和运动状态信息。通常情况下,镜头运动、目标运动或二者的共同运动都会产生光流。光流的常用计算方法有两种:基于梯度的方法和基于匹配的方法。(1)基于梯度的方法梯度可以用于光流计算,由于其更为简单的计算过程和相对较好的实验结果,这类方法得到了广泛的应用。但由于受到可调参数、可靠性评价
35、因子和预处理方法等因素的影响,在应用光流对目标进行检测与自动跟踪时仍存在很多问题。(2)基于匹配的方法这类方法主要采用基于区域的和基于特征的两种匹配方法。基于特征的匹配方法需要不断地获取目标特征对其进行检测和跟踪,对较大目标的运动和亮度变化比较敏感,但是得到的光流往往很稀疏,而且目标的特征提取与匹配也有相当难度;基于区域的匹配方法需要先定位相似区域的位置,然后通过相似区域和初始区域的比较来计算光流,基于区域的方法在网络视频传输编码中得到了大量运用,但其计算中的光流仍然稀疏。光流法能够独立检测运动目标,而不需要场景的预设信息,并且能够检测动态场景下的运动情况。由于存在噪声干扰、光源分布、光照阴影
36、、物体遮挡等因素,计算得到光流场分布的准确性易受影响;并且光流法的计算过程相对复杂、耗时更长,如果没有专业硬件支持加速,则难以实现实时的检测。2.2.3 边缘检测方法图像的边缘为图像中灰度发生急剧变化的区域,边界分为阶跃状和屋顶状两种类型。图像的边缘一般对应一阶导数较大,二阶导数为零的点。常用到的边缘检测方法有 Robert 算子、Sobel 算子、Laplace 算子等。与相邻帧差法和背景差分法比较,边缘检测方法有利于邻近运动目标的区分和运动目标特征的提取,对背景噪声的鲁棒性很大,但其运算复杂度也相对较大。运动图像边缘的检测可以通过时间和空间上的差分来获得,空间上的差分可以使用已有的各种边缘
37、检测算法,时间上的差分可以通过计算连续帧的差来获得,也可以通过计算当前图像与背景图像的差分图像,然后求其边缘来计算。2.3 运动目标跟踪方法信息理论中,目标跟踪可定义为在给定一组观测的条件下对系统的状态进行估计。在视觉跟踪中,跟踪的目标是图像中提取的目标特征,如果在每一帧图像中特征的位置或形状都能被准确确定,则物体能被很好地跟踪。目标的轨迹就是二位图像或三维世界中被跟踪特征的位置序列。目标跟踪是计算机视觉中最困难的任务之一,其困难和干扰主要有目标的形状变化、摄像机及目标的运动和目标所处的复杂背景等(李培华,2010)。目标跟踪问题所包含的内容十分广泛,根据是否恢复或获得感兴趣物体的三维结构,目
38、标跟踪方法可分为 3D 和 2D 跟踪方法。前者一般需要多摄像机以获得目标在三维世界中的姿态,而后者致力于单目摄像机对图像平面中的目标进行跟踪。本文主要研究目标的二维跟踪方法。对于目标的二维跟踪,从不同角度考虑可以按照多种方法进行分类。根据提取特征的不同,可将目标跟踪的方法分为三类:基于边缘特征的方法,其跟踪特征是目标的边缘信息;基于区域特征的方法,这种方法综合考虑整个跟踪区域内的颜色、灰度、纹理以及运动信息;融合边缘和区域特征的方法,此类方法将边缘信息和区域信息结合起来,统一到一个跟踪理论框架中。根据数学工具的不同,大致可以分为基于理论的目标跟踪方法、基于均值漂移(Mean Shift)的目
39、标跟踪方法和基于偏微分方程的目标跟踪方法。基于滤波理论的跟踪方法将跟踪问题转化为概率密度函数估计问题,利用卡尔曼滤波器(Kalman Filter, KF)或粒子滤波(朱志宇,2010)来跟踪目标。基于 Mean Shift的目标跟踪方法采用概率密度函数之间的相似性函数度量目标和候选目标之间的相似性,通过梯度下降算法推导出 Mean Shift 迭代方程从而实现目标跟踪。基于偏微分方程的跟踪方法将目标的跟踪问题转化为泛函优化问题,通过偏微分方程的求解得到泛函的极值,从而实现目标跟踪。目标跟踪算法的分类方法众多,难以尽数列举,所以本文仅介绍如下几种常用方法。2.3.1 基于特征的跟踪方法跟踪中可
40、以使用许多种类的目标特征,在时间间隔很短的相邻两帧待检测图像中,可以认为其中的目标特征具有平滑性,因此可以利用目标特征来实现运动跟踪。基于特征的跟踪方法通常包括特征提取与特征匹配两个部分。目标特征可以是其位置中心,或者其上任意其他点,但要求该特征具备一定的稳定性,不易受包括噪声、光照在内的种种因素干扰。常见的特征匹配方法有角点匹配,不变矩匹配,纹理匹配等。这些方法的优点十分明显:目标运动方式简单,具备平滑性。而其难点在于,如果目标遭受遮挡或者旋转等情况,则运动目标中的部分区域会消失,一些新区域也会出现,因此需要提取新情况下的目标特征用以更新。基于角点的方法是一种典型的基于特征的跟踪方法,它的计
41、算量较大,而在不同研究中对角点的定义也多有差别,因此实际的角点检测方法多种多样。大体上角点检测方法可分为两类:一类是基于轮廓边界的方法。其角点定义为轮廓线段的交点,该方法对图像分割和边缘提取效果的依赖性较强,而且本身操作难度也很大,若目标发生遮挡等局部变化,则易导致图像分割和边缘提取失败,所以这种方法的适用性不大。另一类是从灰度图中直接提取角点的方法。尽管该类方法不用进行轮廓分割,但使用了二阶偏微分,因此对图像噪声十分敏感。在检测到新图像中的角点后,将其同原有角点按照一定方法进行匹配,再按照匹配策略删除误配对角点就得到了最后的匹配结果。不变矩作为图像特征也可用于目标跟踪。由 Hu 提出的三阶以
42、下矩具备旋转、缩放、平移(Rotation Scaling and Translation, RST)不变性的特点。图像进行 RST 变化后,其位置分布虽然发生改变,但由图像各阶矩计算出的不变矩仍然具有 RST 不变性,所以不变矩特征也常用于目标跟踪过程。但是不变矩需要对所有像素点灰度值用于计算,对应运算量太大,难以满足实时跟踪的要求。纹理也是图像的基本特征,它被认为是对图像灰度分布的描述,是对图像局部性质的统计,所以也可利用图像的纹理特征来实现匹配,实现目标跟踪。利用纹理特征进行图像分割可以取得良好的效果,但是对于本身具备不同纹理的目标,就需要对各个部分建立纹理特征。另一方面基于统计的纹理信
43、息难以实现准确的测量,特别是在相似纹理匹配方面的效果不够精准。2.3.2 基于模型的跟踪方法基于模型的跟踪方法正受到越来越多的关注,其研究进展也不断深入。这类方法利用高层的语义知识将目标拟合为几何模型,从而将对目标的跟踪转换为对目标的识别,具有更强的可靠性。同利用其他特征的方法相比,基于模型的跟踪方法能更充分利用目标的特性,在复杂环境下具有显著的优势。它的缺点也很明显,模型的建立和更新代表着更大的计算量,并且还要考虑复杂模型的旋转和平移等变化,更是增大了计算的复杂度,另外模型的建立还需要预知关于目标的先验知识。这种方法比较适宜对具有线外表的物品进行跟踪,因为这类物品容易建立线框模型。基于模型的
44、跟踪方法中运动较多的是 Adaboost 算法。应用 Adaboost 算法,首先需要对大量目标图片和背景图片标记后作为正负18样本,经过训练后得到目标的模型,用于后续识别和跟踪。图 2.5 描述了 Adaboost算法通过样本训练获得分类器然后进行目标检测的过程。Adaboost 算法在不同训练集上分别训练得到若干弱分类器,将这些弱分类器根据错误率分配权重,经过若干次迭代后进行组合得到最终的强分类器。图 2.5 训练目标分类器及目标检测流程2.3.3 基于主动轮廓的跟踪方法从边缘特征中可以获得独立于形状和运动的目标信息,Kass et al(1987)提出了主动轮廓算法来提取利用边缘信息,这
45、种方法使用一种被称为 Snake 的模型。Denzler et al(1995)与 Dubuisson et al(1995)利用该模型来检测和跟踪目标。Snake 模型利用轮廓线来分割图像。轮廓线在内部力、外部力和约束力的共同作用下,自动地向目标轮廓移动,满足能量最小要求的曲线就是最终得到的目标轮廓。基于主动轮廓的跟踪方法利用了全局的轮廓信息,不需要关于目标的先验知识,因而在边缘检测、目标检测、目标跟踪等方面的工作应用较多。主动轮廓模型分为两类:参数化主动轮廓和短程线主动轮廓。参数化主动轮廓中运动曲线用参数表示,并且要预先附加外界控制条件或知道先验知识。而短程线主动轮廓能够自动处理曲线运动中
46、的结构变化,而不需要外界条件控制,在多个非刚性运动目标的跟踪中表现更好。2.4 本章小结运动目标检测与跟踪是智能视频监控的关键步骤,而行人运动分析又是智能视频监控的核心内容,其运动检测与跟踪同样要以运动目标检测与跟踪为基础。本章首先介绍了图像处理相关的基础知识,包括颜色空间、图像预处理和形态学方法等;然后重点介绍了包括相邻帧差、背景差分、光流法和边缘检测等的运动检测方法,以及基于特征、基于模型、和基于主动轮廓等的运动跟踪方法。在此基础上,结合行人运动分析特点来实现行人运动检测和跟踪将是后续章节的主要内容。XXVI三、设计内容基于帧间差分的运动检测即帧差法,它根据相邻帧或隔帧图像间亮度变化的大小
47、来检测运动目标,帧间差分公式如下:Di(x,y)=Ii(x,y)Ii-1(x,y) Ii(x,y),Ii-1(x,y)为前后两帧图像,帧差分运动检测只针对前景区域进行,运动检测公式如下,其中T为门限值。1,DiTMi(x,y)=0,DiT选取T=20,仿真结果如下图: 第19帧图像 第20帧图像 差分后二值化图像 第79帧图像 第80帧图像 差分后二值化图像 第139帧图像 第140帧图像 差分后二值化图像图3-1帧间差分实验由上面的仿真实验可以得出:运用帧间差分方法进行运动目标的检测,可以有效的检测出运动物体。右子图中,可以比较清晰地得到运动物体的轮廓。但是,这种算法虽然可以使背景像素不随时间积累,迅速更新,因此这种算法有比较强的适应场景变化能力。但是帧差法表示的是相邻两帧同位置的变化量,因此很有可能将比较大的运动目标,或者运动目标内部颜色差异不大的像素判断错误,在实体内部产生拉伸、空洞现象8。而且当前景运动很慢且时间间隔选择