运动目标检测中阴影去除算法的研究与实现.doc

资源描述

运动目标检测中阴影去除算法的研究与实现摘要随着计算机视觉技术、电子技术、通信技术的发展，智能视频监控系统作为安全防卫的一种重要手段正在越来越受到人们的重视。由于智能视频监控系统具有监控能力强、安全隐患少、节省人力物力资源的优点。因此，在交通、银行、宾馆、商场等重要场所的监控中有广泛的应用前景。本文首先综合介绍了智能监控系统的发展历史和现状，然后对静止摄像机监控下的运动目标检测、阴影的检测和去除等关键技术进行了比较深入的研究。运动目标检测作为智能视频监控系统中视频处理的第一步，具有非常重要的地位。本文首先对目前运动目标检测方法进行了概括，在详细研究了几种目标检测方法的基础上，确定了目标检测中较好的一种方法，即基于混合高斯模型的方法，用这个算法来提取运动目标。由于日照和灯光等外来因素的影响，造成了提取的运动前景中往往含有阴影。因此，运动目标的阴影检测与去除对于运动目标跟踪、分类和识别等后期处理都是一个关键性问题。由于阴影的存在，会给上述后期处理带来干扰甚至失败。为了去除目标前景的阴影，本文首先分析了阴影产生的机理，了解阴影的特征和人类的视觉特征，针对这些特征以及总结和分类目前己有的各类阴影检测算法的基础上，提出了一种基于RGB颜色模型的阴影检测算法。通过实验对本文的算法进行了验证，证明了该算法能够很好地检测出运动目标的阴影以及将阴影去除，而且易于实现。关键词：视频监控；运动目标检测；混合高斯模型；RGB颜色模型；阴影去除 32 目录第一章绪论 1 1.1 引言 1 1.2 视频监控系统的发展和现状 1 1.3 本课题研究的目的及意义 2 1.4 课题主要研究工作及工作安排 3 第二章基础理论 5 2.1 引言 5 2.2 颜色模型 5 2.2.1 颜色模型的分类 5 2.2.2 RGB颜色模型 5 2.2.3 HSV颜色模型 6 2.3 数学形态学 7 2.3.1 基本思想 8 2.3.2 基本运算 8 第三章运动目标的检测 10 3.1 引言 10 3.2 运动目标检测算法概述 10 3.2.1 光流法 10 3.2.2 相邻帧差法 10 3.2.3 背景差法 11 3.3 基于RGB颜色空间的混合高斯模型 11 3.3.1背景模型的建立 12 3.3.2 背景模型的更新 12 3.3.3 运动目标的检测与提取 13 第四章阴影的去除 15 4.1 引言 15 4.2 阴影产生的机理 15 4.3 阴影检测算法概述 16 4.3.1 基于模型的阴影检测算法 16 4.3.2 基于阴影属性的阴影检测算法 16 4.4 阴影的光学特性 17 4.5 前景二值图的提取 18 4.6 基于RGB颜色空间的阴影去除算法 18 4.6.1 确定颜色空间 18 4.6.2 阴影的去除算法 19 4.6.3 前景目标去噪与重建 21 4.7 实验结果 21 第五章总结与展望 24 5.1 研究工作总结 24 5.2 展望 24 参考文献 26 致谢 27 第一章绪论 1.1 引言图像和视频是对客观事物的形象而又生动的描述，是直观而又具体的信息表达形式，对人类而言是最重要的信息载体。特别是在今天这高科技的信息社会里，随着网络、通信和微电子技术的快速发展，以及人民物质生活水平的提高，视频以其直观、方便和内容丰富等特点，日益受到人们的青睐。就因为这样，视频监控系统就成为一种新技术而越来越受到人们的重视。现今人们对安全的需求增强，视频监控系统成为安全防卫的重要手段，由最初的重点部门如银行和公安等行业监控逐渐发展到单个家庭的防盗和安全监控，摄像头越来越多，视频监控系统的使用越来越普遍。传统的数字视频监控系统仅仅提供了视频的捕获、存储、分发等简单的功能，而系统获取的视频信息越来越多，这些海量的视频信息很难在同一时间显示在监控人员面前。除此以外，对视频里的内容还只能靠监控人员来判断。视频监控工作强度很大，它对监控人员的注意力、警惕性、特别是对异常情况的反应能力的要求特别高。一般监控中发生的失误都是由监控人员的注意力不集中造成的。由于人类本身存在的生理疲劳现象，因此不可能长时间连续集中精力监视内容单一的监控场景。为了克服传统视频监控系统产生的困难，智能视频监控系统应运而生，它利用自动视频分析技术进行视频的监控。当盗窃发生或发现到具有异常行为的可疑人时，系统能向保卫人员准确及时地发出警报，从而避免犯罪的发生，同时也减少了雇佣大批监视人员所需要的人力、物力和财力的投入。与传统的传统视频监控相比，能够智能检测与跟踪的数字视频监控具有许多优点[1]：第一，24小时全天可靠监控。智能视频监控系统将彻底改变以往完全由监控人员对画面进行监视和分析的模式。第二，提高报警精确度。智能视频监控系统能够有效提高报警精确度，大大降低误报和漏报现象的发生。第三，提高响应速度。智能视频监控系统拥有比传统视频监控系统更强大的智能处理能力，它能够检测、识别视频场景中的可疑活动。 1.2 视频监控系统的发展和现状视频监控系统是多媒体技术、计算机网络、工业控制和人工智能等技术的综合运用的产物，它正向着视频的数字化、系统的网络化和管理的智能化方向不断发展，并已经逐步深入到社会生活的各个领域。从第一代完全的模拟监控系统，到第二代数字化的视频监控系统，再到第三代分布式视频监控系统，视频监控系统已在过去的二十多年里经历了三个发展阶段[2]。第一代视频监控系统（VCR）主要是以模拟设备为主的闭路系统，称之为模拟视频监控系统。以模拟信号、图像的处理和传输为基础，多路模拟摄像机产生的模拟信号通过同轴电缆传输到监控室，然后通过预置好的顺序轮流显示，监控人员通过监视器来判断监视场景的情况。图像信息通过视频电缆，以模拟方式传输，一般传输距离不能太远，主要应用于小范围内的监控，监控图像一般只能在控制中心查看。系统的主要特点：(1) 视频、音频信号的采集、传输、存储均为模拟形式，质量最高；(2) 经过了几十年的发展，技术比较成熟，系统功能强大、完善。但该类系统之所以会被淘汰，是因为它存在着一些问题：(1) 只适用于较小的地理范围；(2) 与信息系统无法交换数据；(3) 监控仅限于监控中心，应用灵活性较差；(4) 不易扩展。随着多媒体技术、视频编码压缩技术的飞速发展，以数字技术为核心的视频监控系统迅速崛起，即第二代视频监控系统（DVR）。它依赖于混合模数或全数字的视频传输和处理方法，采用Motion JPEG、H.263、MPEG等多媒体数字压缩技术将视频图像完全数字化，节省了带宽资源，大大提高了图象质量，增强了视频监控的功能。这类监控系统主要在视频监控中可以利用视频分析算法，让监控者只注意感兴趣的事物从而实现自动报警。系统的特点：(1) 视频、音频信号的采集、存储主要为数字形式，质量较高；(2) 系统功能较为强大、完善；(3) 与信息系统可以交换数据；(4) 应用的灵活性较好。DVR系统从监控点到监控中心仍为模拟方式传输，与第一代系统存在着许多相似的缺陷，要实现远距离视频传输需要铺设（租用）光缆、在光缆两端安装视频光端机设备，系统建设成本高，不易维护、且维护费用较大。由于网络带宽增加、计算机处理能力的迅速提高和存储容量的增大，以及各种实用视频信息处理技术的出现，目前视频监控已经进入了全数字化的网络时代，即第三代视频网络系统（NVR）。它利用低价位高性能的计算机网络、移动网络和固定的多媒体通信网络传输监控信号。视频信号在前端进行自动分析处理，然后将有价值的信息通过无线或有线网络传输到监控中心，实现自动视频监控。与第一、二代系统相比，该系统具有的优势：(1) 利用现有的网络资源，不需要为新建监控系统铺设光缆、增加设备，轻而易举地实现远程视频监控；(2) 系统扩展能力强，只要有网络的地方增加监控点设备就可扩展新的监控点；(3) 维护费用低，网络维护由网络提供商维护，前端设备是即插即用、免维护系统；(4) 系统功能强大、利用灵活、全数字化录像方便于保存和检索；(5) 性能稳定，无需专人管理。 1.3 本课题研究的目的及意义在如今高度自动化的生活中，安全问题成了第一难事。这需要监控人员时时地在监控，每时每刻的掌握最新的数据，可监控人员又不可能无时无刻在现场监控，这时就必须依靠智能视频监控系统的帮助，视频监控系统的性能好坏也就直接影响到“安全”这个大问题。随着各种新型安保观念的引入，社会各部门、各行业及居民小区纷纷建立起了各自独立的监控系统或报警系统。建立和不断完善安全防卫系统，对保护人员和设备的安全、提高生产和管理的效率、预防犯罪的发生、维护社会经济的稳定起到了重要作用。因此，研究智能视频监控系统具有较深远的现实意义。运动目标的检测是视频监控系统的首要问题，运动目标提取的好坏直接影响到之后的目标跟踪、目标分类等问题。只要有光线存在的地方都免不了阴影的存在，特别是在室外环境下，光线会随着天气的变化而变化，而且光线的方向、强弱等都会因时间的不同而发生无规律的变化，这些情况下阴影具有很强的不确定性。阴影和运动目标与背景之间都有很大的灰度差值，而且阴影与产生阴影的目标具有相同的运动特征，因此阴影常常被错误地检测成前景。这样就会产生与阴影有关的一系列问题，如阴影会造成运动目标形状的变化、目标的合并、甚至目标丢失，这些问题的存在会对后续的目标跟踪、识别、分类产生很大的负面影响。因此，近年来阴影检测和阴影的去除成为智能视频监控技术中研究的一个热点和重点。去除伴随运动目标的阴影，进一步提高运动目标检测的准确性是非常重要的。目标检测算法本身并不能识别阴影和运动目标以及消除阴影，虽然目前阴影检测算法的准确性相对较高，但还是存在着一定的缺陷，因此在现有阴影检测算法的基础上，提出一种定量和定性评估更高的阴影检测算法是非常必要的，消除阴影的影响也更有利于后续的目标跟踪、分类和识别[3]。 1.4 课题主要研究工作及工作安排本文主要研究运动目标检测中的阴影去除，然而阴影的检测与去除通常与运动检测联系在一起，因此本文先将对目前比较经典的三种运动目标检测算法进行深入分析，通过对运动目标检测中这三种算法的比较，最终确立一种适用性比较强的基于混合高斯背景模型的背景差方法。然后针对前景检测中存在的阴影，研究在混合高斯背景模型之上的阴影检测算法。具体地讲，本文的主要研究内容包括以下几个方面： (1) 运动目标检测算法的研究在深入分析现有的检测算法基础上，提出一种改进的混合高斯背景模型的目标检测算法，能较好地解决场景中的光线、天气等环境的变化，以及存在动态背景的情况。 (2) 阴影检测与去除算法的研究针对前景检测中的阴影，在理解阴影产生机理以及分析了现有阴影检测算法的基础上，提出一种基于RGB颜色空间的阴影检测算法。本文各章内容安排如下：第一章绪论，对当前视频监控系统的发展进行总结，然后详细分析了智能视频监控系统中的关键技术，最后介绍了本文的研究内容及论文组织。第二章基础理论，介绍了与本课题相关的颜色模型、数学形态学算子等基础知识。第三章运动目标的检测，简单地对目前运动目标检测的集中经典算法进行分析，在对几种方法进行比对的基础上，确定一种较好的运动目标检测方法，即基于混合高斯背景模型的运动目标检测方法。第四章阴影的去除，首先对阴影产生的机理原因及影响进行了分析，然后对目标阴影检测算法进行了概括、总结和分类，在混合高斯背景模型基础上，针对前景中的阴影提出一种基于RGB颜色空间的阴影检测算法。最终通过MATLAB软件进行实验，证明了该算法的实用性。第五章总结与展望，全面总结了本文主要研究内容的成果，并指出了在现有系统的基础上对未来新技术的展望。第二章基础理论 2.1 引言在复杂的背景环境中，天气和光线等的变化、阴影、灯光及随机噪声等都会影响采集到的图像的特征。在目标检测和阴影去除的过程中，肯定会有一些像素点被误认为目标点或将目标点检测成阴影点。为了能够准确地提取运动目标，需要对提取出的目标进行一系列地处理。本章主要介绍本文在目标检测、阴影检测及去除等方面所涉及到的颜色空间，特别是RGB颜色空间，还有在图像处理技术中经常用到的数学形态学滤波等方面的一些基础知识。 2.2 颜色模型颜色是人的视觉器官对外来的光刺激而产生的主观感受。在光学和物理学中，可见光就是一种电磁波，对应于电磁频谱中狭窄的频率波段。可见光波段中的每一频率对于一种单独的颜色，而频率和波长的乘积等于光速，由于波长比频率在某种程度上容易处理，因此常用波长来指定光谱颜色，通常的红、橙、黄、绿、蓝和紫等颜色的波长在400nm到700nm之间。当一束光的各种波长的能量大致相等时，我们称其为白光；否则，称其为彩色光。若一束光中，只包含一种波长的能量，其它波长都为零时，称其为单色光。除了波长可以决定光的颜色以外，可见光还有一些其他的视觉特征，即亮度和纯度。亮度是指感受到的光的明度或颜色的强度，而纯度是指可见光的颜色的浓淡。因此颜色的三个特性分别是：主波长、亮度和纯度。颜色模型（也称为彩色模型）的用途是在某些标准下用通常可接受的方式简化彩色规范。本质上，颜色空间是坐标系统和子空间的规范。 2.2.1 颜色模型的分类人眼对于颜色的观察和处理是一种生理和心理现象，因而对于色彩的许多结论都是建立在实验基础之上，因此也出现了多种不同的方法来描述颜色，而不同的描述方法对应于不同的颜色空间。颜色空间是人们为了对颜色进行正确合理的应用、测定、描述和评价而建立的模型。因研究和应用的不同从而建立了很多不同的颜色模型，每个颜色模型都各有特点。现今存在的颜色空间有很多种，包括RGB，CMY，CMYK，HSL，HSV，CIE XYZ，CIE Lue，CIE Lab和LCH，YUV，YIQ，YcbCr，RGB，YpbPr，Xerox Corporation YES，Kodak Photo CD YCC等颜色空间。这些颜色空间已经在各行各业中得到了广泛的应用。目前常用的颜色模型可分为两类[4]：一类面向诸如彩色显示器或打印机之类的硬件设备，另一类面向以彩色处理为目的的应用，如动画中的彩色图形。面向硬件设备的最常用彩色模型是RGB颜色模型，而面向彩色处理的最常用的模型是HSV颜色模型。 2.2.2 RGB颜色模型我们的眼睛通过三种可见光对视网膜的刺激来感受颜色。这些光在波长为630nm（红）、530nm（绿）和450nm（蓝）时的刺激达到高峰。通过对各种刺激强度的比较，我们感受到光的颜色。这种视觉理论就是使用红、绿、蓝三种基色来显示彩色的基础，称之为RGB颜色模型，它是最常用的颜色模型。 RGB颜色模型基于笛卡儿坐标系统，3个轴分别为R、G、B分量，如图1.1。通过红、绿、蓝三种基色可以混合得到大多数的颜色。坐标原点（0,0,0）代表黑色，而坐标点（1,1,1）代表白色，对角线从黑到白代表的是灰度。在坐标轴上的顶点代表三个基色，而余下的顶点则代表第一个基色的补色。为了方便表示，将立方体归一化为单位立方体，这样所有的R、G、B三分量的值都在[0,1]中。根据这个模型，每幅彩色图包括3个独立的基色平面，或者说可分解到3个平面上。反过来，如果一幅图像可以被表示为3个平面，则使用RGB颜色模型比较方便。RGB颜色模型的颜色数量可达到224种。图1.1 RGB颜色模型示意图 RGB颜色模型大多是面向硬件设备的（如CRT显示器），其物理意义明确但缺乏直观感。主要用于非发射式显示，比如彩色打印机，绘画仪等。 2.2.3 HSV颜色模型从心理学和视觉的角度出发，颜色有如下三个特性：色调（Hue）、饱和度（Saturation）和亮度（Value）。HSV是一种对应于画家的配色模型，是面向用户的，能较好反应人对颜色的感知和鉴别。在HSV模型中，色调（H）是当人眼看到一种或多种波长的光时所产生的彩色感觉，是一种颜色区别于其它颜色的因素，它反映颜色的种类，是决定颜色的基本特性，如我们平时所说的绿色、蓝色就是指色调。饱和度（S）指的是颜色的纯度，即掺入白光的程度，或者说是指颜色的深浅程度，对于同一色调的彩色光，饱和度越高，颜色就越鲜明。通常我们把色调和饱和度通称为色度。亮度（V）是光作用于人眼时所引起的明亮程度的感觉，它与被观察物体的发光强度有关。上述RGB彩色模型与人眼更强地感受红、绿、蓝三基色的事实相符合，但是它不能很好地适应实际上人对颜色的解释。当人观察一个彩色物体时，更习惯用色调、饱和度和亮度来描述它。基于色调（H）、饱和度（S）和亮度（V）的彩色模型称为HSV颜色模型。一方面，该模型可在彩色图像中消除亮度分量的影响从而获得色调和饱和度的彩色信息，因此它比其他彩色模型更利于开发基于彩色描述的图像处理方法；另一方面，HSV彩色模型能够使人更自然、更直观地解释和感受颜色。 HSV模型的三维表示从RGB立方体演变而来，对应于圆柱坐标系中的一个圆锥形子集，其中的每一种颜色和它的补色相差180，所有的颜色均定义在六棱锥（图1.2）中。在六棱锥中，饱和度沿水平轴测量，而亮度值沿通过六棱锥中心的垂直轴测量。图1.2 HSV颜色模型示意图色调（H）描述一种颜色放在色谱的什么位置。例如，红色、黄色、蓝色或绿色。如同在一个彩虹中，开始和末尾的颜色都是红色。色调用与水平轴之间的角度来表示，范围从0°到360°。六边形的顶点以60°为间隔。黄色位于60°处，绿色在120°处，而青色在180°处，与红色相对，相补的颜色之间互成180°。饱和度（S）指颜色的纯度和浓度的大小。饱和值从0到1变化，纯度是指添加了多少白色到颜色中。低的值提供一个中性、阴暗的颜色，而高的值提供一个强烈的、纯的颜色。在此模型中它表示所选色彩的纯度与该色彩的最大纯度（S=1）的比率。当S=1时，此时的得到最纯的颜色，并不是白色。当S=0.5时所选色彩的纯度为二分之一。当S=0时，只有灰度。亮度（V）的值从六边形顶点的0变化到顶部的1，顶点值为0，表示黑色。在六边形顶部的颜色强度最大。当V=1，S=1时，即纯色彩，而并不是白色，白色为V=1且S=0的点。 HSV对多数用户来说是一个较直观的模型。从指定一种纯彩色开始，即指定色调（H）且让V=S=1，我们可以通过加入白色或黑色到纯色彩中来描述所要的颜色。增加黑色即减小V而S保持不变。如果要得到深蓝色，则V=0.4，S=1且H=240°。同样，将白色加入所选的色彩中时，则参数S减小而V保持不变。浅蓝色就可以用S=0.3，V=1且H=240°来设定。添加一些黑色和白色，则需要同时减小V和S。HSV颜色空间能够清晰地将颜色分为色度和亮度，而阴影不会改变背景的色度，故常用此颜色空间来进行阴影检测。 2.3 数学形态学数学形态学（Mathematical Morphology，简称形态学）是研究数字图像形态结构特征的理论，它通过对目标图像的形态变换实现结构分析和特征提取。数学形态学以严格的数学理论和集合理论为基础，着重于研究图像的集合结构，形态学对图像的处理基于结构元素（structure element）的概念，而且结构元素的选择和图像的某种特有信息有密切的关系，所以构造不同的结构元素可提供不同的图像分析和处理方法，数学形态学中的集合表示图像中的特定信息。数学形态学最初做为分析几何形状和结构的数学方法，后来用它从图像中提取有利于表达和描述区域形状的图像分量，如边界、骨架和凸壳等，称为分析图像几何特征的工具。现在，数学形态学可以用来解决抑制噪声、特征提取、边缘检测、图像分割、形态识别、纹理分析、图像恢复与重建、图像压缩等图像处理的问题。 2.3.1 基本思想数学形态学的基本思想是用具有一定形态的结构元素去度量和提取图像中对应形状以达到对图像分析和识别的目的。数学形态学的数学基础和所用语言是集合论。数学形态学的应用可以简化图像数据，保持它们基本的形状特性，并除去不相干的结构[5]。数学形态学运算主要用于如下几个目的[6]： (1) 图像预处理（去噪声、简化形状）； (2) 增强物体结构（抽取骨骼、细化、粗化、凸包、物体标记）； (3) 从背景中分割物体； (4) 物体量化描述（面积、周长、投影、Euler-Poincare特征）。 2.3.2 基本运算数学形态学的基本运算方式是指导数学形态学进行运算处理的基本方法，由一组形态学的代数运算子组成的，它的基本运算主要有4个：膨胀、腐蚀、开闭运算和轮廓提取。基本图像形态结构运算有膨胀与腐蚀。设A为图像集合，B为结构元素，数学形态学运算是用B对A进行操作。结构元素本身也是一个图像集合，对每个结构元素，指定一个原点，它是结构元素参与形态学运算的参考点。在形态学中，结构元素是最重要和最基本的概念。结构元素在形态变换中的作用相当于信号处理的“滤波窗口”。 (1) 膨胀膨胀有几种不同的定义形式，通常其运算符用表示，比如：A用B来膨胀写作，最直观的定义形式如下：（2.1）其中表示为集合B的映射。上式表明用B膨胀A的过程：先对B做关于原点的映射，再将其映像平移x，这里A与B映像的交集不为空集。即是B来膨胀A得到的集合是的位移与A至少有1个非零元素相交时B的原点位置的集合。膨胀运算在数学形态学中的作用是修复原属于一个整体的分开的若干个像素点集合，即把图像周围的背景点合并到物体中。如果两个物体之间距离比较近，那么膨胀运算可能会使这两个物体连通在一起，它可以用来填补物体中的空洞。例如，一个物体显示在二值图像上可能受到噪声等干扰，使得物体本身像素值为1的点相互分散又靠得很近，那么膨胀运算可能会使这些像素点连通在一起，最终获得完整的物体。膨胀的结构单元B可以根据需要进行定义。 (2) 腐蚀在数学形态学实际应用过程中，腐蚀的运算符用来表示。比如：A用B来腐蚀，就写作。其概念常定义为：（2.2）上式表明对每一个像素，以该像素点为原点的腐蚀结构B完全属于A，则该像素属于腐蚀结果的像素集合。即是用B来腐蚀A得到的集合是B完全包括在A中时B的原点位置的集合。腐蚀是一种消除所有边界点，使边界向内部收缩的过程，可以用来消除小且无意义的物体。 (3) 开闭运算开闭运算是膨胀和腐蚀两种基本操作按不同顺序的组合。先腐蚀后膨胀的过程为开运算，先膨胀后腐蚀的过程为闭运算。集合A被结构元素B做开运算，记为AB。换句话说，A被B开运算就是A被B腐蚀后的结果再被B膨胀。其定义为：（2.3）开运算一般具有消除细小的突出、削弱狭窄的部分、在纤细点处分离物体、平滑图像轮廓时又不明显改变其面积的作用。集合A被结构元素B作闭运算，记为AB。即A被B作闭运算就是A被B膨胀后的结果再被B腐蚀。其定义为：（2.4）闭运算也是平滑图像的轮廓，但与开运算相反，它具有填充物体内细小空洞、连接邻近物体、在不明显改变物体面积的情况下平滑其边界的作用。开运算和闭运算具有等幂性，即重复一次与多次没有区别。通常，由于噪声的影响，图像在阈值化后所得到的边界往往是很不平滑的，物体区域具有一些噪声孔，背景区域上散布着一些小的噪声物体，连续的开运算和闭运算可以有效的改善这种情况。 (4) 轮廓提取物体的轮廓就是边界点组成的集合，使用腐蚀操作处理后，物体所有边界点就消除了。设图像集合的边界为edge (A)，先用一个结构元素B腐蚀A，再求取腐蚀结果和A差集就可得到edge (A)，则轮廓提取通过下式得到：（2.5）第三章运动目标的检测 3.1 引言运动目标检测（Moving-Objectives Detecting, MOD）是指将图像序列中发生变化的区域从背景中分割出来。MOD的基本任务是判断图像序列中是否存在运动目标，并确定运动目标的位置。MOD处于整个视频监视系统的最底层，是各种后续高级应用如目标跟踪、目标分类、目标行为识别和理解等的基础。因此MOD成为视频监控系统研究中最重要的课题，也是阴影去除算法研究的基础。 3.2 运动目标检测算法概述运动目标检测是整个智能视频监控系统的第一部分，其目的是将运动目标(如车辆，行人等)从图像中提取出来，检测效果的好坏直接关系到后续步骤，而且也关系到整个系统的优劣和实用性。运动目标的检测常常受到光线变化、背景变化以及其它背景运动物体等因素的影响，因此选用一种稳定并可靠的检测方法尤为重要。目前常用的运动检测方法有光流法、相邻帧差法、背景差分法。 3.2.1 光流法光流是空间运动物体在观测成像面上的像素运动的瞬时速度。光流的研究是利用图像序列中的像素强度数据的时域变化和相关性来确定各自像素位置的“运动”，即研究图像灰度在时间上的变化与景象中物体结构及其运动的关系。一般情况下，光流由相机运动、场景中目标运动或两者的共同运动产生。对于视频监控系统来说，所用的图像基本都是摄像机静止状态下摄取得，所以对有实时性和准确性要求的系统来说，纯粹使用光流法来检测运动目标不太实际。更多的是利用光流法与其它方法综合之后来实现对运动目标检测。 3.2.2 相邻帧差法相邻帧差法即图像序列差分法，它利用两帧图像亮度差的绝对值来分析视频和图像序列的运动特性，确定图像序列中是否有物体运动。这是一种直接简单的运动检测方法。其基本思想：如果一幅图像的某一位置物体发生变化，那么对应位置的灰度也将发生变化；而物体没有发生变化的部分，其灰度则不发生变化或变化很小。因此该方法只需比较图像序列中相邻两幅图像的对应像素灰度的差别。相邻帧差法的优点就是相邻两帧的时间间隔很短，用前一帧图像作为后一帧图像的背景模型具备较好的实时性，而且其背景不积累、更新速度快、算法计算量小。其缺点是阈值选择相当关键，阈值过低，则不足以抑制背景噪声，容易将其误检测为运动目标；阈值过高，则容易漏检，将有用的运动信息忽略掉了。另外，当运动目标面积较大，颜色一致时，容易在目标内部产生空洞，无法完整地提取运动目标。因此，相邻帧差法不能完全提取所有相关的特征像素点，得到的检测结果不够精确，在运动目标内部产生的空洞不利于进一步的目标跟踪等。 3.2.3 背景差法背景差法相对于相邻帧差法和光流法来说简单且易于实现，是一种有效的运动目标检测算法，是固定摄像机对固定场景进行视频监控时检测运动目标最常用的方法。它的本质思想是利用当前图像与背景图像进行比较，选择区别较大的像素区域作为运动目标；而区别较小的像素区域则被认为是背景区域。背景差法必须要有背景图像，并且背景图像要随着光照和外部环境的变化而实时更新，因此背景差法关键是背景建模及其更新。传统的背景差算法包括二大步骤： (1) 确定背景模型，并建立背景图像。最简单的背景模型是时间平均图像。在背景图像的初始化算法中，求取一段较长的时间段内，视频序列图像每一像素的平均色彩值，作为初始的背景估计图像。 (2) 在像素模式下，用当前图像减去已知背景图像来得到差分图像。如果定义图像序列为I(x，y，i)，其中x，y代表空间坐标，i表示帧数，i=(1...N)，N为视频序列总数。背景图像为B(x，y)，则差分图像可以表示为（3.1） (3) 对差分图像做二值化处理,得到运动区域：（3.2）其中，p为差分图像中的任何一点，T为阈值。如果M(xp，yp，i)=1，则表示象素点p在第i帧属于运动区域(前景区域)；如果M(xp，yp，i)=0，则表示象素点p在第i帧属于背景区域。这种固定背景算法是假定背景在相当长的一段时间内是不会发生变化的，然后以此为基础求解运动区域。事实上，即使是室内环境，也存在光线等各种变化所造成的干扰，所以固定背景的方法存在很大的局限性。通常的解决办法是系统需要时常对背景重新初始化，以防止错误随着时间不停地积累造成背景的失效。因此，作为固定背景，它只适用于变化较小的短期的跟踪问题。 3.3 基于RGB颜色空间的混合高斯模型在静止摄像机条件下，运动目标检测的关键是背景图像的描述模型即背景模型，它是背景差方法分割前景目标的基础。背景模型分为单模态和多模态两种。前者在每个背景点上的颜色分布是比较集中的，可以用单个概率分布模型来描述（即只有一个模态）；后者的分布则比较分散的，需要多个分布模型来共同描述（即具有多个模态）。自然界中许多的景物和很多的人造物体，如水面的波纹、飘扬的旗帜、摇摆的树枝等，都呈现出多模态特性，可以利用混合高斯分布（正态分布）对背景建模，再进行背景差提取运动目标。这种基于混合高斯模型算法（MoG算法）的运动目标检测算法即继承了大多背景差算法简单易于实现的特点，同时对背景中每个像素建立统计模型，进行学习和更新，完全可以克服多模态的问题，获得比较准确实时的背景，从而有效进行运动目标前景的提取[6]。 3.3.1背景模型的建立如果背景是完全静止的，背景图像的每个像素点，可以用一个高斯分布来描述。但背景场景往往不是绝对静止的，例如由于树枝的摇摆运动，背景图像上的某一像素点在某一时刻可能是树叶，可能是树枝，也可能是天空，每一种状态的像素点颜色值都是不同的。所以，用一个高斯模型来描述背景并不能反映实际背景。因此，对每个像素点用多个高斯模型混合表示。设t时刻，图像中像素点(i, j)的观察值可写为Xt，则可以认为Xt是一个随机过程，并且假设任意两个像素点之间统计独立，则X(i, j)的特征向量在RGB颜色空间为：（3.3）其中，t时刻，像素的近期彩色历史可以由K个高斯分布模型的混合去模拟描述这个随机过程。K值的选取一般由计算能力和内存来决定，K值越大，模型虽然能体现越复杂的场景，但同时计算量也将大幅增加，消耗更多的计算时间。考虑到计算速度的快慢，一般情况下取3~5个。在当前时刻t点(i, j)的概率分布可用下面的公式来表示：（3.4）（3.5）其中，ωij,k,t是t时刻第k个混合高斯分布的权值，μij,k,t、Σij,k,t分别为第k个高斯分布的均值和方差，η是高斯概率密度函数。当采用RGB颜色空间进行建模时，认为R、G、B三个通道的分量值是相互独立且具有相同的方差，则μij,k,t、Σij,k,t可写成如下形式：（3.6）（3.7）各高斯分布按照优先级高低排列，优先级qk计算如下：（3.8） 3.3.2 背景模型的更新由于周围环境的变化，如光照、风强度等，已经建立好的背景模型可能不再适应变化过之后的环境。为了增强背景模型的适应性，需要根据实际的情况，对背景模型进行实时地更新。背景模型的更新就是指不断利用新的当前时刻视频图像更新背景图像，使背景实时准确反应真实的监控场景。更新方法的思想是对于图像给定点的最新值Xt，与K个高斯分布分别进行匹配，如果有某个高斯分布ηk与它匹配，则用当前值Xt去更新这个ηk的各项参数；如果没有任何一项分布ηk与它匹配，就用一个代表当前值Xt的新的分布去代替现有混合高斯分布中的一个分布项。 (1) 如果Xt服从某个高斯分布，则用当前值Xt去更新这个高斯分布ηk的均值μ、方差σ和权值ωk,t。匹配的方法是把高斯分布ηk按权值与方差之比ω/σ从大到小排列，然后选择Xt与均值μj,t-1,k足够接近的第一个高斯分布作为匹配的高斯分布，即Xt满足下列判别式：（3.9）其中，一般情况下λ取为2.5，上式表示Xt服从第j个高斯分布(1＜j＜K)。然后按以下等式对该高斯分布ηk的均值μ、方差σ和权值ωk,t进行更新：（3.10）（3.11）（3.12）（3.13）其中，α为模型分布学习速率，0≤α≤1。对于匹配的模型Mk,j=1，其余的模型（不匹配的分布）为0。经过更新后，权值的总和保持不变，仍然为1。1/α为表示变化快慢的时间常数，α越小，权值更新的越慢，时间常数越大；α越大，权值更新的越快，时间常数越小，混合高斯模型中主高斯分布对背景适应性越好，更有利于背景模型的更新，但对于内部颜色比较一致的运动目标，则目标的运动方向后半部分容易检测为背景（因为前半部分可能已经更新为背景了），这样就造成了目标的漏检。β为调整当前分布的学习速率，当前值匹配分布的程度越好，β越大，参数调整（学习）的越快，但β太大的话也会引起前面目标漏检。 (2) 如果在K个分布中没有找到与当前像素匹配的高斯分布，那么可能性最小的高斯分布将被新的高斯分布所替代。新的高斯分布的均值为当前的像素值Xt，具有较大的方差和较小的权值。这种方法的一个显著优点：当某些值被归为到背景时，现存的背景模型并没有被破坏，原来的背景颜色一直存在于混合模型中直到被新的背景颜色所取代。因此，当一个物体刚刚静止下来后一段足够长的时间内使其被归为到背景中就开始运动，由于描述以前背景的分布仍然存在于混合模型中，只是可能性较低，这样的话，以前的背景就会很快就能恢复回来。 3.3.3 运动目标的检测与提取由于有噪声的影响，背景图像库中某些图像的有些像素点并不能真正地代表背景，用这类像素建立的高斯分布模型是应该被去除。场景中像素值是属于前景还是属于背景可以通过分析混合高斯模型中相应的权值和方差得出：一般来说，我们可以认为运动中物体的模型会保持较大的方差，静止的时候会比较小。在每一时间里，选择每一点的混合高斯模型中的一个或多个高斯分布作为背景模型，其它的则作为前景模型。用每一点的当前值和此点混合模型中的背景模型进行匹配，如果不匹配，则作为前景。为了判定Xt是属于前景像素还是背景像素，首先根据每个模型的ω/σ值来给模型排序，比值越大，表示具有较大的ω和较小的σ，因此排序越前的高斯分布，越能描述背景模型。所以，我们选择排在前面的N个高斯代表背景模型，作为背景模型的估计，如下式：（3.14）其中，T为预先定义的阈值，它表示背景的分布权值的和在整体中所占的最小比例，一般根据经验可取T=0.3。N是能达到这一比例的“最好”的高斯分布的数量，即前面N个最可能的分布。如果T值设置的比较小，那么背景就变成了单模的，就是个单个高斯分布的背景模型，用最可能的那个分布表示背景可以节省计算量。如果T值取的比较大，那么混合模型就可以容纳重复运动的背景导致的多种背景颜色。 MoG算法对多模态背景有良好的适应能力，能够准确地判断出高频振动的背景，并且具有极强的鲁棒性。该算法的特点是每个高斯分布不仅带有权值，而且具有优先级，像素点与某个高斯模型相匹配后，就将该匹配的高斯分布的参数进行更新，权值进行提高，而其它高斯分布的权值则相应地降低，每次对参数与权值进行更新之后，对每个高斯分布再重新计算优先级和进行排序。第四章阴影的去除 4.1 引言根据上一章所讨论的背景模型的建立，可以通过背景差分法得到包含运动区域的前景二值图，该二值图去除了当前图像中的背景像素，仅留下了变化像素。但在变化像素

展开阅读全文