学位论文—疲劳驾驶实时监测系统的研究与实现.doc

资源描述

疲劳驾驶实时监测系统的研究与实现背景在智能化技术迅猛发展的今天，汽车驾驶也在朝着智能化、安全化的方向发展，对驾驶员疲劳状态的检测是汽车智能辅助驾驶的关键技术。本课题主要实现驾驶员脸部状态的监测、跟踪及疲劳的判定，为安全驾驶车辆提供保障。人脸是区别人的重要部分之一，在日常生活中，人类对人的识别主要是依靠人脸，通过人脸人们可以得到很多信息，如年龄、性别、情感等等。通过识别人脸特征点，人类可以很轻松的判断一个人是否处于疲劳状态。即使在不同角度、不同光照、不同远近、甚至人脸的部分被遮挡，如佩戴眼镜等条件下仍能对人脸做出正确迅速的识别。据一般估计，人在一生中大概可以记住上千个人脸。由于人脸在日常生活中的特殊作用，对人脸的研究一直是学者们研究的焦点，近年来，微电子技术的迅猛发展给人脸研究注入了新的活力，人们正试图摆脱计算机，将人脸识别引入到日益小型化的嵌入式系统中。疲劳驾驶是造成交通事故的主要原因之一。据美国国家高速公路交通安全部（NHTSA）报告，2000年美国国内仅由于驾驶员注意力不集中、疲劳、缺少睡眠等原因造成的死亡约有4700人。驾驶员疲劳或困倦状态是1979～1994年间法国高速公路上30%交通事故的起因。据我国公安部提供的资料显示，2002 年1月至11月全国道路运输行业共发生了一次死亡30人以下、10人以上的重大道路交通事故27起。在这27 起重大交通事故中，有19起的直接或间接诱发因素是疲劳驾驶。表1.1是近年来我国道路交通事故发生的统计数据。表1.1 我国道路交通事故统计表　年份事故次数直接损失（亿元）死亡人数受伤人数 10万人口死亡率 2000 616971 26.7 83853 418721 7.3 2001 754919 30.9 105930 546485 8.5 2002 773137 33.2 109381 562116 13.7 2003 667507 33.7 104372 494174 10.8 2004 517889 23.9 107077 480864 9.9 2005 450254 18.8 98738 469911 7.6 由于超长时间驾驶、夜间驾驶、或缺少睡眠等原因，驾驶员在驾驶时会出现疲劳或困倦的状态。驾驶员疲劳是生理疲劳和心理疲劳的混合因素造成的，一般包括以下特征：注意力不集中、睡意、打哈欠、反应慢、眼睛酸痛或疲劳、厌烦感、有要发怒的感觉、旋转方向盘的次数减少且角度变大、看不见路标、在车道内驾驶有困难，以及微睡眠等[4]。图1.1描述了疲劳有可能导致错误的驾驶行为。医学专家指出，疲劳不但会影响驾驶员的反应速度、判断和视觉，也会影响他的警觉性和对问题的处理能力。特别是疲劳而产生的三分之二秒左右的“微睡眠”期增多，是交通事故发生的重要诱因[5]。目前，大多数驾驶员对疲劳驾驶的潜在危害还缺乏认识，由于缺乏类似“血液酒精含量检测仪”之类的仪器对驾驶员疲劳状态进行检测，交通管理部门还无法认定司机是否存在疲劳驾驶。交通事故发生后，现有的交通管理法规只是针对事故本身进行处罚，而对疲劳驾驶则缺乏相关的处罚措施。图1.1　疲劳驾驶导致错误的驾驶行为如何有效监测驾驶员的疲劳状态，并在其出现睡意时给予警告或提醒其停车休息已成为众多研究者关注的研究方向。对驾驶员疲劳程度检测的研究，属于智能交通领域，是智能辅助驾驶的一项关键技术。作为主动预防交通事故的一项措施，应用驾驶员疲劳监测系统，可以在一定程度上减少交通事故的发生，减少交通事故带来的危害，使驾驶员驾驶和公众出行更安全，具有重要的社会意义和经济价值。一般而言，对于驾驶员疲劳监测系统应满足以下基本要求： 1、友好性，不侵入驾驶员的身体，不影响驾驶员的注意力，使驾驶员易于接受； 2、实时性，交通工具一般有较高的行驶速度，监测系统必须快速检测出驾驶员的疲劳状态，并及时发出警告才可能避免交通事故发生； 3、可靠性，具有高准确率和低虚警率的系统才能达到提高驾驶安全性的目的； 4、鲁棒性，监测系统必须适应各种工作环境和条件，并具有全天候工作的性能。国内外研究现状　疲劳检测方法的分类目前的研究学者对于驾驶员疲劳检测方法，大致分为以下三类：（1）基于驾驶员行为特征的检测方法：如眼皮的运动、头部运动、眼睛开闭、呼吸状况、凝视方向、手握方向盘用力的大小、旋转方向盘的角度变化等。（2）基于驾驶员生理参数的检测方法：如脑电图、心电图、肌肉活动情况等。该类方法能较精确检测出驾驶员出现的睡意状态，但是驾驶员需要配戴有电极的头盔等设备，因此有接触、侵入式的不足。（3）基于交通工具行为特征的检测方法：如车速、车辆行驶的轨迹是否偏离车道等。该种方法的优点是非接触，缺点是这些参数与交通状况及车辆的类型有关，难于制定一个统一的标准。基于驾驶员行为特征的方法，尤其是检测眼睛状态，由于其检测直接、非侵入性、与驾驶员的生理参数的变化具有一致性、可接受性强等特点，是多数研究者广泛采用的方法。国内外研究概况驾驶员疲劳检测技术作为智能交通系统(ITS)的智能安全辅助驾驶技术的一部分，国外发达国家对该项技术的研究非常重视，资助了一系列的研究课题，并开发出了应用的产品，建立了相应的技术标准。随着研究的深入，驾驶员疲劳检测的方法有很大的发展，其中最有代表性的有基于生理信号的检测方法，基于身体反应的检测方法，基于操控行为的检测方法，基于汽车行为的检测方法，基于行驶条件的检测方法等，表1.2Error! Reference source not found.对这几种方法的准确性和实用性做了一个比较。表1.2 疲劳检测技术检测技术　描述准确性实用性基于生理信号的检测方法主要检测脑电波、眨眼频率、心率、脉搏频率以及皮肤电压等变化好较差基于身体反应的检测方法主要检测驾驶员头部倾斜度、身体姿势的下垂度、眼睛闭合的频率、驾驶员掌控方向盘的力度等变化很好好基于操控行为的检测方法检测各种控制器（如：方向盘、加速器、刹车踏板、档位等）的变换好很好基于汽车行为的检测方法检测汽车本身的行为（如：速度、侧向加速度、偏行速率、侧向位移等）的变化好很好基于驾驶员反应的检测方法定时检查驾驶员的反应好很差基于行驶条件的检测方法检测行驶时间及行驶条件（如：白天或者晚上、行驶速度等）很差好（1）卡内基梅隆大学机器人研究所的Copilot系统 Copilot系统采用PERCLOS衡量睁眼和闭眼状态。PERCLOS(Percentage of Eyelid Closure Over the Pupil Over Time)定义眼睛被眼皮遮挡的百分比，对眨眼的测量是根据超过80%的眼睛被遮挡超过特定的时间间隔。Copilot系统的硬件设备如图1.2所示，它采用红外照明，根据眼睛对红外光反射在图像中的光点效应，以及视网膜对不同波长红外光的反射率不同，分别用两个CCD摄像机采集波长为850nm和900nm红外光照明的图像，同时获得两幅图像，根据这两幅图像的差图像，得到眼睛的位置，并分析眼球的大小，从而得到驾驶员的眼睛睁开程度，该方法可去除眼镜的影响。图1.2　CMU-RI的Copilot系统（2）内华达大学(University of Nevada)计算机视觉和机器人实验室该实验室采用特殊的硬件设备，如图1.3，在连续的两帧图像中，分别用两种不同波长的红外光照明，根据连续的两帧图像，检测出眨眼、眼睛凝视方向和头部运动等与疲劳相关的线索，最后用动态贝叶斯网络(DBN)融合这些线索并做出决策。图1.3 采用的特殊红外光源结构示意图（3）Awake项目 Awake项目采用多线索融合的方法，包括在红外照明下检测眼皮的状态，检测手握方向盘用力的变化，以及旋转方向盘的角度变化等线索。当检测出驾驶员疲劳时，可通过安装在座位上的振动装置提示驾驶员。该系统选用重型卡车、城市车等多种实验平台，图1.4为Awake项目的重型卡车实验平台。图1.4　Awake项目的重型卡车实验平台（4）Mitsubishi公司的ASV2 图1.5为Mitsubishi公司的先进安全车ASV2的内部情况。其中方向盘前方是监测驾驶员疲劳状态的摄像机，通过红外照明的摄像机监视眼睛的状态，在驾驶员出现疲劳状态时，通过声音和文字显示等方法提示驾驶员。图2.5　Mitsubishi的ASV2先进安全车内部设备图国内对于驾驶员疲劳驾驶造成的交通事故的严重危害已经有所关注，但对于检测驾驶员疲劳的研究还相对较少。目前国内在驾驶员疲劳检测方面的研究有： 1、郭克友等将驾驶员眼部状态分为精神饱满、精神萎靡、打瞌睡三类，用基于Gabor小波的驾驶员眼睑特征来分析驾驶员的疲劳状态。 2、周玉彬等采用头戴式摄像机采集驾驶员眼部图像来分析其眨眼状态，采用头戴式摄像机使眼睛区域容易从图像中分割出来，但由于接触式、侵入式的缺点使其应用受到限制。 3、王铁生等采用PC机搭配CCD的方案实时采集驾驶员正面图像并分析其疲劳状态，已经具有了非接触式、友好性等特点，但PC机的体积和电源等因素限制了其仍然不能作为车载疲劳监测系统。 4、吉林大学王荣本等用基于视觉的方法,通过检测眼睛的开合状态来检测疲劳, 出发点与明尼苏达大学(美)Papaniko lopoulos的方法一致,但是与二者不同的是, 对眼睛的跟踪与眼睛开、合识别方法上, Papaniko lopoulos用模板匹配的方法, 而王荣本等提出了用BP网络对眼睛开、合状态进行分类, 分类准确率达85%。 5．合肥工业大学在分析了已有的疲劳检测算法的基础上，针对基于驾驶员疲劳检测的难点及DSP芯片的特点，研究检测驾驶员脸部与脸部特征点的算法。根据驾驶员眨眼频率和持续驾驶时间等疲劳数据，检测疲劳状态，系统在判断驾驶员有睡意时给予报警提示。课题工作的难点及重点基于视频分析的方法，由于非接触、非侵入、易于使驾驶员接受、检测方法直接、安装灵活方便等优点而得到研究者的关注。国内外大部分研究者都采用了基于视频的检测方法或将视觉线索作为检测的一个重要方面。研究基于视频分析的方法主要需要解决以下问题：（1）光线影响由于天气的变化，不同时刻光线的变化以及道路两边树木或建筑物的阴影等的影响，会使采集到的驾驶员面部图像出现光照明暗变化，光照不均匀、强阴影、强光照等，从而影响到检测效果。（2）背景变化由于交通工具的运动，使采集的驾驶员视频图像处于动态背景中。变化的背景使得诸如背景减法、帧差法等算法不再适用于本系统，给驾驶员图像分割带来了一定的困难。（3）疲劳检测算法由于道路状况、交通工具的运动给采集原始图像的稳定性带来了困难，可能会造成图像模糊，给判断疲劳带来一定的困难。同时，由于驾驶员本身头部运动也给疲劳检测带来了一定的困难。（4）实时性疲劳监测系统本身应该满足实时性的要求才能在驾驶员出现疲劳时及时发出警报，从而达到避免交通事故的目的。（5）准确性疲劳监测系统需要具有高检测率和低虚警率的特点才能满足实际应用的要求。系统框架 2.1 系统基本结构本系统中，疲劳监测的基本框架如图2.1所示：图2.1　疲劳监测系统整体框图系统主要由图像采集、图像处理和图像输出模块构成。基本的工作原理是：先由CCD采集连续的模拟信号，并经过图像采集模块中的A/D转换，变成数字图像信号，然后再由图像处理模块对数字图像信号进行运算处理，主要包括图像的预处理、图像分割、人脸特征提取、识别等算法的实现，并通过输出模块显示结果及报警等。本文主要是研究在DSP上实现的工作。 2.2 硬件结构疲劳监测系统的硬件设备由三块电路板组成：CCD摄像头板，DSP系统板，音视频压缩板。CCD摄像头板带1/3寸CCD，输出标准视频信号（PAL制式）。DSP系统板包括DSP系统电路、存储器扩展电路、CPLD译码电路、网络通信接口电路。音视频压缩板包括视频采集电路、音频编解码电路、异步串行通信电路、电源模块。疲劳监测系统的外部接口有5个： 12V电源输入接口，音频输入输出接口，报警输出接口，串行通信接口，网络通信接口。 CCD摄像头板采用SONY 1/3寸CCD，输出420线PAL制视频信号，具有自动光圈调节功能。 DSP系统电路包括DSP配置、时钟、存储器扩展等电路，DSP系统是控制核心，主要完成驾驶员面部识别、疲劳判决、H.264视频编码、网络传输控制等任务。网络接口部分由以太网控制器LXT971组成，提供10/100M自适应以太网接口。 CPLD译码电路为FLASH提供分页和片选信号，为UART的两个通道提供片选信号，为ESAM模块提供数据的输入输出通道和复位信号。视频解码器SAA7115对PAL模拟视频信号数字化，将其转换为4：2：0或4：2：2的数字视频信号。异步串行接口芯片为TL16C550C,提供RS-485接口，用来控制云台（解码器）或其它配套监控设备。电源模块输入为12V，其中12V给CCD摄像头供电，12V经过处理、降压后得到5V、3.3V、1.4V给DSP和其它电路供电。疲劳监测系统的硬件原理如图2.2所示：图2.2　疲劳监测系统硬件组成原理框图 2.3 软件结构如上一节所介绍的，DSP在接收到采集的原始图像后，将调用疲劳检测程序进行处理。采用了由粗到精的策略检测人脸的特征，由于没有红外照明的“亮点”效应，在整幅图像中直接检测眼睛特征难度较大，所以本系统中，先检测出驾驶员脸部区域，然后在脸部区域中分析眼睛特征，并根据驾驶员面部运动的特点，采用了基于Kalman滤波的人脸跟踪方法，进一步提高了驾驶员脸部区域的检测速度。最后根据检测出来的眼睛闭合时间和眨眼频率等线索判断驾驶员疲劳状态。当连续多帧不能正常检测出眼睛的状态时，系统能够自动重新初始化，开始新的检测周期。图2.3　疲劳监测系统软件结构图疲劳检测模块是本文研究的主要内容，包括以下四个步骤： ① 对采集的图像进行预处理，包括光照补偿、中值滤波等； ② 对补偿后的图像通过肤色特征检测、去除假脸、定位人脸，并采用卡尔曼滤波预测跟踪； ③ 通过人眼检测算法得到眼睛的睁闭程度，计算眼睛状态特征，包括眼睛闭合时间，眨眼频率和PERCLOS等，并对比各参数与疲劳的相关关系； ④ 若判断为疲劳状态，传出相应报警消息进行相应操作，并处理下一帧图像。 2.4 基于DSP疲劳监测系统框架的优势现阶段，视频采集的疲劳监测系统按照处理器不同大致可分为三类[19]： ①　基于专用视频图像芯片的视频采集处理系统； ②　基于PC机的视频采集处理系统； ③　基于DSP的视频采集处理系统。基于专用视频图像芯片的视频采集处理系统其核心处理单元为专用图像芯片，该图像芯片决定系统的功能，其应用主要是针对某一类产品，如数码摄像机等，所以具有一定的局限性。而基于PC机的视频采集处理系统最为普遍的就是基于视频采集卡获取数字化视频信息，通过运行相应的PC程序实现视频的采集、图像的处理与显示，但是目前基于PC的处理系统由于体积和电源供电的限制，很难做成嵌入式系统。相比基于专用视频图像芯片和基于PC的视频采集系统而言，嵌入式视频采集系统可完成视频的实时采集、传输以及各种视频压缩算法和图像处理算法的实现，根据不同的应用，可以编制不同的图像处理程序，所以具有更大的灵活性，并且设计与实现简单，硬件一般采用通用的设计，即“CCD+视频信号处理芯片+FPGA/CPLD+DSP”的模式实现。同时TMS320DM642有自己的图像处理库函数，可以实现各类图像处理算法。因此，该系统具有更大的灵活性与通用性。 - 52 - 人脸检测及跟踪 3.1 引言驾驶员脸部区域的检测及定位是分析驾驶员疲劳状态的基础，只有在检测出驾驶员脸部区域的基础上才能够分析脸部与驾驶员疲劳相关的特征，从而判断是否为疲劳状态。本章主要研究驾驶员脸部区域的检测及跟踪方法。人脸检测是后续工作的基础，在人机交互、视觉监控等领域有着广泛的应用。由于个体差异，再加上人脸是非刚性物体(姿态、表情、饰物等因素)以及成像设备本身的误差所带来的影响，使得人脸检测长期以来成为图像处理中较难的课题。文献[20]将目前的人脸检测方法划分为基于知识的方法，特征不变的方法，模板匹配的方法和基于外观的方法。文献[21]总结了最新的人脸检测的进展，指出Viola-Jones方法[22,23]是人脸检测中较快的方法。文献[24]分析了人脸检测问题的分类、特征提取与特征综合、性能评价等，将人脸检测方法划分为基于知识的人脸验证方法和基于统计学习的方法，并指出统计学习方法优于启发式验证方法。中科院计算所的面像识别实验室做了大量工作[25,26]，研制的“面像检测与识别核心技术”，己经应用于十六大会场，并取得良好效果。肤色信息是人脸的一个重要特征信息，该信息不受面部表情、角度等细节的影响，具有很高的稳定性，而且肤色能够与大部分的背景颜色相区别，此外肤色检测的运算量较低，执行效率高，因此用肤色信息来实现人脸检测和定位具有很高的鲁棒性和实用性。本章首先简要介绍了彩色图像的预处理，详细研究了基于肤色信息的人脸检测，并且研究了基于Kalman滤波的驾驶员面部跟踪。 3.2 彩色图像预处理在图像处理过程中，由于受到客观因素如光照、环境的影响，输入图像可能出现亮度过高、过低，或者噪声过大的情况，使得图像的质量不是很理想。如果不对图像进行预处理将会对以后的工作造成很大的影响，它是后续检测成功的基础，因此必须经过一些预处理才能进行进一步处理。 3.2.1 光照补偿由于受外界光照，尤其是光源颜色的影响，采集来的彩色图像会发生彩色偏移，直接用肤色模型来检测肤色，会出现偏差。另外，由于物体表面存在镜面反射或界面反射，物体常常会产生高光，高光部分常对应图像中的高亮度区域，该区域容易有彩色偏移[27]。为了抵消这种色彩偏差，我们将整幅图像中所有像素的亮度从高到低排列，取前5%的像素，如果这些像素的数目足够多（＞100），我们就将它们的亮度作为“参考白”，即将色彩RGB分量都调整为最大的255。整幅图像的其他像素点的色彩值按这一调整尺度进行变换。 3.3 人脸检测 3.3.1 肤色聚类特性人体肤色具有特殊的分布。人体肤色的RGB值聚集在很小的一块空间里，满足一定的分布规律，图3.1和图3.2描述了一个典型的肤色分布。　　　　　　　图3.1　单人脸彩色图像　　　　　　　　图3.2　单肤色分布但是，由于人种、光照、摄像设备参数等变化，不同的人或者同一个人的不同照片肤色分布会发生变化，图3.3为一个黄种人的肤色和一个白种人在不同光照下的肤色。图3.4为这几个肤色区域在RGB空间的分布。我们可以明显的看出其有三个分布核心。　　　　　　图3.3　多人脸彩色图像　　　　　　　　　图3.4　多肤色分布图人脸皮肤颜色在其他的肤色度空间中也表现出类似的聚类特性。关于肤色模型的理论，在人脸识别中早已被广泛使用[28-33]。使用何种形式的肤色模型都与色度空间的选择有密切关系，可以从两个方面考查某种色度空间：一是在该色度空间中能否用给定的模型来描述“肤色”区域的分布；二是色度空间中“肤色”和“非肤色”区域的重叠有多少。常用的描述肤色分布的模型有单一高斯模型、混合高斯模型，它们是通过将三维人脸肤色空间归一化到二维子平面后，利用样本训练高斯模型参数，并以此参数为参考，判断当前像素点是否为肤色像素点，除此之外还有直接利用几何参数描述肤色区域分布范围的模型以及基于神经网络的肤色模型等。Terrillon等[34]考查了９种不同的色度空间，比较了高斯模型和混合高斯模型在不同色度空间中的性能，发现除了少数情况外，一般需要使用混合高斯模型才能较好的描述肤色区域的分布。此外，Terrillon等还发现归一化的r-g空间并不是基于肤色人脸检测的最好选择，相反地，他们发现HSI(H色调、S饱和度、I亮度)在单一高斯模型和混合高斯模型中都能获得很好的描述。我们在上面的分析时描述过人脸肤色在某一色度空间中具有聚类特性，这一聚类特性就体现在色彩的本质上，当然又受到光照明暗的条件的影响。而光照明暗给物体颜色带来的直接影响即是亮度分量，所以若能将亮度分量从色彩中提取出去，而只用反映色彩本质特性的色度、饱和度来进行聚类分析，会获得比较好的效果。在本文中并没有采用HSI色彩格式而是采用YCbCr色彩格式，这种色彩空间是以演播室质量标准为目标的CCIR601编码方案中采用的彩色表示模型，被广泛的应用在电视显示等领域中，也是许多视频压缩编码，如MPEG、JPEG等标准中普遍采用的颜色表示格式。它同样具有HSI格式中将亮度分量分离的优点，YCbCr色彩格式可以直接由RGB色彩格式通过线性变换得到，然而其亮度分量Y并不是完全独立于色度信息而存在，肤色的聚类区域也是随Y的不同而呈现非线性变化的趋势。所以需要考虑Y值不同造成的影响，对YCbCr色彩格式进行非线性分段色彩变换，从而使肤色模型的鲁棒性大大提高。 3.3.2 非线性分段色彩变换非线性分段色彩变换[35]是建立肤色模型的关键技术所在，这一变换得到的肤色模型属于色彩空间中的聚类模型，这一模型的建立首先要选取一种合适的色彩空间，在此我们选用了YCbCr色彩空间。在YCbCr色彩空间中，其亮度分量Y并不是完全独立于色度信息而存在的，故肤色的聚类区域也是随着Y的不同而呈非线性变化的趋势。在Y值较大和较小的部分，肤色聚类区域随之缩减，即呈现两头尖的纺锤形状，如图3.5所示：　 Y-Cb肤色模型　 Y-Cr肤色模型图3.5　YCbCr肤色模型由此可见，在Y值不同的地方，Cb与Cr之间的关系是不定的，所以简单的排除Y分量，按照传统的做法在二维的Cb-Cr子平面中寻求肤色聚类区域效果肯定是不理想的，必须考虑Y值的不同造成的影响，从而对YCbCr色彩格式进行非线性分段色彩变换。经过变换后得到的颜色空间用YCb’Cr’来表示，两坐标空间的变换过程推导如下：（1）肤色区域的中轴线分别用和表示，可以得到两者的表达式为： (3-1) (3-2) 其中，和为常量，也就是非线性分段色彩变换的分段阈值，分别为：＝125，＝188。和也是常数，它们由实验数据得到，肤色聚类区域中Y分量的最小和最大值分别为：=16, =235。（2）我们将肤色区域的宽度分别用和来表示，这也是一个分段函数，其表达式为：　　 (3-3) 其中i代表b或r,、、和同(1)中的数据。、和也是常数，它们分别为： = 46.97, = 23, = 14 = 38.76, = 20, = 10 （3）最后，可以根据上面的结果得到如下的非线性分段色彩变换公式：　 (3-4) 经过这样的非线性分段色彩变换，我们的肤色先在YCb’Cr’空间中，然后投影到Cb-Cr二维子空间，就可以得到实用的肤色聚类模型，分布近似为一个椭圆形状[36]，如图3.6所示：　图3.6 变换后的肤色聚类分布 3.3.3 人脸区域检测及分割基于人脸肤色模型，采用了基于相似度的方法检测输入图像的肤色像素。定义:,。这样就把三维的RGB降为二维。在这个二维的平面上，肤色区域相对很集中，可以用高斯模型来描述这种分布，我们通过大量的实验数据得到这样一个分布，然后根据所考查的像素离该中心的远近来得到一个可以反映和肤色相似程度的值，从而得到一个原图的相似度分布图，然后再对该分布图二值化，以便最后确定肤色的区域。计算相似度公式为：其中m=E(x),, 在检测出肤色像素点后，进行人脸区域的分割，采用了将基于边界的方法和基于区域的方法相结合的算法：基于边界的算法主要用于前期初始矩形序列的产生，快速得到包含人脸区域的外接矩形；然后用基于区域的方法，对初始矩形序列进行区域合并，得到最终的输出矩形。区域分割算法主要流程如图3.7所示：图3.7　区域分割算法流程图图3.8是采用此方法求得的相似度图、二值化图及标志人脸区域的图。　　　 (a)原图　(b)相似度图 (c)二值化图　　　(d)标志人脸区域图3.8　人脸检测效果图 3.4 基于卡尔曼滤波的脸部区域预测与跟踪 3.4.1 引言如果是从采集的每一帧中检测驾驶员脸部区域，很显然会降低系统的实时性。根据视频图像的特点，利用相邻两帧图像的相关性，采用跟踪的方法可以明显的提高驾驶员脸部区域检测的速度。根据驾驶员行车时面部运动的特点，在连续两帧图像中人脸一般不会有显著的位置变化，即人脸的运动是线性的，因此可以采用基于Kalman滤波的跟踪方法从当前帧预测出下一帧中脸部的位置。本节首先介绍了Kalman滤波的方法[37,38,39,40]，然后研究了该方法在驾驶员脸部区域跟踪中的应用。 3.4.2 Kalman滤波方法 Kalman滤波器用一组递归的方法估计运动目标在下一帧图像中的位置以及位置预测的不确定性，从而可以自适应地确定在下一帧中的搜索窗口大小。Kalman滤波的方法包括状态模型和测量模型。 Ⅰ、状态模型 Kalman滤波器描述了由公式（3-5）的状态模型决定的一个离散时间控制过程中估计状态的基本问题。 (3-5) 其中，n维向量和分别表示当前和下一时刻的离散状态，矩阵表示状态转移矩阵，m维向量表示t时刻的输入，矩阵表示输入对状态的控制矩阵，表示噪声，假设服从零均值的高斯分布，协方差为Q，～N(0,Q)。 Ⅱ、测量模型测量向量()与状态向量的关系通过公式(3-6)所示的测量模型表示。 (3-6) 其中，是测量向量，矩阵是测量向量和状态向量的关系矩阵，随机向量表示测量噪声，假设是均值为零的高斯白噪声，协方差为R，～N(0,R)。给定，可以根据公式(3-5)估计t+1时刻的状态，将其记作，表示是根据系统模型估计的t+1时刻的状态，称为先验状态估计。是用系统模型和测量模型估计得到的，称为后验状态估计。设和分别是和对应的协方差矩阵，它们表示对先验状态和后验状态估计的不确定性。Kalman滤波的目标是在给定，，以及系统模型和状态模型的基础上，估计和。 3.4.3 Kalman滤波的状态预测和更新 Kalman滤波用反馈机制估计一个过程的状态。它用公式(3-5)的系统模型预测时刻t+1的状态，并用公式(3-6)表示的测量模型的反馈来校正预测的状态。Kalman滤波的方程可分为两组：一组是时间预测方程，另一组是测量更新方程。时间预测方程用来在时间方向上根据当前状态及其协方差得到下一时刻的先验估计。测量更新方程用来根据一个新的测量向量和已获得的先验估计得到下一时刻的后验估计。具体过程如下： Ⅰ、状态预测给定当前状态和它对应的协方差矩阵，以及当前的系统输入，状态预测包括两步：公式(3-7)表示的状态预测和公式(3-8)表示的误差方差估计。 (3-7) (3-8) Ⅱ、状态更新给定了先验估计和它对应的协方差矩阵，以及当前的测量向量，通过状态更新可以得到后验状态和对应的协方差矩阵。Kalman滤波通过检查余量-进行操作。首先要计算Kalman增益，如公式(3-9)所示： (3-9) 增益矩阵可理解为测量向量和预测的余量对后验状态估计的作用。然后实际测量，把代入公式(3-10)可得后验估计： (3-10) 最后一步是计算后验误差的协方差矩阵： (3-11) 在每次时间预测和测量更新后，Kalman滤波器根据所有过去的测量过程递归产生当前的估计，不断重复地用前一时刻的后验估计预测新的先验估计。实现Kalman滤波首先要初始化一些参数。需要给定一个初始状态，以及系统误差的协方差Q和测量误差的协方差R的估计。R和Q可以从系统和测量过程的离线采样数据中估计得到。 3.4.4 基于卡尔曼滤波的脸部区域预测与跟踪本小节主要研究如何将Kalman滤波器用于驾驶员脸部区域的预测与跟踪。由上述可知，实现基于Kalman 滤波的跟踪需要确定系统的状态变量、系统模型和测量模型。（1）状态变量驾驶员脸部区域跟踪问题可以被看作：一个图像序列在每一帧被采样，经过处理得到脸部的位置。脸部在每一帧的运动可以用它的位置和速度来描述。用()表示时刻t 脸部的位置，(,)表示它在t时刻在水平方向m和垂直方向n上的速度。时刻t的状态向量可表示为。（2）系统模型在驾驶员脸部区域跟踪中没有输入，因此系统模型为：　其中，～N(0,Q)。在驾驶员视频中，相邻两帧间的脸部运动很小，可以认为脸部的运动是线性的，因此状态移矩阵A可以写为：。（3）测量模型测量向量为第t帧脸部的位置。测量模型为：因此只和位置有关，因此有：，表示测量模型中测量的不确定性，～N（0，R）。当前帧t中的脸部位置可根据搜索窗口在图像中检测。（4）初始条件 Kalman滤波的初始化主要包括初始状态的确定，状态估计误差的协方差矩阵、系统误差的协方差矩阵Q和测量误差的协方差矩阵R的初始化。连续两帧中正确检测出脸部位置后开始Kalman滤波跟踪。设这两帧为t帧和t+1帧。初始向量可被初始化为： ,,, 因为是迭代更新的，可以将初始化为较大的值。假定预测位置与真实值之间在水平和垂直方向上都有±10像素的误差，预测的速度在水平和垂直方向上都有±３像素的误差，估计的协方差矩阵可定义为：。根据对驾驶员脸部运动的观察，可以假定系统的噪声如下：位置系统误差的标准偏差在水平和垂直方向上都为6像素。假定速度误差的标准偏差为0.5像素/帧。因此，状态协方差矩阵Q 可写为：。类似的，可以假定测量模型在水平和垂直方向上有３像素的误差。因此可以得到测量噪声的协方差矩阵R为：。（5）状态更新根据状态模型和测量模型，以及初始条件，状态向量可以用Kalman滤波器估计出来。如前所述，Kalman滤波包括预测和更新两个步骤。通过观察可知，协方差矩阵在几帧之后逐渐趋于稳定。状态协方差矩阵给出了对下一帧脸部位置预测的不确定性。在下一帧中的搜索窗口可以根据确定。为了加速计算，用和的值来决定搜索的窗口大小。搜索窗口的宽度和高度分别为AVE_W+和AVE_H+,其中AVE_W和AVE_H分别是平均的脸部窗口宽度和高度，根据历史数据获得。和越大，表明估计的不确定性越大，搜索的窗口也越大。当脸部突然运动或从图像中消失导致跟踪失败时，可重新启动Kalman滤波跟踪并在整幅图像中检测脸部区域。图3.9是在连续两帧正确检测到人脸的情况下，启动卡尔曼滤波跟踪人脸的效果图。　　　　　 (a) 第一帧 (b) 第二帧　　　　　 (c) 第二十帧　 (d) 第五十帧图3.9　卡尔曼跟踪效果图疲劳检测 4.1 引言本章主要研究在检测出驾驶员脸部区域的基础上，如何检测与疲劳相关的眼睛线索。研究表明，与疲劳有关的重要眼睛线索就是疲劳时持续0.5～2秒左右的“微睡眠”表现出来的眨眼状态，这时的眨眼状态与非疲劳状态时的眨眼相比，其特征是眼睛的闭合速度较慢，闭眼的持续时间较长，可以用这些特点来衡量驾驶员的疲劳状态。为了检测出与疲劳相关的眼睛线索，首先从人脸区域中定位出眼睛区域的大致位置。在此基础上，采用改进的Sobel水平边缘检测、8-连通区域判断、重心模板寻找眼睛对、区域生长、形态学运算及建立规则集等方法检测出眼睛的精确位置，计算包括眼睛眨眼速度，眨眼频率和PERCLOS等，并对比各参数与疲劳的相关关系。 4.2　灰度图像预处理 4.2.1 中值滤波人脸图像中的噪声往往以孤立点的形式出现，而使用非线性滤波可以有效的去除椒盐噪声（孤立噪声）的影响。中值滤波（Media filtering）是基于排序统计理论的一种能有效抑制噪声的非线性信号处理技术。这种滤波器的优点是运算简单而且速度较快，在滤除叠加白噪声和长尾叠加噪声方面显示出极好的性能。中值滤波在滤除噪声的同时能够很好的保护信号的细节信息(例如边缘，锐角等)。另外，中值滤波器很容易自适应化，从而可以进一步提高其滤波性能。因此，它非常适用于一些线性滤波器无法胜任的数字图像处理。中值滤波一般采用一个含有奇数个点的滑动窗口，用窗口中各点灰度值的中值来替代定点（一般是窗口的中心点）的灰度值。对于奇数个元素，中值是指按照大小排序后中间的数值；对于偶数个元素，中值是指排序后中间两个元素灰度值的平均值。它的工作步骤如下： 1、将模板在图中遍历，并将模板中心与图中某个像素位置重合； 2、读取模板中各对应像素的灰度值； 3、将这些灰度值从小到大排成一列； 4、找出该灰度值序列中位于中间的值； 5、将此中间值赋给对应模板中心位置的像素。由以上步骤可以看出，中值滤波器的主要功能就是让周围像素灰度值的差比较大的像素改取与周围像素灰度值接近的值，从而可以消除孤立的噪声点。由于它不是简单的取均值，所以产生的模糊比较少[41]。图4.1(a)是对检测到的人脸图像加入了椒盐噪声，图4.1(b)进行３３中值滤波后的图像。 (a)加入椒盐噪声图像 (b)滤波后图像图4.1　中值滤波 4.3　眼睛区域检测眼睛检测是人机交互领域的热点研究课题，可通过眨眼及眼睛的闭合周期长短来控制计算机[42],眼睛检测也是基于特征的人脸识别的前提，在许多驾驶员疲劳检测系统中都采用了眨眼检测作为特征[43]。现有的眼睛定位方法大致可以分为以下几类：（1）基于特征的方法[44-48]:根据眼睛的几何、位置、边缘、灰度、颜色等特征定位眼睛。该类方法比较简单，但可能检测出很多候选的眼睛区域，一般需要对检测结果进行验证。（2）基于模板匹配的方法[49,50]:用建立好的模板在图像中搜索高相关度的区域。（3）基于变换的方法:如Gabor小波变换的方法[51,52,53]、基于对称变换的方法[54]等。通过变换能增强眼睛区域，使眼睛区域容易检测出来。眼睛定位是较难的研究课题，目前尚无适应所有情况的检测方法，通常根据应用情况的不同选择相应的检测方法。基于模板和变换的方法速度较慢，不适合应用在本系统中。由于驾驶员疲劳监测系统对实时性要求较高，本文用以下方法检测出眼睛区域：对经过预处理的驾驶员脸部图像首先采用改进的水平Sobel边缘检测的方法二值化图像，用连通区域标记的方法检测出候选的眼睛区域，再利用先验知识构建规则集，去除部分干扰矩形，之后建立三角形模板寻找眼睛对，在得到眼睛边缘后通过区域生长和形态学运算的方法，最后检测出眼睛区域。 4.3.1 边缘检测算法边缘是指图像周围像素灰度有阶跃变化或屋顶状变化的那些像素的集合，它存在于目标与背景、目标与目标、区域与区域之间。图像边缘信息在图像分析和人的视觉中都是非常重要的，是图像识别中提取图像特征的一个重要属性。图像的边缘有方向和幅度两个特性。通常沿边缘方向的像素变化平缓，而垂直于边缘走向的像素变化剧烈。这种变化可能呈现阶跃型和房顶型。如图4.2所示：图4.2　灰度变化的类型边缘检测算子

展开阅读全文