收藏 分销(赏)

论文-基于神经网络预测红外图像景物深度分析.docx

上传人:胜**** 文档编号:2090012 上传时间:2024-05-15 格式:DOCX 页数:43 大小:2.30MB
下载 相关 举报
论文-基于神经网络预测红外图像景物深度分析.docx_第1页
第1页 / 共43页
论文-基于神经网络预测红外图像景物深度分析.docx_第2页
第2页 / 共43页
论文-基于神经网络预测红外图像景物深度分析.docx_第3页
第3页 / 共43页
论文-基于神经网络预测红外图像景物深度分析.docx_第4页
第4页 / 共43页
论文-基于神经网络预测红外图像景物深度分析.docx_第5页
第5页 / 共43页
点击查看更多>>
资源描述

1、 摘要当前,红外图像大多没有色彩和阴影,其实质是温差图谱,呈现的是物体上的温度分度,与可见光下所产生的图像不同。对于人眼而言,这种图像的分辨率比较低,其视觉效果不佳,缺乏空间立体感,但人类需要通过图像的空间立体感来对场景进行理解和分析,才能在其中辨别图像景物的空间关系。从图像的深度估计即是从图像中获取深度距离信息,就是通过景物的二维图像来恢复出其三维信息,本质上讲这是一个深度感知的问题,在计算机立体视觉领域中也是一个重要问题。本文中,我们研究红外技术的发展历史,并且探索红外技术在国内外的发展使用现状,以及国内外各种对红外深度图的处理方法,对比各种的优缺点,寻找一种目前比较简易可行的红外图像景物

2、深度估计方法。最终采用BP神经网络,对样本集进行训练获得神经网络模型,应用神经网络的泛化性,对红外图像进行预测处理,达到本文的最终目的。关键词:红外图像,灰度图,深度估计,BP神经网络AbstractCurrently the infrared images mostly have no color and shadow. The essence of them are thermogram images, and they are different from visible images. The resolution of these images is relatively low,

3、and the visual effect is not good, that is to say, the infrared image is lack of three-dimensional information. As the existence of 3D world, human need to understand and analyze the scene through the spatial stereo sense of the image, so as to recognize the spatial relationship of the image scene.

4、From the depth of the image we can get depth distance information. In other words, we can use the two-dimensional images of the scene to restore its three-dimensional information. This is essentially a depth perception problem, which is also an important problem in the field of computer vision. In t

5、his paper, we study the history of the development of infrared technology, and explore the infrared technology. Meanwhile we contrast all kinds of advantages and disadvantages in order to find a simple and feasible method for the estimation of the depth of the infrared image scene. We used the BP ne

6、ural network to train the sample set to get the neural network model, and predicted the testing infrared image, to achieve the ultimate goal of this thesis.Keywords:Infrared image, Grayscale image, Depth estimation, BP neural network目录1绪论11.1 红外图像概论11.2研究背景61.3国内外现状71.4本文研究内容82基于深度线索的深度图处理102.1图像深度线

7、索102.2图像深度特征值的提取122.3本章小结153红外图像的深度估计方法163.1线性深度估计模型163.2基于马尔可夫随机场的图像深度估计173.3基于SVM模型的图像深度估计183.4基于监督学习方法的图像深度估计203.5本章小结214基于神经网络的红外图像深度估计224.1生物神经元和人工神经网络224.2人工神经网络简述244.3基于BP神经网络的红外图像深度估计274.4本章小结355本文总结365.1 工作小结365.2 讨论与展望363红外图像景物深度估计 401绪论1.1 红外图像概论1.1.1红外技术的起源自19世纪,英国物理学家弗里德里希威廉赫歇尔(Friedric

8、h Wilhelm Herschel,1738年11月15日1822年8月25日)发现了红外线,从此人类对红外线的认知利用史便开始了。在第二次世界大战中,德国人用红外变像管作为光电转换器件,研制出了主动式夜视仪和红外通信设备,为红外技术的发展奠定了基础。二次世界大战后,首先由美国德克萨尔仪器公司经过近一年的探索,开发研制的第一代用于军事领域的红外成像装置,称之为红外前视系统(FLIR),它是利用光学机械系统对被测目标的红外辐射进行扫描。由光子探测器接受二维红外辐射图像,经过光电转换及一系列仪器处理,形成视频信号。这种系统原始的形式是一种非实时的自动温度分布记录仪,后来随着五十年代锑化铟和锗掺汞

9、光子探测器的发展,才开始出现高速扫描及实时显示目标热图像的系统。六十年代早期,瑞典AGA公司研制成功第二代红外成像装置,它是在红外寻视系统的基础上以增加了测温的功能,称之为红外热像仪。国内对红外成像技术的研究起步于七十年代。到八十年代初,在长波红外元件的研究和生产技术上,中国有了长足的进展。进入到八十年代末至九十年代初期,中国已经具备研制实时红外成像样机的能力,而且其灵敏度、温度分辨率都达到较高的水平。近十年来中国在红外技术方面有加速发展突飞猛进的形式,与欧美的差距逐渐缩短。而且,红外成像系统在国防、电力、消防、石化以及医疗等领域得到了广泛的应用,在世界经济的发展中发挥着举足轻重的作用。从目前

10、的认知,热是构成物体分子、原子运动的宏观表现,温度是分子、原子热运动程度的度量值。自然界的所有物体,只要表面温度高于绝对零度,就会发射电磁波。在电磁波频谱中,波长在0.0011mm的是红外线。因此自然界中物体都以红外辐射的方式和环境进行着能量交换。物体表面某一点热辐射的强弱与该点的温度和表面状态有关,从而形成一幅反映物体温度分布和表面特征的热辐射图像1。红外技术主要研究红外线辐射的发射、传输、接收规律以及其应用原理。采用红外技术进行图像显示,就是红外图像技术。在红外图像中,由于景物温度不同,红外辐射发射率不同,它们的辐射亮度也就不同,在大背景辐射下,景物各个部分的辐射存在变化也会带来灰度波动。

11、也就是说,红外图像表征了景物红外辐射分布差值,也就是反映了它们的温度差。1.1.2红外热像仪的原理红外热像仪是一种二维热图像成像装置,该系统就是一个光学电子系统,可以接受0.751000之间的电磁辐射。该设备的基本功能就是将接收到的红外辐射转化为电信号,再将电信号的大小用灰度等级的形式表示,最后在显示器上显示出来。其组成结构如下图1-1所示图1-1红外热成像仪的组成结构从上述组成结构框图来看,红外热像仪由一下几个部分组成:红外光学系统、光机扫描器、红外探测器、信号处理器、制冷机、控制装置和图像信号输出装置。对于所有不处于绝对零度的物体,它们都会发射出不同波长的电磁辐射。一般来说,物体问题越高,

12、其内部的分子或原子的人运动就越激烈,向外辐射的红外辐射就越强,并且其辐射的频谱分布和波长与物体的性质和温度相关。辐射系数,就是用来衡量物体辐射能力大小的量。相对而言,黑色或者表面颜色较深的物体,辐射系数较大,辐射也较强;白色或亮色,表面颜色较浅的物体,辐射系数较小,辐射较弱2。人眼仅仅能够看到的很狭窄的一段波长的电子辐射,即可见光谱。对于波长在以下以及以上的辐射,人眼就无法识别,难以接受相应信息。在电磁波谱中,红外区域的波长在之间,所以人眼无法看见红外辐射3。热图像对应了物体表面的热分布场,即热图像实质上就是被测目标物体各部分红外辐射的热像分布图,与可见光图像相比,缺少层次感和立体感,因此在实

13、际的应用中,为了更加有效地判断被测目标的红外热分布场,场采用一些辅助措施来增加系统的使用功能,例如对比度控制,实时校正,图像亮度,伪彩色处理等。红外探测器是红外技术发展最活跃的领域,是红外系统,热成像系统的核心组成部分。由于红外辐射是不可见的,要察觉到它的存在,测量它的强弱,首先必须把它转化成某种可以测量的物理量,而红外探测器就是完成这样的任务:把红外辐射转换成可以测量的电信号物理量。热成像仪的光学系统将景物所发射的红外辐射收集后,通过光谱滤波,将景物的肤色通量分布会聚到光学系统焦面上成像,也就是在探测器的光敏面上得到一个像。在聚集光学系统和探测器之间存在光学扫描器,扫描器通过两个扫描镜组,一

14、者做垂直扫描,还有一个做水平扫描。工作过程时,从景物到探测器的光束随扫描器移动,在物空间中扫出像电视一样的光栅。当扫描器以电视光栅形式将探测器扫过景物是,探测器逐点接受景物辐射,并转化为相应的电信号。也就是说,光机扫描器构成的景物图像依次扫过探测器,探测器依次把景物各部分的红外辐射转化为电信号,经过视频处理的信号,在同步扫描的显示器上显示出景物的热图像。现代热成像装置非常敏感,能探测到小于0.1度的温度变化。装置一般分为中红外区域(波长)或远红外区域(波长)。在工作过程中,探测器通过对物体发出的红外辐射,在热成像仪中产生一个实时图像,就是景物的红外热图像,通过这种方式将人眼看不见的辐射图像转化

15、为可见图像。通过光学器件热成像仪将场景中的物体发出的红外能量聚集到红外探测仪上,然后来自于每个探测仪组件的红外数据将被转换成标准的视频格式,可以在标准的视频监视器上显示出来,或记录在录像带上。热成像系统所接受的是热信号而不是光信号,这导致该装置可以全天候的使用;又由于装置为被动式的工作原理,不产生光辐射或者射频信号,所以对于使用者的位置具有很好的掩护作用。红外探测器可以分为热探测器和光子探测器两类。热探测器在吸收红外能量后,先发生温度改变,再产生电效应,并且不同材料在不同温度情况下产生的电效应也不同;而对于光子探测器,它在吸收红外能量后可以直接产生电效应。光子类的探测器具有非常良好的灵敏性,但

16、是其灵敏度十分依赖于本身的温度,为了保持较高的灵敏度,需要将光子探测器保持在较低的温度。一般采用液氮挥着是斯太林(Stirling)对探测器进行冷却。而热探测器一般来说没有光子类探测器那么高的灵敏度,但它在室温条件下也具有较好的性能,所以一般不需要采取低温冷却。当通过热红外成像系统观察场景的时候,随着场景的变化,为了实现系统自动调整增益和偏移的过程,需要牵涉到温度窗的概念。一般的,对探测器探测的温度范围来说,显示的温度范围只是其中一个窗口,且该温度窗可控。可以用中心温度和窗口宽度这两个量来描述温度窗,这两个量分别对应图像的亮度和对比度。在偏移调整和自动增益的方法下,就是通过自动控制窗口来达到调

17、整图像亮度和对比度的目的,从而达到适当的值。图像的数字化的对比度以及亮度的具体算法和定义如下:设一副图像大小为像素,表示在位置上的像素的灰度,定义图像的亮度和对比度分别为: (1-1) (1-2)其中 (1-3)式中:和分别为最大和最小的亮度阈值。在热像仪中,一般采用平均场景温度作为偏移参考温度,平均场景温度的系统响应就是平均亮度,当系统使用8位A/D对信号采样时,则认为平均亮度在120左右,所以信号亮度(L)和平均亮度的差就是偏移量的大小。考虑到系统的稳定性,L和C的值允许为一定范围,一般的,L和C值的范围越大,系统也就越稳定,但却会导致精度的降低。查找相关资料后,对其进行折衷方法,确定L和

18、C的值为如下值:L:112144, C:3504901.1.3红外图像的特征红外图像反映的是背景中的目标的不可见红外辐射的空间分布,表征了景物的红外辐射分布,其辐射亮度分布主要由被观测的景物的发射率和温度决定,换而言之,其灰度波动来源于大背景辐射中的景物各个部分的辐射变化,因此红外图像近似反映了景物温度差或辐射差。红外热成像系统原理:通过大气传输、光学成像、光电转换和电子处理等过程,将目标和背景的红外辐射经过处理,最终转换成红外图像。所以红外图像的特点要从其成像的过程中来进行分析:通过线性系统理论,热成像空间相应模型为 (1-4)其中,分别代表图像和场景在空间时间域里的分布函数,为系统的响应函

19、数或点扩散函数(PSF),、分别代表空间域和时间域坐标。公式说明,系统的卷积响应过程将导致热图像的模糊。结合上述的知识,查询相关资料,结合实际热成像系统的应用,我们得到下述的对于红外热图像的特点:(1)红外图像表征的是物体的温度分布是灰度图像,没有立体感、空间感,对人眼而言分辨率低4;(2)相对于红外探测器可探测的温度范围,实际景物的温度范围分布较低,而且温度差异也相对较小,因此景物红外图像整体灰度分布较低且集中;(3)白天的红外图像效果优于夜间的红外图像。这主要是因为白天不同质地的物体对太阳辐射的吸收和反射不同,导致物体之间的发射率和温度分布的差异性较大,而夜间景物主要依靠自身的温度进行热辐

20、射导致图像细节模糊;(4)受景物热平衡、波长、传输距离、大气衰减等因素的影响,使得红外图像中景物与背景的对比度较低,空间相关性强,视觉效果模糊5;(5)热成像系统的探测能力和空间分辨率低于可见光CCD(电荷耦合器件)数组,导致红外图像较之可见光图像而言,空间分辨率和清晰度较低,不能很好地反映纹理特征及边缘特征,灰度层次不明显等。图1-2可见光图像 图1-3红外图像 1.1.4红外图像的处理为了改善图像的视觉效果,或者是将图像转变为一种更适合于人或机器分析的形式,我们需要对已经得到的图像进行进一步的技术处理。因为具有目标识别能力强、抗干扰性强、全天候工作、被动工作隐蔽性强等其他成像技术无法比拟的

21、优势,红外热成像技术越来越受到世界各大国家的重视。在现代战争中,为了避免来自地面和空中的电子对抗、电磁干扰、红外干扰等积极或者消极的干扰,采用无源被动接受的红外探测系统来探测目标,在军事中越来越常用,它的隐蔽性好,抗电磁干扰能力强,对目标分辨力强,跟踪精度高。这些特点,越发使得该技术成为警戒搜索、跟踪和制导系统的重要组成部分。在生产生活中,红外彩色夜视、红外搜索、前视成像、航空测量、海上救援、生物医学等领域,红外图像技术的优势也越来越得到众多人的认可,也得到了越来越广泛的关注和应用。因此,针对红外图像相对于可见光图像存在的许多缺陷,为了更好的应用红外图像技术,提高红外图像技术应用的收益率,对红

22、外图像的分析处理技术就愈发显得重要。目前在关于红外图像的分析处理中涉及到图像增强、景象匹配、红外小目标检测等方面,但很少有考虑到深度方面的估计。而在计算机立体视觉中,深度估计有着重要的意义。本文将对红外图像的深度估计进行研究,其具体的意义下面将做出阐述。1.2研究背景计算机立体视觉是计算机视觉的一个分支,主要研究的是如何借助成像技术从图像里获取场景中景物的深度信息。当人类观看一副图像的时候,我们可以十分轻松的接受并且理解场景中的三维结构。但是,对于计算机的视觉系统来说,这项任务却存在着极为巨大的挑战。在这个过程中,很重要的是,计算机视觉的核心要求计算机立体视觉如何实现。计算机立体视觉的研究目标

23、是能让我们的仪器在不同场景下,自动灵活地进行景物立体信息的精确测量,同时又尽可能的保证能达到人类视觉效果的逼真度。计算机立体视觉的研究历史早从20世纪60年代中期就已经开始了。当时,美国MIT的Robert完成的三维景物分析工作,把过去的二维图像分析推广到了三维景物,这标志着立体视觉技术的诞生6。在之后的二十年里,这项技术迅速地发展成为一门新的学科。特别是在20世纪70年代末期,以Marr、Barrow等人为代表的研究者,提出了一整套的视觉计算理论来描述视觉过程,其核心就是从场景的图像中,推导出该场景的三维几何描述,并且定量地确定场景中物体的性质7Error! Reference source

24、 not found.。在Marr看来,从计算理论的层次出发,视觉信息必然要用三级内部表象来进行描述:要素图,2.5维图和三维模型表象。其中,要素图的主要作用在于表达清楚图像中的重要信息,例如图像中强度变化的位置及分布等几何信息及组织结构;2.5维图是在以观察者为中心的坐标系中,将可见表面朝向(表面方向图像)、深度(深度图像)等2.5维信息及它们的不连续轮廓表达清楚;三维模型表象,是在以物体为中心的坐标系中,用含有体基元、面基元的模块化层次表象来描述形状及形状的空间组织形式8。早期的研究过程中,深度图传感器往往是精度较低、成本较高并且适用范围较小,在比较性价比的前提下,常常采用灰度图像来进行图

25、像分析和研究。近十年以来,逐渐地人们发现,灰度图像在应用中往往会缺失2.5维信息。灰度图像的像点的值仅仅表示的是相应景物点的亮度,在后期处理的过程中,往往会发现,最可直接利用且比较可靠的,相关物体的深度信息无法得知,而且也无法分辨物体表面的朝向。这对图像分析,尤其是三维物体识别的研究带来了巨大的困难,使得人们在这一大方向上的研究一度陷入了极大的僵局。人们通过视觉,理解和识别场景或者物体的过程中,视觉系统分析并且应用了大量的基于视觉的深度信息,如遮挡关系、双眼透视、纹理梯度、运动视差等。这给了我们一个重要的启示:可直接从图像的深度信息出发,研究基于深度图像的视觉系统9。与普通灰度图像不同,深度图

26、像中有可以直接利用的2.5维信息和比较可靠的深度数据,且深度数据独立于光照及物体表面的光反射特性10。在这种情况下,由于深度图像没有普通灰度图像可能会由于光照阴影及光滑物体表面纹理所产生的干扰,它的准确性往往更加令人信服。因此,通过深度图像分析的方法越来越受到计算机视觉、图像分析等领域研究工作者的重视。随着深度传感技术的发展,深度图像的技术日新月异,可以轻松由深度传感器输出生成,同时性能更加优异,快速、可靠、经济,愈发让各领域的研究工作者对这种方式感觉满意。深度测量分为主动深度测量和被动深度测量。通过使用传感器来控制电磁能量以测量场景表面和观察者之间的距离,这种方式就是主动深度测量。主动式中应

27、用较为广泛的方法有激光雷达测距和结构光测距。此外,对于被动深度测量,就是视觉系统接收来自场景发射或反射的光能量,形成有关场景光能量分布函数即灰度图像,然后再在这些图像的基础上恢复场景的深度信息。由深度估计恢复深度图像的方法属于被动深度测量的范畴,是计算机立体视觉的一部分。1.3国内外现状目前,大部分深度估计的研究工作是围绕着单目深度估计、双目深度估计和基于图像序列的深度估计这三种方法展开的。在彩色图像领域内,大部分深度估计都是围绕双目深度估计和基于图像序列的深度估计展开的11Error! Reference source not found.,目前它们的应用比较广泛,这两种方法都依赖于图像间的

28、特征差异。而单目深度估计强调通过先验知识并且分析图像本身的特征来提取深度线索。下面分析下这三种估计方法:视差在双目深度估计中是用到的最重要的特征差异,双目深度估计中它是最主要的深度线索,我们能通过双目来感知到空间位置的差异性也是由于这个原因。通过双眼各自收到的图像,我们可以进行将之进行立体匹配(Stereo Matching)12。 比较同一个点在同一场景中,不同视角之间的对应关系,我们可以通过这个差量在脑海中建立空间结构。双目(多目)视图中的深度信息存在显性信息,通过多视角对同一位置点进行立体匹配,就可以恢复三维场景的位置信息。这一技术自上世纪70年代中期开始,而后Barnard和Fisch

29、ler13在1981年以前的立体匹配研究的基础上进行了相应总结。整个80年代,立体匹配成为了计算机视觉的研究焦点之一。之后Dhond和Aggarwal14总结了80年代立体匹配,包括新匹配方法以及降低立体匹配的模糊性。90年代早期,立体匹配技术日趋成熟,很多研究者将目光转向立体匹配在特定问题中的应用。在1993到2003年期间立体匹配技术的进展着重于遮挡处理和实时系统15。基于图像序列的深度估计就是以帧间运动信息作为最重要的深度线索,这种方法就是利用运动信息恢复场景中的三维模型。该方法的操作过程:首先对摄像机拍摄到的图像序列进行特征点的跟踪(这些帧相当于得到场景多个视角的视图);然后利用这些特

30、征点帧间的对应关系和摄像机参数以及位置变化,得到各个帧的深度图,恢复场景模型。而单目深度估计在早期传统的算法中较为经典的是“由阴影恢复形状(shape from shading)”16,该算法以空间立体几何为理论基础,依据光源照射到物体表面所产生的明暗变化来恢复物体深度,但因为该算法需要先验知识如反射模型和光源方向等使得应用的局限性增加。2007年8月,美国Stanford大学计算机系教授Asutosh SaXena,Sung H.Chung,Andrew Ng开发出新的机器视觉算法17Error! Reference source not found. ,利用马尔科夫场训练的模型,在单目深度

31、估计上取得了突破性的的进展。在一副静止的画面中,机器人能通过该算法大致地估计出障碍物的大概距离。通过利用图像的整体结构和场景的先验知识,他们将深度估计作为图像理解过程中的一部分,虽然微小但是却很关键。机器人通过这种方式你能够有效的在深度信息被充分分析理解的前提下了解到图像中各物体的空间位置分布,从而可以在相应的区域内进行行走并且检测目标。经过试验后他们还证明,通过监督学习的方法,可以很有效的应对单幅精致图像的深度预测。通过这种方式,机器人能很好的应对室内室外结构混乱的环境,包括森林、人行道、建筑物、行人和树丛等。卡耐基梅隆大学的Aloysha Efros团队采用利用大量数据学习,并通过构建贝叶

32、斯模型对新图像进行分类从而达到了回复深度信息的目的18。目前在相关学术界,对越来越丰富的深度图的处理方法仍未形成统一的分类标准。当前已经存在的分类方法主要基于深度线索或是人机交互程度。Wei19将2005年以前的2D-3D图像转换方法归为单幅图像的转换方法和多幅图像的转换方法。根据深度图提取过程中使用的深度线索的不同,每一类方法都可以进行细分。多幅图像转化方法采用的深度线索分别为双目视差、运动、聚焦、散焦以及轮廓;单幅图像转化方法采用的深度线索有散焦、线性透视、大气散射、阴影、图像纹理、对称模式、遮挡以及统计模式。Zhang20等人则提出了基于单目深度线索和基于双目深度线索两种类型的分类深度图

33、提取方法。其中,单目深度线索进一步分为运动线索以及图像线索。Cao21等人通过人机交互程度的不同,将之分为全自动和半自动的方法。随着新方法的不断提出,各类分类方法都存在一定的局限性。纵观红外图像对应深度图的提取研究发展过程,一方面人们对经典的图像处理方法进行深入研究与改善,另一方面,新的深度图提取方法也在不断的被提出。由于理论方法和应用之间仍存在一定的差距,深度图提取研究仍然需要付出很大的精力才能有所收获。1.4本文研究内容本文在结构上主要分为以下五个章节:第一章,本文将介绍课题的背景,红外图像处理技术对于国民生产生活的重要性,解释了何为红外图像的景物特征深度估计,并简述现阶段常用的诊断方法和

34、红外图像处理技术在国内外的成果以及发展趋势。第二章,本章就图像的深度信息,区分单双目深度线索,就本课题的图像深度线索的提取进行了讨论,介绍了图像的预处理过程。第三章,就现今红外图像的多种深度估计方法,说明其优缺点,进行讨论分析。第四章,首先详细说明人工神经网络的功能原理,提出应用BP神经网络来进行泛化预测特征深度图。然后根据第三章中提到的深度估计方法提出相关的算法思路。在第二章图像预处理的基础上,进行神经网络模型的训练。进行多组参数的实验测试寻找到较为优秀的设定参数,用于预测特征深度图。第五章,就本次工作进行评价和小结,并且就深度神经网络在特征深度图提取的工作中所能改进的内容进行了讨论并进行了

35、相关领域的展望。2基于深度线索的深度图处理人眼视觉的形成过程中,到双眼的水平距离不同变化,会反映在大脑中,形成远近的不同感官,也就是说,到两眼的水平距离会导致每只眼睛投影的图像不同,也就是用来在大脑中恢复场景的深度22。双眼视差就是深度信息的来源之一,也就是两只眼观察相关位置的特征差异。而另外一个深度信息的来源是单眼视图中的特征线索。就如人眼立体视觉分为单目立体视觉和双目立体视觉,对应的深度线索可分为单目线索和双目线索。经过许多相关学者的研究,通过这两个深度信息,可以重新构建出三维物体的表面结构。在计算机视觉中,红外图像的深度特征还属空白阶段,但对于非红外图像深度特征的探索已经相对成熟,包括基

36、于单目视图的深度线索和基于双目或多目视图的深度线索20。2.1图像深度线索现有的深度图处理方法大致可以分为单目线索法、双目线索法和混合线索法。而判断景物深度所用的深度线索也大致分为单目深度线索和双目深度线索。2.1.1双目深度线索由于人双眼见存在间距,对同一场景,左右眼的相对位置有所不同,因此会产生双目视差。在双目线索的产生过程中,包括了晶状体肌肉的调节,视轴辐射,双目会聚和双眼视差等等因素,但这些不同因素中,仅仅只有视差能够在计算机视觉中得到调整和应用。我们双眼的距离大约为65mm,导致人观察立体物体时两只眼睛的瞳孔距离和注视角度不同,也就是会从不同角度出发。对于前方视野中同一景物,位于相同

37、位置但在我们双眼视网膜中的投影图像却存在细微差别。双眼视差就是相对应图像特征在两眼中的位置差异。视差是产生立体视觉的生理基础,也是属于深度信息的客观物理现象,所产生的主要是水平视差。双眼视差在人眼视觉恢复三维影像中有着重要的意义,同时它也是已知的唯一能用于计算机视觉深度恢复的双目深度线索。2.1.2单目深度线索单目立体视觉中,人体通过单眼能够分辨出所观测物体的空间信息,呈现一定的立体感。利用单眼感知的深度线索称为单目线索。仅仅通过抑制眼睛的视觉或仅仅凭借观测担负图像就可以得出深度信息,这就是单目线索。相对于动态线索,我们这里的单目深度线索主要指的就是静态线索,也就是环境及观察对象的物理特性或现

38、象,主要包括线性透视、大气散射、纹理变化、纹理梯度、相对位置、遮挡关系、运动视差、光线亮度及阴影和色彩饱和度变化等等23。(1)线性透视是值相互平行的直线随着距离增加看起来逐渐逼近并相交于远处一点的现象。这种现象常常发生在存在轨道、走廊、天花板等平行线物体的场景,例如下图2-1图2-1铁轨上的线性透视现象Battiato等人使用线性透视线索,在提取深度图钱对图像进行分类。采用基于色彩的分类方法识别想死演的的区域,与特定场景的图像模板进行对比,将图像分为室内、具有几何信息的室外和没有几何信息的室内三种场景。对每一场景使用不用的灭点,灭线检测方法,达到较为准确的检测结果。但是基于线性透视的方法不适

39、用于缺少灭点和灭线的场景。(2)地球被大气所包围,光在传播过程中,它的方向和能量受到大气的影响。大气中存在的微小颗粒使得光在传播过程中发生了漫反射,因此人们观察远处的物体较近处的物体模糊,并且存在泛蓝现象。这类视觉感知现象叫做大气散射。虽然大气散射是人体视觉中比较重要的深度线索,但很少有学者直接采用大气散射提供深度信息。Cozman和Krotkov根据物理散射模型确定图像中目标的深度信息。搞方法适用于包含天空的室外场景,对于室内场景由于缺乏必要的参数信息无法实现深度信息的提取检测。(3)有些图像在局部区域内呈现不规则性,而在整体上表现出某种规律。习惯上把这种局部不规则而宏观有规律的特性称之为纹

40、理;以纹理特性为主导的图像被称为纹理图像;以纹理特性为主导特性的区域为纹理区域。图像纹理特征反映了图像灰度的性质及其空间关系,图像中能够反映纹理差别的显著特征称为基元。对于纹理的描述一般都是基于色调和结构。色调主要基于基元中像素亮度的属性,而结构则反映了基元间的空间关系。在现行的研究方法中存在两个主要的纹理描述方法:统计的和句法的。纹理描述的统计方法计算不同的属性,当纹理基元大小与像素大小为同等量级的情况下该描述方法是合适的。当比较容易确定基元类型时,意味着基元可以通过大量的各种属性描述,句法的方法或者混合的方法(句法与统计结合)更加适合描述纹理。统计纹理描述方法以适合统计模式识别的一种形式来

41、描述纹理,每个纹理以一个属性特征向量来描述,它代表了多维特征空间的一个点。主要的方法有基于空间频率的方法、共生矩阵、边缘频率、基元长度、Laws纹理能量度量、分形纹理描述和多尺度纹理描述等。句法纹理描述是基于纹理基元的空间关系与形式语言结构之间的类比。主要的方法有形状链语法和图语法等。(4)对于图像中的同质纹理区域,当这些纹理表面向远处延伸时,表面离观察者越远,分辨率越小、纹理基元也变得越来越小,感知深度就越大;纹理基元越大,分辨率也越大,感知的深度也就越小。因此可以用纹理梯度的方向来判断感知深度变化最快的方向。(5)在先验知识中同样大小的物体,当观察距离不同时,视网膜成像大小也不一样。距离越

42、远视网膜成像越小,因此可以通过相对大小来判断物体的前后关系和相对距离。当图像中的两个物体遮挡,重叠、轮廓线相交时,一般认为被遮挡的物体绝对深度较大。(6)运动视差是指由视图中的景物相对运动关系而决定物体之间相对深度的一种深度线索。比如当观察者向前移动时,所感知到的近处物体运动速度较大,远处物体运动速度相对较小。2.2图像深度特征值的提取对于红外图像,一般来说都是灰度图像,它的局部信息不足,在红外图像中,相同亮度的灰色区域,有可能是路面的一部分,也有可能是路边数目的一部分。由于两者的温度分布相近,这对于红外图像在局部信息的分析处理上往往会导致较大的误差。采用相关学者的方法,我们对图像特征进行“多

43、尺度”和“空间上下文”24,25提取的方法对红外图像的某个区域或某个像素做出鉴别性的描述,具体如下。2.2.1图像特征序列在研究过程中,我们将图像分成若干小块,且每一块图像块都估计一个单一的深度值。在特定小图像块上估计绝对深度特征和相对深度特征,通过对着两种类型特征量的区别,可以推测出相对的深度信息。实验中可以选择的特性包括表面纹理的变化,纹理的梯度和雾气的模糊效果等等线索。在图像强度通道中,包含了图像的主要纹理信息,因此通过这个通道来应用“劳斯掩膜”26,可以很好地计算出这个通道的纹理的能量。如图2-2所示。图2-2 计算纹理能量和纹理梯度的卷积滤波器在图2-2中,前九个为“劳斯掩膜”,后六

44、个是原始的边缘检测器。其中九个“劳斯掩膜”被用来做局部平均,边缘检测和点检测工作。在颜色通道的低频信息中,存在烟雾模糊,那么我们可以通过对颜色通道应用内部的平均滤波器,也就是第一层劳斯掩码来实现特征值的提取。2.2.2深度特征提取对于分割的图像小块,最小定义到像素点进行研究。定义像素点为基于“联系空间上下文”和“多尺度信息”的特征向量,则可以构成如下图2-3的特征向量组成图:像素点所在的图像块以及该块的上、下、左、右相邻的相同大小像素块,5个图像块共同构成了一点像素点的“特征区域”27。为了方便分析,将像素点所在“特征区域”,设置了三个不同尺寸级别的划区,从小到大分别为尺寸1、尺寸2、尺寸3,

45、其中较大尺寸的图像块的中心块包含较小尺寸下所有图像块,也就是A系列图来自于B0,B系列图来自于C0。图2-3像素点的特征向量,包含了像素点及四周邻域从小到大的3个尺度上的信息作为一种灰度图像,红外图像本身是不存在色度信息以及色彩饱和度数值的,在我们处理红外图像的过程中,我们仅能通过像素点的亮度来作为其特征判断的依据。在非红外图像领域的图像深度估计过程中,使用劳斯掩膜(Laws masks)计算的纹理能量往往能够得出不错的效果。本实验中,虽然红外图像存在缺乏纹理信息的问题,但我们也可以尝试将纹理因素计算到特征中。另外,图像深度特征值还可能与局部领域的梯度有关,因此我们也设置了不同方向的梯度用于提

46、取特征值。提取特征值的过程:9个基本的二维“劳斯掩膜”分别记为,用这9个“劳斯掩膜”对红外图像进行处理,红外图像与每一个劳斯掩码进行卷积,得到结果: (2-1)之后考虑像素点,分析对应尺寸2和尺寸3,并且计算每一个图像块的纹理能量: (2-2)对红外图像的x方向和y方向分别求梯度图,分别记为和,同时设角度为,那么,计算任意一个方向的梯度值就有以下的计算方式: (2-3)同理,针对于像素点,可以计算其尺度2和尺度3上每一块图像块的纹理能量所对应的梯度能量、梯度方差和梯度均值: (2-3)此时计算像素点,对于尺寸2以及尺寸3的每块图像块,可以计算其清晰度Sharp: (2-4)考虑到像素点在尺寸1

47、上的领域灰度值,最终获得特征向量为345维度。如果说一个像素点采取345维向量,一个图片的数据量就是,这是一个相当巨大的数据,直接使用的话,在后面的数据处理过程中极为缓慢。这里我们通过线性回归的方式,通过降维,将样本的维度降到20维,进入之后的实验步骤中去。2.3本章小结本章首先介绍了双目和单目的图像深度线索的异同点,主要针对单目深度线索的各种类型进行了讨论分析。之后对红外图像的深度特征值的提取进行了总结,通过对像素点及上下左右四方的点,从三个尺寸上进行数据分析,并提出了通过劳斯掩膜的方法在图像通道中进行深度提取。之后通过降维的方式,将巨大的数据归纳到20维向量,并进行对样本集的图像预处理工作。3红外图像的深度估计方法3.1线性深度估计模型构建线性深度估计模型,就是对已知对应深度的红外图像进行比较研究。用表示红外图像对应的深度图,采用一个数量为的且有输入输出的深度训练样本集,其中表示像素点,表示的特征向量,表示对应的深度值。线性模型将深度训练样本的关系表示为如下形式: (3-1)其中,是需要被求解的回归系数向量,是未

展开阅读全文
部分上传会员的收益排行 01、路***(¥15400+),02、曲****(¥15300+),
03、wei****016(¥13200+),04、大***流(¥12600+),
05、Fis****915(¥4200+),06、h****i(¥4100+),
07、Q**(¥3400+),08、自******点(¥2400+),
09、h*****x(¥1400+),10、c****e(¥1100+),
11、be*****ha(¥800+),12、13********8(¥800+)。
相似文档                                   自信AI助手自信AI助手
百度文库年卡

猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 其他

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服