图像工程绪论.doc_咨信网zixin.com.cn

资源描述

1 绪论 1.1人眼视觉与数字图像 1.1.1 人眼的视觉视觉是人类的重要功能。视觉过程是有多个步骤组成的复杂过程。概括地说，视觉过程有光学过程、化学过程和神经处理过程这三个顺序的过程所构成。 1．光学过程人的眼睛是人类视觉系统的重要组成部分，是实现光学过程的物理基础。眼睛是很复杂的器官，单从成像的角度可将眼睛和照相机进行简单的比较。眼睛本身是一个平均直径约为20mm的球体。球体前端有一个晶状体(lens)，对应于照相机的镜头，而晶状体前的瞳孔(pupil)对应于照相机的光圈。球体内壁有一层视网膜(retina)，它是含有光感受器和神经组织网络的薄膜，对应于照相机的胶片。当眼睛聚焦在前方物体上时，从外部射入眼睛的光就在视网膜上成像。晶状体的屈光能力可以由在晶状体周围的睫状体纤维内的压力控制而改变，当屈光能力从最小变到最大时，晶状体聚焦中心和视网膜间的距离可以从约17mm变到14mm。当眼睛聚焦在一个3m以外的物体上的时晶状体具有最小的屈光能力，而当眼睛聚焦在一个很近的物体上的时晶状体具有最强的屈光能力。据此可计算物体在视网膜上的成像尺寸。 2．化学过程视网膜表面分布着一个个光接受细胞（光感单元），它们可以接受光的能量并形成视觉图案。光接受细胞有两类：锥细胞(cone),柱细胞(rod)。每个眼内约有6 000 000~7 000 000个锥细胞。它们对颜色很敏感。锥细胞又可以分为三种，它们对入射的辐射有不同的频谱响应曲线。人类能借助这些细胞区分细节主要是因为每个细胞各自连接到它自己的神经末梢。锥细胞视觉称为适亮视觉(photopic vision)。每个眼内柱细胞的数量要比锥细胞的多很多，在视网膜表面上大约有75 000 000~150 000 000个柱细胞。它们分布面大，但分辨率低，这是因为几个柱细胞都连到同一个神经末梢。柱细胞仅在非常暗的光线下工作，并对低照度较敏感。柱细胞主要是提供视野的整体视像，因为只有一种，柱细胞不感受颜色。例如在日光下（由锥细胞感受到的）鲜艳的彩色物体在月光下变得像无色的，就是由于在月光下只有柱细胞在工作。这种现象叫做适暗视觉(scotopic vision)。视网膜中心也称中央凹(fovea)，是眼睛内对光最敏感的区域。锥细胞在中央凹区域的密度很高。为了解释的方便可把中央凹看做一个1.5mm1.5mm方形传感器矩阵。锥细胞在这个区域的密度约是150 000个/,所以近似地说，中央凹里的锥细胞约有337 000个。单从原始分辨能力看，一个目前分辨率比较低的CCD图像采集阵就可以把这么多个光电感受元件集中在一个不超过7mm 7mm的接收阵中。由此可见眼睛的分辨能力是可由目前的电子成像传感器所达到的，单这并不表明人类视觉系统的能力已能用电子器件实现了。锥细胞和柱细胞均由色素分子组成，其中含有可吸收光的视紫红质(rhodopsin)。这种物质吸收光后通过化学反应分解成为令两种物质。一旦化学反应发生，分子就不再吸收光。反过来，如果不再有光通过视网膜，化学反应就反过来进行，分子可重新工作（这个过程常需几十分钟）。当光通量增加，受到照射的视网膜细胞数量也增加，分解视紫红质的化学反应增强，从而使产生的视神经元信号变的更强。从这个角度看，视网膜可看做是一个化学实验室，将光学图像通过化学反应转换成其他形式的信息。在视网膜各处产生的信号强度反映了场景中对应位置的光强度。由此可见，化学过程基本确定了成像的亮度或颜色。 3．视神经处理过程神经处理过程是一个在大脑神经系统里进行的转换过程。每个视网膜接受单元都与一个神经元细胞相连。每个神经元细胞借助其他的突触再与其他细胞连接，从而构成光神经网络。光神经进一步与大脑中的侧区域连接，并到达大脑中的纹状皮层(striated cortex)。在那里，对光刺激产生的响应经过一系列处理最终形成关于场景的表象，从而将对光的感觉转化为对景物的知觉。视觉过程先从光源发光开始。光的模式通过场景中的物体反射进入作为视觉感受器官的左右眼睛并同时作用在视网膜上引起视觉感。视网膜是含有光感受器和神经组织网络的薄膜。光刺激在视网膜上镜神经处理产生的神经冲动沿视神经纤维传出眼睛，通过视觉通道传到大脑皮层进行处理并最终引起视知觉，或者说在大脑中队光刺激产生响应，形成关于场景的表象。大脑皮层的处理要完成一系列工作，从图像存储到根据图像做出响应决策。如果说视感觉主要是从分子的观点来解释对光反应的基本性质，是知觉则主要论述从客观世界接受视觉刺激后如何反应及反应所采用的方式。两者结合构成完整的视觉。 4．视感觉和视知觉人们不仅需要从外界获得信息，而且还需要对信息进行加工才能做出决策。所以，人的视觉、听觉、嗅觉、味觉、触觉、热觉等功能都可以分为感觉和知觉两个层次。感觉是较低的层次，它主要是接收外部刺激。知觉则是处于较高的层次，它主要是将外部刺激转化为有意义的内容。一般感觉对外部刺激是基本不加区别地完全接收，而知觉则要确定外部刺激的哪些部分应组合成所关心的“目标”或对外部刺激的源做出判断。视觉是人类了解世界的一种重要功能。视觉包括“视”和“觉”，所以也可进一步分为视感觉和视知觉。在很多情况下，视觉主要指视感觉，而其他内容则在视知觉中讨论。视感觉主要是从分子的观点来解释人们对光反应的基本性质（如亮度，颜色），它主要涉及物理、化学等。视感觉中主要研究的内容有：①光的物理特性，如光量子、光波、光谱等②光刺激视觉感受器官的程度，如光度学、眼睛构造、视觉适应、视觉的强度和灵敏度、视觉的时空特性等；③光作用于视网膜后经视觉系统加工而产生的感觉，如明亮程度、色调等[郝 1983]。视知觉主要是论述人们从客观世界接受刺激后如何反应及反应所采用的方式。它研究如何通过视觉形成人们关于外在世界空间的表象，所以兼有心理因素。视知觉是在神经中枢进行的一组活动，它把视野中一些分散的刺激加以组织，构成具有一定形状的整体以认识世界。早在2000年前，亚里斯多德就定义视知觉的任务是确定“什么东西在什么地方”(what is where)[Finkel 1994]。人们利用视觉所知觉的客观事物具有多种特性，对它们的光刺激，人类的视觉系统会产生不同形式的反应，所以视知觉又可分为亮度知觉，颜色知觉，形状知觉，空间知觉，运动知觉等。需要注意，在各种特性中有些是依刺激物理量的变化而变化的，如亮度依赖于光强度，颜色依赖于光的波长，但也有些特性，如空间、时间和运动特性与刺激物理量之间没有明确的对应关系。具有对应关系的特性比较容易分析，而没有明确对应关系的特性则要结合其他知识综合考虑。 5．视知觉的复杂性视知觉是一个复杂的过程，在很多情况下，只依靠光投射到视网膜上形成的视网膜图像和人们已知的眼或神经系统的机制还难以把全部过程解释清楚。（1）视觉边缘的感知视觉边缘(visual edge)指从一个视点观察到的两个不同亮度的表面间的边界，这里亮度的不同可以有许多原因，例如光照不同、反射性质不同等。如果从一个视点观察时，一个表面在另一个表面的后面，则可以看到视觉边缘。但如果改变视点再观察，视觉边缘有可能改变位置。这样一来，对被观察物体的认知就可能随观察位置的不同而不同。对视觉边缘的感知即与客观因素有关也取决于主观因素。（2）亮度对比的感知视觉系统感觉的主要是亮度的变化而不是亮度本身，一个表面的心理亮度基本上是由它与周围环境亮度的关系所决定的。如果两个物体与它们各自的背景有类似的亮度比例，那么它们看起来会有相同的亮度，这和他们自身的绝对亮度没有关系。反过来，同一个物体如果放在较暗的背景上将会显得比方在较亮的背景上更亮。视觉系统也能将对亮度的感知与对视觉边缘的感知联系起来。两个可视表面的亮度仅在他们被看做处在同一个视觉平面上时可利用感知进行比较。如果将它们看做与眼有不同的距离，要比较它们相对的亮度就很困难了。类似的，当一个视觉边缘被看做是在同一个表面上由于照明而产生（例如有从光照射到的区域到阴影区域的变化），而不是由于不同的表面，那么边缘两边的亮度差将会自动显得更强，并且会被认为是同样的亮的。 6．图像的双重感知真实性人们在观察图像时会同时将图像感知为一个平面的一部分和一个3-D空间的一部分。这个基本的心理现象称为图像的双重感知真实性(double perceptual reality of images)[Aumont 1994],简称双重真实性。下面讨论一些有关双重真实性的问题。（1）有关图像2-D真实性的信息将一个摄像机放在一个固定位置，所拍摄的平面图像包括三类潜在的信息：图像帧，图像的（纹理）表面，模拟表达的缺陷（特别是在图片中，彩色常不如实际中那样饱和，对比度也不如实际中那样强烈）。（2）有关图像3-D真实性的信息要将图像感知为具备3-D真实性需仔细构建图像。这需要尽可能的模仿自然视域的某些特征（这些特性的数量可能和视觉本身特性的数量一样多）。雷纳德达芬奇曾在他关于绘画的论述中给出了许多这样的特性，所以有时候这些特性也称为雷纳德准则。例如，他曾经注意到离图片平面较近的物体应该画的比较饱和，有较明显的轮廓和较粗的纹理；离图片平面较远的物体应该画在图片较高处，画的较小，暗淡一些和具有较细的纹理；实际中平行的直线在图片中应汇聚等。这些准则使得所画结果的空间比例等重现真实场景中光和颜色的不连续性在视网膜的投影。（3）视点假设该假设指出:如果能配准同一幅图像的2-D和3-D真实性，那么就可以确定所获取的图像视点，而且可以补偿由于视点不正确造成的视网膜失真。换句话说，因为图像被看做一个平面，那么图像所隐含的第三维就更容易感知到。试点假设是对双重真实性的最典型推论。该假设对感知图像非常重要。事实上，在博物馆和电影院中，观众很少能处在图像透视设计给观众的确切位置。如果没有上述补偿机制，观众看到的总是失真的图像。（4）双重真实性和学习对图像中深度感知的机制推动了对实际深度感知的发展。对图像的感知与对视网膜的感知都是随着年龄和经验增长的，尽管二者增长的节奏并不一定相同。在日常生活中，视觉也不仅仅是对孤立的刺激的简单反应。通过视力观察到的东西是怎么组织的呢？要回答这个问题，需要用空间以及时间的语言来描述感知。为此需要了解视觉的时间和空间特性，它们也是最重要的视觉特性。视觉首先并主要是一个空间感受，单时间因素也是视觉感知中的一个基本因素。这可从三个方面解释：（1）大多数视觉刺激是随是时间变化的，或者是顺序产生的；（2）眼睛一般是在不停运动的，这使得由大脑获得的信息是不断变化的；（3）感知本身并不是一个瞬间的过程，尽管有些感知步骤很快，但总有一些步较慢，因为信息处理总是需要时间的。 7．随时间变化的视觉现象（1）亮度适应眼睛对亮度敏感的范围很大，为0.000001~10 000 000 cd/。但在实际生活中的任何时刻，人眼所感受到的最大亮度和最小亮度之比很少超过100。最小亮度至最大亮度的范围在光亮的房间中位1~100 cd/，在室外为10~1000 cd/，而在晚上为0.01~1 cd/。当眼睛遇到亮度的突然变化时，眼睛会暂时看不见以尽快适应新的亮度。对亮光的适应比对暗光的适应快。例如，当离开电影院进入阳光下时正常的视觉能很快恢复，单从阳光下进入电影院需要相当长的时间才能把所有的东西都看清楚。定量的说，对亮光的适应只需要几秒钟，对暗光的适应最多要35~45分钟（其中约10分钟让锥细胞达到最大敏感度，再加上30分钟让柱状细胞达到最大敏感度）。对于这些适应现象的解释一般都归于化学反应。但这些适应现象本身在实际中是人所共知的，且促进设计了许多小装置以减少对暗光的适应时间。例如，染成红色的眼镜可以用来在晚上不需对暗光进行适应就进行观察。这里的原理就是红色主要刺激锥细胞，戴红色的眼睛可以让柱细胞保持对暗光的适应。（2）眼睛的时间分辨率有很多的实验表明，眼睛能感知到两种不同步的亮度现象，只有在时间上将它们分得开。其中一般需要至少60~80μs来有把握的区分开它们，另外还需要20~40μs以确定那个亮度现象先出现。从绝对时间上讲，这个间隔看起来不长，但如果与其他感知过程相比还是相当长，例如听觉系统的分辨时间只有几微秒。 8．感知中的时间因素 1974年发现在光神经中存在两种细胞，一种对刺激的固定状态敏感，另一种对刺激的过渡状态敏感。“固定”细胞具有较小的接受区域，对应中央凹，在图像比较清晰时工作。“过渡”细胞具有较大的接受区域，在刺激变化时有响应。后者与周边视觉有关，对聚焦不好的图像不太敏感。另外“过渡”细胞会抑制“固定”细胞，前者更像一个报警系统而后者更像一种分解工具。对应两种细胞，视觉系统有两种视觉响应。（1）慢响应它对应整体时间刺激的总和。刺激发生在接受器层次，如果有一定时间延续的弱光与一个非常短暂但很强的闪电所发出的能量是相同的，那么它们很难区分开。（2）快响应它对应快速变化的刺激的反应效果总和。在这些效果中，有两种效果因为与运动图像的感知相关而显得特别重要。 ① 闪烁。当入射光的轻度变化频率不太快时，视觉系统能感知到入射光强的变化，其效果就像看到了间断的闪烁。当光的频率增加超过一个临界频率后，这种效果就消失了，人们好像观察到连续平稳的光。对中等强度的光，上述临界频率约为10Hz，单对强光，这个频率可以达到1000Hz。 ② 视觉屏蔽。一个接一个快速到来的光刺激有可能互相影响，例如第二个光刺激有可能影响对第一个光刺激的感知。这种现象常称为屏蔽，因为它减小了对第一个刺激的敏感度。具体来说，它使感知到的反差减小，而且感知的敏感度也减小了。 9．视觉在时间上的累积效应视觉的重要时间特性之一是视觉在时间上有累积效应。当对一般亮度（光刺激不太大）的物体进行观察时，接收光的总能量E与物体可见面积A、表面亮度L和时距（观察时间长度）T成正比，如令EC为以50%的概率觉察到所需要的临界能量（即在多次试验中，每两次中有一次观察到光刺激时的光能量），则有Ec=ALT 。上式成立的条件是T<TC ,TC为临界时距。上式表明，在Tc时间没眼睛受到刺激的程度和刺激的时距成正比。若时距超过了Tc ，则不在有时间累积效应，换句话说，此时，上式不成立。 10．视觉在空间上的累积效应视觉不仅有时间累积效应也有空间累积效应。人眼对光刺激的感受范围很大，可多达13个数量级。最低的绝对刺激阈为0.00001 lx（勒[克斯]），而最高为100 000 000 lx 。在最好的条件下，例如在边缘视网膜的一个足够小区域里，每个光量子都被一个柱细胞所吸收时，只需要几个光量子即可以引起视觉。此时可认为发生了完全的空间累积作用，这种情况可用称为光面积和强度的反比定律来描述。这个定律可写为：EC=kAL 。其中EC为50%觉察概率所需要的临界光能量，即视觉的绝对阈值；A为累积面积；L为亮度；k为一个常数。它与EC ，A ，L，所用的单位有关。注意，能是上述定律满足的面积有一个临界值AC（对应直径约0.3rad的圆立体角），当A<AC ，上述定律成立，否则上述定律不成立。由此可见，空间累积效应可以这样理解：当小而弱的光点单独呈现时可能看不见，但是当多个这样的光点连在一起作为一个大光点同时呈现时便能看见。它的机能意义在于：很大的物体在较暗的环境中即使轮廓模糊也能被看见。 11．视敏度在良好光照条件下，人所能看到的景物细节的精确性（对景物精致细节的分辨能力）可以用视敏度(visual acuity)来表示。视敏度具体对应观察者所能看见的最小测试物体的尺寸。视敏度为1表示对应视角为1度时在标准距离的分辨能力。一般配眼镜时用字母作为测量视敏度的刺激源，此时视敏度为1（记为10/10）的分辨能力已经相当不错了。不过人眼对字母的分辨能力并不好。如果不用字母而用白底黑线，在同样的环境下人眼的视敏度的值可达到120，这对应角度为半分的分辨能力。人眼的视敏度与视网膜上感受细胞的排列，瞳孔的大小，场景中物体的亮度，观察时间等都有关。视敏度可用不同方式借助不同的测试物或图形进行测试。（1）觉察观察者检测在视野中某个给定物体是否存在。这里需要注意应将光学衍射的现象与觉察问题一起考虑。由于衍射，一个场景中单独的国土昂点聚焦在视网膜上时不再是一个点，而成为了由一个中心圆盘及一系列围绕其周围的暗环和亮环所组成的模式，同样由于衍射，一条细线在视网膜上的影像总具有一个大于0.0087rad的宽度，不论原来的测试线有多细。（2）定位观察者对两个物体相对位置精确辨别的能力。一般人眼刚刚能分辨的偏差为0.00056rad。这类两眼视像间的位移是立体深度辨别的基础。（3）解像解像力士对一个视觉形状各组成部分之间距离的辨别能力。常用的测试图形是栅格图形，网格的线宽和间距常相等。最好的眼睛在最好的情况下也只能分辨由对应视角0.0097~0.011rad宽的线条组成的栅格。（4）认知认知是一种综合能力或方法，标准视力表舅是采用了这种方法。认知字母的任务不仅包括明度辨别，而且包括一定的解像力及定位能力。上述各种测试视敏度的方法都死通过判断测试图在视觉系统中的成像来进行的。最常用的测试图是栅格形，它的细致程度可用空间频率单位来定量的表示。这里空间频率指的就是在测试图中每一张角里包含的亮线数目。实际的测试栅格由粗细不同和对比度不同的线条组成，可用于测定眼睛觉察栅格线条的对比感受性。举例来说，如果眼睛所觉察到的栅格亮暗线间的对比度与原测试栅格亮暗线间的对比度接近，就认为对比感受性大。如果测试栅格线条很细，觉察到的栅格亮暗线间的对比度就会比实际的小很多，即未能很好的成像。如果用横坐标代表测试栅格亮暗线条的粗细程度，用纵坐标代表对比感受性，则实测结果就给出视觉系统的调制传递函数。它给出系统将测试图准确转换成光学图像的能力。这里栅格粗细程度可用空间频率来表示，其单位为每度视角中所包含的周数（线条数目），即周/度。对比感受性可用光的调制系数M来规范，如果设Lmax Lmin和Lav分别代表最大，最小和平均亮度值，则有形状知觉是对视野中各种空间关系的知觉[赫 1983]。要理解形状知觉先需要了解轮廓，图形（目标）和背景。 12．形状的感知（1）视觉边缘和目标对形状的感知离不开外部刺激导致的视野中的视觉边缘，这些视觉边缘给出了形状感知所需的信息。对有目标的图像，对形状的感知不仅与对边缘的感知有关，也与对目标的感知有关。在这些图像中，对形状的感知问题就是对视觉目标的感知问题。当图像比较抽象或更符号化的时候，对形状的感知会更困难或不习惯。更进一步，当讨论图像中一个目标的形状时常有各部分之整体的意思，所以仅根据目标部件本身并不一定能做出形状的判断。例如从图像中辨认出一个人不仅要确定其脸、臂、腿等，还需要看出它们符合某种空间关系。按这种方式看来，形状的概念是比较抽象的，且相对独立于物体的物理特征。一个图形可以改变其尺寸和位置，甚至他的组成单元（如用点线代替连续线）而不真正改变其形状。（2）前景和背景的分离前景和背景的概念首先是由心理学家将视场用轮廓（封闭的视觉边缘）分解成区域是提出的。前景位于轮廓的内部，它具有某种形状并或多或少像一个物体。尽管有时不能被辨识为某种物体，但它总能被感知为距离比较近且具有比较清晰地颜色。实验表明，前景比背景更容易辨识，更易与语义，美学，情感相联系。在心理和认知方面重要的格式塔(gestalt)理论认为将前景和背景分离开始一种视觉系统自发的组织结构：所以形状都是在一定环境下被感知的，前景和背景的关系是这种相互关联的抽象结构。（3）形状构造的规律根据格式塔理论，形状在构造时有一些规律，常用的有以下四条： ① 接近规律，空间相接近的元素比相分离的元素更容易感知为属于共同的形状。 ② 相似规律，类似形状或尺寸的元素更容易被感知为属于相似的集合形状。 ③ 连续规律，如果一个形状不完整，有一种自然地趋势将其看做完整的。 ④ 封闭规律，当移动一个形状时同时被移动的元素被看做属于同一个整体形状。格式塔理论认为一个目标被观察到的方式由整个环境或者说它本身存在的场所决定。换句话说，在人的视场中的视觉元素或者是相互吸引的或者是相互排斥的。关于接近，相似，连续，和封闭的格式塔规律描述的就是在场中结合的方式。（4）形状和信息有些关于形状感知的研究借助了香农信息论的概念来进行。这里的基本思路是：对一个给定的前景，其中有些部分提供的信息量要比其他部分的信息量少，这些仅提供少量信息的部分所提供的信息常可被预测且可认为是冗余的。利用信息的概念，可以将格式塔原理用更一般的形式描述出来，并将它们结合进最小原理：在对同一个目标的两个可能的信息组织中，最简单的那个将被感知到。上述最小原理对合成图像很容易观察到。它也能帮助解释许多实验，使得视觉过程类似于推理过程。不过它与有些实验结果还是矛盾的。对一个可视的前景，冗余集中在不间断的，均匀颜色或亮度的区域。其他冗余由结构的规则性产生，如对称性，不变性。没有冗余的部分是不确定的，不可预测的，一般聚焦在轮廓的周围，特别在方向变化非常快的部分。当一个观察者被要求记住或复制前景时，他会集中注意力于这些部分。 13．轮廓轮廓（封闭的边界）是形状知觉中最基本的概念，人在知觉一个形状以前一定先看到一个轮廓。事实上当人们看出一个物体的形状时，其实就是因为先看出一个轮廓，这个轮廓把该物体与视野中的其他部分区分开来。直观的说，对形状的知觉要求在亮度不同的可见区域之间有一条线条分明的轮廓。例如，根据实际经验可知，当两个区域的亮度相差很多时，可以容易的将他们分开；而当两个区域的亮度相同仅色调不同时，并不能引起清晰地形状知觉。如果让两个区域的亮度逐渐接近，它们的轮廓线将逐渐变的模糊，两个区域形状变得逐渐不确定。轮廓的构成如果用数学语言来说就是轮廓对应亮度的二阶导数。还句话说，仅仅有亮度的（线性）变化并不产生轮廓，必须有亮度的加速变化才有可能产生轮廓。另外，当亮度变化的加速度低于知觉轮廓的阈值时，虽然眼睛注视物体，但并不能看出它的形状。轮廓与形状又有区别，轮廓不等于形状。当视野的两部分被轮廓分开的时，尽管它们有相同的轮廓线，却可被看成具有不同形状。轮廓与形状的区别也可以这样解释：当人注意物体的形状时，倾向于固定看某一些区域部分（一般是由经验得出的关键部位）；而当人注意轮廓时，则把轮廓看成一条要追踪的路线，所以从轮廓到形状的知觉有一个形状构成的过程。可以说，轮廓只是边界，是一个局部概念，而形状则是全体，是一个总体概念。轮廓在帮助构成形状时还有“方向性”。轮廓通常倾向于对它所包围的空间产生影响，即轮廓一般是向内部而不是向外部发挥构成形状的作用。当视野被轮廓分成目标和背景时，轮廓通常只帮助目标构成形状，而背景似乎并没有形状。例如从一幅大图中挖出一个小块，两者具有相同的轮廓，但很少有人能看出它们构成了相同的形状。这可以解释在拼拼图时，有一定图案的部分比大片蓝天海水部分好拼。这是因为前一种情况下可借助于对画面的理解，而后一种情况下可借助于对画面的理解，而后一种情况下仅靠图版的轮廓起线索作用。在形状知觉中，对轮廓的知觉常由于心理因素等而与实际情况不同。这里给出两个例证。一个是当观察两个亮度不同的区域时，它们之间的轮廓一般表现的特别明显，而且有一种在边界处亮度对比加强的现象。这种强烈的视觉轮廓现象为纪念发现者而别命名为马赫(mach)现象。也有人将这种在轮廓部分发生的主观对比加强现象称为边界对比，并且那个被加强的区域总是发生在亮度变化最大的地方。另一个有趣的现象称为主观轮廓。人们在没有亮度差别的情况下，由于某种原因也可以看到一定的轮廓或形状。这种在没有直接刺激作用下而产生的轮廓知觉称为主观轮廓或错觉轮廓。对主观轮廓有一种认知性的解释：主观轮廓的形成是在一定感觉信息的基础上进行知觉假设的结果。主观轮廓产生的一个必要条件是视野中有某些不完整的因素出现。如果将他们完整起来就有一种把原图案转变成简单和稳定正规图案的倾向，这会诱使人们作出某种假设，从而产的主观轮廓的知觉。 14．图形和背景当人们观察一个场景时，常将希望观察或所关注的物体称为图形目标，而把其他部分划分到背景里。形状感知的第一步就是将目标从背景中区分出来。区分图形和背景是理解形状知觉的基础，图形和背景常有如下区别[郝 1983]和[zakia 1997]： ① 图形有一定的形状，背景相对来说没有形状；图形有物体的特征，背景好像是未成形的原料；图形看起来有轮廓，背景看起来好像没有。 ② 尽管图形和背景在同一个物理平面上，前景常看起来更接近观察者。另一种说法是图形经常显现在前面，而背景显现在后面；背景看起来像是在图形背后连续伸展而不中断。 ③ 图形一般占据比背景小的区域面积，但图形与背景相比更动人，更吸引人，更倾向于具有一定的意义。 ④ 图形和背景不能同时看到，但可顺序看到（例如，经过努力，你可以看到一个具有圆孔的白色正方形）。形状知觉研究中有个重要问题，即那些是形成图像和背景的决定因素。已发现的影响因素如下。（1）视野中的距离视野中两个因素越接近，则将它们结合起来看做一个整体的概率就越大。例如空间位置相对接近的散点比较容易和在一起构成图形。另外，对于大小不同的封闭图形，其面积较小的更倾向于被看做图形，这也是与接近性密切相关联的。（2）相同或相似在亮度和颜色相似的点倾向于合成一组并构成一个图形。（3）良好图形视野中被看成图形的部分一般都可以说出其意义。它常是由同一刺激所可能显示的各种组合中最有意义的图形，所以又称为良好图形原则。组成良好图形的具体因素包括主要与刺激物本身特征有关的刺激性因素和以观察者主观条件而改变的非刺激性因素。 15．几何图形视错觉错觉是人们的感官对客观事物不正确感觉的反映。各种感知觉中其实都有错觉现象，而一般以视错觉表现的最为明显，其中人们研究最多的是几何图形视错觉。当观察线条图形而把注意力集中于他的某一些特征，如长度，面积，方向时，由于各种主客观因素的影响，有时感知到的结果与实际的刺激模式不相对应。这种特殊情况称为几何图形视错觉。几何图形视错觉也称为视觉变形，指图形通过视觉产生感觉上的变形，这些变形发生于正常人的视觉，而且是即时发生的，常没有外来因素的影响。常见的几何图形视错觉可根据引起错误的倾向性分为以下两类：（1）数量（尺寸）上的视错觉包括在大小，长短方面引起的视错觉。（2）方向上的视错觉指直线或曲线在方向上变化引起的视错觉。近100年来，心理学家和生理学家一直努力试图解释视错觉，有关的假说也提出了许多，其中有不少已经被实验证明不合理，也有一些由于模糊不清被抛弃，统一的解释理论始终没有建立起来。常见的与几何图形视错觉相关的几种主要假说如下[赫 1983]：（1）眼球运动假说这种假说有几种形式。一种形式认为关于物体长度的印象是以眼睛对该物体从一端到另一端进行扫描为基础的。由于眼球做垂直运动比横向运动费力，所以产的垂直距离比相同的水平距离长的错误印象。另一种形式认为图形中的特征会是眼睛注视点发生错误，从而产生错觉。不过如果用光学方法将视网膜的像固定下来，对知觉的错误还会发生。或者用闪光灯闪亮图像，然后观察闪光结束后的像，视觉错误仍然存在。这都表明产生视错觉的原因并不在于眼睛的运动。（2）透视假说透视假说(perspective theory)也称常性误用假说(mis-applied constancy theory)。透视假说的核心概念是：引起视错觉的图形通过透视暗示了深度，而这种深度暗示会导致对图形大小知觉的变化。变化的一般规则是：引起视错觉的图形中变现较远事物的那些部分被扩大，而表现较近事物的那些部分被缩小。换种方法说，某种特定的视觉模型可以造成深度的印象。因为人们评定物体大小时会把距离也考虑进去，所以看起来相同大小的两个图形位于不同距离是会被视为大小不同。需要指出，引起视错觉的图形尽管有透视特性，但看起来却是平面的。印在普通质地纸上的透视图形具有一种深度假象：它们用透视或其他深度线索描绘出深度，但作为物体它们却是平面的，它们的表面提供了其为真实平面的深度线索。如果设法消除这些表面线索，是表面不可见，图形就会表现出戏剧性的深度变化。（3）混淆假说混淆假说(confusion theory)也称错误比较假说(incorrect comparison theory)。它指观察者在为确定尺寸而进行比较时没有正确的选择应比较的对象，或者说，将需比较的图形与其他图形混淆了。（4）对比假说两个大小相同的圆由于位于一圈小圆或一圈大圆的不同包围之中而显得大小不同，是由于对比的影响而向对立面转化的原因。（5）同化假说同化假说（assimilation theory）可以解释视错觉。当将平行四边形分成大小不同的两部分时，小四边形越小其对角线看起来越短，这是由于在知觉时将刺激中某一成分同化在它处背景或参照系中了。（6）神经位移假说神经位移假说（neural-displacement theory）是一种基于生理学的假说。基于生理学的假说强调视错觉是由于生理机制受到扰乱而产生的，例如有些图形特征可能扰乱大小知觉和方向知觉。有一种对视错觉的解释认为变形时侧抑制的副作用，这里所谓的侧抑制是指视觉感受区域间的相互作用，对某个区域的强烈刺激会使其周围区域的感受性降低。视网膜中的每个细胞都与很多大脑中的细胞相连而构成一个视网膜场，其中包含许多复杂的接受单元。另外，每个接受单元也可以同时属于成百上千相连的视网膜场。神经元是用两种不同的方式相连的。如果一组接受单元与一个细胞间有刺激连接，这个细胞将随着接受单元的激励而激励，并通过与其他细胞的连接而影响其他细胞。如果一个连接受到抑制，该细胞或接受单元的活力奖受到抑制并影响其后连接的细胞的活力。在神经位移假说中，认为神经中一定部位处的活动能抑制其临近区域的活动。这包括三种情况：①放在黑白两种不同背景中的同一块灰色纸片在两种情况下，看起来会有明显差别（亮产生强抑制，暗产生弱抑制），这就是同时对比度现象；②人们发现，锐角倾向于被看得较大，钝角倾向于被看得较小，。③两直线相切割时，有使人倾向于沿与它们垂直方向去看的效果。以上介绍了各种假说和它们可以解释的视错觉。需要指出的是，以上各种假说中虽然每种都可以解释一部分视错觉类型，但是没有一种假说可以对所有几何图形视错觉都给出合理的解释。这方面还有待研究。 1.1.2 字图像感知和采集我们感兴趣的各类图像都是由“照射”源和形成图像的“场景”元素对光能的反射或吸收相结合而产生的。把“照射”和“场景”加上引号是为了强调比我们所熟悉的情况（即，可见光源照射各种三维场景）更一般的事实。例如，照射可能由电磁能源引起，如雷达，红外线或X射线能源。但是，正如前面指出的，照射也可以由非传统光源（如超声波），甚至由计算机产生的照射模式产生。类似的，场景可能是熟悉的物体，但他们也可能是分子，沉积岩或人类大脑，甚至可以对一个光源成像，如获得太阳的图像。根据光源的性质，照射能量可从物体反射或从物体透射。第一类例子是从平面反射，第二类例子是使X光通过病人身体产生一幅X光诊断图像。在某些应用中，反射和投射都能聚焦到一个照片转换器上（图像屏幕），该转换器把能量转换为可见光。电子显微镜和伽马成像的应用就是使用这种方法。图2.12显示了用来把照射变为数字图像的三种主要传感器装置。原理很简单，通过将输入电功率和对特殊类型检测能源敏感的传感器材料组合，把输入能源转变成电压。输出电压波形是传感器的响应。同时，一个数字量可从数字化该响应的每个传感器得到。图2.12（a）显示了单个传感器部件。也许最熟悉的这类传感器是光二极管，它有硅材料构成，并且其输出电压与光成正比。在传感器前面用一个滤光器改善选择性。例如，光传感器前面的绿色（通过）滤光镜有利于彩色普的滤波段光通过。因此传感器输出的绿光笔可见光谱中的其它分量要强。为了用单一传感器产生二维图像，在传感器和成像区之间，还必须在X和Y方向有相对位移。图2.13显示了一个用于高精度扫描的装置，这里把一个负片装在一只鼓上，该鼓机械位移产生一维位移。单传感器安装在引导螺杆上，它提供垂直方向的移动。因为机械运动可以高精度的控制，所以这一方法是得到高分辨率图像的一种廉价的方法（但是较慢）。另外，类似的机械装置使用一个平面床，而传感器在两个方向上线性移动，这些类型的机械数字化器有时归为微观光密度计一类。用单一传感器成像的另外一个例子是同时放一个激光器和传感器，用一个镜子来控制发射光束到扫描图形上，同时把激光信号反射到传感器。这个装置也可使用条形或矩形传感器获取图像。比单个传感器更常用的几何结构式线状排列的传感器形成的一个传感器带，如图2.12（b）所示，传感器带在一个方向上提供成像单元。相对于传感器带垂直方向的运动在另一个方向上成像，如图2.14（a）所示，这是大多数平板扫描仪所用的装置。感受装置可能有4000或更多的排成直线的传感器。线状传感器常用于航空拍摄，在这种应用中，成像系统装在一架飞机上，飞机以恒定的高度和速度飞过被拍摄区。可响应各种电磁波谱波段的一维传感器带按与飞行方向垂直的方向安置。成像传感器带一次给出一幅图像的一行，传感器带的运动完成二维图像的另一维。透镜和其他聚焦方法用来把扫描区域投影到传感器上。以圆环形状安装的传感器带医学和工业成像，以得到三维物体的横断面图像，如图2.14（b）所示。一个旋转地X射线源提供照射，并且相对于射线源的传感器部分收集通过物体的X射线能量（很明显，传感器必须对X光敏感）。重要的一点是，传感器的输出必须由重建算法处理，重建的目的是把感知数据转换为有意义的横截面图像。换句话说，图像不可能从传感器的单一运动得到，它们需要进一步处理。由图像堆积组成数字体由物体与传感器环相垂直方向的运动产生。基于CAT原理，其他成像模式包括核磁共振成像（MRI）和正电子发射断层。照射源，传感器和各种类型的图像是不同的，但是在概念上其成像方法是非常相似的。图2.12（c）显示了以二维阵列形式排列的独特传感器。大量的电磁波和某种超声波敏感元件常以阵列形式排列。这也是在摄像机上常见的主要结构。这些摄像机的典型传感器是CCD阵列。这种阵列可用宽带且有敏感特性的元件制造并封装为4000*4000或更多单元的稳定阵列。CCD传感器广泛的用于数字摄像机和其他光敏设备中。每个传感器的响应正比于投射到传感器表面的光能总和。这一特点被用于天文学和其他要求噪声低的应用中。采用让传感器累积输入的光信号超过几分钟甚至几个小时的方法，可达到减少噪声的目的。图2.15（c）所示的传感器阵列式二维的，它的主要优点是把图像能量聚焦到阵列表面，以得到完整的图像。在这样的传感器阵列中应用的主要方法示于图2.15。该图显示了来自照射源通过场景反射的能量，但正如本节开始提到的，该能量也可以通过场景单元来传递。示于图2.15（c）的成像系统的第一种功能收集入射能量，并把它聚焦到一个图像平面上。如果照射的是光，则成像系统终端前面是一个透镜，透镜把观察场景投影到透镜的聚焦平面上。如图2.15（d）所示。与焦点面相重合的传感器阵列产生于每个传感器接收总光量成正比的输出。数字或模拟电路扫描这些输出，并把它们转换成电视信号，然后由成像系统的其它部分数字化，图2.15（e）示出了输出的数字图像。简单的成像模型，用f(x,y)二维函数形式表示图像，在特定的坐标(x,y)处，f值或幅度是一个正的标量，其物理意义由图像源决定。本书中的大多数图像是单色图像，图像值可称为灰度级。当一幅图像从物理过程产生时，它的值正比于物理源的辐射量（如电磁波）。因此，f(x,y)一定是非零或有限的，即 0< f(x,y)<∞

展开阅读全文

图像工程 绪论.doc

图像工程绪论.doc