1、正文: 本科生文献综述(论文)图像检索的进展与展望 图像检索的进展与展望 行知学院 计算机与科学技术专业 罗英(05196140) 指导老师:张长江(副教授) 摘要:随着计算机数据处理能力的提高和多媒体编码技术的进步,网络上的各类资源日益丰富,人们很容易在多媒体信息海洋中迷失方向,如何从中有效地检索有用信息是一个很关键和迫切的问题。本文基于图像检索技术,阐述了图像检索的进展与展望。 关键词:图像检索;基于内容的图像检索;基于文本的图像检索技术;图像和语义的混合检 索 1 引言 随着互联网的发展,越来越多的人接触到了更加方便,使用的数字媒体,如:
2、数字照相机,摄象机,扫描仪等电子设备。面对如此众多的多媒体内容,人们很容易在多媒体信息海洋中迷失方向,如何在浩如烟海的多媒体世界中找到自己所需要的信息成了迫切需要解决的问题。目前,已经有不少的搜索引擎提供网络图像的检索服务,如Google、Ditto、PicSearch、Ixquick、Mamma、百度等。 2 图像检索的进展 2.1 基于文本的图像检索 从20世纪70年代开始,有关图像检索的研究就已开始,那时主要是基于文本的图像检索技术(Text-based Image Retrieval,简称TBIR),沿用了传统文本检索技术,回避对图像可视化元素的分析,而是利用文本描述的方式表示
3、图像的特征,如绘画作品的作者、年代、流派、尺寸等。一般以关键词形式的提问查询图像,或者是根据等级目录的形式浏览查找特定类目下的图像,将图像分为动态图像、照片、图标、背景、艺术剪辑图、插图、壁纸、界面、成套图像8个一级类,下设数量不等的子类。在图像数字化之前,档案管理者、图书管理员都是采用这种方式组织和管理图像。早期的TBIR是手工对图像进行注释,工作量相当大,不可避免地会带来主观性和不精确性。在Internet环境下的TBIR网页信息的自动采集和标引技术的索引方式有全文索引和关键词索引。如Google,Yahoo和百度等搜索引擎所提供的图像检索服务,它们采用的都是TBIR技术. TBIR技术
4、实现较简单,更符合人们检索习惯,由于这种搜索引擎可以利用成熟的关系数据库技术,减少许多对图像内容本身的复杂考虑,所以检索比较准确,而且速度很快。这种技术可以用来管理数量不多,但比较有价值的图片库,例如,博物馆收集的图片。其缺点在于,首先,人工对图像进行标注太费时费力,其次人工标注具有主观性和不确定性。例如,对于同一幅图像,不同的人给出的标注可能完全不同,这使得准确地响应用户的查询非常困难。有人通过分析网页对其链接图像的说明获得图像的文本标注,这在一定程度上减少了人工标注的劳动量,但是网页对图像的说明仍然是人工的,因此不能避免主观性和不确定性问题。 2.2 基于内容的图像检索 到90年代以
5、后,出现了对图像的内容语义,如颜色、纹理、形状以及目标的空间关系图像检索技术,即基于内容的图像检索(Content-based Image Retrieval,简称CBIR)技术。其特点是图像本身包含的客观视觉特性,不需要人为干预和解释,能够通过计算机自动实现对图像特征的提取和存储。 以下几种基于内容的图像检索方法: 一、 基于颜色特征的检索 实践表明,基于颜色的CBIR系统具有较好的性能,而且实现相对容易,最常用的表达颜色特征的方法是颜色直方图。以直方图为特征的常用匹配方法有: (1)矢量距离法 以图像的直方图在各个灰度级上的值构成特征矢量,按照欧氏距离公式计算特征矢量之间的距离,
6、以这个距离值代表图像之间的差别程度。试验证明,如果选择合适的彩色空间,那么,欧氏距离与人感觉的颜色差别是一致的。 (2)直方图交叉法 取两幅图像的直方图在各个灰度级上的较小值,累加后即表示图像之间的相似程度。这种相似度实际上表示两幅图像的公共部分。 (3)直接差值法 把直方图在各个灰度级上的值对应相减,并做归一化处理,用差值代表图像之间的差别。如果两幅图像内容一样,则相似度为1。相似度值越小,表示图像间差别越大。 其他常用的颜色特征表示方法还有颜色矩和颜色相关图。 二、 基于纹理特征的检索 纹理是一种不依赖于颜色或亮度的反映图像中同质现象的视觉特征,对图像灰度变化的特征进行量
7、化,与对象的位置、走向、大小、形状有关,与平均灰度级无关。图像检索中用到的纹理特征表示方法主要有:Tamura法、小波变换和自回归纹理模型。 三、 基于形状特征的检索基于语义的图像检索 形状特征常与目标联系在一起,需提取目标的轮廓或描述目标轮廓所包围的区域的性质。因此形状比颜色和纹理的语义性更强。 (1)基于边界的表示:代表方法是傅里叶描述子。其基本思想是用对图像进行傅里叶变换得到的边界作为形状描述. 其中一个优点就是把二维问题简化为一维问题。 (2)基于区域的表示:代表方法是不变矩法。 四、 基于空间关系特征的检索 基于空间关系特征的检索空间关系特征可以分为两类:一类是基于
8、图像分割的方法:首先对图像进行自动分割,划分出其中所含的对象或颜色区域,然后根据这些区域对图像索引。 这种方法的算法都是自动的,其主要优点是可以从大量的图像中提取边界而不占用用户的时间和精力。然而,如果通用领域内没有经过预处理的图像,这种自动的分割技术效果就不太好。另一类是基于图像子块的方法:它是将图像简单地均匀划分若干规则子块,对每个图像子块提取特征建立索引。这类方法从概念上来说非常简单,但这种普通规则的分块并不能精确的给出局部色彩的信息,而且计算和存储的代价都比较昂贵,因此,在这类方法在实际中应用较少。 CBIR系统一般包括图像处理模块、查询模块、对象库和特征库和知识库: 一、 图
9、像处理模块 图像处理模块包括输入图像和图像特征的提取过程: (1)图像输入过程将图像输入到系统当中,类似于文本检索系统中文本内容的录入过程。CBIR系统一般允许用户以全自动或者半自动(需要用户干预)的方式对图像进行分割,标识出需要的对象或内容关键点,以便有针对性地对目标进行特征提取。如用户界面常常提供一组示例供用户选择,或者由用户亲自绘制草图输入系统。 (2)特征提取对用户或系统标明的图像对象进行特征提取处理。特征提取可由人完成,例如人工给出一些描述特征的关键词,也可以通过对应的图像处理程序完成,自动提取出检索用户可能关心的一些图像特征。提取的特征既可以是全局性的,如整幅图像的颜色分
10、布,也可以是针对某个内部的局部对象,如图像中的子区域。特征表示方法有许多,如颜色表示法中就有颜色直方图、颜色矩、颜色集等,纹理表示法中有Tramura纹理特征、基于小波变换的纹理特征表示法。不过,涉及图像高级抽象的特征时,会受到知识领域和检索任务的限制,因此往往需要外界知识提供辅助。 二、 查询模块 查询模块主要实现检索匹配过程,根据相关度计算方法,实现提问与记录的匹配和筛选,最终得到符合要求的结果反馈给用户。CBIR采用示例查询的方式向用户提供检索接口, 将用户的检索请求转化为可以对数据库进行操作的提问。检索允许针对全局对象,如整幅图 像,也允许针对其中的子对象以及任意组合形式
11、来进行。检索返回的结果按照相似程度进行排列输出,如果有必要可以基于得到的检索结果进行进一步的查询。与基于内容检索一样,CBIR实现的是相似性检索,模仿人类的认知过程进行,因此,往往需要在与检索用户不断地交互中提炼检索结果。 三、 对象库与特征库 CBIR中的对象库存储了输入的图像资源,特征库包含了用户输入图像特征以及在预处理过程中自动提取的特征。对象库和特征库通过组织与图像相匹配的索引来实现快速搜索,从而可以应用到大规模图像数据库检索的过程当中。 四、 知识库 在CBIR系统中,知识库的目的是为了将检索限定在一定的任何领域范围内,避免不同的检索要求以及不同的领域背景可能会导致
12、对媒体内容语义产生的不同要求。因此,检索需要一定的领域知识加以辅助来提高检索的准确性。 图像的视觉内容,如图像的颜色、纹理、形状等进行分析和检 3. 图像检索的展望 3.1 图象检索技术 由于图像的低层可视特征不能有效地表示图像的高层语义特征,基于文本标注的图像检索技术仍然起着不可替代的作用。例如,为了实现对多媒体内容的存取、索引和检索,MPEG-7标准提出了多媒体内容的层次表示,最低层次是可由计算机自动提取的物理统计特征,最高层次是与多媒体内容相对应地类似文字描述的特征,语义层次的特征在必要时还需要人工标注的方式提供。 基于内容的图像检索研究是一个综合的研究领域,它从图像处理、
13、计算机视觉、模式识别以及数据库等研究领域借鉴了很多方法。它强调如何方便快速地从大规模的数据库中提取出满足特定要求的相似图像。 在检索原理上,无论是基于文本的图像检索还是基于内容的图像检索,主要包括三方面:一方面对用户需求的分析和转化,形成可以检索索引数据库的提问;另一方面,收集和加工图像资源,提取特征,分析并进行标引,建立图像的索引数据库;最后一方面是根据相似度算法,计算用户提问与索引数据库中记录的相似度大小,提取出满足阈值的记录作为结果,按照相似度降序的方式输出。怎样结合图像的视觉特征和语义特征,提供与人类认知模式一致的语义检索功能将是未来图像检索研究的重点;同时,人类的检索行为是一个“逐
14、步求精”的过程,因此,与用户的智能交互机制和有效的相关反馈机制是提高图像检索效果的有效手段。归纳而言,图像检索的方法对应于图像特征的三个层次,也可以归结为相应的三个层次: 一、简单的可视化特征层次:对图像的简单可视化特征进行查询,如颜色、 纹理、形状或者是图像中元素的空间,这些特征反应的一般是图像本身客观的一些属性,因此,一般不需要任何外界知识的辅助。 二、中间的对象层次:对图像的个体特征进行查询是介于简单的可视化特征查询和高级的抽象语言特征查询的中间状态,一般表现为对局部的特征查询,例如检索图像中的某个对 象或者是某个人物等。这种查询一般需要对识别和检索的目标进行一定程度的逻辑推理,所
15、以需要借助外界知识的辅助。 三、高级抽象的特征层次:对图形的抽象属性的查询,包括检索与某个事件或者是某个活动相关的图像,例如查找反映某种情感色彩,或者是符合某种风格流派的图像,这时需要对这些抽象的目标和场景所代表的意义进行分析,需要对其进行更高级的推理,同时这类特征带有较强的主观色彩,因此,更需要外界知识的辅助。 3.2 图像检索研究的三个方向 无论是基于文本的检索还是基于内容的图像检索,这两者一个共同的缺陷就是没有考虑人类的认知模型和原理,而把语义特征和视觉特征割裂开来。未来的图像检索系统应该能够满足以下几个要求: 一、 能够满足语义检索的要求,也就是说用户提交检索(不仅可以是样
16、例图像,还可以是语言描述)请求后,系统能够分析用户的检索请求后进行检索,返回的结果图像不仅在视觉表征上相关,而且在语义表征上也相关。 二、 图像特征表示不仅包含视觉特征而且包含语义特征,而且视觉特征和语义特征可以相互作用。 三、 有效的知识库指导,具有智能决策能力,主要包括:视觉特征和语义特征之间的有效映射规则、视觉特征内部和语义特征内部的有效联想规则、 在线学习用户检索偏好的机制、用户的智能交互和相关反馈机制 因此出现了图像和语义的混合检索模型。是结合文本和内容,进行融合性研究。发挥各自的优势促进图像的高效、简单检索方式的实现,尤其是网络环境下,结合图像所在Web文档的特征分析,推断图
17、像的特征,同时结合对图像的内容分析,共同标引达到对图像的分析和检索。不仅构造了从文本到图像的映射和从图像到文本的映射,而且在文本表征和内容表征内部也构造了联想结构,使我们可以综合语义特征和视觉特征进行检索。进一步,我们可以通过用户交互和相关反馈提高检索效果。 总之,结合文本和内容的混合检索不仅具有比较坚实的认知心理学理论基础,而且它更加符合人类的检索习惯,友好的人机交互和智能行为也会大大提高系统的性能。综合图像视觉特征和语义特征的混合检索代表着图像检索技术发展的方向。 4. 结论 图像检索就是根据对图像内容的描述,在目标图像集合中找到具有指定特征或包含指定内容的图像。无论是基于手工标注的
18、关键字检索还是基于内容的图像检索,这两者一个共同的缺陷就是没有考虑人类的认知模型和原理,而把语义特征和视觉特征割裂开来。 而目前研究趋势出现的三个方向:立足于文本,对图像进行检索、立足于图像内容,对图像进行分析和检索、结合文本和内容,进行融合性研究。可以说,三个方向都是相互影响和促进的,任何一个方向的进展都会促进图像检索技术向前更进一步。 参考文献 [1] 贺玲, 吴玲达, 蔡益朝.CBIR中的索引技术综述[J].小型微型计算机系统.2006,vol.27:141-145. [2] 刘忠伟,章毓晋.十种基于颜色特征的图像检索算法的比较和分析[J].信号处理,2000,16(1):79-84. [3] 黄祥林,沈兰荪.基于内容的图像检索技术研究[J] 电子学报, 2002,(07). [4] MA W Y,ZHANG H J.Benchmarking of Image Features for Content-based Retrieval[C]//The 32nd Asilomar Conference on Signals,Systems& Computers.Pacific Grove,California,USA:IEEE CS Press,1998. 6






