1、图像检索技术研究-毕业论文 作者: 日期:2 个人收集整理 勿做商业用途毕 业 论 文图像检索技术研究摘 要在网络和多媒体技术越来越发达的今天,信息检索技术成了现在计算机领域的重要内容,而图像检索技术正是这其中的重要内容之一。网络资源的极大丰富以及图像检索技术不断发展成熟,使得图像检索技术的应用领域不断扩大,这为图像检索技术的继续研究提供条件.以此同时,随着网络传送速度与计算机信息处理速度的提高,网页中对多媒体信息的使用变得十分普及,特别是图像信息,己经成为表示网页内容不可缺少的组成部分。在实现对网页中文本信息提取的同时,如何再为用户抽取所需的图片资料,是信息检索中一个重要的方面。于是各种基于
2、Web的图像检索系统应运而生。它们采用不同的工作方式,极大地方便了用户对网上图像进行检索。本文首先介绍各种图像检索技术的工作原理、研究现状、相关图像检索引擎与发展趋势;然后,对几种比较热门的图像检索算法进行研究和对比。 关键字: 图像检索 检索引擎 文本处理 信息检索 相似度 相关反馈II目 录1 前言11.1 课题来源11.2现有的图像检索技术21.2.1检索引擎的工作原理21.2.2 图像检索引擎的检索途径31。2.3对几个基本引擎的分析41。2。4 检索引擎的基本要点51.3 图像检索的发展方向62 基于颜色的图像检索72.1颜色特征提取72。2 相似度计算102.3 实验结果103 基
3、于纹理的图像检索103。1纹理特征提取103。2 相似度计算133.3 实验结果134 综合颜色和纹理特征的图像检索144。1 综合特征检索的思想144.2 相关反馈154.3实验结果及结论155 基于WEB的图像检索175.1 文本与图像之间的关系175.1.1 表示图像内容的文本标记175。1。2文本的权值比较185。2 图像信息检索185。2。1检索模型与相似度185.2.2 分词技术和匹配方法205。3 检索反馈225。4 实验结果246 总结25参 考 文 献27Abstract28致 谢29仲恺农业工程学院毕业论文(设计)成绩评定表301 前言1。1 课题来源据统计,人类接受的外部
4、信息,70以上来自视觉,图像作为一种内容丰富,表现直观的多媒体信息被大量广泛地使用,如何有效管理、检索图像信息成为迫切需要解决的问题.传统的基于文本的检索无法满足海量环境下多媒体信息库的检索要求.为了克服基于文本方法的局限性,出现了基于内容的图像检索。随着多媒体技术及 Internet网络的迅速发展,图像来源不断扩大,大容量高速存储系统为图像的海量存储提供了基本保障,各行各业对图像的使用越来越多,图像信息资源的管理和检索也就显得越来越重要。但由于Internet 本身结构上、管理上的问题,想要在Internet 准确、快速、全面地找到自己所想要的图像,却变成了件非常不容易的事。由于Intern
5、et现有的问题:内容没有结构;网上信息量庞大且还在不断的增加。因此,网络产生了检索引擎。虽然这些给网络用户提供了不少的帮助,但由于偏离准确、快速、全面地检索自己所要的图像还相当遥远,所以对图像检索还要作很大的研究.根据国内外现有的检索引擎和国际上的有关研究小组的种种资料表明,现有的网络资源和检索引擎有如下特点:(1)索引的数据种类丰富,如文字、图像、声音等多媒体。数据的存取协议也是多种多样的,如HTTP、FTP、News、Gopher等;(2)索引数据量大,以致不可能有某个数据库能包括整个Internet的索引,目前最大的检索引擎,其中的索引也只不过覆盖了Internet的一小部分;(3)资源
6、消耗太大,系统需要将HTML文件传送至本地然后分析,大量占用昂贵的网络带宽和CPU资源,增加被检索结点的负担。另外由于现有的检索引擎一般是集中式的,所以检索引擎服务器本身的硬件配置也极高,才能处理庞大的数据量和及时地响应用户的查询请求;(4)不能有效解决索引失效问题,很多时候,检索引擎会返回无效的查询结果;(5)各检索工具各行其事,不能相互协作,在一定意义上讲是一种资源的浪费。 二十一世纪是一个多元化的信息社会,对图像的需求将是前所未有的巨大的,图像数据库也将得到长足的发展.因此,图像检索系统具有广阔的应用前景.1。2现有的图像检索技术近年来随着用户对网上图像检索要求的不断增长,各种图像检索引
7、擎应运而生,它们各自以不同的工作方式为用户提供各种检索途径,使网上图像信息的检索变得非常简单,尽管还不很完善,却已经可以满足用户的大多数要求。1.2。1检索引擎的工作原理最基本的检索引擎的结构,是由Spider不停地从Web网上收集数据,存放在检索引擎的数据库中。用户通过检索引擎服务器上的Web接口,提出检索请求,Web Server通过CGI或其它技术访问数据库,并将用户的检索请求转换成相应的数据存取语句,送给数据库引擎处理,并把查询结果通过网页显示给用户.网络检索的基本原理是通过网络机器人定期在web网页上爬行,然后发现新的网页,把它们取回来放到本地的数据库中,用户的查询请求可以通过查询本
8、地的数据库来得到。一般来说网络信息检索的实现机制一般有两种:一是通过手工方式对网页进行索引,它的缺点是Web的覆盖率比较低,同时不能保证最新的信息。查询匹配是通过用户写入的关键字和网页的描述和标题来进行匹配,而不是通过全文的匹配进行的;二是对网页进行自动的索引,这种能实现自动的文档分类,实际上采用了信息提取的技术。但是在分类准确性上可能不如手工分类。在现在所有运行的检索工具来说,一般都有一个Robot定期的访问一些站点,来检查这些站点的变化,同时查找新的站点.一般站点有一个robot。txt文件用来说明服务器不希望Robot访问的区域,Robot 都必须遵守这个规定.如果是自动索引的话,Rob
9、ot在得到页面以后,需要对该页面根据其内容进行索引,根据它的关键字的情况把它归到某一类中.页面的信息是通过元数据的形式保存的,典型的元数据包括标题、IP地址、一个该页面的简要的介绍,关键字或者是索引短语、文件的大小和最后的更新的日期。尽管元数据有一定的标准,但是很多站点都采用自己的模板。文档提取机制和索引策略对Web检索引擎的有效性有很大的关系.高级的检索选项一般包括:布尔方法或者是短语匹配和自然语言处理。一个查询所产生的结果按照提取机制被分成不同的等级提交给用户。最相关的放在最前面。每一个提取出来的文档的元数据被显示给用户。同时包括该文档所在的URL地址。另外有一些关于某一个主题的专门的引擎
10、,它们只对某一个主题的内容进行检索和处理,这样信息的取全率和精度相对就比较高. 目前,图像检索引擎主要通过以下两种方法识别图像: (1)自动查找图像文件。通过两个HTML标签,即IMGSRC和HREF来检测是否存在可显示的图像文件,IMGSRC表示“显示下面的图像文件”,导向的是嵌入式图像;而HREF则表示“下面是一个链接”,导向的是被链接的图像。检索引擎通过检查文件扩展名来判断其导向的是否为图像文件,如果文件扩展名是.gif或.jpg,即是一个可显示的图像。 (2)人工干预找出图像。进行分类,由人工对网上的图像及站点进行选择。这种方法可以产生准确的查询体系,但劳动强度太大,因此要限制处理图像
11、的数量。由于图像不同于文本,需要人们按照各自的理解来说明其蕴含的意义,因此图像检索比文本的查询和匹配要困难得多。1。2.2 图像检索引擎的检索途径1。关键词检索传统的图像检索技术是基于关键字的精确匹配检索,系统内的图像用关键字标识,检索线索是与标识相一致的关键字,即输入是关键字,输出是图像.它又包括两种途径:(1)基于图像外部信息进行检索。即根据图像的文件名或目录名、路径名、链路、ALT标签以及图像周围的文本信息等外部信息进行检索,这是目前图像检索引擎采用最多的方法.在找出图像文件后,图像检索引擎通过查看文件名或路径名确定文件内容,也可以通过查看图像的标题来匹配检索词。(2)基于手工标注的检索
12、。手工对图像的内容(如物体、背景、颜色等)进行描述并分类,将其标注为一系列关键字,并建立索引.检索时,将主要在这些描述词中检索用户输入的关键字。这种查询方式是比较准确的,一般可以获得较好的查准率,但需人工参与,劳动强度大,因而限制了可处理的图像数量。另外,由于图像所包含的信息量庞大,不同用户对于同一张图像的看法又不尽相同,导致了对图像的标注缺乏统一标准。2. 图像可视属性的检索而基于图像内容的检索主要是由图像分析软件自动抽取图像的颜色、形状、纹理等特征,建立特征索引库,其输入为用户要查找的图像的大致特征描述或示例,通过一定相似性匹配规则,输出为与之具有相近特征的图像,按相似程度排列,供用户选择
13、,从而把在传统图像检索技术中一般用户难以完成的图像特征描述、提取与识别等难题,交由系统去解决。这是一种基于图像本身特征层次的检索,特别适用于检索目标明确的查询要求,但目前这种较成熟的检索技术主要应用于图像数据库的检索。在图像检索引擎中应用这种检索技术还有一定困难,但己有部分图像检索引擎尝试了这种检索方法。1.2。3对几个基本引擎的分析(1)InfoSeek是一个简单但是功能强大的索引,它的一个优点是有一个面向主题检索的可扩展的分类。你可以把你的检索短语和相似的分类目录的主题短语相互参照,而那些主题短语会自动加到你的查询中去。使你的检索有更好的主题相关性.同时它也支持对图像的查询。它能够漫游We
14、b,Usenet,Usenet FAQs等等。不支持布尔操作,但是可以使用符号+”和-”。 (2)AltaVista 是一个大容量的,基于Robot 索引的Search Engine。它能帮你在WWW网上检索你所需要的网页,新闻组,图像,视频音频片段。AltaVista 还支持多种语言和简单的自然语言查询。AltaVista 覆盖面约为WWW 网上可索引的网页的30%(3)Scour成立于1998年,自称是第一个基于web的多媒体检索引擎。虽严格讲,它并非是一个图像检索引擎,但可以将检索限制在图像检索上.它的工作原理是在文件名、路径名或ALT标签中检索检索词。主要使用关键词检索,可以用”或来增
15、加或排除关键词,使用尽可能少的关键词会更有效。在高级检索中,可以将检索结果图像限制在GIF、BMP、JPEG等格式中。检索结果显示简图、图像类型(如GIF、BMP)、图像大小、最后被查找的日期、检索词的匹配数量、标引使用的关键词、成功下载的可靠程度等,并同时给出图像文件的URL和源站点的URL。主要缺陷是标引深度不足,查准率较低,但查全率较好。(4) 这是由NCRTEC组织开发的一个”真正人工建立的完全的关键词式索引. Amazing Picture Machine后面的教师负责选择图像丰富的站点,然后对每幅选定的图像内容进行描述,给出关键词。因此它的最大特点就是人工干预,关键词检索是主要的检
16、索手段。Amazing Picture Machine的检索结果将显示一个简短的标题、有关图像的说明(如彩色或黑白)、文件的大小、文件类型及象素多少等,但不显示简图。单击该标题可得到原图像,但需由该URL回溯才能找出源站点。由于人工干预检索过程,它的查准率极好,但这也限制了它的查全率。它的检索范围很有限,只包括web上人工选择的部分站点。(5)Lycos对所收录的图像进行了详尽的内容描述,并支持短语检索,从而使其查准率大大提高。它根据文件扩展名识别图像,在描述词、文件名、目录名或ALT字段中查询检索词。结果显示的信息极为丰富,包括简图、图像大小、最后检索日期、图像文件名、图像内容描述词、图像所
17、在页面等。点击简图将得到原图及更多的信息,如著作权人和更多的相关图像。比较而言它的检索效果很好,速度也很快。1.2。4 检索引擎的基本要点(1)索引文档的容量:现在最大的检索引擎可能包含了超过100,000,000个链接,但这也只是整个Web网上的一小部分。因为收集资料的Robot,只能从“已知”的链接开始收集网页资料,而只有一小部分Web网页和这些“已知的网页有连接;现在还没有一个检索引擎能够随网页内容的更新比较及时地更新索引;(2)覆盖面:地理覆盖面和主题覆盖面;(3)索引更新频率:不同的检索引擎,索引更新频率相差很大,有的是几周,有的是一年。索引更新频率有两种定义,一种比较少用的定义是新
18、的网页能被收录进索引数据库中,另一种是同一页多少时间才被检查一次,有必要时更新索引。有的检索引擎会对经常更新的网页和多人访问的网页进行更频繁的重建索引工作;(4)采集过程:采集过程有宽度优先、深度优先两种算法;一般认为宽度优先对扩大内容的覆盖面有利,深度优先算法有助于提供更多的细节资料;(5)索引算法:有的检索引擎只处理元标记和一小部分文档内容,而有一些检索引擎则是对全文进行索引;(6)结果显示:有的检索引擎只显示网页的标题,有些则有更详细的一些信息,比如网页的内容,更新日期等;(7)查询算法:一个优秀的查询算法是很重要的,最基本的布尔查询,短语查询,有的检索引擎还提供指定属性的查询,比如可以
19、指定对网页的作者、主题进行查询.另外有的检索引擎还采用了相关度反馈、概念查询等算法;(8)用户界面:很多检索引擎都提供了简单查询和高级查询两个界面。并且提供了必要的帮助和范例.1。3 图像检索的发展方向图像检索技术给用户提供了一个在互联网上检索感兴趣图像资源的有效手段,基于文本和基于内容是图像检索发展的两个分支,不过从目前图像检索研究的趋势而言,尤其结合网络环境下图像的特征嵌入在具有文本内容的Web文档中,出现了三个不同的研究着眼点。(1)基于文本的检索研究立足于文本,对图像进行检索.试图将传统的文本检索技术移植于对多媒体信息的检索上,因为基于文本的检索技术发展已经成熟。如Page-Rank方
20、法、概率方法、位置方法、摘要方法、分类或聚类方法、词性标注法等,不仅技术发展较为成熟,同时分析和实现的难度略小。但是因为受控词汇本身的局限,易歧义,更新慢,所以不太容易应对网络上日新月异的各类图像。(2)基于内容的检索研究立足于图像内容,对图像进行分析和检索.相比而言,尽管图像检索已经出现了诸如直方图、颜色矩、颜色集等多种表征图像特征的方法,但是要突破对低层次特征的分析,实现更高语义上的检索,实现难度大,进展慢。不过,基于内容的图像检索建立在多媒体信息的内容语义上,能够更为客观地反映媒体本质的特征。(3)基于文本内容结合的检索研究结合文本和内容,二者虽侧重不同但却互相补充。如果能将二者结合起来
21、取长补短,则网络的图像检索技术必有新的进展。已有的图像检索引擎在信息的自动加工和标引方面都有待提高,需要开发出计算机自动识别和标引图像的算法和技术,以完善现有的检索功能,并与已有的成熟的图像库检索技术相结合,这是今后应该研究的一个课题.而且,图像库检索技术也应面向网络,利用网络技术进行改造,提供新的WWW访问界面代替原来的应用系统界面。同时将巨大的图像库资源利用网络实现共享。(4)对基于内容编码技术的研究可以说,三个方向都是相互影响和促进的,任何一个方向的进展都会促进图像检索技术向前更进一步.目前,国际上还没有通用的基于内容的编码标准。20世纪90年代初,国际上就开始了对基于内容的图像信息检索
22、方面的研究。从基本的颜色检索,到综合利用多种图像特征进行检索,大量原型系统已经推出,其中,部分已投入到实际应用中以检验其有效性.同时,MPEG-7标准作为基于内容的多媒体编码标准也正在制定当中,即将成为国际标准中的一员.因此,应尽快对MPEG-7标准进行研究,分析其编码的实质,在此基础上进一步研究基于内容检索的系统,使我国基于内容的图像检索尽快走向实际应用阶段。(5)对用户查询接口的研究 这涉及到用户对图像内容的感知表达、交互方式的设计、用户如何形成并提交查询等方面。现代多媒体信息系统的一个重要特征就是信息获取过程的可交互性,人在系统中是主动的。除了提供示例和描绘查询基本接口之外,用户的查询接
23、口应提供丰富的交互能力,使用户在主动的交互过程中表达对图像语义的感知,调整查询参数及其组合,最终获得满意的查询结果。用户的查询接口应该是直观易用的,底层的特征选择对用户是透明的。这里涉及到如何把用户的查询表达转换为可以执行检索的特征矢量,如何从交互过程中获取用户的内容感知,以便选择合适的检索特征等问题。一个优秀的检索引擎必须处理以下几个问题:(1)网页的分类(2)自然语言的处理(3)检索策略的调度和协作 (4)面向特定用户的检索。因此,现在有很多的网络检索工具,也就是说检索引擎采用了智能的检索手段来增强它的检索能力,而图片检索正是其中的一大块内容。随着网上多媒体的广泛应用,对图像的检索需求将会
24、越来越迫切。未来的图像检索技术将是网络技术和基于内容的图像库检索技术的结合。随着多媒体信息处理技术的日益发展和深化,图像信息的加工、处理和检索标准的出台,网上的图像检索技术将会日趋完善,而图像检索引擎也将成为Internet上的新宠。2 基于颜色的图像检索2.1颜色特征提取颜色特征是一种全局特征,描述了图像或图像区域所对应的景物的表面性质。一般颜色特征是基于像素点的特征,此时所有属于图像或图像区域的像素都有各自的贡献。由于颜色对图像或图像区域的方向、大小等变化不敏感,所以颜色特征不能很好地捕捉图像中对象的局部特征.另外,仅使用颜色特征查询时,如果数据库很大,常会将许多不需要的图像也检索出来。颜
25、色特征是在图像检索中应用最为广泛的视觉特征,主要原因在于颜色往往和图像中所包含的物体或场景十分相关。此外,与其它的视觉特征相比,颜色特征对图像本身的尺寸、方向、视角的依赖性较小,从而具有较高的稳定性。为了正确地使用颜色,需要建立颜色模型。颜色特征是图像最直观而明显的特征,一般采用直方图来描述.颜色直方图是表示图像中颜色分布的一种方法,它的横轴表示颜色等级,纵轴表示在某一个颜色等级上具有该颜色的像素在整幅图像中所占的比例,直方图颜色空间中的每一个刻度表示了颜色空间中的一种颜色。采用直方图计算图像间的相似性比较简单,但它不能反映图像中对象的空间特征。在颜色布局描述符中,对分割好的88的图像取每一块
26、图像的颜色平均值,形成一个颜色平均值矩阵,然后对其用二维离散余弦进行变换,取低频分量作为颜色特征.考虑到本文所选的测试图片都是bmp图片,以及减少计算量,提高检索速度的因素,本文的颜色布局描述符的提取方法如下: (1)将整幅图像分成44块,计算每一块中所有象素RGB三个颜色通道的颜色平均值,并以此作为该块的代表颜色(主颜色)。 (2)将各块的颜色平均值进行离散余弦变换(DCT),得到DCT系数矩阵。DCT是一种分离的变换,是国际静止图像压缩标准JPEG的基础。由于大多数图像的高频分量较小,相应于图像高频分量的系数经常为零,加上人眼对高频成分的失真不太敏感,所以 可用更粗的量化.因此,在一般检索
27、中可以利用部分DCT系数作为特征向量。 (3)对DCT系数矩阵进行之字形扫描和量化,得到DCT系数.(4)对于R、G、B三个通道,分别从DCT系数中取出4个低频分量,形成12个参数,共同构成该图像的颜色特征向量.图1为颜色特征提取的流程图。图1颜色特征提取流程图2。2 相似度计算国际标准MPEG-7中建议的颜色布局描述符在匹配时使用欧式距离公式,因此在本算法中匹配时也使用欧式距离公式,即为:其中,各个分量的W为权重,Ri,Gi,Bi分别为各个分量的第i(i=0,1,2,3)个DCT系数。2.3 实验结果本文实验的图库是从标准测试图像库Corel图像库中选取的,包括由海滩、恐龙、大象、马、花等组
28、成的120副图片,得到利用颜色特征检索图片的查准率和查全率为下表。表1 利用颜色特征的结果类型利用颜色特征的查准率利用颜色特征的查全率海滩0。5830.350恐龙0。5000.300大象0。4170.250马0.5830.583雪景0.1670。100花0。5000.3003 基于纹理的图像检索3.1纹理特征提取 图像可以看成是不同纹理区域的组合,纹理通常定义为图像的某种局部性质,或是对局部区域中像素之间关系的一种度量.纹理特征可用来对图像中的空间信息进行一定程度的定量描述。在国际标准MPEG-7中建议了一种纹理特征描述符边缘直方图。边缘直方图是基于图像边缘的统计特征,能较好地反映目标的边缘和
29、纹理特征,而且运算速度较高.因此在本文中选取边缘直方图来提取图像的纹理特征。下面介绍提取的具体步骤: (1)将bmp图像转换成灰度图。每个象素的灰度值可以根据RGB颜色分量按下列公式计算得到:Gray(i,j)=0。11R(i,j)+0.59G(i,j)+0。3B(i,j)。 (2)将整幅图像分成44块。 (3)分别对16块1/16子图像进行sobel边缘算子运算,得到边缘图像。 (4)统计子图像中的边缘直方图,该直方图包括4个直方条。(横轴为0,1,2,3四个边缘方向,纵轴为该方向上的象素数占子图像总的象素数的比率)(5)将16个子图像的直方条综合起来,得到包括64个直方条的整幅图像的边缘直
30、方图。图2为图像纹理特征流程图。图2 图像纹理特征流程图下面介绍用sobel算子提取图像边缘的具体算法:首先介绍一下sobel算法中用到的4个核模板:图3 sobel算法模板图4 sobel 算法的边缘方向编号(1)将图像中的象素点的灰度值分别与以上四个方向的核模板相乘。 (2)比较四个乘积数值,取最大的那个数值,作为该象素点的新的灰度值。 (3)取适当的阈值T,若新的灰度值T,则认为该象素点为边缘点。 通过以上算法提取出图像的边缘。3.2 相似度计算 仍然采用欧式距离公式作为相似度的计算公式,如下:其中;Qi,Di为图像Q,D在边缘直方图中对应的第i个直方条的值。3。3 实验结果实验平台如2
31、.3所述,得出结果如下表。表2 利用纹理特征的检索结果类型利用纹理特征查准率利用纹理特征查全率海滩0.5000。300恐龙1。0000。600大象0。3330.150马0.8330.833雪景0.2500。150花0.6670.4004 综合颜色和纹理特征的图像检索4.1 综合特征检索的思想图5对于以上三幅图像,假设它们是原图像的1/4图像(其余3/4图像与此1/4图像相同),如果按照本文中的利用颜色特征进行检索,那么将得出完全相似的结论,但是实际上这三幅图像给人的感觉是完全不同的。因此说单一的依靠提取一种特征来进行检索,得出的结果往往是不尽如人意的。在本文中,利用颜色布局描述 符结合了颜色特
32、征和空间关系的特点;利用边缘直方图作为纹理特征弥补了颜色特征缺乏空间分布信息的不足,考虑到图像中的边缘多对应目标的边界或轮廓,边缘 直方图描述符在一定程度上还反映了图像中目标的形状信息。因此这两种特征描述符达到了不同特征的优势互补的效果,而且,这两种特征在提取的过程中都归一化到了0,1区间,可以综合在一起进行图像检索。设颜色特征的权重为Wc,纹理特征权重为Wt,并且Wc+Wt=1,则综合特征的相似度计算公式为:4。2 相关反馈由于颜色特征的权重Wc和纹理特征权重Wt在提取的过程中都归一化到了0,1区间,而在这个区间不同的权重的选择所得出的效果肯定是有差异的。为了能在实验中得到最佳的实验结果,就
33、需要对权重的值进行多次的选择.在确定Wc和Wt两个权重的取值时,将Wc在20%和80之间取值,每5%取一次值,并计算出每次取值的图像检索的查全率。同时相应改变Wt的取值,进而得到最佳的反馈值。4.3实验结果及结论通过上述的反馈实验,得出关系图如下:图 6 权重取值反馈关系由图6可见当Wc=0.6左右时,图像的检索查全率最高,于是选取Wc=0.6,Wt=0.4来分别进行颜色和纹理的单一特征分别检索以及颜色和纹理特征相结合的图像检索。同样利用上述的平台,得出综合利用颜色和纹理的检索方法的查准率和查全率,并以之和单独利用颜色或纹理的检索方法进行比对。表3 六类图片的查准率类型利用颜色特征利用纹理特征
34、利用综合特征海滩0.5830.5000。833恐龙0。5001.0001.000大象0.4170.3330。583马0。5830.8331。000雪景0.1670。2500.333花0。5000。6670。833表4 六类图片的查全率类型利用颜色特征利用纹理特征利用综合特征海滩0。3500.3000.500恐龙0.3000。6000。600大象0.2500.1500.350马0。5830.8331.000雪景0。1000.1500.250花0。3000。4000。500从表中的数据可以看出,利用综合特征进行图像检索得到的查准率和查全率都要高于使用任何一种单一方法进行图像检索得到的查准率和查全率
35、。通过以上的实验结果数据可以看出:本文中综合利用颜色和纹理特征进行图像检索的效果比使用单一特征进行检索的效果更好,更符合人的视觉要求。因此,本文提出的综合颜色和纹理特征进行图像检索的方法是有效的,有意义的方法。5 基于WEB的图像检索5.1 文本与图像之间的关系在文本检索中,检索引擎主要考虑Web页中相关文字信息以及它的语义,这些文本信息反映出网页的内容,但不完全与网页中图片的内容一致。在HTML网页中,根据HTML语言的格式,捕获反映图片信息的文字信息,分析这些文本的语义具有重要的意义。如在HTML文档中img标记以及其周围的文字信息,与网页中的插图的内容有着密切的联系.5。1.1 表示图像
36、内容的文本标记为了能识别嵌入网页中图片的内容,必须仔细检索HTML文档中能反映出图像内容的标记与其中的文本。经过对HTML网页格式的分析与对大量实际网页的研究,可知以下几个方面的标记与文本和图像内容有着最为密切的联系。(1)图像的说明,这些文本出现在图像的周围,用一句过多句话表示出图像的内容,当图像被置于表格中时,同一单元或相邻单元格内的文字也常用与表示图像的含义.(2)图像的标题,通常用一个关键词表示图像信息.(3)图像的标签,使用一段短语说明图片的摘要信息,图片无法显示时用标签的文本取代图片,显示摘要信息。(4)网页的标题,该标题反映出网页的中心内容,作为表现网页内容的图片与网页的标题之间
37、也有着一定的联系。以上讨论的是HTML中文档和嵌入网页中图像文本信息的关系,当然还存在其他的文本与多媒体信息和图像有关。但是作为检索引擎要考虑的方面,既要保证抽取信息的准确性,也要兼顾程序执行中时间、空间的复杂度。过多地引入与图像关系不是十分紧密的内容作为检索的依据,会引入检索时的躁声干扰,降低检索效率。5。1。2文本的权值比较以上讨论了网页中对图像信息的描述,在图像的检索中,首先是要建立描述图片内容特征的查询语句,然后比较、区分描述信息与查询语句之间的异同,获取需要检索的图像。但以上信息在对图像描述时侧重于不同角度,同时与图像信息的联系程度也不一样.图像标题和网页标题是简单的词条,两者中相对
38、来说图像标题更接近图像的主题内容.图像的标签和图像的说明是文本信息对图像内容的描述,后者相对来说更为详细。所以在比较、区分各类文本信息以决定是否符合检索要求时,它们所占的权值应该是有所不同的。根据信息的重要程度,他们所占的权值大小按次序如下:Image CaptionImage TitleImage AlternatePage Title5.2 图像信息检索 在web中对图像的检索,也就是对图像信息的检索,根据图像自身所带的信息,选其中某一种或几种进行检索,进而检索到相关的图像,再经过选取得到所需的图像.而Web检索引擎采用何种检索模型,它所提供检索质量将直接影响到检索的效果.现在使用较多的是
39、布尔检索模型、概率检索模型、概率推理网络模型和向量空间模型.这里采用的是近年来使用较多且效果较好的一种信息检索模型:向量空间模型。5。2。1检索模型与相似度在用向量空间模型进行检索的时候,首先把描述网页中的图片的文字信息看作是有序的词条序列,这样把以上归纳的信息分别称为:ICW,ITW,IAW,PTW。在应用模型时,我首先要将这些信息向量化,把文档映射为一个特征向量V(d)=(t1,1(d);tn, n(d),其中ti(i=1,2, ,n)为一列互不雷同的词条项,i(d)为ti在d中的权值, 一般被定义为ti在d中出现频率tfi(d)的函数,即在信息检索中常用的词条权值计算方法为 TF-IDF
40、 函数其中N为所有文档的数目,ni为含有词条ti的文档数目。TFIDF公式有很多变种,下面是一个常用的TF-IDF公式:根据公式,文档集中包含某一词条的文档越多,说明它区分文档类别属性的能力越低,其权值越小;另一方面,某一文档中某一词条出现的频率越高,说明它区分文档内容属性的能力越强,其权值越大。两文档之间的相似度可以用其对应的向量之间的夹角余弦来表示,即文档di,dj的相似度可以表示为进行查询的过程中,先将查询条件Q进行向量化,主要依据布尔模型:当ti在查询条件Q中时,将对应的第i坐标置为1,否则置为0,即也就是说当两词条完全相同时,,这一项为1,其余情况为0。可以看出文档含有完全相同的词条
41、时,相似度=1;而其中无相同时的词条时,相似度=0。从而文档d与查询Q的相似度为 根据文档之间的相似度,结合机器学习的一些算法如神经网络算法,K-近邻算法和贝叶斯分类算法等,可以将文档集分类划分为一些小的文档子集。在查询过程中,可以计算出每个文档与查询的相似度,进而可以根据相似度的大小,将查询的结果进行排序。向量空间模型可以实现文档的自动分类和对查询结果的相似度排序,能够有效提高检索效率;它的缺点是相似度的计算量大,当有新文档加入时,则必须重新计算词的权值。流程为: 图7 向量空间模型检索流程5.2。2 分词技术和匹配方法1。 常用的切词算法如下:(1)最大正向匹配法基本思想是:设D为词典,M
42、AX表示D中的最大词长,str为待切分的字串.它是每次从str中取长度为MAX的子串与D中的词进行匹配。若成功,则该子串为词,指针后移MAX个汉字后继续匹配,否则子串逐次减一进行匹配。(2)逆向最大匹配法 它的基本原理与前面的相同,不同的是分词的扫描方向,它是从右至左取子串进行匹配。统计结果表明,单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错误率为1/245,它切分的准确率上比正向匹配法有很大提高。(3)基于词频的统计方法统计方法一般不依赖于词典,而是将原文中任意前后紧邻的两个字作为一个词进行出现频率的统计,出现的次数越高,成为一个词的可能性也就越大。在频率超过某个预先设定
43、得阈值时,就将其作为一个词进行索引。这种方法能够有效地提取出未登录词。2。 匹配方法:(1)词典存储格式:首先对存储形式进行建模,结构是3层树形结构,如下图8 3层树形结构一层存储所有单字。第二层保存所有的双字词和多字词的前两个字(因为,也许会出现ABC为词,但AB不是词的情况),并对两者做不同标记(t/f)。每一个可成词的单字对应一系列第二层结点,用来存储所有以该字为词首的双字(包括上述两种情况).并且,在这里,针对每一个双字,需要记录以该双字为词首的所有词的最大长度,实际中,可以保存除去该双字部分的最大长度(记为n)。第三层存储以某一双字为首的所有词。为了减少存储空间,只存储除去该双字以外
44、的部分(如上图所示)。每一层各结点需按某种次序排列,可使用hash、二分查找等方法进行查询。采用这种层次的存储结构,可以很快把查询词的工作缩小到一个很小的范围内,有利于分词效率的提高。(2)匹配方法由于词库中的最大词长通常大于所切分出的词长,为了提高切分的效率,不采用逐次减一个字的方法,而是使用正向逐一增长的方法。假设对一个句子C1C2进行分词处理,算法描述如下:1) 两个字(开始时为C1C2),在词典中查询C1C2是否存在2) 不存在,则C1为单字词,一次分词结束,返回1。3) 存在,判断C1C2是否为词,并从词典中获取该词下层节点汉字的最大长度,设为n4) 若n=0,一次分词结束,保存结果
45、.5) 否则,i=2,转6)。6 ) i=i+1,若i=n+3,转8);否则,转7)。7) 再取一个字(此处为Ci),判断第三层中是否有以C3Ci开始的字(不需要恰好匹配,只要匹配开始的i个字就可以了)。8) 若存在,分词结束,返回最近一次能够恰好匹配的C3Cj(ji),并与C1C2组合成词。如果是C1C2,则根据C1C2的标记判断是双字词还是分为两个单字词。9) 否则,转6).(3)统计方法运用由于词典的不完全性,许多词可能不会在字典中登录,为了处理句子中的未登录词,我们在原有的算法中嵌入词频统计方法,将某些出现频率较高的连续字段作为一个词切分,我们首先对频度设定一个阈值f。设已对C1Cn进
46、行切分,由切分算法和歧义处理算法得到C1Ci为一个词,CjCn为一个词,Ci与Cj之间皆为单字词,即C1Ci和CjCn是相邻最近的两个多字词,则将Ci+1Cj1作为一个多字词进行词频统计,在对文章全部切分完毕之后,若Ci+1Cj-1的出现次数达到f时,则将其看作一个词,否则,将其拆分为单字词。同时,对于相同或相近专业和领域建立起动态词库,将由统计得到的词不断加入词库中,可以实现对词典的动态维护。以上通过将基于词典的处理方法和基于频率的统计方法结合起来匹配检索运算,不仅保证了切分速度快、精度高的优点,而且能够结合上下文,最大限度的识别人名、地名、专业术语等未登录词。5.3 检索反馈由于初时的查询语句常常与我们所要的图像内容不符,使得我们找不到我们想要的东西,因