改web中图像的检索技术研究-学位论文.doc

资源描述

WEB中图像的检索技术研究第一章前言 1.1引言伴随网络技术的迅猛发展，图片的来源不断在扩大，容量超大的高速存储系统给图片的海量存储给予了基本保障，各行业对图像的趋于增多，图像资源管理和搜索也愈发重要。但由于网络本身架构、管理的种种问题，想在网络精准、高效地找到所需的图像，却变成了件非常不易之事。由于网络现在的问题：内容没有良好的架构；网络海量信息不断的增多。由此，便出现了搜索引擎。虽然搜索引擎的出现给用户提供了不少的便捷，但是离精准、快速、全面的检索到自己所想要的图像还是有一段距离，所以对图像搜索的研究还要下大力气研究。依照现有的搜索引擎和国内外有关研究人员的种种资料表明，现在的网络资源和搜索引擎的特点如下： (1)搜索的数据种类多样，如视频、图片、文字等。存取协议也是种类繁多，如HTTP、FTP、News等等； (2)索引数据量巨大，从而导致不可能有某一个数据库可以包括整个网络的索引，当下最大的搜索引擎，其索引也仅仅覆盖了网络的一小部分而已； (3)资源消耗过大，系统需将HTML文档传送到本地之后再进行分析，占用昂贵的网络和CPU资源，从而增加被搜索结点的压力。此外由于搜索引擎大多是集中式的，所以搜索引擎服务器对硬件配置的要求也极高，这样才能处理巨大的数据量以及及时响应用户的检索请求； (4)不能有效解决搜索失效的问题，大多时候，搜索引擎会返回无用的查询结果； (5)各种检索工具各行其事，无法相互协作，共享资源，也是一种资源的浪费。 1.2现今的图像检索技术近些年伴随着用户对图像搜索需求不断的增长，各类图像搜索引擎由此诞生，它们以不同的搜索方式为用户提供各类检索途径，使得网上图像地检索变得简单，虽然还不太完善，但已经可以满足大多数用户的要求。 1.2.1搜索引擎的工作原理最初的搜索引擎结构，是让Spider不停的从Web收集数据，存储在搜索引擎数据库当中。用户靠搜索引擎服务器的Web接口，发出搜索请求，让Web Server通过CGI或者其它技术访问数据库，并且将用户搜索请求变成相对应的数据存取语句，发送给引擎处理，然后把结果通过网页显示反馈给用户。网络检索的基本原理其实就是通过Spider定期在web上运行，发现新的数据，把其取回到本地数据库中，让用户查询的请求可通过查询本地的数据库得到。常用的网络信息检索实现机制可分为两种，通过手工方式对网页进行索引是一种方法，但它的缺陷是Web覆盖率低，且不能保证是最新的息。查询匹配就是对用户写入的关键字和网页描述、标题来匹配，并非是通过对全文匹配进行的。对网页进行自动的索引是第二种，这类方法能自动实现文档分类，这种方法是采用信息提取技术。可是在分类精准性上也许不如手工进行的分类。对当下所有运行中的搜索工具来讲，基本上都会有一个机器人定期的访问一些站点，以检查这些站点最近变化，同时找到新的站点。一般站点都会有个robot.txt文件来标注服务器不希望机器人访问的区域，机器人都必须遵守这规定。假如是自动索引，机器人在得到一个页面以后，需根据该页面的内容进行索引，依据它的关键字把它归到一个类中。页面信息是通过元数据这类形式来保存的，经典的元数据有标题、IP地址、该页面简要的介绍、关键字抑或是索引短语、文件大小和最后更新的日期等等。虽然元数据有一定的标准，但是很多站点都是使用自己的模板。文档提取的机制、索引策略这些对搜索引擎（web）的有效性有巨大的联系。高级搜索选项包括：布尔方法、短语匹配、自然语言的处理。一个检索所产生的结果按照提取机制的不同被分成不同等级提交给用户，以关联度的大小排序。每个提取出来的文档元数据会显示给用户。也会包括该文档所在的URL地址。此外有些关于某个主题专门的搜索引擎，只针对某个主题的内容来进行检索和处理，如此一来信息的取全率、精准度也相对会较高。当前，图片搜索引擎大多通过以下两类方法来识别图像： (1)自动查找图像档。通过IMGSRC和HREF（HTML标签）来检查是否有可显示的图片文件，IMGSRC表达的是“显示下面的图像文件”，导向嵌入式的图片；HREF则是用来表示“下面是一个链接”，导向被链接的图片。引擎通过检查扩展名来判断这个导向是否是图片文件，假若文件扩展名是.png、.jpg、.gif等，则说明是一个可显示的图片文件。 (2)人工干预找出图片。进行归类，靠人工对网上的图像及站点进行筛选。这类方法可产生精准的查询体系，可是劳动强度过大，因此处理图像的数量有限。由于图像与文本不同，要人们按照自身的理解来说明其蕴含的意义，比文字更趋于感性。因此对于计算机，图像检索的难度比文本的查询的难度要高出很多。 1.2.2 图像搜索引擎检索途径 1.关键词检索传统图像检索技术是靠关键字精确的匹配来检索，即输入关键字，输出图片。它包括两种途径： (1)基于图片外部信息进行搜索。即依据图片的文件名、目录名、路径名、以及图像周围文本的信息等等外部信息来进行检索，这是当前图片搜索引擎使用最多的方法。当找到图像文件后，搜索引擎通过查看文件名或者路径名来确定文件内容，当然也可以通过查看图片标题来匹配检索关键词。 (2)基于手工标注的检索。通过手工对图像的内容（如颜色对比、反差、景深等）进行描述和分类，将图像标注为一系列关键字，并且建立索引。检索时，将主要在这些关键词中搜索用户输入的关键字。这种查询方法是比较准确的，大都可以获得蛮好的查准率，但是需人工参加，劳动强度高，因此限制了可处理图像的数量。此外，由于图片所包含的信息量很庞大，不同类型用户对同一张图片的看法又不尽相同，就像一万个读者有一万个哈姆雷特一般，从而导致了对图像标注缺乏统一标准。 2. 图像可视属性检索基于图像内容的搜索主要是由图片分析软件自动提取图片的颜色、类型等特征，从而建立特征数据库，其输入的弱国为用户要查找图片的大致特征或示例，则通过一定相似匹配规则，输出为与该图片具有相近特征的图片，按相似的程度来排列，以供用户选择，从而解决了在传统图像检索技术中一般用户难以完成的图像特征描述、提取与识别等难题。这是基于图片本身特征的检索，适用于检索明确目标的查询要求，可是目前这种较为成熟的检索技术主要是应用于图片数据库检索。在图片搜索引擎中应用这类检索技术还有困难，但是有部分图像搜索引擎开始尝试使用这种检索方法。 1.2.3对几个基本引擎的简单分析 (1)InfoSeek是一个简单而又功能强大的索引，它的优点是有面向主题搜索而且可扩展的分类。可以把搜索关键字和相似的分类目录主题短语互相作为参照，而且那些主题短语会自动加入到你的查询中。使你的检索有更好的主题相关性。以此同时它也支持对图片的查询。能够漫游Web、Usenet、Usenet FAQs等等。不过不支持布尔操作，但可以使用"+"和"-"。 (2)AltaVista 是个大容量的，基于机器人索引的搜索引擎。能够帮你在万维网上搜索你所需的网页，文本，图像，视频音频。AltaVista 支持多种语言和简单的自然语言搜索查询。AltaVista 覆盖面约为万维网上可索引的网页之30% (3)Scour自称是第一个基于web的多媒体搜索引擎。严格讲，它并非是个图像搜索引擎，但是可以将检索局限在图像搜索上。 Scour工作原理是在文件名、路径名、ALT标签中搜索关键词。主要使用关键词搜索，可以用符号"＋"或"－"来增加、排除关键词，使用较少关键词会更有效。在高级模式中，可以将检索结果图像锁定在GIF、PNG、JPEG等格式中。检索结果显示简图、图像类型（如GIF、JPG）、大小、最后查找日期、检索词匹配数量、标引使用关键词、成功下载可靠程度等，并且同时给出图像文件的URL和源站点URL。主要缺点是标引的深度太浅，查准率比较低，但查全率比较好。 (4) Amazing Picture Machine是由NCRTEC开发的一个"真——人工建立完全关键词式索引"。最大特点就是人工干预，关键词检索是其主要的检索手段。 Amazing Picture Machine搜索的结果显示一个简短标题、有关图像说明、文件大小、文件类型以及象素多少等，但是不显示简图。单击标题可以得到原图像，但需由该URL回溯才可找出源站点。由于是人工干预检索过程，查准率极好，但事物的作用是相对的，人工干预也限制了它的查全率。它检索范围很有限，只包括web上人工选择的部分站点。 (5)Lycos对所收录图像进行了非常详尽的内容描述，并且支持短语检索，从而使得其查准率获得很大提高。它根据文件的扩展名识别图像，在描述词、文件名、目录名、ALT字段中查询到检索词。结果显示信息非常丰富，包括简图、图像大小、最后检索的日期、图像文件名、图像内容的描述词、图像所在页面等。点击简图可以得到原图以及更多的信息，如著作权人和版权信息的相关图像。比较而言其检索效果很好，速度也快。 1.2.4 搜索引擎基本要点 (1)索引文档容量：当今最大的搜索引擎有可能包含超100,000,000个的链接，但是这个也只是整个Web网上很小的一部分。因为收集资料的机器人，只可以从已知的链接开始收集网页数据，只有小部分Web网页和这些已知的网页有链接；现在为止还没有一个搜索引擎可以随网页内容的更新而比较及时地更新索引； (2)覆盖面：地理上的覆盖面和主题的覆盖面； (3)索引更新频率：不同类型的搜索引擎，索引更新频率相差非常大，有的是几月，有的是一年。索引更新频率一般有两种定义，一种用的比较少的定义是新的网页能被收进索引数据库中，另外一种是同一页多长时间才会被检查一次，有必要时会更新索引。有的搜索引擎会对时常更新的网页和访问人数多的网页进行更加频繁的重建索引； (4)采集过程：采集可分为宽度优先、深度优先两种算法；一般认为宽度优先对扩大内容覆盖面有帮助，深度优先算法可以提供更多细节资料； (5)索引算法：有的搜索引擎只会处理元标记和一小部分文档内容，而另外有一些搜索引擎则是会对全文进行索引； (6)结果显示：有的搜索引擎只会显示网页标题，有些的话则有更详细的一些信息，比如说网页的内容，更新日期等； (7)查询算法：一个优秀的查询算法是非常重要的，最基本的布尔查询，短语查询，有些搜索引擎还会提供指定属性的查询，比如说可以指定对网页作者、主题进行查询。另外有些搜索引擎还采用了相关度的反馈、概念查询等算法； (8)用户界面：大多数搜索引擎都提供了简单和高级查询两个界面。并有必要的帮助和示范。 1.3 图像检索的发展方向图像检索技术给了用户一个在互联网上搜索感兴趣图片资源的有效手段，依靠文本和依靠内容是图像检索发展的两个分支，不过从当前图像检索研究的趋势来看，尤其是结合网络环境下图片的特征——嵌入在具有文本内容的Web文档中，出现了三个不同的研究着重点。 (1)基于文本的检索研究依靠文本，对图像进行检索。试图把传统的文本检索技术用于对多媒体信息的检索上，因为基于文本的检索技术发展已经很成熟。如网页排名方法、位置方法、概率方法、摘要方法、词性标注法、分类或聚类方法等，不仅技术发展比较成熟，同时分析和实现的难度比较小小。但是由于受控词汇本身的局限，容易产生歧义，更新慢，所以不太好应对网络上日新月异的各类图像。 (2)基于内容的检索研究依靠于图像内容，对图片进行分析和检索。相对而言，尽管图像检索已经出现了诸如直方图、颜色矩等多种表征图像特点的方法，但是如果要突破对低层次特征的分析，实现更加高语义上的检索，实现难度比较大，进展缓慢。但是，基于内容的图像检索建立在多媒体信息内容语义上，可以更为客观地反映媒体本质的特征。 (3)基于文本内容结合的检索研究融合文本和内容，二者虽然侧重不同但却互相补充。假如能将二者结合起来取长补短，则网络图像检索技术必然有新的进展。现有的图像搜索引擎在信息的自动加工和标引方面都有提高空间，需要开发出计算机自动识别、标引图像的算法和技术，用以完善现有的检索功能，并与已有成熟的图像库检索技术相融合，这是今后需要研究的一个课题。并且，图像库检索技术也应当面向网络，利用网络技术进行改造，提供新的万维网访问界面以代替原来的应用系统界面。同时把巨大的图像库资源利用网络实现共享 (4)对基于内容编码技术的研究可以这么说，三个方向都是相互影响相互促进的，任何一个方向的进展都能够促进图像检索技术向前精进一步。当今，国际上还没有通用基于内容的编码标准。20世纪90年代初，国际上就已经开始对基于内容的图像信息检索这一方面的研究。从最基本的颜色检索，到综合利用多种图像特征进行检索，很多原型系统已经推出，其中，有部分已投入到实际应用中以检验其有效性。与此同时，MPEG-7标准作为基于内容的多媒体编码标准也正在规划制定当中，将要成为国际标准中的一员。所以，应尽快对MPEG-7标准进行研究，分析其编码的性质，在此基础上进一步研究基于内容检索的系统，使我国基于内容的图像检索能够尽快走向实际应用的阶段。 (5)对用户查询接口的研究这涉及到用户对图像内容感知表达、交互方式设计、用户要如何形成并提交查询等方面。现代多媒体信息系统一个重要的特征就是信息获取过程中的可交互性，人在系统中是主导地位。除开提供示例和描绘查询基本接口以外，用户的查询接口应当提供丰富的交互能力，使用户在主动的交互过程中表达对图像语义的感知，调整查询参数及其组合，最终能够获得满意的查询结果。用户的查询接口应该是简单直观易用的，底层特征选择对用户是透明的。这里会涉及到如何把用户的查询表达转换成可以执行检索的特征矢量，如何从交互过程中获取用户的内容感知，方便选择合适的检索特征等问题。一个优秀的搜索引擎必须能够处理以下几个问题： (1)网页分类 (2)自然语言处理 (3)搜索策略调度和协作 (4)面向特定用户搜索。所以，现在有很多的网络检索工具，就是说搜索引擎使用了智能的检索手段用来增强它的检索能力，而图片检索正是其中的一大块内容。随着网上多媒体的越来越广泛应用，对图像的检索需求将会越迫切。未来的图像检索技术将是网络技术和基于内容的图像库检索技术的融合。随着多媒体信息处理技术的日趋发展和深化，图像信息加工、处理和检索标准的陆续出台，网上的图像检索技术也会日趋完善，而图像搜索引擎也将成为网络新宠。第二章基于Web的图像搜索在网络技术和计算机技术迅猛发展、多媒体应用愈发普及的现在，图像检索和图像应用已成了当今网页中不可缺少的一个重要部分。在能够实现对网页中文本信息提取的同时，如何再为用户抽取所需的图片资料是信息检索中一个值得研究的问题。现有的检索技术基于关键词匹配进行检索，往往存在查不全、查不准、检索质量不高的现象，特别是在网络信息时代，利用关键词匹配很难满足人们检索的要求。当然现在的人们也可以利用图像的内容特征去搜索所需的图片信息，但现在这项技术就是到现在也还不够成熟，其搜索效率还是不能令人满意。如今在Web中处理图像检索有很多成熟的技术，如基于Web的数据仓库、Web数据挖掘、Web数据源集成技术等。为此，必须为Web建立适当的数据模型，利用数据模型有效地从Web中获取信息。为了处理Web的中文数据，还必须使用一系列中文自然语言处理技术。比较基础的技术有自动分词、人名和机构名的自动识别、自动标引等，其他像信息抽取、自动文摘、文档自动分类、中文概念词的自动发现以及概念词之间的语义关系的确定等技术都必不可少。实现上述技术需要扎实的积累和自然语言处理功底。而如何利用现有成熟的传统的图片检索手段，研究出快捷方便而且能迅速提高检索效率的方法，本文将依据现有的搜索引擎和检索手段的研究找到网页中文本与图像之间的内在特点和联系，改进原有的文本搜索使用的模式和方法，提出新的文本相似的匹配算法，并引入检索的反馈技术，把这些技术引入到图像检索中，使得搜索手段更易于实现和提高检索效率。 2.1文本与图像之间的关系在文本检索中，搜索引擎主要考虑Web页中相关文字信息以及它的语义，这些文本信息反映出网页的内容，但不完全与网页中图片的内容一致。在HTML网页中，根据HTML语言的格式，捕获反映图片信息的文字信息，分析这些文本的语义具有重要的意义。如在HTML文档中<img>标记以及其周围的文字信息，与网页中的插图的内容有着密切的联系。 2.1.1表示图像内容的文本标记为了能识别嵌入网页中图片的内容，必须仔细检索HTML文档中能反映出图像内容的标记与其中的文本。经过对HTML网页格式的分析与对大量实际网页的研究，可知以下几个方面的标记与文本和图像内容有着最为密切的联系。 (1)图像的说明，这些文本出现在图像的周围，用一句过多句话表示出图像的内容，当图像被置于表格中时，同一单元或相邻单元格内的文字也常用与表示图像的含义。 (2)图像的标题，通常用一个关键词表示图像信息。 (3)图像的标签，使用一段短语说明图片的摘要信息，图片无法显示时用标签的文本取代图片，显示摘要信息。 (4)网页的标题，该标题反映出网页的中心内容，作为表现网页内容的图片与网页的标题之间也有着一定的联系。以上讨论的是HTML中文档和嵌入网页中图像文本信息的关系，当然还存在其他的文本与多媒体信息和图像有关。但是作为搜索引擎要考虑的方面，既要保证抽取信息的准确性，也要兼顾程序执行中时间、空间的复杂度。过多地引入与图像关系不是十分紧密的内容作为检索的依据，会引入检索时的躁声干扰，降低搜索效率。 2.1.2 文本的权值比较以上讨论了网页中对图像信息的描述，在图像的检索中，首先是要建立描述图片内容特征的查询语句，然后比较、区分描述信息与查询语句之间的异同，获取需要检索的图像。但以上信息在对图像描述时侧重于不同角度，同时与图像信息的联系程度也不一样。图像标题和网页标题是简单的词条，两者中相对来说图像标题更接近图像的主题内容。图像的标签和图像的说明是文本信息对图像内容的描述，后者相对来说更为详细。所以在比较、区分各类文本信息以决定是否符合检索要求时，它们所占的权值应该是有所不同的。根据信息的重要程度，他们所占的权值大小按次序如下： Image Caption>Image Title>Image Alternate>Page Title 2.2 图像信息检索 Web搜索引擎使用何种检索模型，它所提供检索质量将会直接影响到检索效果。现在使用较多的为布尔检索模型、概率检索模型、概率推理网络模型和向量空间模型。这里采用的为近年来使用较多且效果较好的一种信息检索模型：向量空间模型。 2.2.1 检索模型与相似度在用向量空间模型进行检索的时候，首先会把描述网页中的图片的文字信息看作是有序的词条序列，这样把以上归纳的信息分别称为：ICW，ITW，IAW，PTW。在应用模型时，我首先要将这些信息向量化，把文档映射为一个特征向量V(d)=(t1,ω1(d)；…；tn, ωn(d))，其中ti(i=1,2, …,n)为一列互不雷同的词条项，ωi(d)为ti在d中的权值, 一般被定义为ti在d中出现频率tfi(d)的函数，即在信息检索中常用的词条权值计算方法为 TF-IDF 函数其中N为所有文档的数目，ni为含有词条ti的文档数目。TF-IDF公式有很多变种，下面是一个常用的TF-IDF公式：根据公式，文档集中包含某一词条的文档越多，说明它区分文档类别属性的能力越低，其权值越小；另一方面，某一文档中某一词条出现的频率越高，说明它区分文档内容属性的能力越强，其权值越大。两文档之间的相似度可以用其对应的向量之间的夹角余弦来表示，即文档di，dj的相似度可以表示为进行查询的过程中，先将查询条件Q进行向量化，主要依据布尔模型: 当ti在查询条件Q中时，将对应的第i坐标置为1，否则置为0，即也就是说当两词条完全相同时，，这一项为1，其余情况为0。可以看出文档含有完全相同的词条时，相似度=1；而其中无相同时的词条时，相似度=0。从而文档d与查询Q的相似度为根据文档之间的相似度，结合机器学习的一些算法如神经网络算法，K-近邻算法和贝叶斯分类算法等，可以将文档集分类划分为一些小的文档子集。在查询过程中，可以计算出每个文档与查询的相似度，进而可以根据相似度的大小，将查询的结果进行排序。向量空间模型能够实现文档自动的分类和对查询结果的相似度排列，可以有效提高检索效率；但它的缺点是相似度的计算量大，每当有新文档加入时，就必须重新计算词的权值。 2.2.2 分词技术和匹配方法 1. 常用的切词算法如下： (1)最大正向匹配法基本思想是：设D为词典，MAX表示D中的最大词长，str为待切分的字串。它是每次从str中取长度为MAX的子串与D中的词进行匹配。若成功，则该子串为词，指针后移MAX个汉字后继续匹配，否则子串逐次减一进行匹配。 (2)逆向最大匹配法它的基本原理与前面的相同，不同的是分词的扫描方向，它是从右至左取子串进行匹配。统计结果表明，单纯使用正向最大匹配的错误率为1/169，单纯使用逆向最大匹配的错误率为1/245，它切分的准确率上比正向匹配法有很大提高。 (3)基于词频的统计方法统计方法一般不依赖于词典，而是将原文中任意前后紧邻的两个字作为一个词进行出现频率的统计，出现的次数越高，成为一个词的可能性也就越大。在频率超过某个预先设定得阈值时，就将其作为一个词进行索引。这种方法能够有效地提取出未登录词。 2. 匹配方法： (1)词典存储格式：首先对存储形式进行建模，结构是3层树形结构，如下一层存储所有单字。第二层保存所有的双字词和多字词的前两个字（因为，也许会出现ABC为词，但AB不是词的情况），并对两者做不同标记(t/f)。每一个可成词的单字对应一系列第二层结点，用来存储所有以该字为词首的双字（包括上述两种情况）。并且，在这里，针对每一个双字，需要记录以该双字为词首的所有词的最大长度，实际中，可以保存除去该双字部分的最大长度(记为n)。第三层存储以某一双字为首的所有词。为了减少存储空间，只存储除去该双字以外的部分（如上图所示）。每一层各结点需按某种次序排列，可使用hash、二分查找等方法进行查询。采用这种层次的存储结构，可以很快把查询词的工作缩小到一个很小的范围内，有利于分词效率的提高。 (2)匹配方法由于词库中的最大词长通常大于所切分出的词长，为了提高切分的效率，不采用逐次减一个字的方法，而是使用正向逐一增长的方法。假设对一个句子C1C2……进行分词处理，算法描述如下： 1) 两个字（开始时为C1C2），在词典中查询C1C2是否存在 2) 不存在，则C1为单字词，一次分词结束，返回1。 3) 存在，判断C1C2是否为词，并从词典中获取该词下层节点汉字的最大长度，设为n 4) 若n=0，一次分词结束，保存结果。 5) 否则，i=2，转6)。 6 ) i=i+1，若i=n+3，转8)；否则，转7)。 7) 再取一个字（此处为Ci），判断第三层中是否有以C3……Ci开始的字(不需要恰好匹配，只要匹配开始的i个字就可以了)。 8) 若存在，分词结束，返回最近一次能够恰好匹配的C3……Cj(j<i)，并与C1C2组合成词。如果是C1C2，则根据C1C2的标记判断是双字词还是分为两个单字词。 9) 否则，转6)。 (3)统计方法运用由于词典的不完全性，许多词可能不会在字典中登录，为了处理句子中的未登录词，我们在原有的算法中嵌入词频统计方法，将某些出现频率较高的连续字段作为一个词切分，我们首先对频度设定一个阈值f。设已对C1……Cn进行切分，由切分算法和歧义处理算法得到C1……Ci为一个词，Cj……Cn为一个词，Ci与Cj之间皆为单字词，即C1……Ci和Cj……Cn是相邻最近的两个多字词，则将Ci+1……Cj-1作为一个多字词进行词频统计，在对文章全部切分完毕之后，若Ci+1……Cj-1的出现次数达到f时，则将其看作一个词，否则，将其拆分为单字词。同时，对于相同或相近专业和领域建立起动态词库，将由统计得到的词不断加入词库中，可以实现对词典的动态维护。以上通过将基于词典的处理方法和基于频率的统计方法结合起来匹配搜索运算，不仅保证了切分速度快、精度高的优点，而且能够结合上下文，最大限度的识别人名、地名、专业术语等未登录词。 2.3 检索反馈因为开始时的查询语句常常和我们所要的图片内容不符合，往往使我们找不到想要的图片，因此，许多系统都引入了相关的反馈，就是通过选择一些例子来作为反馈，慢慢提高检索的结果。参考文本信息检索的方法，我们在系统中也引入到了相关反馈用来修改用户提交的查询，使得修改以后的查询慢慢接近用户真正需求，用来提高系统的性能。通过相关的反馈对用户提交的查询进行修改，使检索的性能比原先有了提高。不过，大多数的反馈并不具备记忆能力，每次反馈的结果只能用于本次查询。因此我们引入语义网络，并且把每次反馈的结果记录到语义网络当中，使系统的效果随着使用次数的增多而慢慢提高。文中介绍的反馈系统，主要对查询语句(Q1,W1,Q2,W2，… , Qm,,Wm)中 Wj的修改中，查询语句中对初始Wj的定义具有偏差，反馈系统可以适量调整Wj，使查询语句(Q1,W1,Q2,W2，… , Qm,,Wm)更反映检索目的。当查询到m=r+n幅图片时，其中r幅图像与目标相关，n幅图像与目标没关系。反馈系统可根据用户反馈的结果，重新生成查询语句：其中矢量是检索结果图像网页矢量表示，在矢量中，选择相似度计算中有贡献的分量用作反馈信息。在公式5中，通常选γ=1 ，0〈 β〈1 ，0〈 α〈1 ，β与α值选取影响反馈深度，也直接影响检索精度。实践表明，带有反馈系统的图像检索系统要比没有反馈的图像检索精度提高10%左右，且m越小，检索精度越高. 在设计检索系统的过程中，提供有无反馈选择，并且在反馈系统中提供取值选择。当m取值比较小时，直接显示检索到的图像，并让用户选择是否与目标图像的相关性。以上都是为了改善用户交互界面，便于反馈系统应用。下面是测得如果m=1时，检索精度与反馈中系数α、β之间关系的曲线，图中可以得出α=0.1 时检索精准度取最大值，图2中可以得到β在0.5～0.6 之间时检索准确度取最大值。从图1和图2又可以得到，当α=β=0无反馈的时候检索精准度=48%,当α=0.1 ，β=0.5 或0.6时检索精准度=61%，引入反馈系统使检索精度可以提高了13%左右。为了检验搜索模型，下载了含有图像的4000多个中文网页( 来源于1000多个 URLs)，对这些HTML文档进行搜索。在查询语句建立后，通过词条网对有相同语义的词条进行扩充，构建了符合查询要求的多个IQW，再分别计算出各自的相似度，依据相似度所规定的临界值，得出查询的结果。实验说明了，合理地选取相似度临界值可以保证比较高检索精度和检索完全度。从图3中就可以得出，当相似度临界值>0.6的时候，可以保证检索精度>80%，从图4中得出，当相似度临界值<0.6的时候，可以保证检索完全度>60%。当相似度临界值取0.6的时候，本搜索模型可以保证检索精度>80%，而检索完全度>60%。为决定ITW，IAW，ICW，PTW在相似度的计算中的权值，测试了从0.1～ 1.0的所有系数。最终可以得出ICW，ITW，IAW，PTW的权值分别为0.4、0.3、0.2、0.1时，可以比较合理地反映出图像和这些文本的相关性，从而保证检索准确性。结束语在了解了搜索引擎搜索原理公式以及反馈原理之后,我们就能够依据其理论做出相应的搜索引擎,并且能作出搜索效果。但是为了更好的使用，还需要去仔细的给文档进行更好的分类，更多的对引擎进行反馈训练的查询等等，使得Web搜索引擎能具有更加好的智能性以及个性化特色。参考文献 [1] 张量，詹国华，袁贞明，基于Web的图像搜索，计算机工程，2002.5 [2] 朱学芳，多媒体信息处理与检索技术[M]，电子工业出版社，2003 [3] 陈滢，徐宏炳，王能斌，协作式Web资源发现系统模型，计算机学报，1998.4 [4] 阳小华，周龙骧，World Wide Web 的索引与查询技术，计算机科学，1997 [5] 吴立德等，大规模中文文本处理，复旦大学出版社，1997 [6] 李唐，解读网络图像搜索引擎，Internet网络，2001 [7] 陈立娜，Internet上的图像检索技术，天极yesky，2001.5 [8] 黄博士，网络环境下的图像检索技术，中国计算机用户，2003.12.30 14

展开阅读全文