收藏 分销(赏)

Building-and-Using-a-Semantivisual-Image-Hierarchy--论文读后总结.doc

上传人:仙人****88 文档编号:9070709 上传时间:2025-03-12 格式:DOC 页数:4 大小:61KB 下载积分:10 金币
下载 相关 举报
Building-and-Using-a-Semantivisual-Image-Hierarchy--论文读后总结.doc_第1页
第1页 / 共4页
Building-and-Using-a-Semantivisual-Image-Hierarchy--论文读后总结.doc_第2页
第2页 / 共4页


点击查看更多>>
资源描述
Building and Using a Semantivisual Image Hierarchy ——学术论文读后总结 现代信息技术日新月异,发展飞速,数码相机已经人们生活中的得到普及,这使我们能够轻松地记录和分享生活中的每一个精彩瞬间。因此,在科技和网络相当发展到较高水平的今天,我们存储在设备中的或上传到网上的数字信息都是相当巨大的,这种信息量的急剧膨胀的情况下,我们迫切希望有一种工具,能够帮助我们更科学更方便地对这些巨大的信息量进行组织、浏览和检索。 一种分层的观念就这么应运而生,因为分层是一种人们可以想到的自然而然的方法来结合图像的语义与它所含的视觉信息。一个有意义的图像层次可以使我们能够更方便更高效地实现图像组织、浏览和检索,并可以进一步应用在图像的注释和分类中。 1.已有算法的不足 建立一个有意义的图像层次成为亟待解决的学术前沿问题,许多学者都曾在此领域进行探索,并取得了一些研究成果,【1,2】提出了基于语言的分层方法和基于底层视觉信息的分层方法。WordNet就是一种基于纯语言的分层方法,并在计算机视觉和多媒体领域广泛应用在图像检索【3,4,5】和目标识别【6,7】,这样的图像层次一定意义上对图像组织上有帮助,但是忽略了能够将图像联系在一起的更重要的视觉信息。【8,9,10】中提出了基于纯视觉特征的分层方法,这种方法的提出是基于他们观察到图像的组织不是一定要遵循它们的语义层次,但很容易发现,纯视觉特征的分层方法的局限在与,这种特征难以描述,而且也难以直接地评估它在应用中的有效性。 2.文章的贡献 为了能够建立一个有利于完成诸如图像注释和图像分类这样任务的图像层次,作者提出了一种方法结合了图像的语义和视觉信息来创建图像层次。该方法的提出有一下贡献: 1.给出图像集合和它们对应的标签集合,算法可以自动地创建一个图像层次,能够将这些图片以“普通—特别”的层次组织在一起; 2.文章算法给出一种通过人们主观感知的量化评估方法,得到这样的结论,文章提出的语义视觉层次相对于其他的分层方法更有意义、更精确。 3.文中方法创建的图像层次能够在图像分类和图像注释等应用中更具有效性。 文章在如何建立语义视觉层次、如何使用所创建的层次以及如何评估所创建的层次三个方面做了详细的阐释。 3.建立图像层次 建立图像层次的主要方法是:1.运用图像分割技术将图片分割为多个区域;2.对分割后的每个区域提取四个视觉特征,分别是颜色特征、纹理特征、位置特征以及量化的SIFT直方图【11】。3.一个图像与它对应的标签集合[W1,W2,…,Wm]组成一个“图像-标签对”;4.每个图像都有一个文本的路径与之相对应,分割出的每一个子区域对应路径中的一个节点,这取决于该区域的视觉特征所表达的视觉概念。 4.学习语义层次 学习语义视觉图像层次,需要学习的参数有3个,分别是概念索引Z、耦合变量S以及路径C,为了能使表达统一概念的图像和标签能够联系起来,就需要学习Z个S,为了使一个图像对应其在图像层次中的位置,就需要学习Z和C。 使用的数据集:文章中使用Flichr中4000个用户上传的图像以及538个不同的标签,涵盖了40个图像类别,使用这些图像和标签进行训练和学习,最后得到的图像层次包含了121个节点和4级的路径53条。这个图像层次有一下特点:1.层次中的路径遵循一个“普通—特别”的规则,在层次的上层表达的是更普通、更宽泛的概念,越往下走就是更具体、更具描述性的概念。2.纯视觉信息所建立的图像层次往往从某些角度讲不具有丰富意义,比如“在生日宴会上跳舞”与“生日蛋糕”两个内容的图像在纯视觉上很难联系起来,而文章中建立的图像层次就能够用它们的父节点“生日”将它们联系起来。3.纯语言的图像层次也会遗漏一些图像之间的联系,比如“铁塔”和“商业区”两个概念,但在文中建立的图像层次就能够用它们的父节点“建筑物”将它们联系起来。4.文中建立的图像层次中,因为精密地结合了视觉和文本信息,较高层次的节点表达更普通的概念,而较低层次的节点表达更具体的概念,则图像与每个节点的对应情况是多样的,这是纯基于视觉特征的算法所达不到的。 5.量化评估 文章的另一个突出的贡献,也是区别于其他文献的重要部分,就是文章中实现了图像层次的量化评估。如何判断一个图像层次的有效性,文中提出了两种评估准则:1.图像层次中属于同一条路径的图像表达类似的概念,它们应该用类似的标签注释;2.对于同一条路径上的不同层次的节点而言,它们之间的关系应该是较高层次的表达较普通的概念,而较低层次的表达较具体的概念。 正对这两个评估准则,文章采用了两种评估方法进行实验:1.给出一副图像及描述它的6个文本标签,其中5个与图像内容联系密切,有1个与图像内容相关性低,通过文中训练学习的图像层次模型,能够识别出哪一个标签与图像内容不符,识别准确率高达92%。实验中与【12】中只使用文本聚类的算法相对比,实验结果表明,文中建立的图像层次比基于纯文本的方法更具有效性。2.给出一幅图像及正确描述图像的n个标签,在无先验知识的情况下,我们不知道这幅图像应该对于这些标签对应的怎样的层次路径,这种情况下,我们穷举的话有你n!种排列的路径,通过文中训练学习的图像层次模型,能够识别出哪一个路径遵循“普通—特别”的原则准确描述这幅图像,实验中与【12】的nCRP方法相对比,前者准确率为59%,后者为50%,可见文中的层次模型更具有效性。 6.图像层次的应用 能够直接体现一个图像层次的价值的就是它在具体应用中的有效性。文章围绕着3个方面的应用对建立起来的基于语义视觉的图像层次的有效性进行了充分的说明。1.图像注释:利用图像层次模型对给定的图像进行注释,所得到的注释同样遵循“普通—特别”的层次特点。文中模型的准确率达到46%,而nCRP【12】算法的准确率为16%,可见该模型在前人研究成果的基础上,实现了更高的飞跃。2.图像标识:文中训练学习的模型也可以被当做一种知识,这种知识体现了视觉概念与语义概念的联系,所以对于一副给定的图像,可以得到一系列语义标签,这些标签不一定是层次关系的,但他们可以描述属性的内容,文中算法的准确率高达74%,而Corr-LDA【13】算法的准确率只有44%。3.图像分类:这一直都是图像领域一个具有挑战性的任务,如果得到的层次模型中包含K个节点,则给测试图片分配一个K维向量,使得每个节点对应一个值,只有与图像内容相关的节点对应的值不为零。实验中先计算测试图片与训练图片的欧氏距离,在使用KNN算法来获取正确的标签。最后与经典的图像分类算法SPM【14】、SVM【15】等算法进行比较,结果表明文中提出的语义视觉层次模型的分类的准确度达到30%,而其他算法的精度在9%至23%之间。 7.总结 这篇文章在图像处理的研究领域做出了突出贡献,作者在分析到基于文本的和纯基于视觉特征的方法的缺陷后,创造性地提出了一种基于文本标签和视觉特征相结合语义视觉层次模型。整篇文章系统地阐释了如何创建一个有意义的图像层次、如何对图像层次进行量化的评估以及如何学习并使用层次模型,并使用大量的对比实验来说明文中提出的图像层次在解决图像分类等学术前沿问题中的应用价值,文章的思想为更好地组织、浏览和检索图像开拓出了另外一条道路。 参考文献 [1] G. Miller. WordNet: A Lexical Database for English. COMMUNICATIONS OF THE ACM, 1995. [2] R. Snow, D. Jurafsky, and A. Ng. Semantic taxonomy induction from heterogenous evidence. In ACL, 2006. [3] Y. Jin, L. Khan, L. Wang, and M. Awad. Image annotations by combining multiple evidence & WordNet. In ACM MM, 2005. [4] D. Joshi, R. Datta, Z. Zhuang, W. Weiss, M. Friedenberg, J. Li, and J. Wang. Paragrab: A comprehensive architecture for web image management and multimodal querying. In VLDB, 2006. [5] R. Datta, W. Ge, J. Li, and J. Wang. Toward bridging the annotation-retrieval gap in image search. IEEE MM, 2007. [6] M. Marszalek and C. Schmid. Semantic Hierarchies for Visual Object Recognition. In CVPR, 2007. [7] A. Torralba, R. Fergus, and W. Freeman. Million tiny images: A large data set for nonparametric object and scene recognition. PAMI, 30(11):1958–1970, 80. [8] N. Ahuja and S. Todorovic. Learning the Taxonomy and Models of Categories Present in Arbitrary Images. In ICCV, 2007. [9] E. Bart, I. Porteous, P. Perona, and M. Welling. Unsupervised learning of visual taxonomies. CVPR, 2008. [10] G. Griffin and P. Perona. Learning and Using Taxonomies For Fast Visual Categorization. In CVPR, 2008. [11] D. Lowe. Object recognition from local scale-invariant features. In ICCV, 1999. [12] D. Blei, T. Griffiths, M. Jordan, and J. Tenenbaum. Hierarchical Topic Models and the Nested Chinese Restaurant Process. In NIPS, 2004. [13] D. Blei and M. Jordan. Modeling annotated data. SIGIR, 2003. [14] S. Lazebnik, C. Schmid, and J. Ponce. Beyond bags of features: Spatial pyramid matching for recognizing natural scene categories. In CVPR, 2006. [15] N. Cristianini and J. Shawe-Taylor. An introduction to support Vector Machines: and other kernel-based learning methods. Cambridge Univ Pr, 2000.
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 学术论文 > 其他

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4009-655-100  投诉/维权电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服