资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,多媒体信息检索,102131387,庄子匀,概念,多媒体检索是一种基于内容特征的检索(,CBR,:,content-based retrieval,)。,基于内容的检索是对媒体对象的内容及上下文语义环境进行检索,如图像中的颜色、纹理、形状,视频中的镜头、场景、镜头的运动,声音中的音调、响度、音色等。,基于内容的检索突破了传统的基于文本检索技术的局限,直接对图像、视频、音频内容进行分析,抽取特征和语义,利用这些内容特征建立索引并进行检索。在这一检索过程中,它主要以图像处理、模式识别、计算机视觉、图像理解等学科中的一些方法为部分基础技术,是多种技术的合成。,体系结构,媒体数据,特征提取,目标标识,媒体库,特征库,知识库,知识辅助,用户,查询接口,检索引擎,索引,/,过滤,数据库特征,提取子系统,数据库查询,子系统,检索过程,用户需求,媒体资源,内容查询,内容索引,匹配,分类,文本检索,多媒体检索,图像检索,视频检索,音频检索,基于文本的检索,人工建立元数据标引,,本质类似于纯文本信息检索,普及程度:,是现行网络检索系统中的主流方式。,检索方式:,信息分类、扩展名、关键词,优势:实现原理相对简单,技术成熟,劣势:具有主观性,仁者见仁、智者见智;多媒体信息的多 维性,人工描述难以穷尽,Google,图片搜索、音乐搜索与视频搜索,,Yahoo,音乐搜索与图片搜索,,Yahoo Video Search,,,百度,mp3,、图片与视频搜索,普通搜索引擎,搜索图片、图像,格式:,image:,文件名,功能:检索含有指定文件名图像的所有网页。,搜索多媒体信息,格式:,media:text,功能:检索文件的名字中含有指定文字的多媒体信息,基于内容的信息检索,Content-Based Retrieval,一种新的检索技术,是对多媒体对象的内容及上下文语义环境进行检索,原理:提取,特征并进行量化,表示成向量空间,建立索引库,将用户提问转化成向量,并与已有信息的向量空间进行相似度匹配计算。,常用多媒体文件特征:,图像:,颜色、纹理及时空关系等,视频:,对象运动特征、颜色和光线变化等,音频:,时域、频域、时频、短时帧和音频,特征等,普及程度:,局限在较小的数据集合上,大多只是实验室研究成果,基于内容的图像检索,分析图像的内容,提取其颜色、形状、纹理,以及对象空间关系等信息,建立图像的特征索引,QBIC,Query By Image Content,,/,IBM,Almaden,研究中心开发的第一个商用基于内容的图像及视频检索系统,提供对静止图像及视频信息基于内容的检索手段,系统结构及所用技术对后来的视频检索有深远的影响,Photobook,,vismod.media.mit.edu/vismod/demos/photobook,/,由,MIT,的媒体实验室开发研制,图像在存储时按人脸、形状或纹理特性自动分类,图像根据类别通过显著语义特征压缩编码,VisualSeek,,www.ctr.columbia.edu/VisualSEEk,美国哥伦比亚大学开发的图像查询系统,主要特点是用到了图像区域的空间关系查询和直接从压缩数据中提取视觉特征,EXCALIBUR,技术公司开发的,retrieval ware,系统,Virage,公司开发的,virage,检索系统,香港公共图书馆的多媒体信息系统(,MMIS,),Multimedia Information System,hkclweb.hkpl.gov.hk/hkclr2/internet/eng/html/welcome.html,IBM,和分包商,ICO,于,1999,年底开始承建,190,万美元的数字图书馆项目,被认为是世界上最大且最复杂的“中文,/,英文”双语图书馆服务之一,采用的,DB2 Text,和,Image Extenders,既支持文本查找,也支持图片查找,相似颜色,相似形状,相似内容,IMEDIA,IMEDIA,按照数据库的内容划分为五个功能系统。,Visual Retrieval(generalist databases),、,Visual Retrieval(biodiversity collections),、,Visual Retrieval with relevance feedback,(,satellite images,)、,partial visual queries(local descriptors),和,3D retrieval,基于内容的视频检索,通过对非结构化的视频数据进行结构化分析和处理,采用视频分割技术,将连续的视频流划分为具有特定语义的视频片段,镜头,作为检索的基本单元,在此基础上进行代表帧,(representative frame),的提取和动态特征的提取,形成描述镜头的特征索引,镜头组织和特征索引,采用视频聚类等方法研究镜头之间的关系,把内容相近的镜头组合起来,逐步缩小检索范围,直至查询到所需的视频数据,视频分割、代表帧和动态特征提取是基于内容的视频检索的关键技术。,卡内基,梅隆大学的,informedia,数字视频图书馆系统,CMU,Informedia,Video Research,,www.informedia.cs.cmu.edu,结合语音识别、视频分析和文本检索技术,支持,2000,小时的视频广播的检索,实现全内容的、基于知识的查询和检索,同步元数据搜索和导航,天线视频,,/,以视频搜索技术为核心的视频媒体平台,可检索国内多家主流电视台的节目、国内各大主流视频网站及播客网站的内容,可以通过关键词搜索,可以搜索文件中的某句话或某段文字,哥伦比亚大学的,VideoQ,,/,允许用户使用视觉特征和时空关系来检索视频,集成文本和视觉搜索方法,自动的视频对象分割和追踪,丰富的视觉特征库,包括颜色、纹理、形状和运动,基于内容的音频检索,从音频数据中提取听觉特征信息,音频特征分为:听觉感知特征和听觉非感知特征,(,物理特性,),听觉感知特征包括音量、音调、音强等,IBM,的,Via Voice,ibm-,/,语音识别已趋于成熟,剑桥大学的,VMR,系统,Video Mail Retrieval Using Voice,mi.eng.cam.ac.uk/research/projects/Video_Mail_Retrieval_Voice,音频处理较出色,美国,Muscle fish,公司基于内容的音频检索系统,Content-Based Retrieval of Audio,,you,
展开阅读全文