1、第 1 章 多媒体检索技术概述
随着多媒体技术的改进、 标准化的发展、 硬件成本的降低和应用软件的增加, 多媒体系统的应用领域将不断拓宽,前景十分广阔,而且还可为人们创造出更新的应用方式, 如用做商场购物指向系统、 酒店咨询系统、 旅游向导系统、新产品演示系统、 印刷出版系统、 仿真系统、检测系统,以及教育培训、医疗诊断和家庭娱乐等方面。
1.1 基于内容的多媒体数据检索
对于多媒体来说, 每一种媒体数据都有一些难以用字符和数学符号描述的内容线索, 如图像中某一对象的形状、 颜色和纹理,视频中的运动, 声音的音调等。 当用户要利用这些线索对数据进行检索时,就不得不首先人工将其转化为
2、文本或关键词形式。这种转换带有一定的主观性, 而且极其浪费时间。现在,网络和数据库中的多媒体数据量非常庞大,人们在应用中不仅要求数据库及其他信息系统能对图像、视频声音等媒体进行存储及基于关键字的检索, 而且要求对多媒体数据内容进行自动语义分析、表达和检索。 基于内容的多媒体数据检索( CBR )就是指根据媒体和媒体对象的内容语义及上下文联系进行检索, 主要包括以下内容:
1 .数据模型
数据模型是基于内容的多媒体数据检索系统的核心,模型决定 CBR 支持的查询类型和
检索能力。 建立的数据模型要能够充分反映媒体对象的内容, 反映与领域无关的和能够有效存储的物理特征及逻辑特征。
2
3、 .特征提取和语义获取
需要容易使用且能对原始特征进行抽取的自动工具和获取逻辑特征的半自动工具, 用于开发大型、 实用的多媒体信息检索系统。 另外,还需要新的特征表示方法, 如基于分形或小
波的特征数学表示。
3 .基于内存的编码
现在所使用的媒体, 其格式和编码没有考虑到内容, 只是针对颜色、 像素、 样值来编码。因此,从这些数据中抽取内容特征非常困难。 如果在对媒体数据编码表示时就考虑到媒体的
内容, 即媒体包含其表示内容的信息, 那么对这些数据的内容进行检索就会更有效也更准确。
这方面的工作已经取得很大的进展, 例如即将成为国际标准的基于内容的编码标准 MPEG -
4、
4 和多媒体数据内容表示国际标准 MPEG - 7 。
4 .查询说明模式
对于特定类型的查询, 该领域专家可能需要一种功能丰富且复杂的图形接口, 以支持多
种形式的查询类型。 而非正式和普通用户则可能需要用自然语言来说明查询。从映射自然语
言查询到通用查询类型仍然需要进一步的研究。
5 .索引和性能
研究适合于大型多媒体库检索的索引结构和过滤器, 缩短系统的响应时间, 提高查询效 率。
6 .集成查询
用基于内容的查询来补充和扩展数据库中已存在的用于咨询及存取信息的方法。 应用系
统应能把日期、价格等客观项目与内容特征,如颜色、纹理和形状等结合在一起集成查询。
5、
7 .扩展性和灵活性
系统的体系结构应该对新的特征表示和新的匹配 / 相似性度量算法的更新与扩充加以支
持,使系统查询及检索的性能和功能不断增强。
1.2 基于内容的检索特点
基于内容的检索有如下特点:
1 .从媒体内容中提取信息线索
基于内容的检索突破了传统的基于表达式的检索, 它直接对图像、 视频、 音频内容进行
分析,抽取特征和语义,利用这些内容特征建立索引,并进行检索。
2 .基于内容的检索是一种近似匹配
由于对内容的表示不是一种精确描述, 因此, CBR 采用相似性匹配的方法逐步求精, 以
获得查询结果, 即不断减小查询结果的范围, 直到定位于要求的目标, 这是一个迭代过程。
这一点与常规数据库检索中的精确匹配方法不同。