基于视觉特性的视频编码理论与方法研究--学位论文.doc

资源描述

项目名称：基于视觉特性的视频编码理论与方法研究一、研究内容由于可以有效节省通信带宽和存储容量，高效率的视频编码技术已经成为数字视频广播(广播网)、数字媒体存储与网络传输(计算机网络)、以及多媒体通讯(通信网)等数字媒体产业的共性关键技术。特别是近年来，我国的数字媒体产业迅猛发展，年均产值已近万亿元，使得音视频编解码标准技术的地位越来越重要。经过多年努力，2006年中国终于有了自己的视频编码国家标准AVS。但我们仍需未雨绸缪，从模型、理论、方法和技术上为下一代视频编码国家标准和国际标准的制定早做准备，确保在下一轮的标准竞争中立于不败之地。从视频编码的需求角度看，编码的主要动机是在尽量保证高质量视觉效果的前提下最大限度地降低码率，达到压缩的目的。众所周知，人类视觉系统的信息处理能力远远超过目前的视频处理系统，因此，从方法论上借鉴人类视觉系统的视觉信息处理基本神经机制和心理机理，构建统一的图像/视频基本结构与表示模型及其相应的视觉计算方法，发展将香农信息论与人类视觉系统信息处理原理相结合的高效视觉信息编码理论与方法，就成为了本项目的基本出发点和立项依据。视频编码处理的核心环节要对视频中包含的视觉信息进行高效的表达和准确的重建，其本质是视觉信息的基本结构和有效表示问题。为此，我们需要探讨以下关键科学问题：（1）视频编码可以借鉴的视觉信息处理机理是什么？作为长期进化的结果，人类视觉信息处理系统是至为精致的生物系统之一。但遗憾的是，其基本神经机制、知觉和认知机理目前尚不完全清晰。本项目将从多学科交叉的角度出发，探索视觉信息处理的基本神经机制和认知机理，研究相应的理论和模型，对其进行实验验证与计算仿真，以期能够用以指导建立更加有效的视觉计算模型。（2）视频编码可以利用的符合视觉信息处理机理的计算模型是什么？尽管人类视觉系统的信息处理机理尚不完全明了，但随着技术手段的提高，脑科学、神经科学和认知心理学专家已经掌握了越来越多的规律并提出了很多假说和模型。如何基于这些发现构建相应的、可计算的视觉信息处理数学模型就成为一个重要的基础科学问题。其解决不仅可以有效促进视觉编码技术的发展，还可以从计算模拟的角度反过来推动视觉基本机理的研究。（3）与人类视觉系统特性相吻合的视频表示及编码的理论是什么？香农信息论虽然从理论上给出了编码效率的上界和失真的关系，但并未考虑编码的符号(事件)集，因而对视频中高阶相关缺乏有效的描述手段。视觉信息论试图借鉴神经生理学在不同感知阶段对感知对象的抽象，建立对应的符号(事件)集，使之能够方便地描述高阶相关性，体现语义结构，从而丰富信息论理论。符号(事件)是借鉴稀疏编码理论通过采用贝叶斯计算视觉感知的后验概率建立的。这将为高效视频编码提供指导性的理论基础。上述三个关键科学问题紧紧围绕视觉信息处理系统中最核心的表示与编码问题，分别从生理/心理基本机理、视觉信息处理计算模型、视频编码基础理论三个层面展开。其中，视觉基本机理既是基本出发点也是落脚点，计算模型是桥梁和纽带，视觉信息论则是设计和实现下一代视频编码方法和技术的理论基础。围绕上述三个关键科学问题，我们提出的总体研究内容框架如图2所示，以期建立解决这些问题的模型、理论和方法，构建相应的验证平台和原型系统。如图所示，对应三个关键科学问题，本项目的主要研究内容自底向上分别建立在三个层面，即：机理与模型层，理论与方法层，关键技术与验证层。下面我们分别从这三个层面对本项目的主要研究内容进行阐述。 2.1视觉基本机理与模型层该层面的研究内容面向的科学问题主要是前两个：视觉信息处理的基本机理和符合这些基本机理的计算模型。不难理解，二者有天然的紧密联系：一方面，视觉信息处理基本机理为视觉信息处理的计算仿真、计算模型建立等提供了良好的生理学和心理学参照系，对其基本规律的认识为计算模型的建立提供了良好的技术可能性和努力方向。另一方面，计算模型也为基本机理的正确性和模型的有效性提供了验证机会，有利于推动视觉基本机理的研究。下面分别叙述本项目在视觉基本机理和计算模型方面拟开展的研究。 2.1.1视觉信息处理基本机理研究在视知觉机理方面，将主要从生理、心理角度，通过神经电生理学、视觉行为学、药物学等研究手段，在灵长类动物上采用包括微电极矩阵记录方法、高时间分辨率的事件相关电位(ERP)、功能核磁共振(fMRI)等技术手段从初级视觉皮层V1神经元群体反应特性入手，研究V1神经元经典和非经典感受野与上级视觉皮层区域神经元正向和反向联系、V1神经元之间的横向联系，以及视觉学习过程中神经元群视觉编码模式的变化特性，探索初级和高级皮层中的神经元群在视觉处理中对简单和复杂视觉刺激的编码模式以及动态反应模式，各级皮层神经元群对不同视觉模式识别的贡献，考察视觉注意和知觉组织之间相互影响和交互作用，以验证或改进现有假说或理论模型(如稀疏编码、群组编码、视觉注意、增量成组假说等)，乃至提出有关视觉模式识别的神经机制及编码机理的新假说、新模型，为后续的计算模型的研究提供神经机制和心理机理方面的基础。图3给出了本项目在视知觉基本机理方面拟开展的主要研究内容，涉及的主要关键问题，机理模型/假说，以及拟采用的技术手段。视知觉基本机理的研究成果为实现人工视觉提供了一条可行的道路，利用基本视觉机理如稀疏编码、群组编码、增量成组等，根据人类视觉系统在平移、旋转、尺度下的不变性以及对数据缺失、噪声等问题的自适应性，从计算仿真的角度研究相应的视觉信息处理计算结构，探讨视知觉的计算机理，建立相应的表示和计算模型。我们将在这一框架下研究包括视觉信息的稀疏表示、初级视觉皮层(V1区)、V2区、V4区和IT区的各个层次、不同复杂度下特征形成的计算模型和实现算法。具体研究内容包括：在视皮层网络结构第一层上研究视觉信息稀疏表示的机器学习算法、超完备表示对实现鲁棒图像编码的作用以及基于超完备表示的特征提取方法等。在第二网络层次上将研究视觉特征成组(Feature Grouping)机理以及神经网络拓扑结构和学习算法。在皮层型网络的第三层上则研究整体特征形成机理及计算模拟算法，在最高层则研究基于整体特征的物体识别模型与算法。 2.1.2面向视频编码的视觉计算模型研究在上述视知觉机理研究基础上，我们将从功能模拟的角度，采用统计学习方法，研究从图像和视频中学习与视觉感知相对应的视觉信息表示基本粒子结构，建立形式化数学描述的有关理论和方法。特别要重点研究稀疏编码、增量成组和视觉注意机制所遵循的基本规律及其可能的计算模型，进而建立与视觉信息处理相关的统计模型和计算方法。在本项目的研究中，我们将基于静态要素图模型，提出一个针对视觉运动的、统一的视觉表示模型——时空要素图(Spatial Temporal prImal skeTCh graph — STITCH)系统。该系统包含了运动图像序列中每一帧的要素图表示。这些要素图比以往从静态图像中所获得的要素图显示出更强的语义信息。这些语义信息主要来源于运动所提供的丰富线索——考虑到运动的时空相关性以及整体运动的一致性(coherence)，我们可以对每帧静态要素图做进一步的分析处理，如层次化连接不同粒度的基元和模式等。图与图之间元素的对应关系表示了这些元素在时间上的动态对应关系。此外，STITCH系统还包括驱使这些要素图产生变化的动力学模型，如：要素图或其子图的运动、几何变形、以及拓扑结构的变化模型等。我们认为时空要素图模型是对运动图像序列的一种内在本质表示，它将为编码提供稀疏、高效的表示，从而有望使得新一代编码技术获得本质性的飞跃。本项目将通过提出上述针对视频信息的“时空要素图”表示模型和计算方法，研究将视频分解为层次化基元结构的可行性，探讨视频表示及编码的基本数学模型问题，进而探索视频的内在基本结构，为后续的“视知觉熵”、“视觉信息论”、基于视觉特性的高效视频压缩、多维度可伸缩编码、分布式多视点编码和面向智能监控的视频编码等研究内容提供基础性的视觉表示和计算模型。在视觉注意计算方面，项目将基于前面讨论的STITCH表示，研究视频的注意选择计算模型。将视频分解成基元结构后，根据视觉机理中的“中心-环绕”机制，视频中的注意区域可定义为运动基元的时空特征拐点，如飞翔的小鸟、飘落的雪花可能会因其空间特征与周围区域有显著差异而显著性高，而快速行走的人突然停下来可能会引起运动特征与周围(时间轴)有变化而被关注。显著性可以用特征与中心/环绕类别标记之间的互信息来描述，特征与类别标记关联越紧密，该特征越能将中心和环绕区域分离开，即中心与环绕区域之间的特征分布差异越大，则显著性越高这种定义在运动基元上的显著性与现有的基于低级特征(如颜色、亮度、方向和光流)的显著性相比更加符合人类的视觉特性，可以为后续基于注意的视频编码和内容监控提供更多信息。 2.2视频编码理论与方法层上述视觉基本机理与模型层研究的核心内容是视觉信息的有效表示问题，而视频编码的根本目标则是要使用尽可能少的比特来编码表达原始视频中包含的视觉信息，因此，上述基本机理和数学模型恰可以利用以进行高效的视频编码，而且这为突破现有技术框架提出了新思路，即基于视觉特性的高效视频编码理论。从视频编码领域自身技术发展趋势来看，除了提高编码效率这一核心目标之外，也需要在其他角度上发展。首先，需要适应不同的传输带宽、存储和检索目的，实现多个维度上的可伸缩编码。传统的可伸缩编码重点在时间、空间和质量上进行伸缩，我们则提出了更多的维度，包括注意可伸缩、动态范围可伸缩等。其次，分布式系统、立体视系统(尤其是三维电视)等应用需求越来越强烈，因此也特别有必要针对这类多视频源编码问题进行探讨，即所谓分布式多视点编码。最后，在视频监控领域，对智能视频监控的需求日益强烈。目前的监控系统均直接采用面向广播或通信业务的视频编码方法，而没有针对监控任务本身进行特殊的编码，因此编码和后端的智能分析功能是割裂开的。为此本项目提出一种新的解决思路，试图将二者更加紧密地联系起来，即在前端编码阶段就尽量多地考虑后端的智能分析需求。在视频编码理论与方法层面，我们将重点开展四个方面的研究，即：基于视觉模型的高效视频编码理论、多维度可伸缩编码方法、分布式多视点视频编码方法和面向智能监控的视频编码方法。它们之间的关系如表1所示：表1 编码理论与方法主要研究内容之间的关系编码方法涉及的机理与计算模型主要的理论与方法主要应用领域基于视觉模型的高效视频编码视知觉机理，特别是稀疏编码理论，视觉计算模型，特别是局部视觉（基元）模型视觉信息论，视觉要素编码方法，局部视觉模型参数编码高清、超高清视频广播，视频存储多维度可伸缩编码视觉注意机理，图像/视频显著性计算模型可伸缩编码理论，注意区域编码方法流媒体服务，可伸缩质量服务分布式多视点视频编码分布式信源相关模型，深度视觉计算模型分布式编码理论，Wyner-Ziv编码多视点视频，3D电视面向智能监控的视频编码群组编码机理，对象检测与识别模型，视觉注意机理面向对象编码方法，智能视频分析与编码，索引编码智能视频监控，视频检索四个主要研究内容各自具体描述如下： 2.2.1基于视觉模型的高效视频编码理论结合视知觉机理和视觉计算模型，研究符合人类视知觉机理的视频压缩理论与方法。本部分研究内容将从基础理论、算法与框架以及应用三个方面开展。在基础理论方面，研究基于视知觉熵的视觉信息论，探讨视知觉机理中给出的视觉基本组成单元与视觉信息论中基本信源符号的关系，定义合理的基本信源符号，进而提出视知觉熵的概念；研究视知觉熵的测度和数量化方法，特别是视知觉熵的动态测度特性，探索鲁棒、易行的视知觉质量评价方法，及其基于视知觉熵的率失真理论，进而提出视觉信息论，为基于视知觉的视频压缩提供理论依据。在算法及系统方面，以视觉信息论为指导，研究基于视知觉的视频压缩算法及系统，设计理论上最优的压缩系统，寻找基于视知觉率失真理论的系统优化方法。具体而言，就是从人的视觉特性出发，对视频内容进行分析，从中提取出视频的关键特征，如边缘、纹理、运动等人眼所关注的局部特征，探索针对这些局部特征的参数化算法、根据局部特征参数的视觉掩蔽模型的动态调整方法、以及相应的量化算法和编码算法，建立空域、时域、局部特征的相关性模型。在这里如何进行局部特征的提取，以及利用这些局部特征对视觉模型的调整与具体编码模块间的联系成为整个编码系统的关键问题，因此，找出这些特征的规律，并用其指导压缩成为提高压缩效率的关键，为此项目研究还将对基于模型的图像/视频局部特征提取进行深入研究，从而可以通过学习训练适应性地进行特征提取与编码。在应用方面，我们拟研究基于视觉的动画压缩和基于视觉的超高清视频编码以及超分辨率视频编码。动画本身的产生机制非常有利于采用基于视觉的编码方法，和自然视频相比，动画一般有着较明显的边缘特征、纹理特征、或色彩一致的区域，运动模型也相对较容易建立，因此我们拟结合动画制作的基本原理，对基于视觉特征的动画编码进行研究，搭建基于视觉的动画压缩系统,提高动画的压缩效率，为推动基于视觉的视频压缩应用迈出关键的一步。对于超高清分辨率视频，目前的压缩效率还难以满足应用需求，本项目拟研究基于视觉的超分辨率视频编码技术，提高超高清视频的编码效率。我们拟在原始分辨率视频上提取边缘、纹理等视觉特征并进行编码，然后对原始分辨率视频进行下采样编码，在解码端通过超分辨率插值技术重构高分辨率视频。随着硬件技术的快速发展，高分辨率的逐行显示设备越来越普及，但在许多应用场合由于历史的原因隔行视频还将长期存在一段时间，对此我们拟研究基于超分辨率技术的去隔行效应研究，实现低分辨率、低帧率的隔行视频到高分辨率、高帧率的视频转换，取得更好的主观效果。 2.2.2多维度可伸缩编码方法对此问题将从理论层和算法层分别展开。理论部分主要结合香农传统信息论和视觉信息论，根据视知觉熵的定义、测度及相关率失真理论，探求可伸缩编码的视知觉率失真曲线，及其与传统率失真曲线的关系。在此理论研究基础上我们将探索基于视觉信息论的SVC编码框架及算法。通过在传统三维SVC框架上引入注意度，进一步提高SVC编码的性能；引入针对高动态范围视频输入的动态范围这一自由度，支持高动态范围图像的编码显示。对于这一问题重点研究注意模型的建立及基于注意模型的感兴趣区域的提取、表达和编码，力图寻求具有最高率失真性能的可伸缩编码；研究具有强容错能力并且能够适应各种动态变化网络和不同的用户终端设备的可伸缩视频编码方法，主要基于视频内容的视知觉熵，为视频要素提供不同级别的纠错保护，尽可能提高重建视频的主观满意度；研究基于注意度的码流优化截取方法，其目标即为最大化重建视频的视知觉率失真性能，同时兼顾复杂度。 2.2.3分布式多视点视频编码方法在资源受限的分布式视频应用中，鉴于现有分布式视频编码的低效性，需要利用视觉特性，研究分布式多视点编码理论，从而提高编码效率。同时，必须充分利用分布式信源之间的相关性，去除分布式信源的视间冗余，达到分布式视频信息高效解码。在立体视编码方面，需要利用深度辅助信息来精确描述真实的三维世界。根据立体视觉成像的原理, 利用多个视点图像的空间几何关系以及图示线索知识获取深度信息是立体视点视频处理的重点研究内容；同时，需要研究利用多视点视频编码对大量的视频原始数据和辅助信息进行压缩并且通过网络进行有效传输；通过自由视点切换保证用户的交互功能，使用户可以根据自己的兴趣选择不同的视角具体的研究内容包括： (1) 基于视觉特性的视频源分割在视觉模型的指导下，研究基于视觉特性与统计特性的信源分割准则。根据这种分割准则，将视频源划分为若干个视觉特性、统计特性相异的子视频源。然后对每个子视频源使用相应的高效编码方法，以期获取好的主观质量。 (2) 基于多视频源相关模型的分布式编码根据视频序列的具体分割形式，利用多视点信源的相关特性、视点间的几何位置以及采集参数，研究其相应的相关模型以及参数估计方法，指导编码器进行高效的分布式编码。 (3) 研究多视频源时间、视间联合相关性，实现高效解码分布式编码理论要求独立编码的信源码流必须在解码端联合解码，通过充分挖掘信源间的相关性来高质量地重建源数据。利用基于视间运动的边信息导出、数据融合等技术，研究高效的边信息生成、信道解码以及源数据重建等方法。 (4) 面向视觉质量的自适应解码将主观视觉质量评价模型嵌入到分布式解码器中，当目标视频区域解码质量达到主观质量要求时，即终止解码过程。这样既可以达到更优的码率与视觉质量平衡，还可以控制解码器的计算复杂度。 (5) 基于立体视觉机理的多视编码研究利用多个视点图像的空间几何关系以及图示线索知识生成深度序列，用以精确表达真实世界的立体视觉信息。基于立体视觉机理，进一步研究深度序列与彩色视频的联合高效压缩，重构出最优的三维视频。为了支持多视点切换，研究高效灵活的低延迟视点切换，同时使压缩效率和视点切换代价之间达到最优的平衡。 (6) 三维显示技术研究高效虚拟视合成技术，可使用户按照深度感知能力选择合适的欣赏视点；研究多视点的三维显示器，使观察者具有更加广阔的视域。 2.2.4面向智能监控的视频编码方法虽然视频监控部署规模已经比较庞大，而且发挥着重要作用，但是目前系统的应用模式比较落后，主要靠人工监视多路视频和事发后的人工搜检，其中实时现场人工监视耗费大量人力，而且监视人员易疲劳、漏检风险大，亟待半自动乃至全自动预警的支持。这需要我们从视频编码层次进行基础性创新，从而构建新一代的智能化、高效能视频监控体系。针对视频监控的特点与需求，研究三层码流结构(基本层、对象层和索引层)的新一代监控视频编码方法与标准，拟利用本项目研究的视频编码方法进行基本层编码，通过在视频码流中增加对象层和索引层，将满足视频监控智能化和高效率的需要。基本层编码方法采用本项目研究的基于视觉特性的视频编码方法，针对监控视频的特点和需求，提出适合监控需要的视频编码方案并进行标准化。针对重要场合监控中可获得多摄像源的特点，通过多源视频融合获得广视角、高清晰的监控效果。对象层编码面向监控智能化的需要，基于基本层码流中的视觉基元、运动向量等要素，研究监控背景、场景、物体、人物等对象模型，分析异常行为和异常事件，形成描述监控目标及其关系的对象层码流，发挥基于视觉特性的编码理论与方法的优越性，提高视频监控系统的效率。索引层以提高海量监控视频的检索和存储效率为目标，基于基本层中的感兴趣区域、视觉基元和对象层中的对象描述信息，研究监控场景变化的检测方法，提出评价视频片段重要性的计量方法，获得场景变换位置、视频片段重要程度等描述信息，形成描述视频结构的索引，支持对监控视频的提纲携领式检索、摘要和存储容量缩减。 2.3原型研究与验证层上述两个层面所研究的基础性的模型、理论和方法还需要通过设计原型系统或者应用平台进行验证。我们重点考虑在宽带移动多媒体应用中进行原型研究和系统验证，构建相应的验证平台。具体研究内容如下： (1) 面向远程医疗的高动态视频采集技术：高动态范围视频采集通过多个摄像头协同采集同一场景不同动态范围的图像，生成高保真的高动态范围视频源。 (2) 视频转码技术研究：主要解决流媒体系统平移过程中的转码关键问题，特别是多种其它编码格式到AVS等视频格式的转码技术，在此基础上突破解决转码的一些共性的关键技术，例如新的转码结构的设计、视频图像的滤波预处理、转码运动矢量的预测等。同时在转码过程中研究编码的率失真属性，为视频的有效调度打下基础。 (3) 多流封装技术：针对网络传输介质误码率高、带宽差异等问题，本项目基于可伸缩编码方法研究多流封装技术，将一个视频源分拆为多个独立的视频流单独传输，从而确保传输的健壮性。研究基于传输通道的冗余编码技术，减少传输过程对误码率的影响，适应不同带宽。 (4) 面向远程医疗的视频编码应用技术研究：根据基于视觉特性的视频编码理论和远程医疗业务应用需求，针对远程医疗的视频编码技术应用场景进行分析和研究，主要包括：感兴趣区域编码的远程医疗会诊技术应用研究,高动态范围视频手术监测技术应用研究等。 (5) 高清IPTV和固定移动融合（FMC）视频应用验证平台实现技术：研究面向远程医疗的高清IPTV网络流媒体系统架构，固定移动融合（FMC）环境下的网络流媒体系统架构，搭建相应的宽带移动多媒体传输验证平台，对新一代基于视觉特性的视频编码理论和方法进行验证。二、预期目标 3.1总体目标本项目针对高效视频编码所涉及的视觉信息处理基础科学问题开展多学科交叉的共同研究，借鉴神经科学的最新研究成果，以探索视觉信息表示和编码的基本神经机制和心理机理为出发点，构建视频内容表示的时空要素图模型及其统一的计算模型。在这些研究的基础上，针对视觉信息编码与传输问题，将香农信息论与人类视觉系统信息处理原理相结合，并以此作为视频编码的理论基础，从而提出新的基于视觉模型的下一代高效视频编码框架，并扩展研究包括视觉注意和高动态范围在内的多维度可伸缩编码方法、面向多视频源的分布式多视点编码方法以及面向智能监控的视频编码方法，从而构建一套基于视觉特性的高效视频编码理论、模型和方法体系——这即是本项目在理论方面的总体目标。本项目在解决国家重大需求和产业创新方面的总体目标包括两方面。首先，以此为基础衍生出的视频编码技术可为下一代视频编码国家标准做出不可替代的贡献，并深度参与未来视频编码国际标准的制订工作，从而提高我国信息通信产业的国际竞争力。其次，本项目面向智能监控的编码方法等研究成果预期可以改变传统视频监控的应用模式，从而服务于国家公共安全、重大事件应急管理等国家重大需求；通用编码方法则还可以为下一代宽带移动多媒体应用技术提供理论与核心技术基础，并为航天遥现遥控等国家重大工程提供技术储备。 3.2五年预期目标根据上述总体目标，未来五年内本项目预期在理论与方法、解决国家重大需求、科研成果和人才培养方面达到如下目标： 1、预期在理论与方法方面取得的进展、突破及其科学价值如前所述，理论层面我们的总体目标是构建一套高效的基于视觉特性的视频编码理论、模型和方法体系，具体的五年目标主要体现在以下几个方面： (1) 在视觉基本机理层面，探索视觉信息处理的基本神经机制和认知机理并对其进行计算仿真。特别要采用先进的多电极矩阵技术手段，为揭示视知觉的神经机制提供经验和第一手实验证据。期望能探明稀疏编码与群组编码这两类编码方式的区别与联系、转化机制及相应的心理机理；探明基本成组和增量成组两种成组方式之间的相互作用以及视觉注意在其中的调节机制，从而为建立视觉计算模型提供基本机理基础。 (2) 在视觉计算模型层面，建立统一的统计视觉表示与计算模型。提出并完成面向视频处理的“时空要素图”模型，建立视频内容基本要素的数学统计模型及其符号化的形式化描述以及相应的计算推理方法。 (3) 在视频编码理论层面，提出与视觉感知一致的视频编码与传输理论。建立视觉信息量、视知觉熵等概念的形式化描述，从而构建符合视觉特性的视频编码理论。 (4) 在视频编码方法层面，构建包括基于视觉模型的新型编码方法、多维度可伸缩编码方法、分布式多视点编码方法和面向智能监控的视频编码方法等在内的下一代高效视频编码理论与方法体系。 2、预期在解决国家重大需求方面的研究目标 (1) 突破数字视频编解码核心技术，为制定下一代自主知识产权的高效视频压缩国际/国家标准提供理论、方法和关键技术上的支持，实现5年内视频压缩率再提高1倍的目标(即从目前的约1:100提高到1:200)。预期能够为下一代视频编码国家标准(AVS阶段2)做出不可替代的贡献(预期本项目组成员贡献率不低于40%)。同时，至少申请10项以上具有我国自主知识产权的国际专利，扭转中国视频产业核心技术长期受制于人的被动局面，推动我国数字视音频产业的战略转型。 (2) 突破面向智能监控的视频编码关键技术，通过在编码过程中引入局部视觉模型和视觉注意等新要素，从而有效支持自动异常发现和报警、目标检索等功能，从而改变智能视频监控的应用模式，满足国家在公共安全和重大应急事件管理中，对智能视频监控系统的重大需求。 (3) 突破宽带移动多媒体应用系统涉及的关键技术，本项目在视频编码方面的研究成果可以有效支持面向高清的IPTV、具有三维和高动态范围视频属性的远程医疗系统等，提高我国在宽带移动多媒体应用方面的技术水平并得到产业应用。 3、在科研产出、优秀人才培养等方面的预期目标 (1) 预期在视频编码领域的部分研究成果达到国际领先水平，促进相关学科的发展。预期五年内发表SCI、EI收录学术论文300篇以上，其中国际期刊论文100篇以上，出版专著2本以上，申请专利40项以上，争取获得1~2项国家级科技奖励。 (2) 在相关领域形成一支思维活跃、创新能力强的国际知名研究团队，培养高水平学术人才，造就一批在国内外相关领域有相当影响力的学术带头人。培养博士60人、硕士100人。三、研究方案 4.1总体学术思路与技术路线如前所述，传统的视频编码技术建立在香农信息论基础上，只能在信号层面上采用统计处理的手段对视频进行压缩，所以，基于传统信息论的方法流行多年，形成了延续至今的基于变换与预测的混合编码框架，基于此的编码效率已遭遇瓶颈。我们可以认为，这种传统的编码方法主要停留在以像素或图像块为基本表示单元的层次上，，这在某种意义上对应着人类“眼脑”视觉信息处理通路的视网膜层面，至多部分延伸至侧膝体。因此，本项目的总体研究思路就是(如图12中间虚线右侧部分)：借鉴人类视觉系统的信息处理过程，将编码的理论基础向视觉通路的后端延伸，即延伸至视觉皮层的V1区，V2区，V3区，V4区，乃至IT/MT区。从视觉信息表示的基本对象角度来看，该思路主要采用视觉基元作为视觉内容的基本单元，而不再是传统方法中的像素或者图像块。这种信息表示机制变化的意义在于：通过将编码符号集合定义在具有视觉意义的基元上，传统的信息论就可以被扩展，我们称之为“视觉信息论”，以区分一般意义上的信息论。为此，我们就需要探讨符合视觉感知的视觉基元与视觉信息论中基本信源符号的关系，寻找基本信源符号的合理定义，进而提出并形式化视觉信息量、视知觉熵等概念，研究其测度和数量化方法，寻找并借助客观、鲁棒、易行的视觉质量评价方法，探索基于视知觉熵的率失真关系，进而形成新的率失真理论。从而以视知觉熵和视知觉率失真理论为基础，建立视觉信息论，为基于视觉模型的新型高效视频编码技术奠定坚实的理论基础。本项目研究将基于上述总体思路展开，分别在视觉信息处理基本机理、视觉表示与计算模型、视频编码理论与方法以及系统验证等几个层面展开。具体的，在视觉基本机理方面，我们将采用多电极矩阵植入猴脑和计算仿真两种方法，重点探讨稀疏编码、群组编码、增量成组、运动感知、视觉注意等主要内容。这些机理可以指导我们研究新的视频内容表示与计算模型，具体的，我们拟沿着对视觉信息进行统计学习的思路，学习图像/视频的基本要素，建立时空要素图模型，并在此基础上对视觉注意进行建模分析。最后则可以基于这些计算模型研究基于局部视觉模型的高效视频编码、包含注意机制的多维度可伸缩编码、分布式多视编码和面向智能监控的视频编码等理论与方法。需要指出的是，本项目的上述研究方案强调了神经科学、生理学、心理学、数学、计算科学和电子学等多学科的交叉从而有效地促进我国科学与技术研究在上述领域中的进一步发展。 4.2各主要研究内容的研究方案基于上述总体学术思路和技术路线，本项目各个主要研究内容的研究方案概述如下： 4.2.1视觉信息处理基本机理方面这部分的研究将采用包括清醒动物神经电生理学、视觉行为学和药物学方法以及ERP、fMRI等技术手段研究生物视觉系统知觉组织主要环节的神经机制和心理机理。对视皮层神经元群反应特性等问题的研究方案，简述如下：采用不同的视觉刺激模式(刺激-背景和自然景物图像)对灵长类动物进行视觉行为学训练；在动物V1 区植入多电极矩阵；采用神经电生理学记录研究动物作视觉识别和视觉学习时V1区神经元群反应模式；在各级皮层采用物理或化学药品手段改变纵向神经输入对V1区的作用；研究当动物作视觉识别时记录V1区神经元群反应特征。视觉注意的生理心理基础及在视觉认知组织中的作用则将主要采用ERP和fMRI技术，对被测试人的脑电活动进行测量，研究知觉组织和视觉信息处理过程中，基本成组和增量成组过程在时序和脑区上的差异，以及注意等认知过程对其之间的相互影响的差异以加工及相应的脑机制。具体方案为：向被试呈现不同的刺激图片(背景和图像容易分离或不易分离，自然图像或刺激－背景图形)，考察在给不同线索(cue)情况下，ERP的波形，反应时间以及激活脑区的差异。在模型研究方面，考虑图像在不同感觉、知觉层面上的不同表示，对于视觉信息的稀疏表示、视觉皮层V2区、V4区和IT区的各个层次采用前馈联接，采用无监督和有监督两种不同学习方式解决局部特征和整体特征的学习任务。总体上采用阶层、模块化网络结构。其中，第一层对应稀疏表示，目标是建立视觉信息的超完备表示，模拟视觉初始皮层的功能，该层的学习算法采用自适应的视觉信息稀疏表示算法，在神经信息内部编码方面，研究基于神经元信号独立分解机理的内部稀疏表示的统计模型，使得该层的神经元具有超完备稀疏响应特征。第二层的功能是局部特征成组(Feature Grouping)，该层的学习准则是使得具有相近响应特征的神经元尽可能集群到相近的邻域，我们拟引入邻域神经元之间的能量变化极小化实现局部特征成组和无监督学习机制。第三层的功能是视觉整体特征的形成，该层依赖于具体的视觉处理任务。我们将针对某些特定的典型任务设计相应的整体特征形成与学习方法，研究如何将任务的先验知识或领域知识融入到整体特征的表示与学习中。在最高的识别层，考虑到不可预测的信息包含更多信息量的情况，试图对给定的图像计算其不可预测信息。拟采用局部谱能量对数的残余量来定义感兴趣区域。残差值越大，该区域的可预测性越差，因此我们把局部图像谱能量对数值残差超过一定阀值的区域定义为感兴趣的区域。通过大量的计算机实验，利用该残差定义的感兴趣区域与人类视知觉的注意区域相吻合。在定义感兴趣区域的基础上，我们将利用Itti的贝叶斯模型，定义视觉注意区域，并且给出计算算法。 4.2.2面向视频编码的视觉计算模型与方法概括来说，我们拟采用产生式的、多层结构时空要素图(STITCH)系统作为视频运动的统一表示，并采用贝叶斯理论框架下的最大似然估计(Maximum likelihood estimation)方法实现推理计算。具体地我们拟定以下研究方案： 1.运动的统一视觉表示首先，我们提出“时空要素图系统”来统一地表示视频中复杂的运动内容。作为一种产生式系统，它包括三层结构，：(i)系统的底层为图像层，是我们观察到的视频序列。(ii)系统的中层为要素图层。为静态图像表示提出的要素图模型，其本质上是一种属性图表示。本层是我们需要推理演算出的隐变量(hidden variable)层，是以产生式要素图模型生成底层的图像。(iii)系统的上层也是隐变量层，它代表使要素图在运动过程中发生结构变化的因素，拟采用图语法表示。 2.针对视频的时空要素图系统表示的计算方法我们将在贝叶斯理论框架下通过最大似然估计的方法学习时空要素图系统中的最优参数(包括以上提到的各方面内容)，从而实现对要素图的整合、分割、与组合，并实现对运动基元(或子图)的提取、跟踪，以及对图语法规则的学习。具体研究方案如下： (1) 基元在不同子空间中的动态特性分析在确立了以时空要素图系统作为运动图像序列的表示模型后，我们将运动基元定义为时空要素图中的子图，如飘落着的雪花、飞翔的小鸟等。运动基元也可以按粒度近一步的分解，如一个行走的人作为某一层上的运动基元可被进一步分解成为头、躯干、四肢等具有不同运动特性却又相互关联的不同运动基元。由于运动的物体处于不同的熵域中，所以对不同类型的静态图像基元有不同的表示，如表示低熵结构“可勾画”部分(sketchable)的简约图模型和表示高熵“不可勾画”部分(non-sketchable) 的纹理模型。这些不同熵域中的静态基元在时空中的动态特性很不一样。因此， (a) 我们首先要定义各种图像基元在时空中的“可跟踪性”(trackability)及其度量。我们将借鉴对一般跟踪系统的分析方法，在贝叶斯推理理论框架下用信息论的方法(information theoretic approach)，将物体状态的“不可跟踪性”度量定义为其后验条件熵。它体现了状态估计或跟踪过程中的状态的不确定性。由此我们可以导出可跟踪性度量。为了获得视频的最优的时空要素图表示，我们将可跟踪性度量作为此优化问题的一个重要参量置于系统动态模型中，使系统能够通过计算，在不同基元优化自身可跟踪性度量的同时，能够自动地选择适应不同视频内容的基元表示方法，从而获得最优的表示。我们称之为基元对视频的“竞争解释机制”。这里我们所说的“最优”或者定义在对视频内容的最小描述长度(Minimum descriptive length)理论框架下，或者定义在贝叶斯推理理论下的最大后验概率(Maximum a posteriori)估计意义下。 (b) 我们将通过基于采样的学习(learning by sampling)方法，以及可跟踪性与不可跟踪性基元对视频的竞争解释机制，实现对运动图像序列的全面分析，得到不同粒度上的基元、运动层次(layer)或物体，以及它们在时空中的对应关系，并可以对运动基元进行自动分类(可跟踪与不可跟踪)。在此统计学习过程中，我们不断地学习、更新可跟踪运动基元在光度、几何、运动、以及拓扑等不同维度上的动态特性。同时，对于不可跟踪运动基元，我们将在其特征空间(如PCA、Fourier空间)研究其光度和运动等动态特性。 (2) 运动基元的时空依赖及相互作用关系在运动过程中，物体与物体之间、基元与基元之间存在着相互作用，如鸟群在飞行的自组合状态，即：个体间的运动轨迹基本相互平行，同时保持一定距离；人在行走过程中，手臂与腿之间保持一定的协调性；小船随着波浪上下浮动；车辆经过时会遮挡背景物体等等。在分别研究了不同类型运动基元的动态特性后，我们将通过回归式数学模型来描述物体以及基元之间在运动轨迹方面的相互影响；通过学习上下文相关的随机图语法来描述在运动过程中物体或基元之间在拓扑结构上产生的相互影响与作用关系。 (3) 运动基元在不同熵域间的转换同一物体或基元由于运动可能穿梭于不同的熵域。例如，一辆汽车由远及近地驶来：它在很远的地方由于相机分辨率有限，成像后可以简单地用一个尺度很小的点(blob)来表示，这时它处在高熵纹理区；随着汽车的驶近，它会经过中熵以及低熵图像表示区。在此过程中，如果仅仅用一个blob将不足以表示汽车不断涌现的细节，这时我们要不断选择合适的视觉“词汇集”(visual vocabulary)来描述它在不同熵域中的表观。所以，对于这种感知转换机制(perceptual transition mechanism)的研究将在理论上指导我们如何针对不同情况采用适合的视觉“词汇集”来表示运动的物体并通过解释其中的变化来实现对复杂运动的鲁棒分析。在本项目的研究中，我们将采用统计学习的方法，通过上下文相关的随机图语法来描述物体或基元在穿越不同熵域时发生的结构变化。 4.2.3基于视觉模型的高效视频编码理论以往视频压缩技术的主要理论基础是香农信息论，但目前遇到了效率瓶颈，这表现在压缩效率进一步提升将以不可承受的复杂度增加为代价。基于此，本项目研究基于视知觉的视频压缩。人类视觉系统提取外界信息是一个从底层像素到高层物体边缘、结构、

展开阅读全文