1、 视音频技术Video&Audio1 引言 数字音视频编解码技术标准工作组于 2002 年 6 月由国家原信息产业部科学技术司批准成立,距今已有 21 年。在这 21 年中,产生了丰富的成果,如AVS 系列标准。该系列标准包含系统、视频、音频、数字版权管理在内的完整标准体系,为数字音视频产业提供全面的解决方案。近年来,中国互联网产业迅猛发展。目前,视频媒体不断向更高质量发展,对分辨率的要求越来越高。为了支持 8K 实时压缩,我国专家组自主研制了更高效的 AVS3 编码标准,同时,采用 AVS3 标准的试验频道在央视播出。互联网的快速发展促进媒体内容和形态快速增长,如何让更高质量与更多内容的媒体
2、进行融合,形成相关联的全媒体内容,并智能服务人类生活,AVS 系统标准中提供了解决方案,即 SMT(Smart Media Transport)协议。如何将两者结合并得以实现,国产标准的应用非常必要。本文介绍使用 SMT 协议传输 AVS3 编码的视频,特别是 8K 超高清视频的研究与实现,为国产化标准的落地实现提供参考。2 SMT 协议2.1 协议简介SMT 协议可以分为 3 个逻辑功能区,分别为信令功能区、封装功能区和传送功能区,系统的整体架构如图 1所示。封装功能区有 2 个特点:一是基于 ISO BMFF;二是内容碎片化。内容碎片又名通用封装单元(Common Encapsulatio
3、n Unit,CEU),其包含的编码媒体数据既可以是时序的,又可以是非时序的。2.2 与 HLS 对比HLS(HTTP Live Streaming,HTTP 实时流传输)是苹果公司自主开发的流媒体传输方案。其特点是使用M3U8 描述文件和使用 TS 切片的媒体文件。这里作了 SMT 协议和 HLS协议对比。(1)SMT 协 议 媒 体 文 件 采 用CEU 格 式,HLS 采 用 TS 切 片 文 件。CEU 格式支持元数据和媒体内容的分开存储,每个媒体分片包含可独立解密和解码的内容元数据。(2)从媒体文件大小的对比来看,对于相同码率的视频文件相差很小。本文使用的参考文件为 AVS3 编码的
4、基于AVS3编解码和SMT协议封装的 超高清视频传输系统研究与实现文/上海数字电视国家工程研究中心有限公司 邓军摘要:我国 AVS 工作组制定了视频、音频、系统等系列标准,包含了面向超高清视频应用的新一代数字视频编码标准和为异构网络中的媒体数据提供传输与分发服务的SMT协议等众多标准。本文介绍了 AVS3 和 SMT 协议的基本特点,重点总结了基于SMT 协议传输 AVS3 码流的实现流程、难点问题、解决方法以及在机顶盒上播放的效果。关键词:AVS3 SMT 超高清图 1 SMT 系统架构超高清 Ultra High Definition 2023年7月 月刊 总第375期TS 文件,其大小为
5、 2.266GB。碎片化为 CEU 后,占用的总大小为 2.216GB。(3)时间戳对比:TS 码流在 PES阶段,设置 PES_Packet 包中的 PTS_DTS_Flags,可 以 加 入 PTS 信 息 和DTS信息,当PTS_DTS_Flags为“10”时,此 时 仅 有 PTS 信 息;当 PTS_DTS_Flags 为“11”时,此时有 PTS信息和 DTS 信息。而在 SMT 协议中,呈现时间是通过 UTC 时间。(4)SMT 协议支持 UDP 和 TCP传输,HLS 使用 HTTP 协议。2.3 与 MPEG-DASH 对比在 MPEG-DASH 中,通过 MPD文件描述媒体
6、的组织信息。媒体文件包含了音视频的初始化段和不同码率的媒体段。而在 SMT 中,每一个CEU 切片都会有 CEU Metadata,相当 于 MPEG-DASH 中 的 初 始 化 段。不断重复的初始化段更适合在广播系统中使用。而在基于 HTTP 的传输系统中,多个初始化段增加了一些冗余。但是对于最终的存储文件而言,CEU形式的更类似 TS 一样,用户只要这个文件就可以播放,而 DASH 必须同时包含上述 Init Segment 和 Media Segment 才能播放。CEU 支持不同帧率的切片组合,而 DASH 不支持。2.4 基于 SMTP 的传输在单播或者广播中,数据要以Packet
7、 的方式传输,但是数据包存在丢失的可能性,此时,要对丢包有一定的适应性。为此 SMT 设计了SMTP 的包结构。SMTP 包主要由包头和 Payload Data 组成。根据时序媒体的组织方式,每次都是先发送 ftyp 和 moov 数据之后,然后发送 mdat 数据,此时如果一个 CEU 丢失,不影响后续的 CEU解析和解码呈现。但是如果接收端成功收到 CEU Metadata 和 Fragment Metadata 后,mdat 中的某些数据包丢失,此时的流程如图 2 所示。除了根据 CEU 的数据特性,为了保证多播/广播环境的可靠性,SMTP主要依靠 FEC,而不是将数据包重发。为了生成
8、 FEC 冗余数据,此时一种可选的方式是将整个的 GOP 数据一起生成 FEC 冗余数据。另外一种方式是每个 Sample 单独生成冗余数据,此种方式比第一种方式延迟更低。在 以 HTTP 方 式 传 输 时,此 时就没有必要进行 SMTP 打包,因为HTTP 是 可 靠 传 输,增 加 SMTP 头,增加了不必要的传输开销。3 AVS3 技术3.1 AVS3 简介视频分辨率向着高分辨率发展,位深从 8bit 提升到 10bit12bit,帧率从普通的 25 帧发展为 120 帧,使得视频数据量变大,这就给传输的带宽及存储带来挑战。为了适应这种挑战,当前国际上使用的 HEVC、AV1、H.26
9、6 等视频编码标准应运而生。同时,我国 AVS 工作组率先展开了具有自主知识产权的、针对超高清视频的视频编码标准的制定工作。2017 年 12 月,AVS 工作组决定开展面向超高清视频应用的新一代数字视频编码标准,即AVS3 的制定工作。AVS3 的制定工作分为 2 个阶段:第一阶段(基准档次)是从 2018 年 3 月到 2019 年 6 月,制定面向复杂度优先的应用,其性能相较于 AVS2 提升 30%;第二阶段(增强档次)是从 2019 年 6 月到 2021 年12 月,目标是编码效率比 AVS2 提升1 倍以上,同时编码性能超越同时代的其他国际标准。2020 年 5 月 13 日,A
10、VS3 基准档次标准正式获批并被颁布为团体标准。当前国内 AVS 编码技术主要应用在广播电视领域,如高清电视、IPTV、卫星电视等。2021 年 2 月 1 日,中央广播电视总台 8K 超高清电视节目实验播出;2022 年 1 月 1 日,北京电视台冬奥纪实频道采用 AVS3 视频标准播出;2022 年 1 月 25 日,中央广播电视总台 8K 超高清频道采用 AVS3 视频标准播出。图 2 数据异常处理流程 视音频技术Video&Audio3.2 AVS3 关键技术编码块划分技术把复杂多样的图像划分成多个矩形块,有针对性地对以块为单位的图像进行有效编码,最后再以块为单位去解码图像。帧内预测利
11、用视频空间域的相关性,使用同一帧图像内邻近已编码像素预测当前的像素,达到有效去除视频时域冗余的目的,提升预测效率。帧间预测利用视频时间域的相关性,使用邻近已编码图像像素预测当前图像的像素,达到有效去除视频时域冗余的目的。基于位置的变换(Position Based Transform,PBT)根据帧间预测残差块的子块位置选择进行相应的 DCT8或者 DST7 变换,每个子块根据其位置使用预先设计的变换集,用于更高效地拟合帧间残差特性。4 系统实现4.1 系统框架在直播系统中,需要有图像采集和编码器,实时采集 8K 图像并且完成实时编码。该系统的任务主要有 2 个:一是验证 SMT 协议在传输
12、AVS3 码流;二是使用机顶盒播放 SMT 协议传输的 AVS3 视频流。因此选择使用 8K AVS3 编码的文件通过 FFmpeg 命令模拟直播推流。使用的文件的分辨率是 76804320,码率是 120M,帧率是 60fps,GOP 为 30。使用 FFmpeg 打包服务器配置的CPU 是 Intel(R)Core(TM)i5-9300H CPU 2.40GHz,内存是 16G。运行的是 20.04.1-Ubuntu 系统。在 FFmpeg打包阶段,一方面通过广播发送 SMTP包,另一方面生成了 CEU 切片文件和描述文件,这样异构网络用户都能够访问媒体资源。互联网的用户可以通过读取描述文
13、件和切片文件(类似于 HLS),而广播网的用户则解析 SMTP 包,然后分析出 CEU 文件。FFmpeg 打 包 的 过 程 如 下:输入经过 MOV Muxer 后分别将 CEU Metadata、Fragment Metadata、MFU 组装为 SMTP 的包结构,再通过 UDP 发送。在 MOV Muxer 阶段,实 现 了 SMT 协 议 中 定 义 的 CCEU、AVS3 Sample Entry 等 Box。在接收模块,UDP 接收到码流后,SMT Assemble 模块判断是否以CEU Metadata 开始,如果不是则丢弃,直到收到 CEU Metadata。CEU Met
14、adata 作 为 开 始 接 收 Fragment Metadata 和 MFU 的依据,然后再将SMTP 去除包头后的 Payload 数据传给 MOV Demuxer 模块处理。播 放 终 端 使 用 NERC8KV30 的机顶盒,运行的是 Android 操作系统。NERC8KV30 使用的是 GK6525V100芯 片。GK6525V100 是 8K+AI 旗 舰芯片,支持 8KP120 解码和显示,支持 AVS3/H.265/AV1 等主流解码协议,是适用于 8K 超高清机顶盒与智慧家庭大脑等市场的高性能 SOC 芯片。整个系统框架如图 3 所示。4.2 软件框架播放器整体上是基于
15、 IJKPlayer开源项目,IJKPlayer 依赖 FFmpeg库。为了支持 AVS3 视频解码,选择了 UAVS3D 解码库。在 FFmpeg 库的基础上增加了对 SMT 协议的支持,即按照 SMTP 格式打包和对 SMTP格式解包,分别称之为 SMT Packet Moudle 和 SMT Assemble Module。4.3 重难点问题解决在 SMT 传 输 系 统 实 现 过 程 中,采用循序渐进的方法。因为 H.264 编码的视频源很容易产生,而且一般手机都支持硬解码,因此先用 H.264 编码的码流。视频的分辨率从 720P,码率从 1M 开始,然后再转向高分辨率、高码率的视
16、频,最后转到 AVS3 编码视频。在使用 AVS3 编码的视频作为验证源时,分辨率也是由低到高,由非 HDR 视频到 8K HDR 视频。但是直接从 4K 切换到 8K 的过程中还是碰到了一些问题。4.3.1 软解码和硬解码现在市面上 Android 手机一般支持 4K H.264 硬解码,而手机端支持AVS3 硬解码的很少,因此在分辨率较低时,可以使用手机来支持 AVS3的软解码。但是当分辨率达到 8K 时,软解码的性能无法满足流畅播放,因而仅使用支持 8K 硬解码的机顶盒作为显示终端。要支持 AVS3 的硬解码,图 3 系统框架超高清 Ultra High Definition 2023年
17、7月 月刊 总第375期需 要 设 置 Android 的 Media Codec的 MIME Type 为 Video/AVS3。4.3.2 瞬时打包码率超大码率为 120M 的视频,当每个包发送 1452 个字节时,大约需要 10832 个包,当这些包不加缓存直接发送时,接收端就会出现来不及接收而丢包的情况。为了解决这个问题,可将数据包先缓存,然后将数据包平滑发送。4.3.3 Assemble 模块优化在 实 现 SMT Assemble 模 块 时,开始使用的是 GOP Wait 方式,即接收完整个 GOP 的数据后再传给后续模块处理,此种方式代码实现简单,在使用 1080P 和 4K
18、40M 视频时,都能够流畅播放。当我们使用 8K 120M 的AVS3 片源时,会出现播放卡顿。此时记录了每个 GOP 处理耗时时间,单位为秒(s),如图 4 所示。在本案例中,1 个 GOP 的时长是0.5s,图 4 表明 0.5s 内未能完成 1 个GOP 的处理,且绝大多数需要 1s 多的时间,处理效率明显低下,需要优化。于是先从内存使用着手,为了减少内存占用,对 SMT Assemble 模块做了2 个方面的优化。(1)减少拷贝次数,接收的数据去 除 头 部 的 信 息 后,SMT Payload不用单独的复制,支持使用指针指向SMT Payload 数据,这样拷贝数据量下降了 50%
19、。(2)将 GOP Wait 处理方式改为NO GOP Wait 处理方式。假设 GOP为 30 帧,那么此时要处理完 30 帧后才能给后续模块,此时单次分配的内存很大,在测试文件中,达到 12317927 字节。改为 NO GOP Wait 模式后,收到每帧后就会立即给后续模块处理,单次使用内存大幅降低,最大只有 2293650 字节,只有原来的 18%。改进后每个 GOP 处理耗时如图 5所示。在图中,存在某些单 GOP 处理时间大约为 0.5s 的情况,但是整体平均值小于 0.5s,达到优化目标。实际验证播放时,也能够流畅播放。通过上述优化方案之后,机顶盒能够流畅播出 8K 的 AVS3
20、 视频流。如图 6 所示,是截取的视频播放效果图像,此图片是通过 adb shell scre-图 4 GOP 模式下处理 1 个 GOP 数据耗时图5 NO GOP Wait模式下单个GOP处理时间encap 截图命令保存的。5 结语SMT 协议是涵盖内容封装格式、传输协议及相关控制的智能媒体传输技术系统框架,将包括超高清直播、多视角、多屏交互等多媒体组件的内在关系统一封装,实现高效传输。同时,5G 网络采用基于 TCP 的全媒体内容分发方式,广播网采用基于 SMTP 的内 容 分 发 方 式。AVS3 标 准 是 我 国AVS 标准第一次在编码标准上先于国外标准制作完成,是全球首个已推出的
21、 8K 及 5G 产业应用的视频编码标准。本文实现的基于 SMT 协议传输 AVS3 8K 超高清传输系统,为国产化标准落地实践做出了参考。参考文献:1 朱易,潘晓菲.基于 AVS3 的 8K 超高清压缩编码技术研究与应用 J.广播与电视技术,2021,48(6):15-21.2张嘉琪,雷萌,马思伟.AVS3 视频编码关键技术及应用J.中兴通讯技术,2021,27(1):10-16.3 中关村视听产业技术创新联盟.信息技术 智能媒体编码:第 6 部分 智能媒体格式:T/AI 109.62022S.北京:中关村视听产业技术创新联盟,2023:3.4 国家标准化管理委员会.信息技术 新型多媒体编码:第 6 部分 智能媒体传输:GB/T 33475.62016S.北京:国家市场监督管理总局,国家标准化管理委员会,2016.图 6 播放效果