收藏 分销(赏)

T∕UWA 009.1-2022 三维声音技术规范 第1部分:编码分发与呈现.pdf

上传人:da****hi 文档编号:190804 上传时间:2022-11-21 格式:PDF 页数:249 大小:2.54MB
下载 相关 举报
T∕UWA 009.1-2022 三维声音技术规范 第1部分:编码分发与呈现.pdf_第1页
第1页 / 共249页
T∕UWA 009.1-2022 三维声音技术规范 第1部分:编码分发与呈现.pdf_第2页
第2页 / 共249页
T∕UWA 009.1-2022 三维声音技术规范 第1部分:编码分发与呈现.pdf_第3页
第3页 / 共249页
T∕UWA 009.1-2022 三维声音技术规范 第1部分:编码分发与呈现.pdf_第4页
第4页 / 共249页
T∕UWA 009.1-2022 三维声音技术规范 第1部分:编码分发与呈现.pdf_第5页
第5页 / 共249页
点击查看更多>>
资源描述

1、 世 界 超 高 清 视 频 产 业 联 盟 标 准 T/UWA 009.1-2022 2022-04-06 发布 2022-04-06 实施 世界超高清视频产业联盟 三维声音技术规范 第 1 部分:编码分发与呈现 3D Audio Technology Specification: Part 1: Coding, Distribution and Presentation T/UWA 009.1-2022 I目 录 前 言 . II 引 言 . III 1 范围 . 1 2 规范性引用文件 . 1 3 术语和定义 . 1 4 符号和缩略语 . 3 5 位流语法规则 . 5 6 三维声音频编码

2、框架 . 7 7 通用全码率音频编码工具 . 9 8 元数据编码工具 . 57 附录 A (规范性) AASF 和 AATF 语法及语义 . 95 附录 B (规范性) 音频编码表 . 106 附录 C (规范性) 三维声音频基本流在传输流中的复用定义 . 237 T/UWA 009.1-2022 II 前 言 本文件按照 GB/T1.1-2020标准化工作导则 第 1 部分:标准文件的结构和起草规则给出的规则起草。 本文件是T/UWA 0012三维声音技术规范的第1部分,T/UWA 0012已经发布了以下部分: 第1部分:编码分发与呈现; 本文件由世界超高清视频产业联盟提出并归口。 本文件主

3、要起草单位:中国电子技术标准化研究院、华为技术有限公司、清华大学、北京字跳网络技术有限公司、赛因芯微(北京) 电子科技有限公司、北京理工大学、中关村视听产业技术创新联盟、清华大学天津电子信息研究院、小米通讯技术有限公司、北京大学、博华超高清创新中心、上海海思技术有限公司、杭州当虹科技股份有限公司、咪咕文化科技有限公司、广州视源电子科技股份有限公司、北京市博汇科技股份有限公司、北京百度网讯科技有限公司、北京小米电子产品有限公司、TCL科技集团股份有限公司、中国移动集团有限公司、中国联合网络通信集团有限公司、中国电信集团有限公司、广东广播电视台、湖南广播电视台、浙江广播电视集团、浙江华策影视股份有

4、限公司、中图集团中途云创智能科技(北京)有限公司、国家广播电视总局广播电视科学研究院、国家广播电视总局广播电视规划院。 本文件主要起草人:孙齐锋、李婧欣、王喆、高原、窦伟蓓、王晶、黄传增、吴健、柳德荣、吴强、王宾、曲天书、朱博成、耿一丹、陈勇、王雪辉、龙仕强、李琳、徐嵩、邢刚、韩建、邹志铭、张伟民、高文、黄铁军、江建亮、郭佩佩、王荣芳、李法、邢怀飞、查丽、于磊、高伟标、秦宇、陈维、程剑、王琦、王鹏、林琳、张宏伟、陈纯丹、熊昭民、赖凡、王子谦、吴晓东、傅斌星、李沄沨、周芸、李小雨、宁金辉、张建东。 T/UWA 009.1-2022 III引 言 本文件由世界高清视频产业联盟和中关村视听产业技术创

5、新联盟联合制定。 目前,本文件的核心技术已实现在超高清音频内容制作、编码、接收、解码、播放等端到端的全产业链布局,以“Audio Vivid”自有品牌名称开展产业化推广。 本文件的发布机构提请注意如下事实, 声明符合本文件时, 可能涉及到通用全码率音频编解码技术、无损音频编解码技术和渲染技术相关的专利的使用。 本文件的发布机构提请注意, 声明符合本文件, 可能涉及到30项与通用全码率音频编解码技术相关的专利的使用。 202110865328.X, 一种音频信号的编解码方法和装置; 202110654037.6, 编解码方法、 装置、 设备、存储介质及计算机程序;202110700570.1,一

6、种三维音频信号的处理方法和装置;202110680341.8,三维音频信号编码方法、装置、编码器和系统;202110595367.2,多声道音频信号的编码方法和装置;202110559102.7, 编解码方法、 装置、 设备、 存储介质及计算机程序; 202110530309.1, 一种音频编码、解码方法及装置;202110596023.3,音频数据编解码方法和相关装置及计算机可读存储介质;202110602507.4,一种场景信号分类方法;202110536623.0,三维音频信号编码方法、装置和编码器;202110536631.5,三维音频信号编码方法、装置和编码器;20211053583

7、2.3,三维音频信号编码方法、装置和编码器;202110536634.9,三维音频信号编码方法、装置和编码器;202110247466.1,虚拟扬声器集合确定方法和装置;202110246382.6,HOA系数的获取方法和装置;202011377433.0,一种音频编解码方法和装置;202011377320.0,一种音频编解码方法和装置;202010699711.8,多声道音频信号编解码方法和装置;202010699775.8,多声道音频信号编码方法和装置;202010699706.7,多声道音频信号的编解码方法和装置;200910169403.8,频带扩展方法及装置;201010187426

8、.4,信号处理方法及系统;201180003043.X,用于重构源信号的方法和解码器;201110289391.X,一种下混信号生成、还原的方法和装置;201610877571.2,一种音频信号重建方法及装置;201610879165.X,一种音频信号的重建方法和装置;201610252268.3,一种音频信号的采样和重建方法、装置及系统;200710135833.9,立体声音频编/解码方法及编/解码器;200810106460.7,立体声信号编解码方法、装置及编解码系统;200980154599.1,一种立体声编码方法和装置。 本文件的发布机构提请注意,声明符合本文件,可能涉及到5项与立体声

9、编解码技术相关的专利的使用。 200710175993.6,编码集成系统和方法与解码集成系统和方法;200710135833.9,立体声音频编/解码方法及编/解码器;200710304486.8,音频信号的编码方法和装置与解码方法和装置;200810106460.7,立体声信号编解码方法、装置及编解码系统;201410573759.9,一种立体声编解码方法。 本文件的发布机构提请注意,声明符合本文件,可能涉及到4项与无损音频音频编解码技术相关的专利的使用。 ZL201010281033.X,一种基于整形小波变换的音频无损压缩编码、解码方法;201110263485.X,后向块自适应Golomb

10、-Rice编解码方法及装置; 201410721299.X, 多声道无损音频混合编解码方法及装置;PCT/CN2021/133722, 一种立体声音频信号处理方法、装置、编码设备、解码设备及存储介质。 本文件的发布机构提请注意,声明符合本文件,可能涉及到34项与渲染技术相关的专利的使用。 202110984837.4,一种音频制作模型和生成方法、电子设备及存储介质;202111102045.6,音频节目元数据和产生方法、电子设备及存储介质;202111100818.7,音频内容元数据和产生方法、电子设备及存储介质;202111102038.6,音频对象元数据和产生方法、电子设备及存储介质;20

11、2111205630.9,音轨唯一标识元数据和生成方法、电子设备及存储介质;202111204386.4,一种音频轨道元数据和生成T/UWA 009.1-2022 IV方法、电子设备及存储介质;202111202898.7,一种音频流元数据和生成方法、电子设备及存储介质;T/UWA 009.1-2022 V 202111308422.1,基于音床音频包格式元数据和产生方法、设备及介质;202111308431.0,基于矩阵音频包格式元数据和产生方法、设备及存储介质;202111308430.6,基于对象音频包格式元数据和产生方法、设备及介质;202111306844.5,基于场景音频包格式元数

12、据和产生方法、设备及存储介质;202111308421.7,基于双耳音频包格式元数据和产生方法、设备及介质;202111021068.4,基于音床音频通道元数据和生成方法、设备及存储介质;202111021067.X,基于矩阵音频通道元数据和生成方法、设备及存储介质;202111020417.0,基于对象音频通道元数据和生成方法、设备及存储介质;202111021066.5,基于场景音频通道元数据和生成方法、设备及存储介质;202111021039.8,基于双耳音频通道元数据和生成方法、设备及存储介质;202111425628.2,串行音频元数据帧生成方法、装置、设备及存储介质;2021114

13、25590.9,传输音轨格式串行元数据生成方法、装置、设备及介质;202111424251.9,串行音频块格式元数据生成方法、装置、设备及介质;202111424254.2串行音频元数据生成方法、装置、设备及存储介质;202111675350.4,一种基于串行数字音频接口的数据传输方法、装置、 设备; 202111678505.X, 一种基于实时传输协议的网络数据传输方法、 装置及设备; 202111678518.7,一种数字音频网络传输方法、装置、设备及存储介质;202111666346.1,一种广播音频格式文件生成方法、装置、设备及存储介质;202111660310.2,音频元数据通道分配

14、区块生成方法、装置、设备及存储介质;PCT/CN2021/100076,音频渲染系统、方法和电子设备;PCT/CN2021/100062,用于音频渲染的音频信号编码方法、装置和电子设备;PCT/CN2021/114366,音频元数据的处理方法和装置;PCT/CN2021/121135,声音路径能量的淡入淡出方法、电子设备和介质;PCT/CN2021/121718,一种动态估计场景近似长方体房间的方法;PCT/CN2021/104309,混响时长的估计方法、音频信号的渲染方法和电子设备; PCT/CN2021/115130, 用于音频渲染的信号处理方法、 装置和电子设备; PCT/CN2021/

15、121729, 用于空间音频渲染的系统、方法和电子设备。 本部分的发布机构对于该专利的真实性、有效性和范围无任何立场。 专利持有人已向本部分的发布机构保证, 他愿意同任何申请人在合理且无歧视的条款和条件下, 就专利授权许可进行谈判。 该专利持有人的声明已在本部分的发布机构备案。 相关信息可以通过以下联系方式获得: 联 系 人:高艳炫 通讯地址:北京市东城区安定门东大街1号 中国电子技术标准化研究院 邮政编码:100007 电 话:13683269839/01064102619 传 真:01084029217 请注意除上述专利外, 本文件的某些内容仍可能涉及专利。 本文件的发布机构不承担识别这些

16、专利的责任。 T/UWA 009.1-2022 1三维声音技术要求 第 1 部分: 编码分发与呈现 1 范围 本文件规定了三维声音频技术的编码、 分发与呈现方法, 同时支持单声道、 双声道立体声、 多声道、三维声、HOA、元数据编解码。 本文件适用于广播流媒体、网络电视、数字电影、实时通信、虚拟现实和增强现实、视频监控、数字存储媒体等领域。 2 规范性引用文件 下列文件对于本文件的应用是必不可少的。 凡是注日期的引用文件, 仅注日期的版本适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。 GB/T 4880.22000 语种名称代码 第2部分:3字母代码 GB/

17、T 5271.1 信息技术 词汇 第1部分:基本术语 (GB/T 5271.1-2000 eqv ISO/IEC 2382-1:1993) GB/T 5271.4 信息技术 词汇 第4部分:数据的组织(GB/T 5271.4-2000 eqv ISO/IEC 2382-4:1987) GB/T 5271.9 信息技术 词汇 第9部分:数据通信 (GB/T 5271.9-2001 eqv ISO/IEC 2382-9:1995) GB/T 5271.34-2006 信息技术 词汇 第34部分:人工智能 神经网络 GB/T 17975.1-2010 信息技术 运动图像及其伴音信息的通用编码 第1部

18、分:系统(eqv ISO/IEC 13818-1:2007) GB/T 33475.3-2018 信息技术 高效多媒体编码 第3部分:音频 ITU-R BS.2076-2(10/2019)音频定义模型 ITU-R BS.1770-4 (10/2015) 测量音频节目响度和真正峰值音频电平的算法 3 术语和定义 GB/T 5271.1、GB/T 5271.4、GB/T 5271.9和GB/T 5271.34界定的以及下列术语和定义适用于本文件。 3.1 保留 reserved 在定义编码位流中的暂时未被使用的字段,可能在将来的标准扩展中被用到。 3.2 比特率 bitrate 编码位流传输到解码

19、器输入端的速率。 3.3 位流 bitstream T/UWA 009.1-2022 2用作数据编码表示的有一定次序的一组比特。 3.4 编码 coding 读入音频采样流,并产生一个符合本部分的有效位流。 3.5 编码器 coder 编码处理的实体。 3.6 编码表示 coded representation 以其编码形式表示的数据单元。 3.7 编码音频位流 coded audio bitstream 音频信号的编码表示。 3.8 边信息 side information 位流中控制解码的必要信息。 3.9 采样频率 sampling frequency(fs) 每秒从连续信号中提取离散信

20、号的采样个数,可简称采样率。 注:单位为赫兹(Hz)。 3.10 解码 decoding 在本部分中定义的一种数据处理,即读入编码位流并输出音频采样值的过程。 3.11 解码器 decoder 解码处理的实体。 3.12 谱系数 spectral coefficient 分析滤波器组中输出的离散频谱域数据。 3.13 T/UWA 009.1-2022 3熵编码 entropy coding 信号数字表示中的一种变长无损编码,用以减少统计特性上的冗余。 3.14 声道 channel 声音在录制或播放时在不同空间位置采集或回放的相互独立的音频信号。 3.15 数据单元 data element

21、编码前的和编码后的数据项的表示。 3.16 字节 byte 8个比特的序列。 3.17 字节对齐 byte alignment 在编码位流中,如果某一比特的位置是8的倍数,则该比特就称为字节对齐。 3.18 神经网络 neural network 由加权链路且权值可调整连接的基本处理元素的网络,通过把非线性函数作用到其输入值上使每个单元产生一个值,并把它传送给其他单元或把它表示成输出值。 4 符号和缩略语 本部分中使用的数学运算符和优先级与C语言使用的类似。但对整型除法和算术移位操作进行了特定的定义。除特别说明外,约定编号和计数从0开始。 4.1 算术运算符 下列算术运算符适用于本文件。 +

22、加 - 减(二元运算符)或取反(一元前缀运算符) 乘 ab 幂,表示a的b次幂,也可表示上标。 幂 % 取模算符,仅对正整数定义。 / 整数除法,结果向0取整。例如,7/4和-7/-4取整为1,-7/4和7/-4取整为-1。 ba 除法运算,不做取整或四舍五入。 | | 绝对值 |x|=x 当x0 T/UWA 009.1-2022 4 |x|=0 当x=0 |x|=-x 当x0 sign(x)=0 当x=0 sign(x)=-1 当x 大于 大于或等于 b 将a以2的补码整数表示的形式向右移b位。仅当b取正数时定义此运算。向右移至最高有效位时,其值与a 移位运算前的最高有效位相等。 a b 将

23、a以2的补码整数表示的形式向左移b位。仅当b取正数时定义此运算。向左移至最低有效位时,其值等于0。 4.5 赋值 下列赋值运算适用于本文件。 = 赋值运算符 x = a.b x取从a至b(含b)的值,其中x、a和b是整数。 xbaiif)(T/UWA 009.1-2022 5+ 自加,x+相当于x=x+1。当用于数组下标时,在自加运算前先求变量值。 - 自减,x-相当于x=x-1。当用于数组下标时,在自减运算前先求变量值。 += 自加指定值,例如,x+=3相当于x=x+3,x+=(-3)相当于x=x+(-3)。 -= 自减指定值,例如,x-=3相当于x=x+(-3),x-=(-3)相当于x=x

24、(-3)。 4.6 助记符 下列助记符适用于本文件。 rpchof 多项式余数,高阶在先; bslbf 位串,左位在前,这里“左”是按GB/T 17191中写的位串的顺序。位串是带单引号的1和0串。如1000 0001。位串内的空格是便于阅读的,无特殊意义。(bitstream left bit first) uimsbf 无符号整数,最高有效位优先。(unsigned integer, most significant bit first) bsmbf 位串是带引号的1和0串, 右位在前, 如先编码一个5比特的数值6, 然后编码一个3比特的数值2,那么编码位串为010 00110。 4.7

25、缩略语 下列缩略语适用于本文件。 AASF AVS音频存储格式 (AVS Audio Storage Format) AATF AVS音频传输格式 (AVS Audio Transport Format) AllRAD 全向空间解码器 (All Round Ambisonic Decoder) BWE 高频带宽扩展 (Bandwidth Extension) CBR 恒定比特率 (Constant Bit Rate) CNN 卷积神经网络 (Convolutional Neural Network) CRC 循环冗余校验 (Cylic Redundancy Check) FFT 快速傅立叶变换

26、 (Fast Fourier Transform) FOA 一阶Ambisonics技术(First Order Ambisonics) HOA 高阶Ambisonics技术(Higher Order Ambisonics) ILD 声道间强度差 (Inter-channel Level Difference) IMDCT 修正离散余弦反变换(Inverse Modified Discrete Cosine Transform) LFE 低频效果音 (Low Frequence Effect) LPC 线性预测系数 (Linear Prediction Coefficients) LSF 线谱

27、频率 (Line Spectral Frequencies) LSP 线谱对 (Line Spectral Pairs) MCR 极大相关旋转 (Maximum Correlation Rotation) MDCT 修正离散余弦变换 (Modified Discrete Cosine Transform) M/S 和差立体声 (Middle/Side) OLA 叠接相加 (Overlap and Add) SFB 尺度因子带 (Scale Factor Band) TNS 时域噪声整形 (Temporal Noise Shaping) VQ 矢量量化 (Vector Quantization)

28、 5 位流语法规则 T/UWA 009.1-2022 6位流中的每一个数据项用黑体。通过名字、按位的长度及其类型和传输顺序的助记符来描述。 位流中被解码的数据元素所导致的操作依赖于该数据的值及以前解码的数据元素。下面的语法结构表示数据元素以标准类型出现时的情形。 注1:如无特殊说明,本部分中的“位”指二进制位。 注2:本部分语法用“C”代码规定,变量或表达式为非零值时等价于条件为真,变量或表达式为零值时等价于条件为非真。 while(condition) data_element data_element 若条件为真,则数据元素组紧接着数据流产生,如此重复直到条件为非真。 do data_el

29、ement data_element while(condition) 若条件为真,则数据元素组紧接着数据流产生,如此重复直到条件为非真。 if(condition) data_element data_element else data_element data_element 若条件为真,在数据流中产生第一组数据元素,若条件为非真,在数据流中产生第二组数据元素。 for(expr1;expr2 ; expr3) data_element data_element expr1是指定循环初始状态表达式, 通常它指定了计数器的初始状态, expr2是指定的每次循环前的测试条件。条件为非真时循环终

30、止,expr3是每次循环结束时执行的表达式,一般是增加计数器。 注3:本结构的最通常用法为 for(i=0;in;i+) data_element data_element 数据元素组产生 n 次。 数据元素组内的条件结构可能依赖循环控制变量 i 的值。 第一次出现时被置为0,第二次增加到1,如此往复。 switch(expr) 根据表达式expr的值,产生对应的数据元素。expr的值为 case constcase1: constcase1时产生数据元素data_element1,expr的值为 data_element1data_element1 constcase2时产生数据元素data

31、_element2,以此类推,expr的值 break 为constcasen时产生数据元素data_elementn。当expr的值不等于 case constcase2: constcase1, constcase2, , constcasen中的任何一个值时,产生 data_element2data_element2 数据元素data_elementdefault break T/UWA 009.1-2022 7 case constcasen: data_elementndata_elementn break default: data_elementdefaultdata_eleme

32、ntdefault break 本结构的一类变体是在case后不出现break,如 switch(expr) expr的值constcasex时,从对应的case constcasex开始产生数 case constcase1: 据元素,直到break出现。 data_element1data_element1 expr的值constcase1时产生数据元素data_element1和 case constcase2: data_element2,expr的值为constcasen时产生数据元素 data_element2data_element2 data_elementn break ca

33、se constcasen: data_elementndata_elementn break default: data_elementdefaultdata_elementdefault break 注4:数据元素组中可能含有嵌套结构。为简便起见,当后面只有一个数据元素时“”省略。 data_element data_element是一数组数据,数据元素的个数由上下文而定; data_elementn data_elementn是数组数据的第n1个元素; data_elementmn data_elementmn是二维数组的第m1,n+1个元素; data_elementlmn data_

34、elementlmn是三维数组的第l+1,m+1,n+1个元素; data_elementmn data_elementmn是位m到位n之间包括的位。 虽然语法用过程项表示, 但不能认为条款实现了可靠的解码过程。 它只是定义了一个无错误的位流输入。 byte_alignmentbyte_alignment函数的定义: 如当前位置在字节的边界,则byte_alignment()函数返回1,即位流中的下一位是一个字节的起始位,否则返回0。 nextbitsnextbits函数的定义: 函数nextbits()将位串与位流中将要解码的下一比特进行比较。 6 三维声音频系统框架 6.1 概述 三维声音

35、频编码系统支持声道信号编码、对象信号编码、HOA 信号编码、元数据编码、扬声器渲染和双耳渲染。三维声音频解码系统框架如下图 1 所示。 T/UWA 009.1-2022 8 图1 三维声音频解码系统框架示意图 三维声音频编码器由多种编码工具构成,如图 2 所示,包括:通用全码率音频编码工具和无损音频编码工具。三维声音频编码系统复用 GB/T 33475.3-2018 及其修改单码流封装的存储格式 AASF 和传输格式 AATF。在 GB/T 33475.3-2018 的 AASF 和 AATF 码流封装语法语义规范中,新增的通用全码率音频编码工具被定义为 audio_codec_id=2,见附

36、录 A。 图2 三维声音频编码器示意图 如图 2 所示,针对不同特征的音频信号或不同的应用场景,用户可以根据输入类型和码率范围,选择使用通用全码率音频编码、无损音频编码工具和元数据编码工具。 本部分描述了用于高质量音频信号传输和解码的工具集。6.2简要介绍了通用全码率音频编解码工具;6.3简要介绍了无损音频编码工具以及引用GB/T 33475.3的情况,6.4简要介绍了元数据编码工具,6.5简要介绍了渲染器。每种工具的数据流定义、位流语法、语义和解码过程等详细定义参见具体章节。三维声音频基本流在传输流中的复用定义见附录C。 6.2 通用全码率音频编码工具 T/UWA 009.1-2022 9第

37、 7 章描述了通用全码率音频编码的表示方法及其解码方法。通用全码率音频编码工具采用神经网络变换、量化和熵编码技术,基于声道相关性的多声道下混和比特分配技术,基于虚拟扬声器的 HOA空间编码技术等,适用于单声道、双声道立体声、多声道编码、对象音频编码、混合音频编码、HOA 编码。 支持采样率 32kHz192kHz,支持 16 比特和 24 比特采样精度。支持编码输出位流为:单声道 32、44、56、64、72、80、96、128、144、164、192kb/s;双声道立体声 32、48、64、80、96、128、144、192、256、320kb/s;5.1 多声道:96、128、144、16

38、0、192、256、320、384、448、512、640、720kb/s;7.1 多声道:128、160、192、256、384、480、576、640kb/s;5.1.4 多声道:176、256、384、448、576、704kb/s;7.1.4 多声道:240、384、512、608、832kb/s;FOA:96、128、192、256kb/s;2 阶 HOA:192、256、320、384、480、512、640kb/s;3 阶 HOA:256、320、384、512、640、896kb/s。 6.3 无损音频编码工具 无损音频编码工具引用GB/T 33475.3-2018的第8章“无

39、损音频编码”的语法、语义和解码过程及其修改单中序号11-序号17的技术性修改。 支持最多128声道、任意采样频率。并支持8比特、16比特和24比特采样精度。 6.4 元数据编码工具 第8章描述了元数据编码的表示方法及其解码方法。 6.5 渲染器 渲染器可根据应用场景选择扬声器渲染器或双耳渲染器,具体内容见附录 C。 7 通用全码率音频编码工具 7.1 概述 通用全码率音频编解码包括单声道编解码、双声道立体声编解码、多声道编解码、对象编解码、混合编解码、HOA 编解码。 通用全码率音频编码器的基本构架如图 3 所示。通用全码率音频核心编码器由暂态检测、窗型判断、时频变换、频域噪声整形、时域噪声整

40、形、频带扩展、下混、神经网络变换、量化和区间编码等构成,将声道信号和对象信号编码为位流。HOA 空间编码器和核心编码器将 HOA 信号编码为位流。 T/UWA 009.1-2022 10 图3 通用全码率音频编码器框架 通用全码率音频解码器的基本构架如图 4 所示。通用全码率音频解码器由区间解码、逆量化、神经网络逆变换、频带扩展解码、逆时域噪声整形、逆频域噪声整形、上混和逆时频变换等构成了核心解码器,将位流解码为声道信号和对象信号。HOA 空间解码器和核心解码器将位流解码为 HOA 信号。 图4 通用全码率音频解码器框架 7.2 通用全码率音频编码原始位流数据 7.2.1 语法 T/UWA 0

41、09.1-2022 11通用全码率音频编码原始位流数据语法见表1。 表1 ga_co_raw_data_block()语法 语法 比特数 助记符 语法 比特数 助记符 ga_co_raw_data_block() Avs3MetadataDec() switch(codecFormat) case 0 x0: Avs3MonoDec() case 0 x1: Avs3StereoDec() case 0 x2: Avs3McDec() case 0 x3: Avs3HoaDec() 单声道解码语法见表2。 表2 Avs3MonoDec()语法 语法 比特数 助记符 语法 比特数 助记符 Avs

42、3MonoDec() DecodeCoreSideBits() DecodeGroupBits() DecodeQcBits() Avs3InverseQC() Avs3PostSynthesis() 双声道立体声解码语法见表3。 表3 Avs3StereoDec()语法 语法 比特数 助记符 语法 比特数 助记符 Avs3StereoDec() for(ch = 0; ch 2; ch+) DecodeCoreSideBits() for(ch = 0; ch 2; ch+) DecodeGroupBits() DecodeStereoSideBits() StereoBitsAllocat

43、ion() for(ch = 0; ch 2; ch+) 表 3. Avs3StereoDec()语法(续) T/UWA 009.1-2022 12语法 比特数 助记符 语法 比特数 助记符 DecodeQcBits() Avs3InverseQC() StereoInvMsProcess() for(ch = 0; ch 2; ch+) Avs3PostSynthesis() 多声道解码语法见表4。 表4 Avs3McDec()语法 语法 比特数 助记符 语法 比特数 助记符 Avs3McDec() for(ch = 0; ch numChans; ch+) DecodeCoreSideBi

44、ts() for(ch = 0; ch numChans; ch+) DecodeGroupBits() DecodeMcSideBits() McBitsAllocation() for(ch = 0; ch numChans; ch+) DecodeQcBits() Avs3InverseQC() Avs3McacDec() for(ch = 0; ch numChans; ch+) Avs3PostSynthesis() HOA解码语法见表5。 表5 Avs3HoaDec()语法 T/UWA 009.1-2022 13语法 比特数 助记符 语法 比特数 助记符 Avs3HoaDec()

45、for(ch = 0; ch numChans; ch+) DecodeCoreSideBits() for(ch = 0; ch numChans; ch+) DecodeGroupBits() DecodeHoaSideBits() HoaSplitBytesGroup() for(ch = 0; ch numChans; ch+) DecodeQcBits() Avs3InverseQC() Avs3HoaInverseDMX() for(ch = 0; ch numChans; ch+) Avs3PostSynthesis() HoaPostSynthesisFilter() 7.2.

46、2 语义 Avs3MetadataDec() 元数据解码 Avs3MonoDec() 单声道解码 Avs3StereoDec() 双声道立体声解码 Avs3McDec() 多声道解码 Avs3HoaDec() HOA 解码 DecodeCoreSideBits() 解析核心解码器边信息 DecodeGroupBits() 频谱逆分组处理 DecodeStereoSideBits() 解析双声道立体声边信息 DecodeMcSideBits() 解析多声道边信息 DecodeHoaSideBits 解析 HOA 边信息 StereoBitsAllocation() 双声道立体声比特分配 McBi

47、tsAllocation() 多声道比特分配 HoaSplitBytesGroup() HOA 比特分配 StereoInvMsProcess() 双声道立体声上混处理 Avs3McacDec() 多声道解码处理 Avs3HoaInverseDMX HOA 解码处理 DecodeQcBits() 解析量化编码边信息 Avs3InverseQC() 区间解码和逆量化 Avs3PostSynthesis() 解码后处理 HoaPostSynthesisFilter() HOA 空间解码 T/UWA 009.1-2022 14codecFormat 表示解码模式,根据附录 A 中表 A.8 声道数索

48、引(channel_number_index) 决定, 当声道配置为单声道时,codecFormat 为 0,当声道配置为双声道立体声时,codecFormat 为 1,当声道配置为多声道配置时,codecFormat 为 2 numChans 音频信号的声道数,当 coding_profile 为 0 时,复用附录 A 中表 A.8 声道数索引 (channel_number_index) 中的channel_number 7.2.3 通用信息 通用全码率音频编码器可以分为编码预处理、各模式信号下混、神经网络变换、量化和区间编码。编码预处理将每个声道信号由时域变换到频域并进行预处理。信号下混

49、根据不同编码模式对预处理后的频域信号进行下混,去除声道间的相关性。神经网络变换、量化和区间编码采用神经网络对每个下混后的声道进行变换和编码。通用全码率音频解码器可以分为编码后处理、各模式信号上混、神经网络逆变换、逆量化和区间解码三部分。解码是编码的逆过程。以下对各个模式编解码模块进行介绍: a) 通用全码率音频单声道编码 图5和图6给出了通用全码率音频单声道编码的基本结构。单声道编码器将时域单声道信号经过编码预处理得到处理后的MDCT系数, 经过神经网络变换得到变换域系数, 最后经过量化和区间编码得到位流。编码预处理模块包括暂态检测和窗型判断模块,频域噪声整形模块,时域噪声整形模块和频带扩展编

50、码模块。 1) 暂态检测和窗型判断 暂态检测模块根据输入时域信号的能量判断当前帧是否存在暂态信号,窗型判断模块根据暂态信号检测结果获得当前帧的窗型控制参数,窗型控制参数包括 2048 点正弦窗,256 点正弦窗和 2048 点切换窗。 输入:时域单声道信号 输出:窗型控制参数 2) MDCT 变换 MDCT 变换模块根据窗型控制参数对输入时域信号加窗和 MDCT 变换。 输入:单声道时域信号,窗型控制参数 输出:单声道信号 MDCT 系数 3) 频域噪声整形 频域噪声整形模块根据输入时域信号获得量化后的谱包络信息,根据量化后的谱包络信息对 MDCT系数进行调整,实现 MDCT 频谱整形,从而控

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 行业资料 > 其他

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服