收藏 分销(赏)

中国实时音视频行业研究报告.pdf

上传人:宇*** 文档编号:3101594 上传时间:2024-06-18 格式:PDF 页数:51 大小:2.81MB
下载 相关 举报
中国实时音视频行业研究报告.pdf_第1页
第1页 / 共51页
中国实时音视频行业研究报告.pdf_第2页
第2页 / 共51页
中国实时音视频行业研究报告.pdf_第3页
第3页 / 共51页
中国实时音视频行业研究报告.pdf_第4页
第4页 / 共51页
中国实时音视频行业研究报告.pdf_第5页
第5页 / 共51页
点击查看更多>>
资源描述

1、中国实时音视频行业研究报告2022.8 iResearch Inc.22022.8 iResearch I摘要来源:艾瑞咨询研究院自主研究绘制。实时音视频标准化工作的推进将引导行业迈向更高的服务质量,推动PaaS层厂商与垂直行业解决方案商之间的良性竞争与协作共赢。同时,实时音视频逐渐向实时互动领域的延展,元宇宙相关应用的出现将为消费互联网创造更大的想象空间。此外,实时音视频技术有望成为我国泛娱乐出海企业的差异化竞争机会,海外业务版图的扩大也将驱动行业迎来新一轮的业务增长。趋势洞察2021年中国实时音视频(RTC)PaaS市场规模为16亿元,消费互联网领域为实时音视频行业贡献了核心收入来源。受到

2、社交娱乐头部应用的高度渗透及“双减”政策的持续影响,预计未来三年的复合增长率为28.4%,2024年实时音视频(RTC)PaaS市场规模将达到30亿元。SMS市场规模网络基础设施升级、音视频传输技术迭代、WebRTC开源等因素,驱动音视频服务时延逐渐降低,使实时音视频(RTC)技术成为炙手可热的研究方向。实时音视频业务在消费互联网领域蓬勃发展,并逐渐向产业互联网领域加速渗透。经历了行业第一轮的红利爆发期,我国实时音视频行业的场景效能逐渐深化,步入到理性增长阶段。发展背景实时音视频赛道玩家的主要竞争策略分为两大类:(1)提供通用的PaaS层能力,包括RTC PaaS厂商、通信云PaaS厂商、综合

3、型IaaS厂商。其中,RTC PaaS厂商在技术研发和产品打磨上具备更高的行业专注度,占据市场的主导地位;(2)根植于特定行业场景,主要为垂直行业解决方案商。竞争格局实时音视频行业存在较高的资源门槛与技术壁垒。主要包括:软件定义的实时音视频传输网络(Real-time Network,RTN),基于UDP的协议层优化,以及弱网传输保障策略。在实际应用中,RTC与CDN技术的融合,衍生出实时互动直播、超低延时直播两大技术路径。核心技术mNnOoMqNrMnPyQtMuMqMvMaQbPaQsQqQoMnPfQrRvMfQnMpR6MmNrQNZoNnPuOmNrM32022.8 iResearc

4、h I概念定义来源:ITU-T Rec.G.114(05/2003);艾瑞咨询研究院自主研究并绘制。800ms400ms300ms200ms0ms临近现实的优质实时互动体验大部分用户满意的实时互动体验实时400ms支持强互动超低延时400-800ms支持中互动小部分用户可以感觉到延迟大部分用户满意的中度互动体验,观众与主播有较强同步性用户需承受一定延时,文字/弹幕为主要互动手段低延时3000ms800-3000ms支持轻互动基本释义:在远程条件下,以接近实时/可忽略延迟交换信息的通信方式,包括固定通话、移动通话、音频会议、视频会议、网真等形式。实时音视频LIVEReal Time Commun

5、ications(RTC)本篇报告研究的实时音视频(RTC)服务特指:通信方式:以音频、视频的形式赋能行业;服务模式:基于云计算技术理念提供,包括实时音视频的底层通用能力,以及垂直行业的解决方案;底层技术:采用软件定义的实时音视频传输网络(Real-timeNetwork,RTN)和基于UDP的传输协议;时延区间:本篇报告聚焦于广义的实时音视频,包含时延400ms内的强互动,以及800ms内的超低延时互动。4中国实时音视频行业发展分析1供给侧:实时音视频行业发展能力洞察2需求侧:垂直行业实时音频应用实践分析3中国实时音视频行业典型企业案例4中国实时音视频行业发展趋势552022.8 iRese

6、arch I2022.8 iResearch I音视频消费习惯的迁移用户音视频习惯养成,并逐渐向强实时性、强互动性场景延伸富媒体信息时代,音视频已成为人们获取、发布、交换信息的重要方式。截至2020年底,中国网络视听用户占整体网民规模的比例已高达95.4%。高饱和的渗透率水平,使用户更加关注音视频服务的体验感。得益于底座能力与关键技术的持续突破,音视频服务体系实现了从点播、直播到实时音视频的深化发展。实时性与互动性的长足优化,逐步激活了更多场景下的音视频互动模式,驱动用户的音视频消费习惯向更加还原真实、更加沉浸式的实时音视频服务迁移。同时,伴随疫情的常态化发展,人们远程办理业务的习惯已逐渐养成

7、。实时音视频作为一种通用型能力,撬动了传统行业中众多强实时、强互动场景的数字化升级,也使得实时音视频的消费趋势进一步从消费互联网向产业互联网延伸发展。注释:网络视听用户为综合视频、短视频、网络音频、网络直播用户的并集;网民使用率指网络视听用户占网民规模的比例。来源:CNNIC;中国络视听节服务协会;艾瑞咨询研究院自主研究及绘制。来源:艾瑞咨询研究院自主研究及绘制。音视频消费习惯迁移趋势及典型应用场景7.327.88.579.019.4488.3%91.3%94.8%95.8%95.4%2018.122019.62020.32020.62020.12网络视听用户规模(亿人)网民使用率(%)201

8、8-2020年中国网络视听用户规模及使用情况实时性互动性点播短视频点播中/长视频点播直播体育/赛事直播营销/电商直播会展/培训直播实时音视频实时音视频通话互动直播/PK连麦互动大班课远程办公协作远程医疗/金融单向分发多向互动秒级时延毫秒级时延双向互动非实时62022.8 iResearch I2022.8 iResearch I网络基础设施持续升级高速泛在的骨干网络,为实时音视频传输提供坚实保障实时音视频行业的高速发展离不开国家骨干网络的建设。以千兆光网和5G为代表的“双千兆”网络,近年来取得突破性进展。2021年,我国光纤接入(FTTH/O)端口已达到对互联网宽带端口的高度覆盖,光纤接入能力

9、已普遍超过百兆,并向千兆以上速率不断升级;5G网络已覆盖国内所有地级以上城市,5G基站数累计高达142.5万,用户数占全球的89%。网络基础设施的广泛渗透,使更多用户可以受益于终端设备与骨干网络之间的快速连接,享受到无感接入、触手可及的高质量网络服务。同时,“双千兆”网络在带宽能力上的显著提升,可大幅降低音视频信息的延迟和缓冲时间,提高端到端毫秒级传输时延的满足率,为实时音视频的数据传输与落地应用提供良好的底层网络支撑。来源:工信部;中国信通院;艾瑞咨询研究院自主研究及绘制。注释:1、该视频通话测试,测试时段涵盖网络忙闲时(7:00-21:00),采集端帧率为30fps,传输协议是UDP+FE

10、C,编码方式为 H.264,编码后分辨率为1280*720,帧率为15fps,编码目标码率为2Mbps;2、音频卡顿率参照声网“体验等级协议XLA”,单位时间(1分钟)内200ms音频卡顿率大于3%时,记为不达标。来源:中国信通院;艾瑞咨询研究院自主研究及绘制。41.0 77.1 96.1 142.5 4.7%8.3%10.1%14.3%2020.62020.122021.62021.125G基站数(万站)5G基站数在移动基站中占比(%)2017-2021年中国光纤端口数量及占比情况2020-2021年中国5G基站数量及占比情况657497796183617879779599784.4%88.

11、0%91.3%93.0%94.3%20172018201920202021FTTH/O端口数量(万个)FTTH/O端口网宽带占比(%)4G网络5G网络相对增益无卡顿样本端到端时延均值541.81ms412.60ms23.8%200ms时延满足度0.54%10.40%1827.6%300ms时延满足度24.49%66.72%172.5%400ms时延满足度51.89%78.06%50.4%音频卡顿达标率70.37%85.05%20.9%国内某省会城市运营商4G/5G下视频通话达标率72022.8 iResearch I音视频传输技术更新迭代技术驱动音视频走向实时,流媒体协议迈入毫秒级传输阶段流媒

12、体技术可将压缩处理后的音频、影像连续性地上传到网站服务器,使文件无需完全下载到本地即可观看。在编解码方面,H.265、国产AVS3等视频解编码技术可以使文件的压缩体积更小、传输速度更快。其中,AVS3作为全球首个面向5G产业应用的音视频信源编码标准,已被成功纳入DVB(数字视频广播组织)标准体系,可以在同等画面质量下比H.265节省40.09的码率。在协议方面,基于TCP的RTMP、HLS、DASH等协议的优化方案仍存在2-3秒左右的延迟,而基于UDP的WebRTC则突破性地将延迟降低至毫秒级别。与其他协议不同,WebRTC作为流媒体通信框架,覆盖音视频采集、编解码、传输和渲染的全部环节,可以

13、为实时音视频提供全流程的理论依据与技术支持。来源:WOWZA官网;艾瑞咨询研究院自主研究及绘制。45+seconds18seconds05seconds01second70%112022.8 iResearch I中国实时音视频产业图谱注释:1、仅作部分典型企业展示,图谱中所展示公司LOGO顺序及大小无实际意义;2、通用能力层按照厂商的整体业务情况进行划分,同一厂商仅出现一次。来源:艾瑞咨询研究院自主研究及绘制。2022年中国实时音视频行业产业图谱综合型IaaS厂商通信云PaaS厂商RTC PaaS厂商行业解决方案通用能力社交娱乐金融医疗协同办公教育IoTPaaS解决方案为主PaaS+SaaS

14、解决方案122022.8 iResearch I中国实时音视频商业模式以基础服务+增值服务,搭建完整互动体验,赋能业务增长注释:通话、直播、转码费用,如果既订阅了视频流又订阅了音频流,则只对视频流计费。来源:腾讯云、声网、即构、阿里云、网易云信产品计费说明;专家访谈;艾瑞咨询研究院综合公开资料自主研究及绘制。增值服务以RTC私有协议推流和拉流的实时音视频服务采用按时长计费模式。实时音视频厂商在选用不同计费方式之上,还会叠加月度免费时长、套餐包、梯度折扣等组合优惠方式。伴随着应用场景的延伸发展,实时音视频厂商也会采取自主研发或与第三方合作的方式,不断充实自身产品能力矩阵。三网融合类、安全监测类、

15、体验增强类增值服务的拓展,保障了实时音视频服务可用性、可靠性、可玩性,赋予用户更加完整丰富的实时互动体验。三网融合安全监测音频服务视频服务基础服务计费逻辑计时方式时长对应档位单价按订阅视频流计时实际订阅的分辨率按订阅人数计时集合分辨率时长=用户进入频道/房间的时长,不累加订阅多路视频流的时长档位单价=用户订阅的所有视频流的分辨率之和实时音视频商业模式及基础服务计费方式高级权限控制质量监测媒体流加密内容安全审核在线媒体流输入美颜/人声效果互动白板频道/房间管理旁路推流CDN云端混流转码云端实时录制IM人数时长=累加用户订阅的多路视频流时长档位单价=每路流各自对应的分辨率体验增强实时音视频1320

16、22.8 iResearch I中国实时音视频厂商盈利能力分析资源成本及研发投入水平较高,PaaS厂商毛利率均值约30%实时音视频行业存在较高的资源门槛与技术门槛:PaaS厂商不仅需要在底层网络建设上投入一定的资源成本,还需要在策略算法优化和产品矩阵打磨上投入大量的研发成本。正是因为行业门槛的存在,实时音视频行业的市场格局较为集中,头部PaaS厂商对于产品价格具备较强的话语权,尚未存在“价格战”。同时,高水平的成本引入,也使实时音视频的产品价格远高于传统音视频产品。整体看来,实时音视频(RTC)PaaS厂商的毛利率均值约在30%左右,受资源禀赋及研发能力的不同的影响,不同厂商的成本结构及毛利率

17、水平会存在一定差异。注释:1、资源成本包括带宽成本与基础设施成本两部分。其中,基础设施成本主要包括服务器等硬件采购费用,及RTN网络节点的建设费用;2、研发成本为人工费用之外的产品开发、测试等费用;3、基础层厂商毛利润=实时音视频收入-资源成本-研发成本。来源:综合上市公司年报等公开信息;企业及专家访谈;艾瑞统计预测模型估算;艾瑞咨询研究院自主研究及绘制。100%33%37%30%研发成本毛利润2021年中国实时音视频(RTC)PaaS厂商的盈利能力分析实时音视频(RTC)PaaS厂商毛利率影响因素1、资源禀赋自有/自建基础设施外采/租用基础设施基础设施可复用基础设施不可复用(基础设施是否可以

18、同时承担实时音视频服务及其他云服务,以提高资源利用率)实时音视频(RTC)PaaS厂商收入资源成本2、研发能力自研产品/技术外采产品/技术有衍生产品对接无衍生产品对接(是否具备与实时音视频衍生配套的三网融合类、安全类、体验类产品,共同赋能多场景解决方案)142022.8 iResearch I2 4 8 15 16 18 22 30 136.6%101.1%89.4%10.3%12.0%23.7%33.4%201720182019202020212022e2023e2024e中国实时音视频(RTC)PaaS市场规模(亿元)中国实时音视频(RTC)PaaS市场规模增长率中国实时音视频行业市场规模

19、预计到2024年,实时音视频PaaS市场规模将达到30亿元尽管实时音视频服务已经开始呈现出向多行业领域渗透的趋势,但就现阶段而言,以PaaS为主要服务模式的消费互联网领域仍然贡献了最核心的收入来源。根据艾瑞咨询测算,2021年中国实时音视频(RTC)PaaS市场规模为16亿元,同比增长10.3%。相较过去几年的高速增长,2021年增速回落的原因主要有两个方面:1)受“双减”政策影响,在线教育领域的收入骤降,2)社交娱乐场景中,实时音视频在头部互联网应用的渗透率已经较高,由高速增长阶段进入平稳增长阶段。疫情于实时音视频无疑起到了重要的市场教育作用,预计未来宏观经济形势转好后,实时音视频将有望在越

20、来越多的产业互联网领域实现落地,同时元宇宙相关应用的出现也将为消费互联网创造更大的想象空间。2017-2024年中国实时音视频(RTC)PaaS市场规模及预测CAGR=77.6%CAGR=28.4%注释:中国实时音视频(RTC)PaaS市场规模以实时音视频(RTC)PaaS收入口径核算,统计范围为推流、拉流均使用RTC技术且在中国大陆产生的服务收入。来源:综合上市公司年报等公开信息;企业及专家访谈;根据艾瑞统计预测模型估算;艾瑞咨询研究院自主研究及绘制。15中国实时音视频行业发展分析1供给侧:实时音视频行业发展能力洞察2需求侧:垂直行业实时音频应用实践分析3中国实时音视频行业典型企业案例4中国

21、实时音视频行业发展趋势5162022.8 iResearch I实时音视频核心价值及关键技术总览传输网络保障低延时、高可靠传输,专业组件提升媒体质量实时音视频相比直播最大的区别在于对端到端时延的降低。在传统直播架构下,时延主要来自于CDN分发和下行拉流环节。而通过搭建面向实时音视频的传输网络,应用低延时传输协议,并辅以弱网传输保障策略,实时音视频实现了低延时、高可靠的音视频传输。在音视频引擎方面,典型的实时音视频场景以沟通交流为核心诉求,对音频的质量关注度较高;而随着实时音视频向实时互动场景拓展,其对降噪、超分等视频画质修复增强的要求也不断提升。来源:艾瑞咨询研究院自主研究及绘制。实时音视频的

22、核心价值与关键技术视频引擎基础设施专业组件视频编码器视频解码器视频采集视频渲染视频降噪视频增强超分辨率HDR音频引擎音频编码器回声消除噪声抑制空间音频自动增益控制音频解码器音频采集音频渲染云基础设施云原生边缘计算传输网络实时音视频传输网络网络传输协议弱网传输保障策略构建软件定义的去中心化传输网络,可实现智能路由、智能调度对UDP协议在协议层与算法层进行优化,提高传输的可靠性与逻辑性主要通过丢包修复、抖动对抗、码率自适应保障弱网环境下的传输直播时延的来源链路时延抖动、协议栈的优化情况以及CDN资源的覆盖情况,是造成CDN分发和下行拉流的时延的主要原因,也是降低音视频传输端到端时延的关键采集+编码

23、60ms上行推流1050msCDN分发1010000ms下行拉流101000ms解码+渲染40ms时延优化172022.8 iResearch I实时音视频传输网络软件定义的去中心化网络,依托智能路由算法选择最佳路径实时音视频传输网络(Real-time Network,RTN)是专为实时通信设计的稳定、高质量的传输网络。通常而言,实时音视频传输网络架构在公共互联网之上,采用软件定义网络的方式进行网络虚拟化,专注于通信路由的计算和链路异常的故障恢复。其控制面主要负责网络质量探测、路径规划和规则配置管理,数据面负责数据传输和转发,承担边缘和中转的角色。基于去中心化的架构设计,实时音视频传输网络允

24、许终端用户从边缘节点就近接入,并利用智能路由算法实时计算最优的路径传输,有效解决路由链路和带宽成本的问题。来源:艾瑞咨询研究院自主研究及绘制。实时音视频传输网络的架构及特征边缘节点边缘节点边缘节点边缘节点边缘节点边缘节点控制面控制面控制面边缘数据面中转数据面边缘数据面媒体边缘服务媒体边缘服务负责网络质量探测、路径规划、规则配置管理负责数据传输和转发推流拉流实时音视频传输网络RTN实时音视频传输网络RTN软件定义架构在公共互联网之上,基于软件定义网络构建的、支持跨运营商、跨区域的实时音视频传输网络,采取多路冗余的方式,降低对单一物理资源的依赖去中心化依靠分布广泛的边缘节点,采取就近接入的策略,支

25、持不同区域内任意两个流媒体服务器间的级联、网内传输智能调度综合考虑容量、带宽成本和质量之间的平衡,基于智能路由算法进行最优的路径规划,自动切换故障线路,保障音视频数据的稳定、高质量传输182022.8 iResearch I网络传输协议的选择注释:RTP(实时传输协议/Real-time Transport Protocol)是承载媒体的协议;RTCP(RTP控制协议/RTP Control Protocol)是用于传达有关呼叫的元数据的协议。来源:WebRTC音视频实时互动技术;艾瑞咨询研究院综合公开资料自主研究及绘制。传输层协议的选择:TCP是牺牲传输实时性来换取数据完整性的可靠传输协议。

26、弱网环境下,其在数据传输前的“三次握手”连接会带来较大延时。而UDP作为不可靠的传输协议,其最大的优点为高实时性,但不保证数据的到达和排序。实时音视频产品往往采用UDP协议,并在此之上进行协议层与算法层的优化,来提高传输的可靠性与逻辑性。UDP协议的优化:UDP协议往往和RTP/RTCP协议一起在实际应用中出现。RTP负责数据传输,其协议头中的序列号、端口类型、时间戳等字段,可为数据包的分组、组装、排序提供逻辑依据;RTCP作为RTP的控制协议,负责对RTP的传输质量进行统计反馈,并为弱网对抗策略提供控制参数。基于UDP协议的可靠性优化,为弱网对抗策略提供依据UDP协议与RTP/RTCP协议的

27、传输路径RTCP协议支持多种报文消息,其中,网络质量评估与控制的大量参数都是从SR与RR报文中获得:发送信息报文SR(Sender Report packet)向接收端报告一段时间内,发送的数据包情况。接收信息报文RR(Receiver Report packet)向发送端反馈接收情况,包括丢包率、延时区间等信息。IP数据包IP数据包UDP数据包UDP数据包发送端接收端RTCP反馈RTP封装RTP数据包SR数据包RR数据包RTCP反馈RTP封装RTP数据包SR数据包RR数据包通信网络192022.8 iResearch I弱网传输保障策略(1/3)丢包恢复:联动接收端与发送端的“重传+编码”配

28、合策略来源:网易云信音视频技术专栏网易云信流媒体服务端架构设计与实现;网络QoS的平衡之道音视频弱网对抗策略介绍;融云技术文章RTC 系统音视频传输弱网对抗技术;CSDN;艾瑞咨询研究院自主研究及绘制。基于发送端-前向纠错 FEC(Forward Error Correction)基于接收端-自动重传请求ARQ(Automatic Repeat-reQuest)技术原理:FEC技术的核心为:以带宽换延时。发送端根据网络状况提前封装冗余包。接收端发生少量丢包时,可以直接根据冗余包恢复数据。FEC技术的关键在于如何合理地设置冗余策略,达到抗丢包能力、视频码率、恢复延时三者的有效平衡。发送端5432

29、1X54321X5432154321RTN网络FEC编码FEC修复接收端弱网环境下,实时音视频在网络传输侧的丢包恢复技术主要包括:自动重传请求(ARQ-NACK)、冗余编码(FEC/RED)、I 帧申请(PLI/FIR)等。实际应用中通常采用ARQ-NACK技术先行,FEC技术兜底的配合策略。并根据NACK成功率、NACK响应时长和FEC恢复率,对整体的抗丢包策略进行实时、动态的调整。具体的技术原理及应用的优缺点如下:优点:相比ACK机制,对带宽的利用率高;不需要带宽预测,低延迟场景下的重传恢复效果好。技术原理:不同于TCP协议下ACK的“通知到达”机制,实时音视频传输采用RTP/UDP协议下

30、NACK的“通知未达”机制。在接收端检查数据包序列号的连续性,来判断是否丢包,每隔1个RTT(往返延时)对同1个包向发送端发起重传请求。优点:无需重传数据,丢包恢复时延低;适用于丢包率比较稳定的情况。实时音视频:丢包恢复的主要优化策略 缺点:引入额外的丢包恢复抖动,拉大延时。高延迟场景下,网络RTT越大,重传恢复效果越差。缺点:需要进行带宽预测,效果依赖于对丢包预测的准确性;占用额外带宽,带宽受限场景会挤压视频原始码率,影响画质。5432154321网络RTP/UDP:NACKTCP:ACK发送端接收端未收到3重传3已收到重传31245FEC传输原理简要示意图202022.8 iResearc

31、h I弱网传输保障策略(2/3)抖动对抗:根据网络环境自适应缓存,平滑终端流畅体验虽然丢包恢复算法可以增强弱网环境中数据传输的容错性,但难以解决因网络抖动、解码前各环节抖动带来的乱序、延迟到达等问题,此时往往需要JitterBuffer(抖动缓冲区)来做媒体包的缓存。WebRTC的视频引擎、声音引擎中均包含自适应缓冲模块,一方面可以把收到的乱序媒体包进行排序、组帧;另一方面可以根据网络环境动态调整端到端的缓存时间,通过让步适当的延迟来换取音视频通话的流畅性。打造优秀JitterBuffer的难点在于如何快速、准确地计算网络环境的非稳态变化(包括网络带来的抖动和抗丢包等算法引入的额外延迟),并在

32、延迟和卡顿之间取得较好的平衡。来源:WebRTC音视频实时互动技术;CSDN文章WebRTC 视频 JitterBuffer 详解、WebRTC Qos 优化杂记;网易云信浅析JitterBuffer;百度智能云实时音视频抗弱网技术揭秘;声网详解低延时高音质系列技术文章;艾瑞咨询研究院自主研究及绘制。压缩数据55565758M61组成一帧包序列包排序:通过RTP协议头中的Sequence Number等字段,将RTP数据包进行排序检查,并将其组成一个完整帧。组包模块(Packet Buffer)帧排序:通过FrameReference Finder填充完整帧的参考帧,并使其均进入GOP排序。G

33、OP排序:缓存并向解码 器 输 出 可 解 码 的 连 续GOP。组帧模块(Frame Reference Finder&Frame Buffer)Packet/JitterBuffer解码器解码缓冲区NetEQ算法缓冲区Speech BufferDSP处理加速慢速正常融合丢包隐藏共享内存解码渲染信号处理单元(DSP)实时音视频:WebRTC框架中的视频、音频动态缓冲策略IB1B2B3B4P1IGOP1GOP2压缩数据视频抗抖动-JitterBuffer微控制单元(MCU)播放音频抗抖动-NetEQ将MCU中缓存、排序后的音频数据交给DSP中的解码器进行处理。丢包隐藏技术可以产生与丢失包相似的

34、替代语音来平衡QoS。212022.8 iResearch I弱网传输保障策略(3/3)码率自适应:根据接收端带宽情况,针对性推送适合码流丢包恢复、抖动对抗策略可以在有限的带宽下,提供更好的音视频质量,但难以解决多人互动场景下,单一码流无法适应多接收端网络带宽状况不一的问题。传统多人互动方案中,网络带宽较差的用户往往会影响所有参与者的体验。而动态码率策略虽然对发送端的带宽要求较高,但可以根据接收端的带宽状况,调整传输的数据量,向接收端推送合适的视频流。对网络质量好的用户,传输高清晰度的流;反之,则传输低清晰度的流。视频流的码率自适应技术主要包括:多码流切换(Simulcast)和可伸缩编码(S

35、VC)。来源:融云技术文章AI 算法在视频可分级编码中的应用;CSDN技术文章 Simulcast 与SVC简介;艾瑞咨询研究院综合公开资料自主研究及绘制。可伸缩编码 SVC(Scalable Video Coding)实时音视频:码率自适应的主要优化策略核心层(0)中间层(1)扩展层(2)多码流切换(Simulcast)1080p720p360p发送端接收端1接收端2360p1080pRTN服务端(带宽较差)(带宽良好)发送端接收端1接收端2RTN服务端0210210(带宽良好)(带宽较差)缺点:视频流分级编码,接收端解码复杂度增加;作为H.264的拓展,2007年成为正式标准,兼容性有待提

36、升。技术原理:将视频流按时间、空间、质量分成多层编码,装载为一路流发送到服务端,服务端根据接收端用户带宽状况选择不同层下发。优点:相比Simulcast,编码效率和复杂网络适应性均大幅提升。(逐层依赖关系)缺点:上行产生多路视频流,容易造成带宽资源的浪费;接收端可选择视频流种类有限,复杂网络条件下的适用性差。技术原理:将视频流编码出不同分辨率的多路码流,同时发送给服务端。服务端根据接收端用户带宽状况选择最合适码流。优点:每一路流可以单独解码,且解码复杂度没有增加;相比SVC,实际应用更易实现。222022.8 iResearch I视频引擎编解码技术升级迭代,AI技术助力视频画质修复与增强未经

37、压缩的数字视频的数据量巨大,通常需要对原始视频压缩后再进行存储和传输,这便是视频编码的主要工作。编码效率是影响视频编码器选择的关键因素,以H.265为例,与上一代H.264相比,可以在维持画质基本不变的前提下将传输带宽减少到原来的一半。虽然现阶段H.264仍是最广泛使用的视频编码器,但其使用率已经开始出现下滑,H.265、VP9等有望将成为下一阶段的主流。除此之外,利用人工智能技术进行降噪、去压缩、清晰度和色彩增强等一系列画质优化工作,提升人眼对视频的主观体验,是视频前、后处理过程中重点关注的方向。来源:视频编码器调研数据来自2021 Bitmovin Video Developer Repo

38、rt;艾瑞咨询研究院自主研究及绘制。视频引擎之编解码与画质修复增强视频编解码是指对数字视频进行压缩和解压缩的过程,压缩的目的主要是去除原始视频中的冗余信息,以降低对存储空间和传输带宽的压力。空间冗余:图像相邻像素之间有较强的相关性时间冗余:视频序列的相邻图像之间内容相似编码冗余:不同像素值出现的概率不同视觉冗余:人的视觉系统对某些细节不敏感83%49%31%19%16%15%91%42%27%12%NA11%H.264/AVC H.265/HEVCMPEG-2VP9VP8AV120212020开发者在视频生产中使用的视频编码器视频画质修复视频画质增强超分辨率技术在实时音视频领域应用的难点与方向

39、去压缩降噪去除模糊细节修复清晰度增强色彩增强超分辨率HDR采用特征压缩、特征降维等方式对网络模型和参数进行压缩,通过构建轻量级的卷积神经网络推动超分辨率在实时处理、移动端应用场景中的落地。面对真实场景的图像退化问题,如图像压缩、噪点、模糊等,将编码损失加入到训练集或结合去模糊和去噪等算法的方式增强超分效果。232022.8 iResearch I音频引擎通过回声消除、噪声抑制、自动增益控制优化音频质量音频的前处理是整个音频处理链路中的关键。麦克风采集到的原始音频数据会存在噪声、回声等各种问题,如在多人视频会议场景中,同地多设备同时开麦会造成强烈的啸声,发言者离麦克风较远会导致收音效果不佳。为提

40、高音频质量,需要在发送端对发送信号依次进行回声消除、降噪和音量均衡的操作,即AEC回声消除、ANS噪声抑制和AGC自动增益控制的3A处理。在通话、语聊、教学、游戏等不同场景中,实时音视频厂商需考虑场景的实际需求,对3A算法进行对应的调整,以实现良好的音频效果。来源:艾瑞咨询研究院自主研究及绘制。音频引擎之音频3A处理麦克风扬声器AEC回声消除ANS噪声抑制AGC自动增益控制ENCODER编码器SERVER服务器MIXER+LIIMITER混音与压限器ENCODER解码器JB+PLC抖动消除+丢包补偿利用接收到的音频与本地采集的音频做对比,添加反相的人造回声,将远端的声音消除。利用噪声的特点对音

41、频数据添加反向波形处理,即可消除噪声。目前频谱稳定的平衡噪声已有多种方法可以有效抑制,但突发性强、频率分布宽的瞬时噪声则很难抑制。控制语音信号的增益在预设的合理区间之内,缓解由设备采集差异、说话人音量大小、距离远近等因素导致的音量的差异。242022.8 iResearch I实时音视频技术路径分析(1/2)多人实时互动方案:RTC技术为主,CDN技术为辅 多人音视频通话:通过接入RTC SDK,同一个频道/房间内的用户可以通过RTC私有协议,推流至实时音视频传输网络(RTN),并从RTC地址拉取订阅的音视频流,享受稳定流畅的1v1或多人实时音视频通话服务。实时互动直播:互动直播增加了主播、连

42、麦者、观众的角色概念,连麦者既可以是房间内的观众,也可以是其他房间的主播。在核心互动端,主播和连麦者通过RTC地址推送自己的音视频流,并拉取他人的音视频流。连麦内容会通过旁路系统在云端将混为一路流,并转码为传统直播协议供观众端使用CDN地址进行拉流观看。观众请求上麦成功后,将从CDN地址切换到RTC地址进行互动。来源:声网RTC产品文档;腾讯云TRTC产品文档;阿里云RTC产品文档;即构RTC产品文档;艾瑞咨询研究院综合公开资料研究及绘制。多人实时互动解决方案技术路径RTN网络服务器CDN网络服务器旁路混流转码服务器用户/主播端 A用户/连麦端 B用户/连麦端 C观众端RTC私有协议RTMP协

43、议RTMP/FLV/HLS等协议RTC私有协议RTC私有协议(多路流)(一路流)主播连麦延时200 400msCDN的 HLS(m3u8)协议,可较好补足WebRTC协议在移动端浏览器兼容性不理想的短板。支持移动端网页播放CDN可以承载上万人同时观看,补充RTC技术的高并发难题。支持超高并发观看CDN相对RTC价格低廉,适用于无需高频率互动、可忍受一定延迟的观众端。节约部署成本核心互动端旁路观众端角色转换切换到RTC地址252022.8 iResearch I实时音视频技术路径分析(2/2)超低延时直播:对传统直播架构在协议和网络层面进行改造超低延时直播是近年来新兴起的一类应用。如电商直播、赛

44、事直播等场景,兼具高并发与低延时的特性,传统直播3-20s的时延难以满足其需求,但对实时互动的要求又不及视频会议等典型的实时音视频应用,无需将时延降低至400ms以下。为此,超低延时直播融合了传统直播与实时音视频的技术架构,通过取长补短的方式实现了介于二者之间的端到端时延。尽管针对超低延时直播厂商尚无一套标准的技术路径,但大体可以归纳为拉流协议、网络架构和推流协议三个方面的改造,在实际应用过程中,厂商会平衡成本及性能指标等因素,在不同的协议和网络架构之间进行选择。来源:艾瑞咨询研究院自主研究及绘制。超低时延直播解决方案技术路径RTMP/FLV/HLSWebRTC/RTC私有协议RTMPWebR

45、TC/RTC私有协议主播端观众端边缘节点边缘节点信令服务融合调度Step1拉流协议改造Step2网络架构改造Step3推流协议改造超低延时直播需求特征属于传统直播的升级应用,主播端人数少,观众端人数多,存在海量并发需求观众与主播存在文字聊天、商品购买等轻互动需求,要求直播的延时在800ms左右直播常用RTMP/FLV/HLS等拉流协议为可靠的TCP协议,其三次握手、丢包重传机制会造成时延的增加,超低延时直播为降低时延,会优先将拉流协议改造为不可靠UDP协议的WebRTC协议或RTC私有协议普通直播多采用树状层级的CDN网络架构,长链路、缓存机制等造成较高的传输时延,将传统CDN网络架构升级为层

46、级网+对等网的混合架构,将能力下沉,通过动态路径规划、智能调度和路由降低时延相对RTMP协议,WebRTC协议和RTC私有协议的限制较多,对于移动端的设备性也较差,可考虑增加其作为推流协议的一个选项,视具体场景需求选择是否采用Step1 拉流协议改造Step2 网络架构改造Step3 推流协议改造26中国实时音视频行业发展分析1供给侧:实时音视频行业发展能力洞察2需求侧:垂直行业实时音频应用实践分析3中国实时音视频行业典型企业案例4中国实时音视频行业发展趋势5272022.8 iResearch I中国实时音视频行业应用概览实时音视频商用实践从消费互联网向产业互联网逐渐渗透注释:1、“实时音视

47、频行业应用场景效能模型”主要从“实时音视频的应用价值”和“实时音视频的应用成熟度”两大指标综合考量各行业重点场景的发展效能。其中,“实时音视频的应用价值”主要从场景的实时性需求和互动性需求两个维度考量;“实时音视频的应用基础”主要从场景数字化程度、场景解决方案完整度两个维度考量;2、最终模型筛选结果为专家访谈、数理实证研究和案例实证研究结果综合所得。模型中的用例位置仅说明不同场景在“两大指标”下的的相对关系,并不用于说明某一场景的绝对位置定位。来源:艾瑞咨询自主研究及绘制。实时音视频应用场景的共性需求全球/异地多机房服务集群,网络架构设计支持千万级高并发,可实现秒级平滑扩容。优质的智能路由调度

48、策略能够满足400ms内长距离的端到端的音视频互动。实时音视频行业应用场景效能模型支持公有云、混合云、私有云部署。丰富、灵活、易用的SDK API,可实现全平台业务极速构建。兼容iOS、Android、Windows、macOS、Web、小程序、RTOS、Flutter、Electron、Unity等开发平台;适配海量移动终端及外设。卓越的弱网对抗算法和拥塞控制算法,在70%-80%的丢包情况下,依然可以保持稳定流畅体验,提供更高品质的实时视频通话服务。支持全链路数据加密,兼具数据安全保障和个人隐私保护功能。内置内容安全审核功能,支持进行实时音视频检测,保障应用的合规性。超低延时互动多平台快速

49、构建弱网环境高可用全链路安全加密以泛娱乐、在线教育为代表的消费互联网场景,具备实时音视频发展的良好应用基础和价值前景,是实时音视频商用实践的主力领域。伴随产业数字化转型的加速,协同办公作为全行业的通用型解决方案,已经成为后疫情时代企业的必备能力;实时音视频在金融、医疗等传统行业重点场景的应用效能也在逐渐扩大。虽然IoT行业众多场景的实时音视频应用基础尚未成熟,但是其在工业巡检、自动驾驶等领域具备广阔发展前景,是实时音视频行业的未来发展方向。实时音视频应用基础实时音视频应用价值协同办公互动直播面审面签在线问诊音视频通话在线K歌1v1教学教育信息化远程会诊远程超声远程定损远程双录游戏连麦互动聊天室

50、互动播客智能硬件双师课堂互动大班课实践拓展场景消费互联网场景产业互联网场景远程巡检自动驾驶实践领跑场景未来机会场景282022.8 iResearch I社交娱乐实时音视频需求及实践实时音视频激活互动新玩法,多场景联动释放业务增长空间公众社交娱乐需求的不断释放与满足,使行业内存量用户的竞争加剧,获客留客的成本攀升。产品同质化趋势下,互动体验升级与新潮互动模式挖掘的重要性愈加凸显。实时音视频技术与社交娱乐场景具有天然契合度,不仅可以直接提升现有产品的基础属性,还可以融合空间音频、VR、AR等技术,给予用户沉浸式的实时互动体验。此外,实时音视频技术还使得在线合唱、一起看直播等强实时场景成为可能,并

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 研究报告 > 其他

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服