1、2024音视频技术发展报告着眼现在、探究未来、创造新价值出 品 人:LiveVideoStack责任编辑:包 研执行编辑:张 余编 委:李志成 高 芃 刘 旻 赵 琪 薛 笛 刘 然 王 军 王雅光 龙一民 段 欣 巩卓雨特邀专家:刘 歧 快手音视频首席架构师 刘 东 中国科学技术大学特任教授 赵 军 腾讯云视频云专家工程师 张睿霄 香港大学博士后 周思进 音视频行业老兵 王毅敏 前阿里资深技术专家 美术设计:程 楠以上排名不分先后,感谢各位专家对调研报告的指导与支持!2024音视频技术发展报告随着互联网基础设施的完善,出现了各种各样的流媒体和实时互动新玩法,流媒体、WebRTC的应用也越来越
2、广泛,有AI加持,开发人员的队伍也越来越壮大。为了深入了解流媒体和RTC的从业情况,把握音视频新技术的发展方向,LiveVideoStack做了这次匿名调查,从各个方面和维度获取了各种技术的使用情况,做出了 2024音视频技术发展报告,内容详实、真实,对音视频从业者是一个很好的参考。2017年LiveVideoStack成立后不久,就有不少同学想让我们推荐合适的候选人,这样的询问频率也随着行业的起伏而波动。与此对应的是,很多企业也希望快速了解多媒体行业生态的现状,以优化产品与市场策略,其实分析报告很符合LiveVideoStack自身中立媒体社区的特性。但种种原因导致分析报告被一拖再拖,直到2
3、023年。2023年是多媒体行业进一步调整的一年,降本、出海、AI几乎成为行业最热点。在这样的背景下,如果能这个时间点让大家凝聚音视频行业经过过去10年的蓬勃发展,技术人员正面临前所未有的挑战与机遇。一方面传统音视频技术枝繁叶茂,迭代更新速度加快;另一方面,AI已全面渗透到多媒体从内容生产到消费体验各个方面,正在成为新的必备技能。LiveVideoStack的这一份高质量的调研报告,及时准确地获得从业人员的技术洞见和态度,勾画出音视频技术发展的热力分布图,非常有价值!序言 宋利 上海交通大学教授、图像通信与网络工程研究所副所长 杜金房 烟台小樱桃网络科技有限公司CTO更多共识,促进协作,为未来
4、的发展指引方向,至少提供一些客观真实的声音。于是,是时候决心推出多媒体生态的报告了。希望大家享受这份报告,由于是第一次设计报告,难免瑕疵,欢迎反馈建议。最后,感谢这个时代,让LiveVideoStack有机会为大家呈现这份报告。02目录第一章 报告概述1.研究背景 2.研究方法 2.1 桌面研究 2.2 问卷调查 2.3 专家访谈 2.4 研究数据来源 01050606060606第二章 中国音视频行业发展概述 1.音视频技术基础概念 2.音视频技术渗透领域 3.宏观政策分析 02070809第三章中国音视频行业核心技术分析1.音视频技术人员现状 1.1 技术人员基本画像1.2 公司规模、职位
5、、领域、行业、部门分布情况 1.3 就业与招聘现状2.音视频技术使用情况 031212141618032.超低延迟与关键技术 3.虚拟现实现状4.AIGC发展趋势5.出海机遇6.当下与未来第四章 中国音视频行业典型企业分析1.产业链分析 2.产业链头部企业图示 3.音视频技术头部企业代表分析第五章 中国音视频行业的“危”与“机”1.行业困局和创新趋势2.1 编解码技术2.2 开发环境使用情况 1827043435360540434546495104附录5205第一章 报告概述本次调研发放1607份问卷,共收回312份,去除无效数据3份,整理有效问卷共309份。许多问题是多项选择题,这些多项选择
6、题的百分比总和不会达到 100%。本次调研访谈42位音视频各领域专家,领域包括泛娱乐、在线教育、IoT、供应商、创业者等等。将专家观点合并整理,并采用匿名方式将个别观点融入报告。本次研究通过收集并整理国家政策信息,形成音视频宏观政策分析。2.4 研究数据来源06共邀请了42位音视频各领域的技术负责人、专家学者等,进行音视频领域的技术发展现状、企业发展形势以及未来趋势进行访谈,并对模型生成结果进行讨论和指导。2.3 专家访谈整体报告形成将通过桌面研究、问卷调查、专家访谈、数据分析等方法收集与展现。同时还会邀请业内专业人士对最终呈现结果的技术及相关表述,给出专业评判及修改意见,终而形成最后的完成报
7、告。2.研究方法对行业内公开的音视频信息进行桌面研究,资料包括但不限于专业机构的研究报告、技术领域书籍、技术社区网站、新闻网站、技术企业官网及专家公开演讲内容等。2.1 桌面研究采用线上问卷的形式,对部分问题进行问卷调查。包括音视频技术人员的基本情况、音视频技术的使用情况、音视频的发展现状和趋势等。2.2 问卷调查1.研究背景近年来,从短视频异军突起,媒体传播格局的转变,再到5G、虚拟现实、元宇宙等技术不断创新迭代,描绘了想象的虚拟世界,视听领域不断迈向多元化、高端化、智能化,成为数字经济的重要引擎。国内正处于加速向数字化转型的阶段,而且随着人工智能、5G等新技术的兴起,给音视频行业带来新的发
8、展机遇。在发展的窗口期,我们更应该掌握发展态势,抓住发展机遇,迎接新一轮的科技发展新高度。当我们站在十字路口时,要认清周围形势,才能采取进一步的动作。因此,LiveVideoStack作为全国唯一一家专注音视频领域的技术交流社区,为了给音视频技术人员带来更加清晰的领域认知,促使技术带动相关产业的进一步发展,我们将从音视频行业发展现状、音视频核心技术使用情况、音视频典型企业案例分析、音视频的“危”与“机“等方面出具一份业内的调研报告,供大家更清晰了解音视频整个领域目前的一些情况。第一章 报告概述第二章 07 中国音视频行业 发展概述1.音视频技术基础概念音视频技术包括音频技术和视频技术。当我们从
9、设备端采集原始音频或视频时,一般情况下数据量大,如不进行技术处理,就无法传输。因此,需要音视频技术对其进行处理。除此之外,音视频的流畅性、清晰度等也需要音视频技术的支持。随着5G、芯片、内存等技术的发展,RTC的应用也愈发多样化,整个市场处于快速发展期。RTC技术在延时控制、弱网对抗、跨国传输、机型适配、音视频编码、算法等方面都要持续精进,音频和视频技术日新月异。有专家指出,音视频现阶段技术将呈现三方面的发展:一是体验向沉浸式发展从2020年腾讯提出“全真互联网”概念后,直到现在大家仍然热衷于探索人与数字世界的交互体验。随着AR/VR技术的突破,我们更热衷于追求沉浸式新世界的美好。二是技术向A
10、I方向发展去年年底,ChatGPT的出现掀起人工智能的浪潮,针对于AI项目的投资不断增加,又一波技术爆发即将来临。三是技术能力需要更精细化打磨现在由于外部环境的影响,业务的快速发展,资源消耗和成本压力显著增加。各公司都希望借助音视频技术来降低成本,进而达到效率提升的目的。2.音视频技术渗透领域当前,我国音视频行业正处于场景深化阶段的发展中,音视频技术产业互联网场景加速渗透。从2015年还不到1%,到2022年音视频行业应用场景达到83.2%,整个市场已经过了快速发展期,早期入局的公司具有明显的先发优势,行业新进入者机会收窄。音视频技术的应用场景越来越多样化,并向垂直行业延伸发展。各企业在基本技
11、术打磨的同时,也在探索新行业场景,积极寻求新增长点,例如与AI结合,以及相关前沿技术的突破,AIGC的应用、大模型相关技术的研发,都希望能占领新技术的制高点。08到2022年音视频行业应用场景达到83.2%,整个市场已经过了快速发展期,早期入局的公司具有明显的先发优势,行业新进入者机会收窄。83.2%第二章 中国音视频行业发展概述泛娱乐游戏类场景社交类场景电商类场景体育互动游戏、游戏直播、AR/VR游戏在线K歌、视频群聊、语音电台直播带货、云购物赛事直播、体育远程加油音视频行业应用场景渗透率工业和信息化部关于进一步提升移动互联网应用服务能力的通知工业和信息化部2023年2月6日提升全流程服务感
12、知,保护用户合法权益。提升全链条管理能力,营造健康服务生态。监管类数字中国建设整体布局规划中共中央国院务2023年2月27日加快数字中国建设,包括网络基础建设、算力基础建设和应用基础建设。支持类05金融银行保险券商银行理财直播、虚拟营业厅、远程理财远程理赔、远程客服、保险直播远程开户、券商直播、证券视频课程通用教育教育硬件兴趣学习课堂教学、小班授课、互动授课、在线自习室智能家教台灯、智能手写笔、学习平板在线兴趣课、陪练课程教育医疗诊治医疗教学直播医疗护理远程问诊/会诊、电子处方、医疗硬件医疗培训、在线学术会议、远程超声远程心理咨询、远程看护、医疗机器人医疗IoT智能穿戴智能出行机器人智能手表、
13、AR/VR/MR头戴一体机行车记录仪、智能后视镜无人车、无人机、工业机器人、服务机器人智慧城市智慧矿区智慧物流智慧文旅无人远程控车无人仓储、无人配送服务数字展馆、云拍卖、文旅直播企业办公视频会议、远程招聘、协同办公数字政府数字办公政务协同办公、一网通办、在线政法服务3.宏观政策分析近年来政府出台了一系列政策为我国音视频产业的健康发展提供了有力的支持和保障,促进了技术创新、内容创新和商业模式创新,推动了产业的高质量发展。同时,随着流媒体技术、行业的成熟,国家推行音视频政策的趋势逐渐向监管方向倾斜,尤其是加强个人信息保护力度方面。以下是近年来,各单位发布的相关政策。3.1 互联网相关政策工业和信息
14、化部关于开展移动互联网应用程序备案工作的通知工业和信息化部2023年7月21日从事互联网信息服务的APP主办者,应当依照规定履行备案手续,未履行备案手续的,不得从事APP互联网信息服务。监管类个人信息保护认证实施规则市场监管总局 网信办2022年11月4日实施个人信息保护认证,鼓励个人信息处理者通过认证方式提升个人信息保护能力。监管类工业和信息化部 国家互联网信息办公室关于进一步规范移动智能终端应用软件预置行为的通告工业和信息化部 网信办2022年11月30日规范移动智能终端应用软件预置行为,保护用户权益,构建更加安全、更有活力的产业生态。监管类09第二章 中国音视频行业发展概述2022年底,
15、以ChatGPT为代表的出现掀起了又一波人工智能发展热潮。ChatGPT的出现,优化了语音识别和生成技术,促进了多模态交互技术的发展,加速了人工智能在音视频领域的应用。人工智能行业受到国家产业政策的重点支持。截至2023年9月份,我国中央及各地政府已相继发布多部人工智能相关政策,而且对产业链中应用层的关注明显多于基础层和软件算法层。同时,人工智能技术的快速发展,也带来了传播虚假信息、侵害个人信息权益、数据安全等问题。政府出台政策在鼓励发展的同时也对这些问题进行监督和管理。这些政策为我国人工智能产业发展提供了长期保障,也让我们看到以人工智能高水平应用促进经济高质量发展的新动力。以下是近年来,各单
16、位发布的相关政策。3.2 人工智能相关政策关于加快场景创新以人工智能高水平应用促进经济高质量发展的指导意见科技部等六部门2022年7月29日加强对人工智能场景创新工作的统筹指导。支持应用类关于支持建设新一代人工智能示范应用场景的通知科技部2022年8月12日充分发挥人工智能赋能经济社会发展的作用,围绕构建全链条、全过程的人工智能行业应用生态,支持一批基础较好的人工智能应用场景,加强研发上下游配合与新技术集成,打造形成一批可复制、可推广的标杆型示范应用场景。支持应用类生成式人工智能服务管理暂行办法国家网信办等七部门2023年7月10日针对生成式人工智能技术特点及其在有关行业和领域的服务应用,完善
17、与创新发展相适应的科学监管方式,制定相应的分类分级监管规则或者指引。监管类新型数据中心发展三年行动计划(2021-2023年)工业和信息化部2021年7月4日支撑经济社会数字转型、智能升级、融合创新为导向,以5G、工业互联网、云计算、人工智能等应用需求为牵引,汇聚多元数据资源、运用绿色低碳技术、具备安全可靠能力、提供高效算力服务、赋能千行百业应用。支持应用类10第二章 中国音视频行业发展概述11第三章 中国音视频行业 核心技术分析1.1 技术人员基本画像性别41-5051-60年龄所在城市北京市广东省福建省重庆市湖北省湖南省上海市浙江省江苏省陕西省山东省19.5%11.6%5%4%1.7%1.
18、3%51.8%33.0%10.0%4.9%河北省天津市四川省安徽省41.1%26.5%16.5%15.2%河南省海外10.0%4.9%山西省江西省新疆维吾尔自治区广西壮族自治区41.1%26.5%16.5%15.2%辽宁省16.5%46.5%121.音视频技术人员现状第三章 中国音视频行业核心技术分析81.2%男性18.8%女性41.1%30-4026.5%26-3016.5%18-2515.2%0.6%13专业经验年限5-9年1-4年10-14年1年以下15-19年20年及以上29.1%22.3%19.4%15.2%11.0%2.9%受教育程度第三章 中国音视频行业核心技术分析大部分技术人员
19、为男性,年龄在31-40岁之间,30岁以上技术人员占比57%。技术人员主要集中在北京、上海、广州等一线城市。技术人员学历本科及以上占据大部分,其中本科和研究生占比较大。技术人员有5年以上从业经验的人数占比达到62.5%,其中有5-9年从业经验的人数居多。本调查范围的技术人员学历较高,而且在音视频领域从业经验较丰富,5年以上者较为常见。博士研究生51.8%本科33.0%硕士研究生10.0%专科4.9%画像分析基本情况141.2 公司规模、职位、领域、行业、部门分布情况公司规模1001+人1-50人51-100人100-300人301-500人501-1000人36.2%21.5%15%12.1%
20、7.5%7.8%技术领域RTC/实时通信技术编解码图形/图像处理网络传输优化物联网领域沉浸式技术:VR、AR等系统架构设计直播/WebRTCWeb前端与服务端后端移动开发:Android、ioS其他10.8%10.5%8.9%9.2%6.9%5.9%6.6%4.9%4.3%2.6%音频算法/处理云计算/边缘计算工业和消费级硬件产品领域AI训练与优化2.6%2.6%2.0%2.3%开源技术CDN分发技术2.0%1.6%云渲染1.3%15.1%所在职位高级工程师工程师VP/事业部负责人其他助理研究员教授/副教授技术专家经理/主管学生构架师CXO15.9%15.5%9.7%4.9%2.6%2.6%2
21、.6%1.6%1.0%研究员/副研究员失业1.0%0.6%24.3%17.8%第三章 中国音视频行业核心技术分析所在行业信息传输、软件和信息技术服务业制造业建筑业电力、热力、燃气及水生产和供应业卫生和社会工作租赁和商务服务业教育科学研究和技术服务业文化、体育和娱乐业金融业交通运输、仓储和邮政业5.9%5.6%5.6%4.3%3.9%2.0%2.0%1.6%1.0%1.0%住宿和餐饮业批发和零售业公共管理、社会保障和社会组织农、林、牧、渔业1.0%1.3%0.3%0.3%64.3%15技术人员集中在1000人以上的大公司,职位涉及公司的技术负责人、高管以及领导者,其中占比最高的是高级工程师。部门
22、主要涉及音视频业务与产品研发。行业分布主要集中在信息传输、软件和信息技术服务业,部分人员涉及传统行业,传统行业占比约10.3%。领域分布比较平均,占比最高是RTC/实时通信技术和音视频编解码领域。总体来看,本调查范围技术人员分布在音视频技术各个领域,有丰富音视频相关经验,并且扮演着公司音视频技术发展推动者的角色。所在部门第三章 中国音视频行业核心技术分析研究院46.8%业务与产品研发14.3%技术中台11.7%算法开发6.5%渠道与销售6.5%基础设施运维5.8%市场4.5%其他3.9%161.3 就业与招聘现状1000+人1-50人51-100人高级工程师工程师技术专家RTC/实时通信技术编
23、解码系统架构设计信息传输、软件和信息技术服务业制造业教育业务与产品研发 技术中台算法开发36.2%21.5%15.0%24.3%17.8%15.9%15.1%10.8%10.5%64.3%5.9%5.6%46.8%14.3%11.7%公司规模所在职位技术领域所在行业所在部门无固定收入月数014不方便提供212364.9%3.9%4.2%3.3%3.6%2.0%2.3%74.3%1051171.0%0.3%0.3%0.0%72.0%3.6%3.9%5.9%2.9%3.9%2.9%1.6%2.0%0.3%0.7%0.3%过去1-12个月过去13-24个月第三章 中国音视频行业核心技术分析各类分布T
24、OP317在就业方面,本调查范围内大部分技术人员在过去的24个月里都不存在无固定收入现象,但存在个别人员工作变动情况。从去年和前年的固定收入月数来看,技术人员在前年的工作变动相对大于去年。在薪酬方面,大多数技术者薪水达到30w+,甚至担任公司重要职位者达到100w+,可见音视频技术从业人员的薪水是可观的。在招聘方面,根据访谈人员了解,目前大多数大公司保留校园招聘以及实习生招聘。少量公司保留社会招聘名额,而且往往社招面向高端技术人才。一些业务增长的创业公司存在少量人才扩张需求。有专家指出,音视频技术涉及的基础知识较为复杂,随着AI技术发展,对人才综合能力的要求可能比专业深度更加关键。但即懂前沿技
25、术AI又懂音视频技术人才稀缺,对尖端人才的竞争也成为了各家公司竞争的关键。年薪范围收入来源固定工资收入公司股权奖励其他个人投资技术项目收入知识变现不方便提供其他非技术专业收入91.9%25.9%18.1%16.2%9.7%6.1%5.2%第三章 中国音视频行业核心技术分析31.3%10-30w26.4%30-50w18.6%50-100w13.4%0-10w10.4%100w及以上182.音视频技术使用情况调查问题:现在您在工作中使用哪些视频编解码器?在未来12-24月内,计划使用哪些视频编解码器?2.1 编解码技术2.1.1 现在、未来以及国内、国外视频编解码器使用情况对比H.264/AVC
26、75.6%58.8%23.4%16.9%H.265/HEVCAV1H.266/VVCVP8VP9MPEG-5/LCEVC其他AVS3AVS2MPEG-5/EVC16.2%7.1%5.5%58.8%54.5%32.1%36.7%14.9%15.3%18.5%4.9%4.9%5.8%12.0%7.5%4.9%4.9%5.2%在视频编解码器的选择上,和H.265/HEVC成为主导选择对象。H.266/VVC最新标准相比于前两个标准有较少技术者选择使用。其他视频编解码器在市场上仍占据一片天地,在市场中同时共存。在未来视频编码器的选择上,H.264/AVC使用份额呈现萎缩趋势。AV1、H.266/VVC
27、、AVS3使用份额将呈现较大增长趋势,其中H.266/VVC的增长势头最为迅猛。H.265/HEVC是H.264/AVC的下一代标准,在H.264/AVC的实践基础上优化了解码端以及硬件实现的技术,在国内应用广泛。虽然存在潜在专利费用问题,但仍然是未来视频编解码标准的强劲竞争者。AV1作为VP9替代者,其设计之初就是与H.265/HEVC进行竞争。与VP9和H.265/HEVC相比,AV1具有更高的编码效率和更多的编码工具(比如针对桌面内容的编码工具),同时至少名义上是免专利费的。AV1必定会对视频标准行业带来影响。2020年以来,头部硬件厂商,包括Intel、NVIDIA、AMD、联发科、苹
28、果等纷纷加入AV1硬件解码器支持行列,国内腾讯、华为等也早已成为AOMedia创始成员,现在越来越多的流媒体公司也参与其中。AV1硬件解码器的支持加上流媒体等平台的支持,在一定程度上表明AV1生态在国内正逐步建立。现在未来第三章 中国音视频行业核心技术分析 H.266/VVC目前软件编码复杂度较高,导致其在实时通信应用场景较难实现,H.266/VVC硬件化是必然趋势。新一代视频编码标准的尝试目前主要基于ECM预研,但编码解码复杂度都较高,即使达到预期压缩率,应用起来挑战也很大。AI编解码方面(这里特指端到端AI编码,与内容感知视频压缩编码是本质区别,后者只是通过AI方法分析热点区域,分配不同的
29、码率及编码参数),AI编解码打破了传统框架,采用机器学习方式,且新框架不差于传统框架,未来有很多潜力。如果编解码向更高性能方向发展,相比传统编解码,AI编解码复杂度较低,但存在问题是AI端到端解码慢。整体来看,在需要编码快,解码方面没有那么高要求场景中可以应用。专家表明不论是哪一种标准,想要被广泛应用,一定是具有较好的综合表现。例如在压缩效率、成本、软硬件支持等方面有良好表现。未来是多编码标准共存的时代,国内情况到底是H.265/HEVC继续稳定发展,还是AV1后来居上,或者AI编解码突出重围,让我们拭目以待。H.264/AVC81.5%H.265/HEVCAV1H.266/VVCVP8VP9
30、MPEG-5/LCEVCMPEG-5/EVC16.0%46.0%32.0%20.0%19.0%18.0%38.0%22.0%13.5%20.0%15.0%14.0%13.0%17.0%41.0%现在未来*数据来源于BITMOVIN-第六届BITMOVIN视频开发者报告。*第六届BITMOVIN视频开发者报告调查时间为2022年7-9月,与本报告存在时间差异,本结论只供参考。资料结果显示,国外技术者在视频编解码的选择上与国内的技术者的选择趋势是一致的。H.264/AVC和H.265/HEVC仍然是主导选择。在未来两年内,H.265/HEVC仍然是主导选择,H.264/AVC使用份额呈现萎缩趋势,
31、AV1的使用情况同国内趋势相同呈现增长趋势。19第三章 中国音视频行业核心技术分析专家观点国内国外相同趋势20国内未来两年内H.266/VVC的使用份额增长势头最为迅猛,但国外AV1的增长势头最为迅猛。这种差异背后可能的原因是:海外对开放文化非常热衷,AV1开源且名义上免专利费,对用户和企业比较友好。同时,海外的人力成本更高,视频编码相关的人才也比较紧缺,因此采用免费、开源的编码标准就更顺其自然了。相比之下,国内还处在工程人才红利期,视频编码人才供给更为充足,这也是为什么国内许多企业自研视频编码器的原因之一。国内的企业为什么更愿意选择H.266/VVC呢?部分原因可能是国内参与视频编码的工程师
32、基本上从H.264/AVC、H.265/HEVC一路走来,从学生时代就在追随ITU和ISO/IEC的标准,自然对同一体系下的H.266/VVC更有认同感。相比于欧美,国内对降本的诉求更加强烈(国内的CDN按流量峰值付费,相比于美国的四个时区,国内只有一个时区,视频峰值更加突出),因此追随全球最权威标准化组织的标准更为重要,业界普遍认为其标准的内功和生态成熟度要超过AOMedia。不过AV2标准有可能在2025年发布,届时也会对H.266/VVC产生一定的冲击。2.1.2 现在、未来以及国内、国外视频编解码器使用情况对比调查问题:现在您在工作中使用哪些音频编解码器?在未来12-24月内,计划使用
33、哪些音频编解码器?ACC70.2%40.3%31.8%MP3OpusDolby DigitalDolby AtmosFLACDTSOgg Vorbis Vorbis其他Audio Vivid10.2%8.5%6.2%30.9%61.0%33.9%21.7%14.1%10.8%12.8%10.9%8.9%6.9%7.2%6.9%7.2%1.6%6.9%15.7%现在未来第三章 中国音视频行业核心技术分析国内国外不同趋势21在音频编解码器的选择上,AAC、MP3、Opus成为音频编解码器的三巨头。其他音频编解码器在使用上仍占据一片天地,在市场中同时共存。在未来音频编码器的选择上,与现在编解码的选择
34、份额上并无太大差异。AAC、Opus、MP3仍为音频编码器的主导,AAC份额呈现萎缩趋势,但仍占据主导地位。AAC基本上是最优秀的有损编码器,优势是频谱响应范围广,更接近原始音频。AAC也是占有使用份额最大的音频编解码器。但缺点是码率较高,算法较为复杂,一定程度上限制了AAC发展。Opus优势是适合用于低延迟编码,且Opus格式是开源免费格式,没有任何专利或限制。但Opus将20khz以上高频完全舍弃,声音会发生变化,一定程度上限制了使用。MP3是最先流行起来的音频编解码,优势是使用情况稳定。全球首个统一架构、全码率无线音频编解码标准L2HC于今年9月发布,L2HC技术优势超过AAC等标准,预
35、示无线音频技术迈向新台阶。未来可以预示L2HC将广泛应用于无线音频。目前国内音视频编解码发展现状呈现出稳步上升的趋势。在技术方面,国内研发出多种音视频编解码器,如H.264、VP9、HEVC、AV1、多功能视频编码(VVC)、低复杂度增强型视频编码(LCEVC)和基本视频编码(EVC)等。这些编解码器在不同领域中得到了广泛的应用,例如在广电行业、通信行业、互联网行业等。在传统行业中的比重也逐渐增加。在应用方面,国内音视频编解码技术也得到了广泛的应用。例如,在广电行业,编解码技术被用于数字电视、高清电视、3D电视等;在通信行业,编解码技术被用于视频会议、远程教育等;在互联网行业,编解码技术被用于
36、流媒体播放、网络直播等。此外,国内音视频编解码技术的发展也逐渐受到了政策支持的影响。政府对数字化和信息化的发展给予了高度重视,这也为音视频编解码技术的发展提供了强有力的支持。未来,随着数字化和信息化的深入发展,技术研发不断深入,应用场景更加多元化,音视频编解码技术有望实现广泛的使用和更好的发展。第三章 中国音视频行业核心技术分析国内音频编解码发展现状全球首个统一架构、全码率无线音频编解码标准L2HC于今年9月发布,L2HC技术优势超过AAC等标准,预示无线音频技术迈向新台阶。未来可以预示L2HC将广泛应用于无线音频。22H.264/AVC81.5%H.265/HEVCAV1H.266/VVCV
37、P8VP9MPEG-5/LCEVCMPEG-5/EVC16.0%46.0%32.0%20.0%19.0%18.0%38.0%22.0%13.5%20.0%15.0%14.0%13.0%17.0%41.0%现在未来*数据来源于BITMOVIN-第六届BITMOVIN视频开发者报告。*第六届BITMOVIN视频开发者报告调查时间为2022年7-9月,与本报告存在时间差异,本结论只供参考。资料结果显示,国外技术人员在主流音频编解码器的选择上与国内的技术者的选择是一致的,AAC是主导选择。未来两年内,国内和国外技术人员对 Dolby Digital 的使用情况都呈现增长趋势。国内未来两年以AAC为主导
38、,国外未来两年内以 Dolby Digital 为主导。随着技术的不断进步和用户需求的日益增长,两者相互作用推动整个行业变革。为了满足不断提高的需求,编解码技术主要朝着两个方向发展:一是极致化,对音视频性能指标的提升需求一直存在。为了实现超高清、高帧率以及伴随VR/AR等应用的普及,仅仅提高基础设施建设是不足够的。因此,编解码技术想要展现强大压缩视频体积功能,这就需要不断改进音视频编解码技术。二是智能化,随着人工智能(AI)技术的发展,AI 赋能音视频编解码,展现出某些方面比传统编解码器更好的性能。有专家认为,AI编码方面,AI图像编码目前取得了一定进展,AI视频编码对GPU要求较高,而且压缩
39、率还未明显超过最优传统编码方法,离应用还存在一定距离。随着谷歌、微软、三星等巨头纷纷发布了端到端AI音频编码器,在少量头部手机机型上已经实现了落地,但广泛应用还需要一定的时间。第三章 中国音视频行业核心技术分析国内国外相同趋势国内国外不同趋势23调查问题:您认为AI Codec技术存在哪个或者哪些挑战?基于AI的端到端数据压缩方法受到越来越多的关注,研究对象已经包括图像、视频、语音和基因组等,其中AI图像压缩的研究最为活跃。AI图像编码目前取得了一定的进展,AI视频编码还有很长的路要走。复杂度(延时、显存等)泛化、特化、标准化AI任务的训练与测试率失真性能跨平台解码转码稳定性其他41.1%30
40、.8%30.1%29.5%24.2%5.3%51.3%技术人员认为复杂度包括延时、计算量、显存等问题是AI 编解码目前存在最大挑战,其次是泛化、特化、标准化等问题。有专家认为,AI编解码尽管相比传统方案可获得压缩率的大幅度提升,但是按乘加数计的运算复杂度也有较大增长。从压缩率与复杂度折中的角度看,并没有达到惊艳的效果,不足以打破现有生态立即获得大规模推广。如果要在产业快速落地,除单纯压缩率提升外,需与业务深度耦合优化,比如与机器视觉任务结合做协同计算。传统和基于 AI 的编解码技术在未来相当长的一段时间里呈现出并行发展的态势。专家预测AI编解码可能有两个走向,且两种情况可能会同时存在:一是用通
41、用AI芯片做编解码。如果向软件方向走落地较快,只需解决技术问题,比如解码效率问题,达到效率与性能平衡,且不影响现有业务,与传统编解码相比有算力节省、用户体验提升等优势。这算是一定程度落地,且不一定需要建立标准。如果传统用AI编解码,借助高效芯片,在软件层面就可以实现高效率,这是实现较快的。如果是这个方向走,关键在于算法优化程度以及AI芯片普及程度。二是跟传统方式一样,借助专有硬件实现高效编解码。专有芯片是比较漫长过程,首先确定AI编解码的标准,再去跟上下游厂商沟通,不断打磨产品以及应用中的实际问题,最后才能去产业化以及与终端做适配等等。2.1.3 AI编解码的存在的挑战第三章 中国音视频行业核
42、心技术分析发展现状未来发展24调查问题:在您参与研发系统中,视频编码采用怎样的基础设施?2.1.4 编解码基础设施在参与研发系统过程中,最受技术者欢迎的视频编码基础设施是本地设备的硬件编码器,其次是本地私有云的软件编码器。还有部分人员选择用混合云和公共云编码的方式。本地设备和本地私有云是最受欢迎的基础设施。本地设备具有安全性高、稳定好等优势,取得大多技术人的青睐。此外,硬件编码器能够使用非CPU资源对视频流进行编解码,从而将高使用率的视频解码任务从CPU中分离出来,降低CPU的使用负荷。这使得视频编解码功能能够高效且流畅地执行。相比之下,软件编解码会增加CPU的负荷,这可能是大多数人采用本地设
43、备硬件编码器的原因。但是,本地设备建设和维护成本较高。公有云的最大价值在于为客户提供低成本、高效的计算基础设施访问,并能按需提供服务。客户只需付费,无需自行安装和维护相关系统。混合云平衡了成本效益和安全性,可以降低私有云成本。然而,混合云编码架构复杂,可能存在技术问题。第三章 中国音视频行业核心技术分析59.9%硬件编码器-本地设备36.8%软件编码器-本地私有云26.7%软件编码器-公共云17.9%混合云编码4.9%其他25调查问题:您使用的是商用编码器还是开源编码器?2.1.5 商用/开源编码器的使用两者都用使用开源编码器定制商用编码器直接使用开源编码器且不做修改其他23.1%20.8%1
44、7.6%4.2%34.2%在编码器的使用选择上,选择商用编码器和开源编码器两者都使用的技术者占比最多。其次是使用开源编解码定制以及商用编码器,二者使用占比差不多。较少人选择直接使用开源编码器且不做修改。还有小部分技术者选择使用其他类,例如自研编码器。从调查结果上可以看出大部分技术者使用商用编码器。中国商用编解码器公司众多,产品各有优缺点,呈现百家争鸣的态势。根据2023MSU赛事结果显示,在全部21个参赛编码器中,腾讯编码器包揽所有15项关键指标的全部第一。其中,自研的最新一代视频编解码标准VVC/H.266编码器Tencent266,以出色的压缩性能和节省带宽的能力取得了12项第一,并在H.
45、266/VVC赛道中取得15项关键指标全部第一。腾讯TXAV1编码器也取得AV1赛道15项指标总计14项第一的成绩。腾讯在编解码技术上的突破,标志着行业视频编码技术的进一步发展。随着H.266/VVC编解码器技术的成熟并投入使用,视频行业将能够极大地节省带宽和存储成本,同时为用户带来更好的体验。第三章 中国音视频行业核心技术分析26调查问题:您是否正在使用或计划使用内容感知视频压缩编码技术?2.1.6 内容感知视频压缩编码大多数技术人员还没有使用内容感知视频编码压缩技术,但是在未来的一年内打算使用此技术,少数人正在使用感知编码技术。视频编码压缩技术,利用机器学习和深度视频分析技术,根据视频内容
46、的复杂性动态调整所需比特率,进行智能压缩和实现最佳的视频质量。此技术可以帮助企业节省带宽和存储成本。目前,内容感知编码已经广泛应用在各大视频平台。感知编码技术也进行技术更迭,从早期中心区域ROI等简单模型,到主观兴趣区域ROI技术,未来技术更迭将适用于各类场景,同时,也已经在大模型和增强网络中应用。有技术专家认为,下一代感知编码技术可以用AI技术辅助编码工具进行加速或更优决断。此外,未来可以建立与业务相结合的质量评估模型,推动技术进一步发展,包括使用更优的主观质量模型来辅助CAE技术,以达到更优的效果。第三章 中国音视频行业核心技术分析在未来一年内打算使用44.7%否,不使用是,正在使用36.
47、1%19.3%272.2 开发环境使用情况2.2.1 编程语言调查问题:在过去的一年中,您使用了哪些编程语言进行开发工作?在未来1-2年内,您想使用哪些编程语言进行开发工作?C+58.8%45.5%42.2%CJavaPythonSQLTypescript/Javascript其他GolangKotlinRust20.8%14.6%5.2%39.6%54.5%37.7%44.2%20.8%17.5%18.5%19.5%3.6%5.5%8.8%2.6%3.9%现在未来42.2%大多数技术者使用的编程语言是C+和C语言,Python和Java紧追其后。在未来的两年内,C+语言继续领跑,是大多数技术
48、者继续使用的编程语言。Python、Golang、Rust在未来的使用占比会增加。编程语言是技术人员与计算机进行交流的中介,一种编程语言不仅决定了操作系统的基本特性,还决定了系统的应用框架、配套工具以及其他各种要素。根据TIOBE(编程语言流行度指数)发布的2023年9月份编程语言排行榜显示,Python的编程语言流程度最高,紧接着是C、C+、Java。对于本调研范围内的音视频技术人员来说,大多数还是青睐于C+和C语言,Python语言的使用者也不少。造成此种表现,有可能是因为大多数的技术者工作内容会涉及到图形图像处理,音频处理等。近年来,Python横扫TIOBE、Stack Overflo
49、w 等榜单,在今年的IEEE Spectrum发布的2023年年度顶级编程语言榜单中,Python在 Spectrum 及“趋势”方面继续蝉联第一。有专家预测Python将是编程语言行业“有利的竞争者”。Golang具有高效、并发处理等优势,适用于网络编程、云计算、大数据处理等场景。随着云计算和大数据等技术的持续发展,Golang使用频率也将稳步提升。参考资料:https:/ 中国音视频行业核心技术分析282.2.2 多媒体处理框架调查问题:您正在使用的多媒体处理框架是?大多数技术人员采用的多媒体处理框架是FFmpeg,其次是OpenCV、OpenGL,小部分技术人员采用GStreamer、O
50、penVino。大多数技术人员采用的多媒体处理框架是FFmpeg,其次是OpenCV、OpenGL,小部分技术人员采用GStreamer、OpenVino。FFmpeg是一个免费开源的音视频处理工具库,可以实现音视频格式转换、编解码、流媒体处理等功能。优势在于它是免费开源的工具,可以免费使用和修改,而且功能强大以及支持多种格式。它从2000年创立以来,经历了PC时代、互联网时代直至移动互联网时代,拥有完善的生态,对新技术和平台的支持也很及时,社区和其他多媒体项目互动频繁。到目前为止,FFmpeg项目的开发者仍然与VLC、MPV、dav1d、x264等项目交叉重叠,这也是FFmpeg成功的重要原