收藏 分销(赏)

2022年中国智能语音转写行业研究报告.pdf

上传人:Stan****Shan 文档编号:1297997 上传时间:2024-04-22 格式:PDF 页数:40 大小:2.07MB
下载 相关 举报
2022年中国智能语音转写行业研究报告.pdf_第1页
第1页 / 共40页
2022年中国智能语音转写行业研究报告.pdf_第2页
第2页 / 共40页
2022年中国智能语音转写行业研究报告.pdf_第3页
第3页 / 共40页
2022年中国智能语音转写行业研究报告.pdf_第4页
第4页 / 共40页
2022年中国智能语音转写行业研究报告.pdf_第5页
第5页 / 共40页
点击查看更多>>
资源描述

1、释放数字生产力,留存探索语音内容2022.12 iResearch Inc.智能语音转写行业研究报告2研究背景:研究对象:在工具不发达的年代,会议记录主要依靠人力完成,以多人合作的分工形式提升记录效率。后随着记录工具不断升级和专业培训,人工转写的效率也在不断提升,专业速录师可依靠速录机完成会议等场景的转写需求,但成本较高。后随着互联网及人工智能技术的不断发展,智能语音转写产品应运而生。尤其在 2011 年,大量研究人员转向深度学习在智能语音领域的研究,利用大数据、机器学习和大算力“三驾马车”,让语音识别的识别准确度再一次得到明显提升,智能语音技术迎来落地应用的发展期。”工欲善其事,必先利其器“

2、,智能化的语音转写服务以价优、质高、便捷的优势满足了转写记录这一交流场景的需求痛点,并在远程办公、新媒体、国际化交流的需求背景下,未来保持强劲市场增长力。作为语音识别技术的产品应用,智能语音转写产品是可以支持长音频识别的语音转文字服务,分为实时语音转写与非实时语音转写,可为信息处理和数据挖掘提供基础。研究方法:本报告通过业内资深的专家访谈、桌面研究、产品对比研究、行业数据统计与行业规模推算输出相应研究成果。艾瑞咨询产业数字化研究部人工智能研究组报告撰写前言对此,艾瑞发布中国智能语音转写行业研究报告,从语音识别-智能转写产品角度出发,确立智能语音转写服务的范围定义,描绘智能语音转写服务的产业图谱

3、与需求市场,梳理智能语音转写服务在 SaaS 软件服务及本地解决方案的不同产品形式、商业模式及厂商格局,并为中国智能语音转写行业的趋势发展提供分析判断,希望通过本报告,为读者呈现中国智能语音转写的产业发展背景、行业厂商动态、产品发展机遇的多维视角,欢迎各界探讨指正。32022.12 iResearch I摘要来源:艾瑞咨询研究院自主研究绘制。从技术趋势来看,语音识别技术的精度和速度仍取决于实际应用环境,面对“混合语种”“嘈杂环境”下的“多人”“交互”“重叠”等多重因素交织的复杂语音场景,语音转写技术应用仍有待突破;从场景价值来看,如今智能转写应用领域大多仅服务于从语音到文字转写内容的实现,未来

4、转写应用可结合自然语言理解、机器学习、知识图谱等AI技术,拓展转写产品的场景边界,深入挖掘转写内容价值,以更高阶、智能的辅助替代角色,为客户提供问题预警、策略总结、决策分析等功能服务;从厂商策略来看,各家将以构建自身产品生态,加强外部场景合作为策略核心,基于自身企业特点选择差异化侧重,共同推进转写技术的应用渗透与市场发展。近年来,智能语音技术与互联网、企业服务、消费硬件、传媒、医疗健康等各行业的深度融合带来了新的用户需求增长和商业模式创新,创造产业经济价值、繁荣产业生态,算法模型、优质数据集与多样化应用场景助力产业规模走高。部分智能语音产品如语音助手、语音转写、智能客服等取得产品价值突破或商业

5、上的显著成就,语音识别相关产品多已进入稳步上升期。但在细分产品的交互体验、使用效果、场景优化等方面仍面临长期求索。人们面对“AI”时希望得到的自然、类人、甚至高信息密度的交互体验,仍然是一个宏伟的开放性课题。在人力成本、协同办公、传媒音视频、会展交流、跨国沟通等多重因素驱动下,中国智能转写市场不断注入需求活力,2021年中国智能语音转写市场规模已约为10亿元。未来,随着智能转写的技术突破、功能丰富及场景泛化,智能转写市场规模将加速上扬,预计2026年市场规模将达到38亿。从产品形态来看,智能转写产品主要包括SaaS类产品与本地化部署解决方案两大类。其中,SaaS市场头部聚集效应显著,讯飞听见与

6、搜狗听写位列第一梯队,讯飞听见在转写准确率尤其是小语种和方言等、产品丰富度、品牌影响力和发展潜力维度拔得头筹。未来,SaaS形式API调用与垂类解决方案将形成合力,构成智能语音转写产业既快且稳的增长飞轮,高生态活性加硬解决方案实力的企业将更能突出重围,抢占更多增量市场。语音识别产品早期主要是语音听写,即用户说一句、机器识别一句;后来发展成语音转写,更聚焦于人人交流场景。智能语音转写是可以支持长音视频的语音转文字服务,附加产品服务、多语种翻译、内容分析等智能化功能,满足用户在会议、庭审、采访、直播、视频制作、客服质检等场景中的实时与非实时语音转写需求。随着语音识别准确性及效率的提升、多语种与方言

7、转写服务丰富,以及上下文纠正、标点过滤、自定义热词配置、声纹角色分离、语音内容分析提取等功能的逐步优化,智能语音转写服务的商业化落地与多场景复用持续推进,成为语音识别产品的“排头兵”。智能语音产业发展智能语音转写产品智能语音转写市场智能语音转写趋势洞察4智能语音转写行业发展背景篇1智能语音转写行业市场分析篇2智能语音转写行业典型企业案例3智能语音转写行业发展趋势篇452022.12 iResearch I智能语音产业的宏观背景数字信息输入输出的重要载体,人工智能产业落地“先锋军”智能语音技术指通过声音信号的前端处理、语音识别(ASR)、自然语言处理(NLP)、语音合成(TTS)等技术形成完整的

8、人机语音交互流程,是实现人与机器交流的纽带,也是数字信息输入与输出的重要载体。近年来,智能语音技术与互联网、企业服务、消费硬件、传媒、医疗健康等各行业的深度融合带来了新的用户需求增长和商业模式创新,创造产业经济价值、繁荣产业生态。智能语音产业的迅速发展促进了我国数字经济发展、提高了社会治理的智能化水平、推动了我国人工智能技术创新的战略突破。作为人工智能产业落地的“先锋军”,智能语音产业得到了国家和地方政策的有力支持,且随着参与者不断进入智能语音赛道,“百舸争流,千帆竞发”,产业技术水平和产品竞争力不断提高。来源:艾瑞研究院根据公开资料自主研究绘制。发布日期相关机构重点内容2022-05国务院办

9、公厅强化科技赋能,进一步加强12345平台和网上12345能力建设,开发智能推荐、语音自动转写、自助派单功能2021-11工信部工业和信息化部批复组建国家智能语音创新中心,将围绕多语种语音识别、语音合成、语义理解和专用人工智能语音芯片等研发方向,构建集共性技术研发、测试验证、中试孵化和成果转移转化于一体的创新平台2021-01国务院办公厅提出加强自助下单、智能文本客服、智能语音等智能化应用,方便企业和群众反映诉求建议2020-10工信部鼓励智能家居产品普及语音控制功能,推动基于智能语音识别技术的智能音箱、智能可穿戴设备及其他智能家电产品开发,老年人可通过语音方式实现便捷化操作2019-02最高

10、人民法院全面提升语音识别技术在庭审语音同步转录中的应用效能,建成全国法院智能语音云平台,实现全国法院语音识别的模型共享和统一管理2018-04国务院办公厅开展智能医学影像识别、病理分型和多学科会诊以及多种医疗健康场景下的智能语音技术应用,提高医疗服务效率2017-07科技部公布了首批国家新一代人工智能开放创新平台,包括自动驾驶、城市大脑医疗影像和智能语音2017-07司法部大力发展电子公证、法律服务智能保障等业务模式,推进人工智能语音热线和社交网络法律服务机器人技术研发,促进公共法律服务提档中国智能语音产业典型应用场景及政策汇总(部分)传媒制作智能机器人智能客服智能家居协同办公62022.12

11、 iResearch I智能语音产业的市场规模2022年智能语音市场规模达215亿元,产业规模持续走高近年来,我国人工智能产业维持稳步增长态势;其中,智能语音产业基于语音识别等算法模型突破、优质数据集积累和丰富的下游应用场景创新,已进入规模化深耕阶段。我国头部智能语音企业、大型互联网企业等纷纷以“开放平台+垂直赛道”的发展模式,一方面通过语音开放平台为各行业开发者提供智能语音技术支撑,协作场景与产品创新,助力产业规模增长;另一方面凭借各自在消费硬件、协同办公、视频直播等领域的行业理解与用户生态,持续拓展智能车载、娱乐传媒、协同办公、智慧医疗、在线教育、智能家居等垂直行业赛道,以语音为信息的出入

12、口,构建泛语音产业生态集群。2022年中国智能语音产业规模可达215亿元且维持较高增速,预计到2026年产业规模可达469亿元。注释:智能语音典型产品包括对话机器人、智能硬件中的AI语音助手以及教育、医疗、司法、公安、互联网等垂直行业中的智能语音产品及应用。来源:艾瑞咨询研究院根据专家访谈,结合艾瑞统计模型自主研究绘制。2019-2026年中国智能语音产业规模7710915921527233139646941.6%45.9%35.2%26.5%21.7%19.6%18.4%-1 5 0.0%-1 0 0.0%-5 0.0%0.0%5 0.0%1 0 0.0%01 0 02 0 03 0 04

13、0 05 0 06 0 07 0 08 0 02019202020212022e2023e2024e2025e2026e智能语音产业规模(亿元)智能语音产业增速(%)CAGR=16.9%72022.12 iResearch I智能语音产业的产品成熟度语音识别相关产品多已进入稳步上升期人类对机器语音识别的探索始于20世纪50年代,迄今已逾70年。2016年,在深度神经网络的帮助下,机器语音识别准确率第一次达到人类水平,意味着智能语音技术落地期到来。后随着近场语音识别准确率提升、远场语音识别和唤醒发展、全双工语音交互出现、基于NLP的对话和问答能力逐渐成熟、知识图谱技术助力对话引擎以及针对实际应用

14、中的算法优化,智能语音技术的落地可用性不断突破。但其背后涉及的声学研究、模式识别研究、通用NLP研究及垂直场景的深度语义理解等还未成熟到拼成一个没有明显短板的“木桶”。因此尽管部分智能语音产品如语音助手、语音转写、智能客服等已取得了产品价值突破或商业上的显著成就,但在细分产品的交互体验、使用效果、场景优化等方面仍面临长期求索。人们面对“AI”时希望得到的自然、类人、甚至高信息密度的交互体验,仍然是一个宏伟的开放性课题。来源:艾瑞咨询研究院自主研究及绘制。2022年中国智能语音产品成熟度曲线分布阶段表示智能语音相关技术的一阶产品,可衍生出各细分领域的产品应用。如智能客服+金融、基于语音助手的智能

15、音箱等表示智能语音技术二阶产品,如基于语音识别技术的智能语音转写产品、基于语音合成技术的语音播报等智能客服产品成熟度萌芽探索期落地实践期飞跃发展期稳步上升期生产成熟期语音识别智能语音开发平台语音芯片声纹识别语音输入法语音转写智能车载语音助手生成式AI(音频)语音审核智能消费硬件语音合成语音播报自然语言处理技术落地初期阶段,产品成熟度较低产品普及率提升,成熟度曲线处于缓慢爬坡期产品规模化应用,成熟度快速增长成熟度趋于稳定,产品及服务差异化竞争阶段成熟度稳定阶段。但技术若出现跨越性突破,产品或回到飞跃发展阶段82022.12 iResearch I智能语音转写的定义与分类语音识别产品的重要输出形态

16、,分为实时与非实时语音转写语音识别产品早期主要是语音听写,即用户说一句、机器识别一句;后来发展成语音转写,更聚焦于人人交流场景。智能语音转写是可以支持长音视频的语音转文字服务,分为实时语音转写与非实时语音转写,可为信息处理和数据挖掘提供基础。适用于线上线下会议记录转写、影视字幕制作、媒体新闻工作、会议翻译等多个应用情境。作为数字化劳动力,解决刚需问题,有效提高办公效率。随着语音识别准确性及效率的提升、多语种与方言转写服务丰富,以及上下文纠正、标点过滤、语气词过滤、自定义热词配置、声纹角色分离、语音内容分析提取等智能化服务功能的逐步优化,智能语音转写服务的商业化落地与多场景复用持续推进,成为语音

17、识别产品的“排头兵”。来源:艾瑞咨询研究院自主研究及绘制。0102实时语音转写智能语音转写产品定义与分类实时语音转写(流式上传-同步获取):实时语音转写可将不限时长的音频流实时识别为文字,并返回带有时间戳的文字流;可用于直播实时字幕、实时会议记录;也可配合机器翻译,实现同传功能。非实时语音转写非实时语音转写(已录制音频文件上传-异步获取):非实时语音转写将长段音频数据转换成文本数据。可用于影视字幕制作、会议访谈记录转写、智能客服录音质检等场景。语音识别作为智能交互中的一环,进行语音识别,让机器“理解”人类说的话语,而非以识别为最终产品目的语音转写:支持长音视频的语音转文字服务,可为信息处理和数

18、据挖掘提供基础。92022.12 iResearch I语音识别系统技术架构实现对声音波形序列的识别,得到相应的单词或者字符序列智能语音转写产品的核心是语音识别系统,需实现对给定的声音波形序列的识别,得到相应的单词或者字符序列。语音识别系统由信号处理和特征提取、声学模型(Acoustic Model,AM)、语言模型(Language Model,LM)和解码搜索共四部分组成。识别过程首先对音频流进行处理,通过消除噪声和信道失真对语音进行增强,然后分割声音片段并转换成一系列数值,通过声学模型识别数值,最终利用语言模型解码搜索匹配得到最优的词序列作为识别结果输出。声学模型和语言模型的获得需对预先

19、收集好的海量语音、语言数据库进行信号处理和知识挖掘训练。解码过程中还存在一个“自适应”反馈模块,可对用户的语音进行自学习,从而对模型进行校正,进一步提高识别准确率。来源:艾瑞根据CSDN等公开资料整理研究绘制。信号处理和特征提取解码搜索声学模型语言模型智能语音转写产品核心语音识别系统的技术结构音频信号声音特征语言模型得分识别结果信号处理和特征提取:以音频模拟信号输入,将其转为数字信号,提取声音特征,供声学模型提取合适有代表性的特征向量。Step1Step2声学模型将声学和发音学(Phonetics)的知识进行整合,以特征提取部分生成的特征为输入,并为可变长特征序列生成声学模型分数。语言模型通过

20、训练语料/数据(通常是文本形式)学习词之间的相互关系,来估计假设词序列的可能性,找出该声音特征最有可能对应的文字序列。Step3解码搜索:对给定的特征向量序列和若干假设词序列计算声学模型分数和语言模型分数,将总体输出分数最高的词序列作为识别结果。声学模型语言模型打开空调 0.95大凯空调 0.70大楷空条 0.35da kai kong tiao0.85 0.950.700.85da kai zhao ming0.85 0.950.200.15声学模型得分102022.12 iResearch I语音识别技术发展历程声学模型突破引领技术商业落地进程从最初的基于孤立词的小词汇量语音识别系统,到目

21、前的基于大词汇量的连续语音识别系统,语音识别技术取得了显著的进展。语言模型主要基于传统的N-Gram方法(一种基于统计语言模型的算法)进行统计匹配。虽然目前也有深度神经网络的语言模型的研究,但在实用中主要还是更多用于后处理纠错。或加入NLP Embedding模型,联系上下文,以提升语音识别结果准确率。而纵观其技术落地的突破路径,对于声音模型的研究优化是实现产品性能提升的主旋律。声学模型是语音识别系统的重要组成部分,占据着大部分的计算资源并决定着语音识别系统的性能。2009年随着深度学习技术发展,基于DNN-HMM的语音声学模型成为主流,语音识别因此取得了突破性进展;此后,不同的网络结构组合以

22、及优化策略极大提升了声学模型的性能,如端到端的识别模型、粗粒度的建模单元、更复杂的深度神经网络等。来源:艾瑞研究院根据公开资料自主研究绘制。语音识别技术中声学模型的突破路径u深度神经网络方法主导2006至今u概率统计方法主导1970s2006u模板匹配方法主导 1970s模板匹配识别:提取语音信号的特征构建参数模板,将测试语音与参考模板参数进行比较匹配,取距离最近的样本所对应的词标注为该语音信号的发音。该方法可有效解决孤立词识别,但难以实现大词汇量、非特定人连续语音识别。概率统计识别:隐马尔可夫模型(HMM)和 高 斯 混 合 模 型(DMM)。GMM-HMM框架中,GMM用于对语音声学特征的

23、分布进行建模,HMM则用于对语音信号的时序性进行建模。自上世纪90年代语音识别声学模型的区分性训练准则和模型自适应方法被提出以后,语音识别进入缓慢发展期。2006年:深度学习进入发展元年。2019年,Hinton将DNN应用于语音的声学建模;2011年底,微软研究院将DNN技术应用在了大词汇量连续语音识别任务上,大大降低了语音识别错误率。从此语音识别进入DNN-HMM时代。此外LSTM(递归神经网络模型)具有长短时记忆能力,整体性能比DNN有相对20%左右稳定提升2015-2017:基于端到端识别模型可去除HMM,直接从声学特征输入就可以得到识别的词序列,进一步提升语音识别准确率及解码速度。2

24、017年以后:随着各种深度神经网络以及端到端技术的兴起,业界厂商纷纷发布及持续优化各自声学模型结构。语音识别准确率持续提升。以科大讯飞为例,2010年中英文识别准确率只有60%左右,而在2021年8月,科大讯飞厂商的中英文转写准确率已突破98.33%。112022.12 iResearch I智能语音转写的需求场景以转写功能为基础,满足细分场景需求,构成丰富产品形态自从以远场语音技术落地为代表的智能音箱产品规模化应用、深度神经网络下的声学模型研发创新进入平稳发展期后,语音识别赛道的产业竞争已经从标准环境下的算法研发比拼,过渡到了在真实细分需求场景下如何满足用户体验的竞争。智能语音转写产品也遵循

25、这一赛道特征,以语音转文字功能为基础,附加产品服务、多语种翻译、内容分析等智能化服务功能,满足用户在会议、庭审、采访、直播、视频制作、客服质检等场景中的实时与非实时语音转写需求。智能语音转写产品具备丰富的产品形态,可应用于娱乐传媒、在线教育、会议会展、同传等多行业领域,帮助提升企事业单位办公人群、学生、自媒体从业人员、翻译专业人士等各类群体的工作效率。来源:艾瑞研究院根据公开资料自主研究绘制。智能语音转写产品的需求场景转写功能语种翻译产品服务内容分析实时场景非实时场景提供会议记录及会后整理,可附加会议软件等产品功能提供字幕转写服务,可附加音视频编辑相关产品功能提供语音转写服务,在多语种环境下,

26、附加实时/非实时翻译功能提供人机耦合服务,译员配合智能转写内容优化最终产出提供语音转写服务,对转写文本进行内容追踪、实时提醒、处理分析、风控质检等等操作实时会议记录实时直播字幕实时庭审记录实时客服记录会议纪要总结音视频字幕编辑庭审数据录入黄暴等语音质检对响应时间要求更高,需进行模型蒸馏与模型优化对响应时间要求相对较低,可通过闲时转写实现需求错峰实时采访转写实时会议同传课堂录音分析电话销售/客服122022.12 iResearch I智能语音转写的价值意义存量助力人工转写市场,增量释放更多潜在场景需求传统人力转写市场依赖经验丰富的速录师与人工转写团队,成本相对高昂,而随着智能语音转写产品的规模

27、化落地应用,该类存量市场可借助智能转写产品,实现对人工转写的有效辅助及优化,为下游客户提供更高质效的人机耦合服务;此外,转写应用仍有更大规模的潜在市场需求待挖掘,原受限于渠道、价格等因素,转写产品多应用于有垂类转写需求的小众应用领域,而智能语音转写产品逐步让转写应用实现泛化,市场边界也将逐步扩散,未来智能语音转写产品有望开发更多潜在增量市场,撬动可用智能转写产品满足的长尾需求,进一步优化用户的应用体验。来源:艾瑞研究院根据公开材料自主研究绘制。智能语音转写产品在助力转写人力基础上,可满足更多潜在、可被优化的转写场景需求。智能语音转写产品意义1)优化传统转写人力服务2)满足更多潜在可被优化需求增

28、量市场存量市场本身场景存在潜在转写需求,但人力实现需要高成本或原本人力难以做到,而智能转写产品可开发该类潜在增量市场,释放更多产值规模。传统人工转写费时费力,且转写质量与个人能力高度挂钩,可借力智能转写产品提高存量市场的转写服务渗透率。通过智能语音转写产品撬动更多长尾需求例:个人办公场景,有会议内容的潜在转写需求,出于时长与精力考量不会自做,出于成本考量不会外购,但可通过智能语音转写产品获得优质高效、兼具性价比的转写服务。例:沟通交流场景,在多语种、方言沟通的日常交流环境中,存在潜在语音转写需求,可通过转写产品跨越语言障碍,实现高效沟通。13智能语音转写行业发展背景篇1智能语音转写行业市场分析

29、篇2智能语音转写行业典型企业案例3智能语音转写行业发展趋势篇4142022.12 iResearch I智能语音转写产业图谱来源:艾瑞根据公开资料自主研究绘制。下游应用领域2022年中国智能语音转写产业图谱办公场景传媒场景电商直播翻译场景上游基础设施层产品及解决方案提供商服务器云服务数据服务开源模型智能语音企业云服务厂商专业转写/翻译厂商C端用户B端企业G端政府其他场景152022.12 iResearch I智能语音转写的发展驱力(1/5)智能语音转写可化解人工成本走高与质量要求提升的发展矛盾近十年来,中国人口增势放缓,劳动人口红利见顶,供应结构性短缺致使企业人力用工成本不断攀升。根据国家统

30、计局数据,2020年中国租赁和商务服务业城镇单位就业人员平均工资已达到92924元,相比十年前涨幅已达到1.35倍。人工转写成本的大幅上涨为转写行业带来更多价格压力。此外,随着转写场景的泛化升级,转写需求渗透到各行各业,转写内容专业度也不断提升,具备行业背景知识的转写译员更成为市场供给侧的稀缺人力资源,且转写交付水平存在不稳定性,与个人服务能力高度挂钩。在此发展背景下,转写市场亟需智能语音转写产品,以辅助优化人工转写产品的角度切入,提供低成本、高质量、具备稳定交付水平的转写服务,满足更多市场需求缺口。39566469765316262538671317248976782813938514788

31、1909292418.7%13.2%17.6%7.3%8.0%5.9%6.0%4.6%3.6%5.4%20102011201220132014201520162017201820192020租赁和商务服务业城镇单位就业人员平均工资(元)平均工资增长率(%)2010-2020年中国租赁和商务服务业城镇单位就业人员平均工资情况来源:国家统计局,艾瑞研究院自主研究绘制。162022.12 iResearch I2022.12 iResearch I智能语音转写的发展驱力(2/5)企业协同在线办公常态化,助力转写功能实现更多用户触达2020年初,受疫情影响,很多企业无法按时复工复产,远程办公成为维持社

32、会经济正常运行的重要平台应用,用户需求显著提升,视频会议、电话会议、在线文档编辑等远程协作功能得到更广泛应用。根据中国互联网络发展统计报告数据,2022年月中国在线办公用户规模已跃升至4.7亿,相比2020年6月增长幅度高达131.4%。如今疫情仍在延宕反复,随着用户在线协同办公习惯的逐渐养成,远程协同办公或将成为常态化运营工具,持续推动企业数字化转型。而相较于硬件录音与录音应用的产品形式,会议应用无需用户购买录音设备或额外开启录音应用即可触达转写服务,提供了更直接的应用切入点,助力转写功能在办公场景实现更广泛的用户触达。来源:中国互联网络发展统计报告,艾瑞研究院自主研究绘制。来源:艾瑞研究院

33、自主研究绘制。2018年6月-2022年6月中国在线办公用户规模及使用率2.0 3.5 3.8 4.7 4.6 21.2%34.9%37.7%45.4%43.8%2020.62020.122021.62021.122022.6用户规模(亿人)使用率(%)办公场景对智能转写产品的需求分析录音应用硬件录音会议应用转写产品办公场景e.g.录音笔e.g.语音备忘录e.g.腾讯会议、讯飞听见专业办公人士,高频录音场景,对会议转写有强需求,需要额外硬件设备提供在线/离线转写服务。会议APP提供远程会议平台,通过会议APP录制音视频,为转写产品提供直接功能切入点。通过手机或电脑的录音软件录音,随后将录音文件

34、上传至平台或APP,完成录音文件转写。需要硬件设备 需要额外录音 搭载办公会议平台相较传统需要录音笔与录音应用的场景,协同在线办公平台及会议应用让转写功能触达到更多办公人群,应用渗透率进一步提升。172022.12 iResearch I2022.12 iResearch I智能语音转写的发展驱力(3/5)网络视频兴起,为转写产品开拓更多应用空间随着数字技术与互联网技术的普及,网络视频快速发展,短视频因满足用户高涨的碎片化娱乐需求而迎来一拨爆发式增长,进一步提升用户对整体网络视频领域的关注度与渗透率。如今网络视频已然成为人们生活娱乐、了解信息的重要组成形式。根据中国互联网络发展统计报告数据,2

35、022年6月,中国网络视频用户规模已经达到9.9亿人,占全部网民的94.6%。作为网络视频的供给方,自媒体工作者、长视频内容编辑方均对视频内容的字幕转写具备强需求,一方面字幕可帮助用户更好观看视频内容,并在静音模式也不影响观看;另一方面字幕转写还可提供翻译功能,助力网络视频在国际环境下的推动传播;此外,对于平台监管方来说,语音转写可服务于平台内容监控需求,及时进行内容管理,避免网络直播及视频带来的合规风险。综合来看,网络视频的长足发展为转写产品开拓了更多市场应用空间。来源:中国互联网络发展统计报告,艾瑞研究院自主研究绘制。来源:中国互联网络发展统计报告,艾瑞研究院自主研究绘制。7.1 7.2

36、7.6 8.5 8.9 9.3 9.4 9.7 9.9 88.7%87.5%88.8%94.1%94.5%93.7%93.4%94.5%94.6%2018.62018.122019.62020.32020.62020.122021.62021.122022.6用户规模(亿人)使用率(%)2018年6月-2022年6月中国网络视频(含短视频)用户规模及使用率网络视频对智能转写产品的需求分析自媒体多语种转写长视频编辑语音内容监控服务于内容生产用户,智能切分时间轴。生成带时间戳的转写字幕内容,支持在线编辑调整,极大提升自媒体工作者的字幕配置效率。为外语视频提供转写及翻译服务,可根据需要配置专业翻译团

37、队,实现高效人机耦合,完成多语种的字幕制作及翻译需求。服务于长视频编辑工作者,例如电影、纪录片等,长视频的语音转写更强调上下文联系及方言理解,对语音技术提出更高要求。实时转写可实时识别直播内容风险,并给出及时警告提示;非实时转写可对平台内容进行进一步甄别提示。182022.12 iResearch I2022.12 iResearch I智能语音转写的市场环境(4/5)会展双线融合举办不断提升,SaaS转写产品需求走高在2020年以前,会展行业多在线下举行。面对国际语言的交流环境,会展行业的字幕转写产品大多采用线下人机耦合的服务模式,即专业的语音转写服务团队与硬件机器设备相结合,为会展交流提供

38、字幕上屏、多语种同传等的现场会议服务。而在疫情多点散发的情况下,会展活动的举办面临很多不确定性因素。根据中国会展主办机构数字化调研报告显示,2021年,疫情导致各类会展活动取消、延期、异地举办,会展活动选择线上线下相结合模式举办成为常态。字幕转写产品形态也由原来线下的人机耦合形式逐渐倾向于线上SaaS服务形式,并可配合线上人工智能服务团队或翻译团队提供实时校验服务。此外,SaaS产品形态的需求延伸进一步丰富转写产品的客群覆盖度,除会展举办方外,更多C端用户也可通过SaaS转写及翻译产品满足个人国际参会、实时翻译的会展需求。2021年中国会展主办机构办展办会方式注释:N=195。来源:DRCEO

39、:中国会展主办机构数字化调研2022,艾瑞咨询研究院整理及绘制。2021年中国会展主办机构调研主要数据注释:N=195。来源:DRCEO:中国会展主办机构数字化调研2022,艾瑞咨询研究院整理及绘制。根据调研显示,近70%的主办机构选择双线融合办展的方式,线上线下结合已成为会展常态。u双线融合办展趋势31.3%的机构认为数字化转型是大方向,超过50%的机构已经开始数字化转型尝试。u数字化转型方向根据调研显示,超过60%的会展机构能获得各位数字化收入。但数字化收入占比有待提升。u数字化收入占比超过90%的机构对数字化转型呈积极与乐观态度,该比例相较于2020年提升6个百分点。u数字化转型态度73

40、5083271022131483320214910161纯线下举办纯线上举办线上+线下相结合举办1-3场(个)4-5场(个)6-10场(个)10场以上(个)以上均没有举办(个)线上会展成为线下举办的延伸助力,线上+线下呈现深度融合的发展趋势192022.12 iResearch I2022.12 iResearch I智能语音转写的市场环境(5/5)转写产品助力解决出海生态下的复合型翻译人才需求近年来虽然新冠疫情反复、地缘冲突加剧,全球经济发展变数频发,但中国企业出海浪潮已逐渐越过探索期,在视频、游戏、电商、企业级SaaS服务等各领域催生出“出海繁荣”。2021年,中国对外直接投资净额1788

41、.2亿美元,比上年增长16.3%,连续十年位列全球前三,且超越出现统计数据以来首次负增长的2017年绝对值。目前,由于海外市场仍处于高速增长阶段且出海市场各赛道集中度不高,我国出海行业仍具有极大潜力,在企业业务运营、跨国交流等领域对复合型翻译人才需求较大。根据中国翻译协会调研,高级翻译人才稀缺、非通用语种人才匮乏、高校教育与实际工作需求脱节、无法满足多个专业领域翻译需求是翻译行业面临的发展难点。在此背景下,智能语音转写产品的翻译及同传功能,不仅能有效提高翻译工作者的工作效率,同时人机耦合的形式也使各领域的非翻译专业人才具备完成业务需要翻译工作的可能性。来源:商务部、国家统计局和国家外汇管理局,

42、艾瑞研究院绘制。来源:中国翻译协会2022中国翻译人才发展报告,艾瑞研究院绘制。2016-2021年中国对外直接投资净额1582.9 1430.4 1369.1 1537.1 1788.2-19.3%-9.6%-4.3%12.3%16.3%20172018201920202021中国对外直接投资净额(亿美元)增长率(%)2021年中国复合型翻译人才需求情况31%27%13%8%8%7%6%外交学、国际关系新闻传播类理工及其他专业法学类经济学类哲学类、中国语言文学类电子信息类、管理科学与工程类202022.12 iResearch I智能语音转写的行业规模需求活力持续注入,预计2026年市场规模

43、达38亿目前,智能转写产品率先在办公会议、传媒音视频、会展交流等领域展开应用,用户接受度日益成熟。据艾瑞研究院统计测算,2021年中国智能语音转写市场规模已约为10亿元。未来,随着智能转写的技术突破、功能丰富及场景泛化,智能转写市场规模将加速上扬。此外,转写产品可结合NLP、知识图谱技术在单纯转写内容的基础上升级为分析策略的输出层级,释放更多价值势能,预计2026年中国智能语音转写行业市场规模将达到38亿元,2021-2026 五年CAGR=30.7%。来源:艾瑞研究院根据桌研与专家访谈自主建模测算。2021-2026年中国智能转写行业规模10131722293828.3%29.9%31.1%

44、32.9%31.4%20212022e2023e2024e2025e2026e智能转写行业规模(亿元)智能转写行业规模增长率(%)212022.12 iResearch I智能语音转写的参与者类型以语音技术、产品生态、细分领域为多样立足点根据参与厂商的市场立足点划分,智能语音转写赛道的玩家可分为语音技术厂商、云服务厂商与专业转写及翻译服务商。其中语音技术厂商在语音识别能力、转写服务水平上具备先发优势,且投入足够精力进行技术研发与产品打磨,产品化能力优秀,现占据智能语音转写市场的主流厂商地位;而云服务厂商的转写能力对内服务于内部产品的转写功能需求,对外多选择开放语音转写能力达成外部合作以丰富平台

45、生态,垂直于转写的产品化能力较弱;专业转写及翻译厂商通常以细分领域切入,深耕于办公、翻译、传媒等某个细分领域,在垂类市场提供精细化、客制化产品及解决方案,满足细分客户的转写服务需要。来源:艾瑞研究院自主研究绘制。智能语音转写参与者类型分析以语音技术切入以产品生态切入以细分领域切入语音技术厂商云服务厂商专业转写/翻译厂商强于语音识别能力,为客户提供语音转写接口、SaaS产品及全套解决方案等多样化转写产品形式。除软件服务外,硬件设备是触达用户的核心端口,部分语音技术厂商选择从AIoT领域切入,依托于智能耳机、智能录音笔、智慧屏等智能硬件产品进一步开拓转写应用场景传统转写或翻译服务商,持续积累垂直转

46、写需求客群,顺应智能转写技术发展,切入细分领域,提供人机耦合的优化产品服务。依附公司产品生态,见长于平台化能力,在办公、泛娱乐、教育等场景搭配软硬件产品输出转写能力,一般分为对内与对外服务厂商代表:科大讯飞、搜狗听写、思必驰、捷通华声厂商代表:阿里云、腾讯云、百度云、火山引擎厂商代表:网易见外、迅捷语音222022.12 iResearch I智能语音转写的产品形态包括SaaS类产品及本地化部署解决方案,均可结合智能硬件智能语音转写服务的产品形态主要包括SaaS类产品与本地化部署解决方案两大类。以SaaS类产品为主,其核心是提供云端语音识别及转写服务,根据客户分类与应用情景差异,包括轻量级的网

47、页版/APP/PC/小程序产品和提供给B/G端客户的API开发接口。SaaS类产品的主要特点是价格相对便宜、便捷度较高;而本地化部署的解决方案主要是为了满足客户的安全隐私与定制化需求,例如接入到政企内部办公平台等,需要服务商具备定制化开发能力。此外,为了提升语音采集的质量及多样化的移动应用场景,头部厂商如讯飞听见、搜狗听写等开发了种类丰富的功能性智能转写硬件,如录音笔、麦克风、智慧屏等,可提供云端或本地转写、录音、存储、编辑一体服务。来源:艾瑞研究院根据公开资料自主研究绘制。智能语音转写产品形态提供单机版软件/私有化部署SDK接口,在本地可运行语音识别及转写能力。满足客户的定制化需求与安全隐私

48、需求,但部署成本高,主要面向对数据安全需求较高的大型企业或公检法、广电传媒等政府客户通过硬件内置芯片与本地词库,提供本地/离线转写服务。满足对数据及网络安全、便捷性及移动办公等需求。移动端转写能力与实用性的提升,扩充转写功能的适用范围SaaS类产品本地化部署解决方案通过Web/APP/PC/小程序等提供云端语音识别及转写服务,主要服务于C端客户或企业账户,企业账户或具备空间管理、协同编辑等增值服务。通过行业词库和模型优化,产品可满足传媒、教培、金融、客服等多场景应用需求以录音笔、麦克风、智慧屏等语音采集硬件为依托,调用云端语音识别及转写能力利用麦克风阵列,通过声学技术保障拾音效果,以提升语音采

49、集精准度。软硬一体形式提升转写质量及效率,并满足会议、访谈等多类型需求场景丰富消费级智能硬件产品形态,提高产品售价、促进营收增长智能硬件价值点提供封装语音转写能力的API接口。下游应用开发商和手机、录音笔等智能终端厂商可进行集成232022.12 iResearch I智能语音转写的收费模式与用户画像知识密集行业用户的办公效率提升利器,下游客户类型丰富1)SaaS产品的前期投入主要集中于产品研发以及固定的IT支出,得益于其能够同时为多租户提供服务的特性,使得SaaS的边际成本极低。这既给SaaS厂商带来了相当可观的边际利润,也让厂商在面对同类竞争时得以在价格上做出更多让步。对于C端客户的语音转

50、写服务需求,产品提供方在早期一般采取低价或免费试用时长的模式集聚用户,占领用户心智,迅速做大用户量。后期营收增长依赖满足准确率与实时率下的刚需客户续费率、深耕多样化场景以拓宽潜在客户市场、软硬一体的智能硬件产品拉高营收等;而企业客户的价格敏感度则相对较低,更关注转写精准度和实时性体验等。对于远程会议、视频剪辑、CRM等下游应用,则多将语音转写作为附加功能提供增值服务,用户可付费解锁。2)本地部署解决方案可满足政企客户的定制化与安全隐私需求。但部署成本高,项目制报价形式涵盖软件服务、实施与运维、硬件设备等费用。客户在关注转写效果的同时,亦关注安全性、驻场训练语料、设备安装等实施及售后服务能力。来

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 研究报告 > 其他

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服