收藏 分销(赏)

中国声纹识别产业发展白皮书 2.0——12大变化趋势.pptx

上传人:宇*** 文档编号:2276923 上传时间:2024-05-24 格式:PPTX 页数:39 大小:2.64MB
下载 相关 举报
中国声纹识别产业发展白皮书 2.0——12大变化趋势.pptx_第1页
第1页 / 共39页
中国声纹识别产业发展白皮书 2.0——12大变化趋势.pptx_第2页
第2页 / 共39页
中国声纹识别产业发展白皮书 2.0——12大变化趋势.pptx_第3页
第3页 / 共39页
中国声纹识别产业发展白皮书 2.0——12大变化趋势.pptx_第4页
第4页 / 共39页
中国声纹识别产业发展白皮书 2.0——12大变化趋势.pptx_第5页
第5页 / 共39页
点击查看更多>>
资源描述

1、中国声纹识别产业发展白皮书 2.012大变化趋势联合发布单位:清华大学人工智能研究院听觉智能研究中心AIIA-得意音通声纹技术联合实验室中国电信股份有限公司研究院目录CONTENTS07080910公安等部门加速声纹采集 建库规范提上日程后疫情时代“无接触”带来新机遇010203040506关键词搜索趋热 声纹关注场景化核心技术人才遭争抢 渗透至二三线城市投资事件不降反升 投资规模趋于理性金融监管渐步正轨 利好政策逐年出台动态密码成最佳实践 声纹登录开始普及多元化需求开始涌现 技术成熟度参差不齐电话信道声纹识别结合元数据为企业赋能标准建设推进深水区 示范带动作用明显 多模态技术蓬勃发展“声纹+

2、人脸”融合验证成趋势 1112Deepfake诈骗兴起 音视频鉴伪技术成焦点后疫情时代 “无接触”带来新机遇Part.01Part.01后疫情时代 “无接触”带来新机遇指纹打卡交叉传染刷脸支付要摘口罩2020年2月,国务院在印发复工复产疫情防控措施指南的通知中提出“使用指纹考勤机的单位应暂时停用。”同月,由中国人民银行营业管理部制定的北京市非银行支付机构复工复产防疫工作指引提出要优化和丰富“非接触式服务”渠道和场景,强调疫情防控期间,暂缓人脸识别支付商户拓展。疫情之下,有效阻断“人传人”的传播链条是关键。于是,机器人承接了消毒清洁、送药送餐、诊疗辅助等“一线工作”,VR看房、在线娱乐、在线教育

3、等也成为大众居家必备之选,而打造远程银行、无人工厂的需求也比以往任何时候都更为迫切。这些“非接触式”服务的变革,不仅催生了新的经济模式“非接触经济”,如在线办公、在线医疗等,还为声纹识别带来新的产业机遇。关键词搜索趋热 声纹关注场景化Part.02Part.02关键词搜索趋热 声纹关注场景化声纹识别,最初大家的关注点更多是从学术端来考虑,较少有人从应用端考虑。从2019年发布1.0版白皮书至今一年半的时间,人们的关注点开始向场景侧下沉,更加聚焦,更加落地。信息源:百度、京东、微信搜索等投资事件不降反升 投资规模趋于理性Part.03Part.03投资事件不降反升 投资规模趋于理性2家5家2家6

4、家012345近年来声纹技术厂商融资份额统计“资本寒冬”贯穿了2019-2020年始末,到处都是坏消息,然而声纹识别是个例外,在资本寒冬中站上风口。虽然投资总额不如2018年,投资事件数却在经历2019年沉淀和2020年疫情考验后逐渐复苏,不降反升,成为资本市场新宠。信息源:天眼查、企查查核心技术人才遭争抢 渗透至二三线城市Part.04Part.04核心技术人才遭争抢 渗透至二三线城市声纹识别算法工程师声纹识别研发工程师声纹识别工程师声纹AI工程师主要城市北京薪资范围(月薪)50-70K40-50K30-40K20-30K12-20K上海武汉绵阳厦门深圳杭州近期国内部分城市声纹识别核心技术人

5、才招聘信息统计市场需求上升后,技术投入也在同步增加,未来声纹行业领域人才的争夺将日趋激烈。信息源:智联、拉勾、猎聘、等招聘平台金融监管渐步正轨 利好政策逐年出台Part.05Part.05金融监管渐步正轨 利好政策逐年出台试点应用试点应用试点应用试点应用场景征集场景征集场景征集场景征集产品认证产品认证产品认证产品认证标准颁布标准颁布标准颁布标准颁布2018年11月我国金融领域第一个生物特征识别安全应用技术标准移动金融基于声纹识别的安全应用技术规范出台。2019年10月市场监管总局、央行对外发布了金融科技产品认证目录(第一批),声纹识别系统作为唯一的生物特征识别技术产品被纳入首批认证目录。202

6、0年9月中关村管委会发布2020年金融科技支持资金征集示范应用场景的通知,基于声纹识别等前沿技术在远程开户模拟场景的应用被列为金融科技示范应用场景重点方向。2020年11月人民银行广州分行声纹识别金融服务试点应用取得初步成效;人民银行济南分行实现以声纹识别等新型网络身份认证技术,提升金融服务可得性和满意度。2020年2月个人金融信息保护技术规范正式实施。此次规范对个人信息按照敏感程度进行了界定,动态声纹密码动态声纹密码被列入C2级别敏感程度。这是“动态声纹密码”首次从“个人生物识别信息”中脱离出来,和动态口令并列,作为一种隐私敏感程度较低的个人信息类型被行业认可。动态密码成最佳实践 声纹登录开

7、始普及Part.06Part.06动态密码成最佳实践 声纹登录开始普及移动金融声纹应用市场份额现有金融应用场景分布随着2018年央行移动金融基于声纹识别的安全应用技术规范的颁布,以及2019年金融科技产品认证的出台,金融业继续稳居声纹识别产业的第一大民用领域。截止2020年下旬,约有30家银行机构采购了声纹识别技术产品,其中基于“动态声纹密码”的声纹登录场景首当其冲成为金融业第一大应用场景。信息源:金采网公安等部门加速声纹采集 建库规范提上日程Part.07Part.07公安等部门加速声纹采集 建库规范提上日程电信诈骗案件呈现井喷趋势,声纹特征在公共安全领域的应用价值日益凸显。为有效防止此类案

8、件给人民财产安全带来的危害,公安部将声纹识别技术纳入防治举措的方案,并开展声纹采集设备选型。各地公共安全领域相关部门也在加大声纹采集力度。与此同时,声纹数据库建设工作和建库规范也开始提上日程。全国范围内已开展声纹采集&建库的省份(部分)信息源:中国政府采购网标准建设推进深水区 示范带动作用明显 Part.08Part.08标准建设推进深水区 示范带动作用明显 基础定义基础定义算法要求算法要求数据管理数据管理2018年10月中国人民银行中国人民银行发布移动金融基于声纹识别的安全应用技术规范应用规范应用规范2008年3月由工业和信息化部工业和信息化部发布自动声纹识别(说话人识别)技术规范2010年

9、12月由公安部公安部发布安防生物特征识别应用术语2014年8月公安部公安部发布安防声纹确认应用算法技术要求和测试方法2018年5月25日,信息技术移动设备生物特征识别第5部分:声纹、信息技术生物特征数据交换格式第13部分:声纹数据由全国信息技术标准化技术委员会全国信息技术标准化技术委员会予以立项2020年7月,全国信息安全标准化技术委员会全国信息安全标准化技术委员会发布关于2020年第二批网络安全国家标准项目立项建议征求意见的通知,其中声纹识别数据安全要求被纳入立项建议。2018年11月25日,声纹数据采集、建库的技术要及声纹数据质量评价标准已通过公安部公安部立项2020年11月中国人工智能产

10、业发展联盟(中国人工智能产业发展联盟(AIIAAIIA)发布声纹识别(说话人识别)基础服务指标要求和评估方法多元化需求开始涌现 技术成熟度参差不齐Part.09Part.09多元化需求开始涌现 技术成熟度参差不齐(1)文本无关(Text-Independent)不规定说话人的发音内容,模型建立相对困难,验证所需有效语音较长,但用户使用方便,可应用范围较宽。(2)文本相关(Text-Dependent)要求用户模型建立与识别需按照规定的内容发音,可以达到较好的识别效果和效率,但防录音假冒攻击能力弱。(3)文本提示(Text-Prompt)介于文本无关和文本相关之间,系统随机生成识别内容,准确率高

11、且能有效解决防攻击问题。数字动态码是典型应用。按任务分类按内容分类(1)声纹确认(1:1)即给定一个说话人的声纹模型和一段只含一名说话人的语音,判断该段语音是否是该说话人所说。适用场景:金融、社保、政务等。(2)声纹辨认(1:N)即给定一组候选说话人的声纹模型和一段语音,判断该段语音是哪个说话人所说。适用场景:公安、安防等。Part.09多元化需求开始涌现 技术成熟度参差不齐1:N 辨认1:1 确认文本相关文本无关文本提示声纹识别技术按照两种不同分类的技术成熟度雷达图Part.10基于电话信道声纹识别 可结合元数据为企业赋能Part.10基于电话信道声纹识别可结合元数据为企业赋能在电话信道环境

12、下,通信网络产生的电话录音,经预处理子系统(如转码、角色分离、降噪)处理后将其传入系统声纹数据库,将用户的声音注册到声纹库中。在实际商业场景中,企业客户如呼叫中心等产生的实时通话的语音流经过声纹识别系统,利用算法与模型提取话音数据中说话人的声纹特征并与声纹库进行比对。从而为业务系统或呼叫中心提供声纹辨认或声纹确认服务。呼叫中心呼叫中心/企业业务系统企业业务系统实时语音流识别结果声纹识别平台声纹识别平台语音数据语音数据预处理预处理声纹库声纹库 特征比对通信大网通信大网算法模型算法模型声纹注册声纹验证1.基于电话信道的声纹识别处理流程 单通道双通道无感知注册有感知注册角色分离语音转码元数据和语音数

13、据采集元数据:关联提取、清洗、格式转换语音数据:角色分离、VAD、语音抽取数据分析语音识别:文本转写声纹识别:特征提取深度分析:性别年龄数据加工:用户画像数据融合2.电话信道的语音,所关联的元数据携带的属性极其丰富,和声纹、语义特征融合后,增值企业大数据资产,并更好地为企业应用服务l元数据:话音数据相关的业务基础数据如用户基础信息、通话日志、话单、手机号码、套餐等、呼叫类型和标示。l数据采集:话音与元数据的预处理子系统。l数据分析:对话音数据进行声纹与文字的识别与加工。l数据融合:将以上数据加以整合、关联与存储。语音语音大数据大数据元数据元数据声纹特征声纹特征语义特征语义特征文本文件关键字搜索

14、音频文件录音调听通用属性业务属性自然属性声纹库特征提取搜索声纹声纹属性属性文本文本音频音频Part.10基于电话信道声纹识别可结合元数据为企业赋能Part.10基于电话信道声纹识别可结合元数据为企业赋能l 噪声和采样率影响:电话信道噪声及环境噪声的叠加,电话采样率较专业收音设备采样率低,多以6K,8K为主,同时由于电话信道多为对话语音,角色分离的准确率不高,这几方面因素都对声纹识别准确率造成影响。l实时流处理难度高:电话信道的声纹识别使用场景大多数为实时对话,需处理实时流,需要从核心网设备或呼叫中心服务器同步语音流,并与元数据对应,实施难度大。l 被动采集涉及隐私保护问题:基于电话信道的声纹识

15、别可实现无感知注册及验证,但会涉及隐私保护问题。此外,被动采集声纹信息,音频质量不可控也是难点。l跨信道训练与预测:由于基于电信信道中文的大数据集的缺乏,模型的训练可能基于非电话信道数据,而模型的预测为电话信道数据,导致精度的下降。3 基于电话信道的声纹识别目前还面临着许多挑战:Deepfake诈骗兴起 音视频鉴伪技术成焦点Part.11Part.11Deepfake诈骗兴起 音视频鉴伪技术成焦点2019年,美美国国众议院议长南希佩洛西遭到虚假视频恶搞。2019年6月,马克扎克伯格的假假视视频频在国外社交媒体Instagram 和Facebook 上广为流传。据美国网络安全公司Symantec

16、研究人员表示,他们发现至少有三起公司高管的声音被人模仿以用于电信诈骗。其其中中一一起起案案件件的损失总计达数百万美元的损失总计达数百万美元。2020年4月,某叛乱组织在Facebook上发布了比比利利时时总理索菲维尔梅斯关于森林砍伐与COVID-19之间可能联系的虚虚假假演演讲讲视视频频,24小时内超过十万人观看。2019年,英英国国某能源公司高管在一个小时之内通过匈牙利供应商向一诈骗犯转账2424万美元万美元,仅因诈骗犯通过AIAI语音合成语音合成技术仿造了其母公司CEO的声音。2019年6月,网上曝出马马来来西西亚亚经济部长Azmin Ali与男性发生关系的假视频假视频。2020年,多起“

17、假靳东”事件发生,不法分子在短视频平台冒充明星,利用中老年人对网络的陌生感进行情感勒索和经济诈骗。2019年,珠海小伙遭遇“熟人”微信语音借钱被骗10400元;南京男子遭骗子订制熟人语音被骗数千元。Part.11Deepfake诈骗兴起 音视频鉴伪技术成焦点四种语音伪造对比模仿伪造韵律、口音、发音等高阶说话人特性易欺骗人耳,难欺骗声纹识别系统未见研究证明其具有显著威胁性首先使用麦克风进行语音录制其次使用扬声器播放伪造语音进行攻击最常见、易实施、威胁大基于规则(共振峰)、数据(单元选择)、参数(声带激励、声道调制)、端到端(频谱)的合成技术通过声码器(Griffin-Lim、WaveNet等)合

18、成伪造语音进行攻击人声模仿录音重放语音合成声音转换间间接接攻攻击击直直接接攻攻击击Part.11Deepfake诈骗兴起 音视频鉴伪技术成焦点直接攻击的鉴别方法ASVspoofing PA 2019Rank 1 基于信号相似性的鉴别方法基于信号失真的鉴别方法基于以真鉴假的鉴别方法基于物理现象的鉴别方法Part.12非接触多模态技术蓬勃发展 “声纹+人脸”融合验证成趋势 Part.12非接触多模态技术蓬勃发展 “声纹+人脸”融合验证成趋势 1视频实时视频实时采集采集采集采集人人人人脸质脸质量量量量检测检测人人人人脸脸活体活体活体活体检测检测语语音音音音实时实时采集采集采集采集声声声声纹识别纹识别

19、语语音音音音识别识别人人人人脸识别脸识别唇唇唇唇语识别语识别戴口罩分戴口罩分戴口罩分戴口罩分类检测类检测如一个身份识别场景中,同时利用“声纹+人脸”的识别结果做综合判别声纹声纹识别识别人脸人脸识别识别语音识别语音识别&语义理解语义理解1 商业趋势:精度要求:单个识别技术如人脸识别对于光照强弱、口罩遮挡、表情变化、尺度变化、设备采集角度等常见问题有局限性,精度无法达到某些场景下商业要求安全保障:人脸识别广泛应用后,个人隐私数据被各类系统广泛采集,仅凭单一识别技术存在漏洞和安全风险,特别是涉及金融支付、用户认证等。体验提升:疫情影响下,在电梯、门禁、闸机、取款设备等多种场景下都提出了非接触需求,多

20、模态技术融合后的产品形态将会明显提升用户使用体验。Part.12非接触多模态技术蓬勃发展 “声纹+人脸”融合验证成趋势 由美国国家标准与技术研究所(NIST)主办的说话人识别评估自1996年以来一直是最具代表性的说话人识别竞赛之一。来自世界各地的研究团队不断探索用于说话人识别的新算法和最新技术。2019年NIST说话人识别评估(SRE19)包括两个独立的活动:1)CTS:TheevaluationdataisconversationaltelephonespeechobtainedfromCallMyNet2(CMN2)corpus.2)Multimedia:Theevaluationdata

21、includesaudioandvisualdataobtainedfromVideoAnnotationforSpeechTechnology(VAST)corpus.多媒体:评价数据包括语音技术视频标注(VAST)语料库中的音频和视频数据。新加坡国立大学HLT-NUS基于NIST 2019任务发表最新成果:声纹系统:x-vector;人脸系统:ResNet/insightface在此篇论文中,audio-visual的Fusion:AV的EER相比单独任务的EER等指标有明显的下降2 国际趋势:NIST 2019主任务为Audio-Visual联合识别,国际学术界率先进行验证2HLT-NU

22、SSubmissionforNIST2019MultimediaSpeakerRecognitionEvaluation作者:RohanKumarDas,RuijieTao,JichenYang,WeiRao,ChengYu,HaizhouLi备注:AcceptedforpublicationinAPSIPAASC2020链接:https:/arxiv.org/abs/2010.039051 NIST 2019 Speaker Recognition Evaluationhttps:/www.nist.gov/itl/iad/mig/nist-2019-speaker-recognition-

23、evaluationPart.12非接触多模态技术蓬勃发展 “声纹+人脸”融合验证成趋势 3 技术趋势:Cross-modal联合建模助力技术发展 任务相关,信息共享因人脸和声纹中的信息和参数相关,其embedding也有高度的相关性,所以可将融合在一个架构和模型中 单独执行、综合判别各个模块单独识别、然后用逻辑条件进行综合判别。无法充分利用关联参数,当多个单任务的判别结果相悖时,例如声纹验证通过,但人脸验证失败,如何判别是难点单模态建模多模态建模图引自:Audio-visual Speaker Recognition with a Cross-modal Discriminative Net

24、work作者:Ruijie Tao,Rohan Kumar Das and Haizhou Li 链接:https:/arxiv.org/pdf/2008.03894.pdf 多模态的模型架构在语音领域还可以主要可以应用在:语音内容和说话人身份同时识别语种和说话人身份同时识别等编制声明本白皮书版权属于清华大学人工智能研究院听觉智能研究中心、AIIA-得意音通声纹技术联合实验室以及中国电信股份有限公司研究院。文中部分数据来源于企业官网及新闻报道等网络公开信息整理,转载、摘编或利用其它方式使用本白皮书文字、图片及观点的,应注明来源。违反上述声明者,编者将追究其相关法律责任。信息反馈联系方式微信服务号:deyiyintong联合主编:清华大学人工智能研究院听觉智能研究中心主任郑方中国人工智能产业发展联盟(AIIA)总体组组长孙明俊中国电信研究院业务与应用创新研究所团队总监赵德欣编写人员:得意音通研究院:成舸、王钰、李帅中国信息通信研究院:曹峰、李荪中国电信研究院:曾然然、林悦、杨杰、常逞39Thanks

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 研究报告 > 其他

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服