收藏 分销(赏)

基于端到端建模的低资源连续语音关键词识别系统.pdf

上传人:自信****多点 文档编号:633829 上传时间:2024-01-19 格式:PDF 页数:7 大小:2.36MB
下载 相关 举报
基于端到端建模的低资源连续语音关键词识别系统.pdf_第1页
第1页 / 共7页
基于端到端建模的低资源连续语音关键词识别系统.pdf_第2页
第2页 / 共7页
亲,该文档总共7页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、PAGE060经验交流Experience Exchange语音关键词识别具有广阔的市场应用需求。在嵌入式领域,由于嵌入式设备资源有限,应用场景复杂多变,对语音关键词识别系统提出了资源占用少,低功耗,响应快,系统鲁棒性好等更高要求。本文设计实现的低资源连续语音关键词识别系统基于端到端声学建模,采用知识蒸馏、模型量化、模型剪枝的方法将模型占用资源压缩到了3 6.8 K 字节,系统运行资源占用约1 3 3 K 字节。本文提出的连续语音关键词解码算法相比于传统的孤立词解码算法,噪声环境下的召回绝对提升6.8 8%。系统在主频1 2 0 M,内存2 5 6 K 字节的B K 3 2 8 8 低功耗S

2、O C 平台上进行2 0 个关键词的识别测试,达到安静环境下召回率9 6.8 6%,噪声环境召回率7 4.8 1%,虚警0.2 次/小时的识别性能。Speech keyword spotting has a wide range for applications.In the embedded field,due to the limited resources of embedded devices and the complex and changeable application scenarios,higher requirements are proposed for speech

3、keyword spotting systems,such as low resource consumption,low power consumption,fast response and high robustness.The low-resource continuous speech keyword spotting system designed and implemented in this paper is based on end-to-end acoustic modeling.The model is compressed to 36.8K bytes through

4、knowledge distillation,model quantization,and model pruning.The system requires approximately 133K in runtime.Compared with the traditional isolated word decoding algorithm,the recall of continuous speech keywords proposed in this paper has an absolute increase of 6.88%in noisy conditions.The system

5、 is tested on the BK3288 low-power SOC with a main frequency of 120M and memory of 256K bytes with 20 keyword entries.The recognition performance achieves a recall rate of 96.86%in a clean condition,a recall rate of 74.81%in noisy conditions,and a false alarm rate of 0.2 times per hour.低资源 语音关键词识别 模

6、型压缩 令牌传递low-resource;speech keyword spotting;model compression;token passingDoi:10.3969/j.issn.1673-5137.2023.04.008摘 要 Abstract关键词 Key Words0.引言语音关键词检索(Keyword Spotting,KWS)即从语音中检索出用户感兴趣的关键词的技术。关键词检索的应用场景广泛,比如客服质检,骚扰电话敏感词汇过滤等。随着人工智能技术和嵌入式硬件设备的快速发展,语音关键词检测越来越受到产业界的重视。在嵌入式设备中典型的应用场景为根据用户的语音指令来唤醒或控制智能

7、设备,比如:智能音响,智能家电控制,智能机器人交互等。唤醒词检测(Wake-up Word Detection)和指令识别(Command Recognition)都可以归类到关键词检索的范畴。不同于桌面平台上的关键词识别,嵌入式设备上资源有限,还需尽量保持“时刻监听”的状态,另外对交互延时的要求较高,所以对嵌入式关键词检索系统一般都有资源占用少,低功耗,实时性的严苛要求。此外,需要应对在不同场景下噪声以及无关人声的干扰,对系统鲁棒性要求越来越高。语音关键词检索技术经历了第一阶段“基于模板匹配”1和第二阶段基于“HMM-GMM”2的发展,目前已进入到“基于深度神经网络”实现的第三阶段。近些年嵌

8、入式低资源语音关键词检索相关研究工作集中在神经网络架构设计(前馈3/卷积4/循环5-7神经网络,WaveNet8)和模型压缩方法9-11的研究上。网络通常在帧级使用交叉熵损失函数(Cross Entropy Loss,CE)进行训练,另外连接时间分类损失(Connection Temporal Classification,CTC)12-13函数因消除了时间点对齐的依赖而越来越受欢迎。基于端到端建模的低资源连续语音关键词识别系统 陈芒(深圳市轻生活科技有限公司 广东 深圳 518045)PAGE061经验交流Experience Exchange低资源设备的关键词检索系统,神经网络参数规模受限

9、。当神经网络很小时,容易出现音素或字素预测错误,导致关键词检出正确率下降或虚警增加。低资源设备的关键词检索技术也是近些年来的研究热点。Arik S O等人,使用230k参数量的CRNN模型,在5db信噪比环境下得到了虚警0.5次/小时,识别准确率97.71%的性能14。Mittermaier S等人采用Sinc卷积直接对原始音频提取特征,利用分组深度可分离的卷积技术进一步减少内存,在谷歌的语音命令测试集上使用62k参数量的模型得到了96.4%的识别准确率15。在本文中,我们探索了一种基于CTC训练的由卷积循环神经网络(Convolutional Recurrent Neural Network

10、,CRNN)层组成的声学模型,利用知识蒸馏,模型量化,裁剪等方法进行模型压缩;利用预先设定的关键词得到精简的搜索空间,通过令牌解码有效地进行关键词检索。我们将系统进一步优化,可以在低资源设备上实时运行,以检测自然口语语音中的关键词。在20个46字不等的关键词识别任务中,我们实现了使用更少参数量(36.3K),更少内存占用(36.8K)的CRNN模型,在低功耗SOC平台上安静环境下召回96.86%,噪声环境召回74.81%,虚警0.2次/小时的识别性能。系统架构如图1所示。图1:低资源连续语音关键词识别系统架构图语音数据首先经过前端信号处理模块进行降噪(Automatic Noise Suppr

11、ession,ANS)、增强(Audio Gain Control,AGC)和端点检测(Voice Activity Detection,VAD)处理。然后提取增强后有效语音的梅尔频率倒谱系数(Mel-scale Frequency Cepstral Coefficients,MFCC)特征,特征数据再进行声学前向推理,得到音素的后验概率分布。之后,在关键词构建的解码搜索空间上搜索最优的识别结果,满足阈值要求的关键词识别结果即为最终结果。本文的主要贡献如下:1)我们实现了一种CRNN网络的CTC关键词识别建模方法。2)我们设计了关键词表相关的低资源模型压缩方法。3)我们设计了在线检索语音流中关

12、键词的解码方法。本文第1部分介绍低资源端到端声学模型的构建方法,第2部分介绍孤立词和连续语音流中关键词的解码搜索算法,第3部分为实验设置,第4部分为实验结果和分析,第5部分为总结。1.端到端声学模型建模本文构建了一个多层CRNN神经网络模型,该模型使用CTC损失函数进行训练,如1.1节所述。为减少内存占用和提升计算速度,我们采用了知识蒸馏、模型量化、模型剪枝的方法对模型进行压缩,如1.2节所述。1.1 基于CTC的语音识别建模方法1.1.1 特征选择本系统选用40维MFCC作为声学特征,梅尔刻度是一种基于人耳对等距音高变化的感官判断而定的非线性频率刻度,与人耳听觉相符,是语音识别中常用的声学特

13、征14-16。1.1.2 建模单元选择对于端到端中文语音识别系统来说,建模单元可以有多种选择,如分词、字素、音素等。字素是目前端到端语音识别最常采用的一种建模单元,中文常用汉字有3500个以上,不合适作为低资源声学模型的建模单元。本系统采用中文有调音素建模,加上空白标签blank,建模单元数量共178个,大大减少了模型参数量,模型训练也更容易收敛。1.1.3 模型结构选择模型结构上采用CNN+GRU的卷积循环神经网络结构。其中CNN(Convolutional Neural Network,卷积神经网络)可以对提取到的语音特征进行卷积来增加特征向量的感受野,使网络可以看到长时的历史信息和未来信

14、息,保证了网络可以很好地表达语音的长时相关性,在鲁棒性上表现也更加出色5;同时,CNN权值共享的特点,大大降低了神经网络的参数量和复杂度。GRU(Gated Recurrent Unit,门控循环单元)对经过CNN处理过的语音特征序列进行预测,对序列中的每个特征向量进行学习,再连接一层全连接层和softmax层来输出音素概率分布。1.1.4 损失函数选择声学模型选择CTC损失函数进行训练,这是一种端到端的训练方法,不需要预先对音频序列和文本序列进行强制对齐,CTC可以通过训练来实现音频和文本的对应关系。这极大的简化了模型训练流程,是目前语音识别领域广泛使用的一种损失函数17。CTC模型训练时,

15、为了处理音素序列和输入帧数不等长的问题,引入了一个“空白”标签blank(表示为-),对原有调音素集A进行了扩展:A=A-。CTC训练的目标是尽量减少以下损失:(1)其中,D=(xj,yj)是语音特征向量序列和相应的目标PAGE062经验交流Experience Exchange音素序列集合。1.2 低资源模型压缩方法1.2.1 知识蒸馏知识蒸馏是模型压缩的重要方法之一。知识蒸馏是通过将精度高但是参数量庞大、不便于部署的教师模型中的知识,迁移至参数量较小、便于部署的学生模型中,以此来提升轻量化学生模型的性能18。本系统使用知识蒸馏算法提升嵌入式轻量化KWS模型的性能。本方法中教师模型采用的网络

16、拓扑种类与学生模型一致,但相较于学生模型有更多的隐层神经网络节点数。教师模型经过softmax层输出的是各建模单元的概率,称之为软标签。小模型在训练的过程中,会在教师模型输出的软标签以及真实标签的联合监督下进行训练,其损失函数为二者的加权平均。1.2.2 模型量化模型量化是指用更少的bit位数(通常用INT8)来对模型参数(float类型)进行计算和存储。通过声学模型量化感知训练(Quantization-aware training)来建立一种浮点数据和定点数据间的映射关系19,使得以较小的精度损失为代价,获得成倍的模型压缩和推理加速效果。1.2.3 模型剪枝模型剪枝操作在声学模型训练完成后

17、进行,基于已训练完成的声学模型,对模型最后的全连接层进行剪枝。全连接层参数量大小跟模型训练单元个数成正比。鉴于实际解码中,关键词覆盖音素以外的,特别是不常见的音素对解码影响较小,对模型最后的全连接层参数进行裁剪可进一步压缩模型。全连接层参数裁剪后仍保留了必要的音素概率输出和音素概率的相对大小不变,所以对解码影响不大。2.低资源连续语音关键词解码算法端到端声学模型每帧的输出预测了各音素的后验概率分布,关键词解码算法即是基于音素后验概率分布结果搜索一条满足条件的最优关键词音素序列。我们实现了基于前缀树搜索的解码算法,关键词集被转换为发音音素序列的前缀树(即解码网络),解码是通过令牌传递算法实现,令

18、牌基于解码网络往前传递。解码过程中令牌传递到词尾节点的最优路径若满足判决条件,即对应的关键词被识别出。2.1节将介绍解码网络的构建方法,2.2节介绍两种解码算法(孤立词检索算法和连续语音关键词检索算法),2.3节介绍解码优化加速算法,2.4节介绍如何支持在线语音流关键词检索。2.1 搜索空间构建表1:音素序列为了便于说明,我们假设待检索的关键词由“小优同学”、“增大音量”、“减小音量”、“增高温度”4个词条组成。每个词条的音素序列可通过查找发音字典取得(表1)。搜索空间为前缀合并的搜索树,每一个节点代表一个有调音素。从根节点到叶子节点形成的一条路径代表一个关键词。每条路径的末尾音素节点后增加一

19、个无声学意义的虚节点(也叫词尾节点),用于标识该关键词词条识别结束。前缀合并的策略为将头部音素序列一致的部分进行合并,虚节点不允许合并。图2是上述4个关键词音素序列前缀合并的搜索树示例。图2:解码搜索网络示例2.2 CTC解码算法2.2.1 孤立词解码算法本系统使用CTC声学模型建模,模型训练时,引入了“空白”标签blank(表示为-)。在解码过程中需要剔除空白标签blank和合并相邻的重复标签12,20-22,可以用一个简单的映射表示f:A*A*。比如:f(b,-,ei3,ei3,-,-,j,j,j,ing1,-)=(b,ei3,j,ing1)。剔除blank标签和合并相邻的重复标签的操作在

20、“音素内部的传递”模块进行,而实现标签之间搜索传递的操作在“音素间的传递”模块进行。1)音素间的传播解码搜索过程使用时间同步的令牌传递(Token Passing)算法23。在首帧数据识别前,放置初始令牌于root节点上,之后每一帧数据,按照已构造的搜索空间的拓扑顺序进行令牌传递,令牌记录路径得分(为减少内存占用,并未记录路径信息,走到词尾节点才知晓识别的是哪个关键词);采用动态束剪枝算法裁剪掉得分较低的令牌,加速搜索;每帧数据解码结束时,判断走到词尾节点的最优token是否满足阈值,如果满足,则返回关键词信息并重置解码过程,如果不满足,则重复上述解码过程。2)音素内部的传播单词词条音素序列小

21、优同学x iao3 ii iu1 t ong2 x ve2增大音量z eng1 d a4 ii in1 l iang4减小音量j ian3 x iao3 ii in1 l iang4增高温度z eng1 g ao1 w en1 d u4PAGE063经验交流Experience Exchange解码网络上的每个节点(除root节点和尾节点外)代表一个有调音素(也叫标签),在音素内部传递阶段均为其拓展构造了一个有4个状态节点的有向图,用以实现标签前后的blank的吸收和重复标签的合并,如图3。其中节点0为enter节点,最初来自对解码路径的上一个标签的节点3的拷贝,节点0可以用于吸收当前标签前的

22、blank(节点0-节点0的自跳转)。节点1代表当前标签本身,最初来自节点0的跳转,可用于合并连续出现的重复标签(节点1-节点1的自跳转)。节点2代表标签后的blank,最初来自节点1的跳转,可用于吸收标签后的blank(节点2-节点2的自跳转)。节点3是emit节点,是一个虚节点,等同来自节点1和节点2传递的最优状态,代表解码到解码网络当前节点的最优token。图3:音素内部状态跳转示意图2.2.2 连续语音流解码算法孤立词解码算法令牌传递路径得分统计的是自第一个参与解码的帧以来的标签概率累计之和(对数概率),这对于安静环境(至少是无明显背景人声)下孤立语音关键词的识别效果不错。但很多实际使

23、用场景下,噪声以及背景人声的干扰不可避免,VAD分段后的语音很可能包含了除关键词外的其他无关信息(比如前后多余的人声),这将降低关键词的检出率。为提升噪声,特别是人声干扰下的关键词检索性能,以及实现语音流中的关键词检索,本文还实现了连续语音流解码算法,相比孤立词解码算法有以下改进:1)保留每个关键词的首个音素对应的enter节点永久活跃且不累加路径得分,使支持识别从任意帧位置开始的关键词,不受关键词之前噪声和无关人声数据的影响。2)一旦识别到关键词的最后一个音素(解码网络中的尾节点),后续帧再做解码时则不再更新当前关键词最后一个音素节点2的信息,用以减小词尾噪声和后续人声数据的影响。3)修改剪

24、枝条件。孤立词解码方案由于路径得分统计的起止时间点一致,可以通过保留“top n最高路径得分”实现词语之间的优劣比较和剪枝。连续语音流解码算法token仅统计了各候选词首个音素到最后一个音素间的路径得分,统计的时间区间不同,无法沿用孤立词解码的剪枝方法。调整后的剪枝方案为:将路径得分按已识别的音素个数做归一化处理,得到音素概率均值,再跟设定的阈值比较,小于阈值的token被剪枝。4)调整最优识别结果的判定标准。孤立词解码中选取路径得分最高的token对应的关键词为最终识别结果。连续语音流解码方案,以音素概率均值为判断标准,每做完一帧解码,则判断当前走到解码网络尾节点的音素概率均值最高的toke

25、n是否满足相关判决阈值,如果满足,则表示识别到关键词。2.3 解码优化加速2.3.1 忽略空白帧CTC训练的网络大多倾向于以高概率预测空白,非空白标签帧相对少很多。空白帧不包含语言信息,也不主导预测音素序列,但可能会影响路径得分的准确性和降低解码速度。在解码时,当空白标签的概率大到超过某个阈值时,我们忽略该帧,不对其做解码。忽略空白帧减少了至少50%帧数的解码,但对关键词检索性能基本没有影响。2.3.2 剪枝关键词的概率分数在前缀树中迭代计算。如果一个关键字的前缀出现的概率很低,那么整个关键字出现的概率也很可能很低。在令牌传递算法中,我们删除得分低的路径,加速解码。2.4 在线流式检索由于声学

26、模型采用CNN和单向GRU组成,无需延时计算,因此可以将其用于在线语音流的关键词检索。音频流数据到来后提取MFCC特征,前向推理每20ms输出一个新的预测帧。在解码阶段,利用令牌传递算法在每个当前预测帧都更新活跃令牌,概率最大的活跃令牌回溯即可得到当前帧的最优候选关键词。因此,这也与流模式兼容。最优候选结果概率满足阈值后立即输出,易于应用到在线场景,满足实时处理需求,保证响应速度。3.实验设置本节以20条46字不等的中文指令识别的任务为例,详细介绍了实验中使用的训练数据和声学模型训练相关信息。3.1 模型训练数据1)数据采集录音设备:android手机录音场景:安静房间、嘈杂办公区录音距离:0

27、.25M录制人数:100人原始词条个数:6648条音频格式:16k,16bit,单通道,wav格式PAGE064经验交流Experience Exchange2)数据扩充a.对1)中采集的数据进行音调、语速、音量、加噪、加混响等处理,扩充指令相关数据到4万条。b.从开源的中文语料库及其远场仿真数据中随机挑选6万条。总训练数据10万条。3)特征提取将语音数据提取40维MFCC特征,其中帧长取25ms,帧移10ms,上下截止频率分别为7800Hz,40Hz。3.2 声学模型声学模型训练过程如图4所示。首先基于已有的Base大模型(教师模型)进行蒸馏训练得到小模型(学生模型);然后再进行量化处理,将

28、卷积层,GRU层,全连接层相关参数表示成INT8类型数据;最后根据具体待检测的关键词去裁剪声学模型全连接线性分类层的权重和bias参数,进一步压缩模型。图4:声学模型生成过程本系统教师模型采用的网络拓扑种类与学生模型一致,仅各层网络节点数更大。模型结构如图5所示,由3层CNN(1D-Conv+BN+Relu)和1层单向GRU,2层线性全连接层,1层softmax层组成。图5:声学模型结构4.实验结果与分析4.1 测试说明1)词表大小20条46字不等的中文指令短语2)测试集采用测试平台(基于博通BK3288开发的录音板)硬件设备录制3批数据测试集1:安静场景(50dB),2m内采集的191条指令

29、数据。测试集2:噪声场景(60dB,音乐/人声),13m内采集的131条指令数据。测试集3:办公场所录音,时长5小时,全程未说指令数据。4.2 声学模型性能对比测试声学模型经蒸馏、量化、裁剪处理后的性能测试结果如表2所示。表2:模型压缩各阶段参数量、内存、召回、虚警4.3 解码算法改进前后性能比较测试平台采用博通BK3288低功耗蓝牙SOC,芯片运行主频120M,SRAM大小256K。表3:解码算法改进前后性能比较具体实验结果见表3,下面对测试结果进行讨论和讨论分析。1)连续语音流解码的关键词检索系统相比孤立词解码关键词检索系统,在虚警相当的情况下,安静和噪声场景下召回率都有提升,特别是噪声场

30、景,召回绝对提升6.88%。2)安静场景,声学模型各音素预测较为准确,两种解码方法召回都在95%以上。噪声场景,音素预测准确率下降,导致召回有明显回落。此外,噪声场景对VAD准确切分有影响,导致关键词前后有噪声残留,孤立词解码得分受噪声干扰准确率下降,而连续语音流解码方式降低了关键词前后的语音干扰,得分相对准确,所以整体性能优于孤立词解码方法。3)虚警方面,连续语音流解码在语音关键词部分令牌相对概率没有变化,所以虚警性能一致。4)资源占用方面:连续语音流解码相比孤立词解码,解码令牌中增加了关键词起止时间点和已识别出的音素个数的信息,所以占用内存略大一点。5)实时性方面:实时率的差异主要受剪枝程

31、度影响,连续语音流解码略快一些,但整体速度差异不明显。5.总结低资源连续语音流关键词识别具有广阔的市场应用背景,本文设计实现的低资源连续语音流关键词检索系统资源占用小(133K字节),实时性高。提出的连续语音流解码模型模型参数量模型占用内存大小召回虚警(20词)Base大模型302.2K1208.7K96.34%(安静,2m),77.10%(噪声,13m)0蒸馏后小模型42.4K169.7K96.34%(安静,2m),73.29%(噪声,13m)0.2次/小时蒸馏后小模型+量化42.4K43.0K96.34%(安静,2m),73.29%(噪声,13m)0.2次/小时蒸馏后小模型+量化+裁剪36

32、.3K36.8K96.86%(安静,2m),74.81%(噪声,13m)0.2次/小时搜索算法孤立词解码连续语音流解码召回率(安静,2m)95.81%96.86%召回率(噪声,13m)67.93%74.81%虚警(20词)0.2次/小时0.2次/小时资源占用大小130K字节133K字节实时率0.375倍实时0.373倍实时PAGE065经验交流Experience Exchange参考文献1 Barakat M S,Ritz C H,Stirling D A.Keyword spotting based on the analysis of template matching distance

33、sC/2011 5th International Conference on Signal Processing and Communication Systems(ICSPCS).IEEE,2011:1-6.2 Szke I,Schwarz P,Matjka P,et al.Phoneme based acoustics keyword spotting in informal continuous speechC/Text,Speech and Dialogue:8th International Conference,TSD 2005,Karlovy Vary,Czech Republ

34、ic,September 12-15,2005.Proceedings.Berlin,Heidelberg:Springer Berlin Heidelberg,2005:302-309.3 Chen G,Parada C,Heigold G.Small-footprint keyword spotting using deep neural networksC/2014 IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP).IEEE,2014:4087-4091.4 Sainath T,

35、Parada C.Convolutional neural networks for small-footprint keyword spottingJ.2015.5 Fernndez S,Graves A,Schmidhuber J.An application of recurrent neural networks to discriminative keyword spottingC/Artificial Neural NetworksICANN 2007:17th International Conference,Porto,Portugal,September 9-13,2007,

36、Proceedings,Part II 17.Springer Berlin Heidelberg,2007:220-229.6 Sun M,Raju A,Tucker G,et al.Max-pooling loss training of long short-term memory networks for small-footprint keyword spottingC/2016 IEEE Spoken Language Technology Workshop(SLT).IEEE,2016:474-480.7 Lei L,Yuan G,Zhang T,et al.Low-Power

37、Feature-Attention Chinese Keyword Spotting Framework with Distillation LearningJ.ACM Transactions on Asian and Low-Resource Language Information Processing,2022,22(2):1-14.8 Coucke A,Chlieh M,Gisselbrecht T,et al.Efficient keyword spotting using dilated convolutions and gatingC/ICASSP 2019-2019 IEEE

38、 International Conference on Acoustics,Speech and Signal Processing(ICASSP).IEEE,2019:6351-6355.9 Tucker G,Wu M,Sun M,et al.Model compression applied to small-footprint keyword spottingJ.2016.10 Zhang Y,Suda N,Lai L,et al.Hello edge:Keyword spotting on microcontrollersJ.arXiv preprint arXiv:1711.071

39、28,2017.11 Amoh J,Odame K M.An optimized recurrent unit for ultra-low-power keyword spottingJ.Proceedings of the ACM on Interactive,Mobile,Wearable and Ubiquitous Technologies,2019,3(2):1-17.12 Graves A,Fernndez S,Gomez F,et al.Connectionist temporal classification:labelling unsegmented sequence dat

40、a with recurrent neural networksC/Proceedings of the 23rd international conference on Machine learning.2006:369-376.13 Bluche T,Primet M,Gisselbrecht T.Small-footprint open-vocabulary keyword spotting with quantized LSTM networksJ.arXiv preprint arXiv:2002.10851,2020.14 Arik S O,Kliegl M,Child R,et

41、al.Convolutional recurrent neural networks for small-footprint keyword spottingJ.arXiv preprint arXiv:1703.05390,2017.15 Mittermaier S,Krzinger L,Waschneck B,et al.Small-footprint keyword spotting on raw audio data with sinc-convolutionsC/ICASSP 2020-2020 IEEE International Conference on Acoustics,S

42、peech and Signal Processing(ICASSP).IEEE,2020:7454-7458.搜索算法相比于传统的孤立词解码算法,在保持资源占用大小,实时率,虚警基本一致情况下,噪声环境下的召回绝对提升6.88%,有效提升了噪声、背景人声和语音流中的关键词检索能力。PAGE066经验交流Experience Exchange作者简介陈芒,男,1963年生于广东普宁,工学学士,电子信息工程师,深圳市轻生活科技有限公司创始人、董事长、研发中心主任,深圳市福田区杰出人才、福田英才;主要从事语音识别控制技术的产业化应用研究和实施架构规划工作。曾创造了两项中国企业新纪录;担任主设计师设

43、计的语控音箱灯于2017年获得德国iF奖,同年发起起草家用及类似电器用中文离线语音识别控制模块技术规范团体标准并担任起草专家组组长,该标准于2020年7月21日由中国电器工业协会正式发布,填补了该领域的国内外空白;2020年3月5号中央电视台科教频道播出了对陈芒的专访。2022年开始参与智能语音控制器通用安全技术要求国家标准的起草工作,还有IEEE P2898&P3803国际标准起草工作;2022年联合松下电气和中科院声学所共同发起室内用中文离线语音灯具团体标准起草工作。陈芒已拥有可组网的语音识别灯及其语音识别灯控系统一种语音控制台灯的控制方法和系统一种语音控制智能风扇可组网的语音识别灯及其语

44、音识别灯控系统等几十项发明专利。参考文献16 Dave N.Feature extraction methods LPC,PLP and MFCC in speech recognitionJ.International journal for advance research in engineering and technology,2013,1(6):1-4.17 Lengerich C,Hannun A.An end-to-end architecture for keyword spotting and voice activity detectionJ.arXiv preprint

45、 arXiv:1611.09405,2016.18 Hinton G,Vinyals O,Dean J.Distilling the knowledge in a neural networkJ.arXiv preprint arXiv:1503.02531,2015.19 Jacob B,Kligys S,Chen B,et al.Quantization and training of neural networks for efficient integer-arithmetic-only inferenceC/Proceedings of the IEEE conference on

46、computer vision and pattern recognition.2018:2704-2713.20 Yan H,He Q,Xie W.CRNN-CTC based mandarin keywords spottingC/ICASSP 2020-2020 IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP).IEEE,2020:7489-7493.21 Prabhavalkar R,Rao K,Sainath T N,et al.A Comparison of sequenc

47、e-to-sequence models for speech recognitionC/Interspeech.2017:939-943.22 He Y,Prabhavalkar R,Rao K,et al.Streaming small-footprint keyword spotting using sequence-to-sequence modelsC/2017 IEEE Automatic Speech Recognition and Understanding Workshop(ASRU).IEEE,2017:474-481.23 Young S J,Russell N H,Thornton J H S.Token passing:a simple conceptual model for connected speech recognition systemsM.Cambridge,UK:Cambridge University Engineering Department,1989.

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服