室内服务机器人人机交互对象语音识别实验_梁伊雯.pdf

资源描述

1、ISSN 1006 7167CN 31 1707/TESEACH AND EXPLOATION IN LABOATOY第 42 卷第 1 期Vol 42 No12023 年 1 月Jan 2023DOI:10 19927/j cnki syyt 2023 01 007室内服务机器人人机交互对象语音识别实验梁伊雯a，韩子奇b，张志明b，孙艺珈a(同济大学 a 软件学院;b 电子与信息工程学院，上海 200092)摘要:以人机交互系统中特定对象语音识别功能实验为典型案例，采用引入过减因子与谱下限的谱减法进行含噪语音信号的增强降噪，以混合高斯-通用背景模型(Gaussian Mixture Mod

2、el-Universal Background Model，GMM-UBM)为基础，基于梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients，MFCC)特征进行语音对象识别，并部署端到端的深度神经网络普通话语音识别模块，完成综合创新性实验教学任务和创新拓展实践训练。实验表明，部署上述模块的服务机器人能在平均 0.896s 时间内准确完成整个流程，证明了设计方案的可行性与有效性。关键词:服务机器人;人机交互;语音识别;说话人识别;语音增强中图分类号:TP 301.6;TP 273+5文献标志码:A文章编号:1006 7167(2023)01 0030 06Sp

3、eech ecognition Experiment of Human-MachineInteraction for Indoor Service obotLIANG Yiwena，HAN Ziqib，ZHANG Zhimingb，SUN Yijiaa(a School of Software Engineering;b College of Electronics and Information Engineering，Tongji University，Shanghai 200092，China)Abstract:In view of the characteristics of both

4、 theoretical and practical engineering of indoor service robot relatedprofessional courses，the speech recognition experiment within human-machine interaction system is implemented as atypical solution The spectral subtraction method with the over-subtraction factor and the spectral lower limit is us

5、ed toenhance the speech signal and reduce the noiseBased on the GMM-UBM(Gaussian Mixture Model-UniversalBackground Model)，speech object recognition is carried out using MFCC(Mel-Frequency Cepstral Coefficients)features，and the end-to-end deep neural network for Mandarin speech recognition module is

6、deployed to complete thecomprehensive innovative experimental teaching task and innovative development practice training Practice shows thatthe deployed service robot can complete the whole task within 0.896 s on average，proving its feasibility and availabilityKey words:service robot;human-machine i

7、nteraction;speech recognition;speaker recognition;speech enhancement收稿日期:2022-05-15基金项目:教育部产学合作协同育人项目(202101303027;201902016059);上海市级大学生创新创业训练计划项目(S202110247020);同济大学双一流引导专项竞赛立项项目(4250145305/004)作者简介:梁伊雯(2000 )，女，广西钦州人，本科生，主要研究方向为语音识别技术。Tel:18177793328;E

8、-mail:1951095 tongji edu cn通信作者:张志明(1975 )，男，江苏常熟人，博士，副教授，主要研究方向为检测技术与自动化装置。Tel:021-69589241;E-mail:zmzhang tongji edu cn0引言服务机器人作为机器人研究与应用领域中的新型分支，要求能独立或半独立完成任务，其技术要求与应用场景密切相关，涉及机械结构、电子电路、控制算法和功能软件等，其与工业机器人相比在控制精度和实时性需求上要求相对较低，但所要面对的场景更加复杂，人机交互功能要求高1-4。实验项目从人工智能+机器人专业方向人才培养需求出发，针对专业课第 1 期梁伊雯，等:室内服务

9、机器人人机交互对象语音识别实验程理论性和工程实用性兼备的特点5-6，以室内移动服务机器人人机交互系统中特定对象语音识别功能实验为典型案例，开展综合创新性实践。随着人工智能、视觉处理、语音处理等技术的快速发展，室内服务机器人多模态人机交互功能日益丰富，已经从常规信号处理拓展到跨专业多学科领域7-10。本文主要对智慧餐厅环境下送餐机器人的人机交互对象语音识别进行实验研究。首先，送餐机器人应该能在嘈杂餐厅环境下提取和分离不同人物的语音信号，选择有效对象的声音特征进行身份识别，以免误识别话语后执行错误命令。其次，送餐机器人应该完成准确的语音识别，与服务对象完成必要的语音交互过程，为此设立唤醒、取餐、送

10、餐、餐品播报等交互场景。基于此实验，机器人可通过语音识别和理解服务对象的语音命令。1实验原理及设计语音交互识别实验系统如图 1 中所示，主要由以下部分组成:语音信号处理、特征提取单元、(说话人)声学模型、语言学模型、身份匹配单元、语义解码单元，分为训练和识别两个阶段。图 1语音交互识别实验系统框图实验采用相关成果11-12，引入过减因子与谱下限的谱减法进行含噪语音信号的增强降噪，提取经典语音识别算法中的梅尔频率倒谱系数(Mel-FrequencyCepstral Coefficients，MFCC)作为语音特征，以混合高斯-通用背景模型(Gaussian Mixture Model-Unive

11、rsalBackground Model，GMM-UBM)为基础完成语音对象识别，并部署端到端的深度神经网络普通话语音识别(Mandarin Automatic Speech ecognition，MAS)模块。1 1语音增强(降噪)语音增强(降噪)环节消除/减弱语音信号中的强噪声干扰和信道失真，改进语音质量，提取出有用信号，为声学模型特征提取环节提供合适的样本。语音降噪传统方法有谱减法、维纳滤波法、小波变换法、子空间法等11，近年来深度学习方法也得到应用11，13。人类语音在时/频域分析中有稀疏性的特点，基于短时谱可假设噪声在短时间(20 50 ms)内是局部平稳的，如噪声信号以加性为主，则

12、可在信号的非语音段估计噪声谱，在带噪语音段减去所估计的噪声谱得到纯净的语音谱11-12。其性能取决于噪声谱的准确性，语音边界则使用语音活动检测(Voice ActivityDetection，VAD)先行确定11，14。定义 y(n)为含噪语音信号序列，由纯净语音x(n)和加性噪声 d(n)组成，则噪声具有零均值特性且与语音不相关，即有:y(n)=x(n)+d(n)，其频域变换可表示为:Y()=X()+D()，功率谱可化简为X()2=Y()2D()2(1)谱减法中，如果谱值相减出现负值、出现噪声过估计问题时，会在频谱中对应的频点上形成谱峰，即“音乐噪声”。为解决上述问题

13、，Berouti 等15 提出基于改进算法，X()2=Y()2 D()2，Y()2D()2 D()2，其他(2)式中:(1)为过减因子，主要影响噪声的衰减速率;(0 1)是谱下限参数，控制残留噪声的大小。和根据实际信号自适应获取参数。1.2说话人识别说话人识别，也称声纹识别，按识别任务主要分为两类:说话人确认和说话人辨认。说话人确认提取说话人的声纹特征，与声纹库中的目标说话人声纹特征记录进行一对一的似然度对比，确认该说话人的身份真实性。实验任务为说话人辨认，流程相似，但其为一对多对比，辨认出是哪个说话人。从高斯混合模型GMM 派生而来的基于 GMM 和通用背景模型 UBM 的解决方法11，1

14、6，具有简单有效和鲁棒性强的优点，也是本次实验中采用的方案。1 2 1GMM 模型GMM 本身是一种多维概率密度函数，通过语音数据构建每位说话人的 GMM 模型，采用多个高斯函数的线性加权来拟合目标说话人语音特征矢量 x(维度为 D)的概率分布11，16。若混合度为 M 的 GMM 的参数集为，则该 GMM 模型可表示为p(x)=Mi=1wipi(x)(3)式中:wi是第 i 个函数的权重;pi(x)代表第 i 个密度函数，由均值向量 i和协方差矩阵 i组成，pi(x)=1(2)D/2i1/2exp 12(x i)T1i(x i()(4)与 wi，i，i三者密切相关，可表示为11 =wi，i，

15、ii=1，2，M(5)13第 42 卷1 2 2GMM-UBM 模型在 GMM 模型的基础上，eynolds 等16 提出GMM-UBM 模型，使用不同说话人在各种环境下训练而来的通用模型，是全体说话人语音特征及环境的共性反映。GMM-UBM 采用最大后验准则(Maximum aPosteriori，MAP)算法，根据说话人训练语音自适应得到说话人模型，在训练语音较短或语料较少的情况下仍可取得较好的识别率。其计算过程如下:(1)给定某一说话人的训练数据 X=x1，x2，xT，利用下式计算每组训练数据与每个高斯分量的似然度以及属于第 i 个高斯分类的帧数:P(ixt，)=ip(xti

16、，i)Mj=1jp(xtj，j)(6)Ni=Tt=1P(ixt，)(7)式中:T 为训练语音的帧数;Ni是训练语音属于第 i 个高斯分类的帧数。模型参数 wi、i和 i通过 EM(Expectation Maximization)算法进行交替优化。(2)采用下式，利用后验概率分别计算均值向量及协方差矩阵:Ei(x)=1NiTt=1P(ixt，)xt(8)Ei(x2)=1NiTt=1P(ixt，)x2t(9)(3)根据 EM 算法的重估公式，结合步骤(2)中的计算公式，修正均值参数以获得更好的性能，加入语料相关的均值修正因子，得到自适应下式计算修正后的均值矢量:i=Ei(x)+(1 )i(10)

17、1 2 3对数似然评分GMM-UBM 确认身份的主要过程需要计算说话人模型输出特征矢量的似然分。通过计算输入语音数据与存储数据集中的各个 GMM 模型参数的对数似然，获得语音数据与所有模型的匹配得分，选出得分最高的模型作为说话人模型。对于给定的测试语句 X，每个说话人的对数概率得分:Score(X)=lg P(XGMM)lg P(XUBM)(11)1 2 4MFCC 特征实验中说话人声纹特征选为经典的 MFCC 特征11-12，和 GMM 组合运用，概念明确，实现准确率较高的语音识别算法。MFCC 是频率基于对数功率谱在非线性梅尔尺度上的线性余弦变换。时变语音信号由各种不同频率成分组成，而人耳

18、对低频段声音的分辨率较高，故在 Mel 对数频率尺度上使用 Mel 滤波器组计算得到 12 个典型倒谱系数，得到符合人耳听觉特性的信号功率谱包络特征。MFCC 提取步骤如图 2所示。图 2MFCC 提取步骤MFCC 特征需要语音帧间的动态变化信息，原特征计算向量加入能量特征后，计算一阶差分系数和二阶差分(加速度)系数，最终可扩展得到 39 维的 MFCC特征向量，提高识别效果。1.3语音识别1 3 1识别流程语音识别对语音信号进行识别理解，转换为对应文本和命令，包含声学模型、语言模型和发音词典三个模块。如果针对各模块采用不同的训练目标进行单独的学习训练，最终的综合结果会累积误差，不易获得全局最

19、优解。针对此问题，本文使用神经网络完成一体化建模的端到端语音识别方法13，17-19，将前述模块容纳到系统中，直接得到优化目标。在端到端框架中，使用门控卷积神经网络进行语音特征提取，在网络最后一层融合连接时序分类算法对特征解码，输出概率最大的标签序列。1 3 2端到端语音识别端到端的语音识别系统直接将输入的语音映射成字母或词序列，其中连接时序分类(ConnectionistTemporalClassification，CTC)方法17 和注意力Attention 机制18 是应用最成功的两种方法。目前端到端的语音识别系统仍是语音识别领域的研究热点19，基于 CTC、

20、Attention 机制以及两者结合的系统都已取得较好的成果。1 3 3门控卷积神经网络本文主要采用一维的 CNN 卷积神经网络结合门控线性单元(Gated Linear Units，GLU)搭建图3 中所示的门控卷积神经网络(Gated Convolutional Network，GCN)。中间层每一个卷积块先通过门控单元，在各卷积块中传递有用信息，提高网络的学习能力;最后添加一个 Dropout 层，通过随机选取特征检测器，提高神经网络泛化性能。该神经网络的输入为上一环节提取到的语音声学特征。设输入的特征向量序列为 X=(x1，x2，xT)，x d，每 1 帧的输入值为 d 维的特征向量，

21、卷积核的深度为 w，步长为 s，深度为 m。卷积后得到的输出如下式所示:23第 1 期梁伊雯，等:室内服务机器人人机交互对象语音识别实验图 3门控卷积神经网络结构cit=dj=1kwk=1wi，j，kxjs(t1)+k+bi，1 i m(12)式中:w m d w和 b m为可学习的参数。输出经过一个门控线性单元后，计算结果如下式所示:h(x)=Conv1D1(x)(Conv1D2(x)(13)式中:Conv1D 代表一维卷积运算，为矩阵乘法，为Sigmoid 激活函数。门控卷积具有非线性，可有效减少梯度消失问题，使模型收敛和训练变得简单。1 3 4连接时序分类算法(CTC)CTC 方法本质上

22、是一种应用在神经网络上能处理可变长序列的损失函数，通过引入空白符号扩充文本字符集合，解决输入输出不等长的问题，最后将空白符号和连续出现的状态进行消除，得到预测字符序列，实现语音输入与文本输出的映射关系。CTC 层作为解码器放置在端到端模型的最后一层，GCN 的输出经过解码后，最终输出标签序列 y=(y1，y2，yU)，其中 yu 1，2，K，K 为文本标签类别数目。中间生成的标签序列(也称 CTC 路径)为=(1，2，T)，t 1，2，K ，代表空白标签。多条 CTC 路径可以对应同一个标签序列，例如(r，r，e，d，d)和(，r，e，e，d，)都可对应于同一个标签序列(red)，故从标签序列

23、 y 到CTC 路径是一个一对多映射。CTC 的目标是对于所有可能输出的 CTC 路径(y)，最大化下述的似然概率:P(yx)=(y)P(x)(14)式中:x 为语音特征输入;为 CTC 路径。由该分布可得到序列的目标函数 ln P(yx)，该目标函数可微，可通过反向传播 loss 进一步更新网络参数。2实践过程与结果分析语音增强和说话人识别的实验环境:AMD yzen75800H 3.20 GHz，16G AM，NVIDIA GeForce TX3050;Windows 10 专业版，python3 8 0，VisualStudio 2019。深度神经网络的训练和部署环境:Intel X

24、eon E5-2673 2.40 GHz，64G AM，NVIDIA GeForce GTX 1080Ti;Ubuntu18 04，python3 6 13，深度学习框架为PyTorch 1 0 0、CUDA10 0、cuDNN7 4 1。2 1基于过减技术的谱减法语音增强(降噪)语音增强实践过程中涉及自适应滤波器、维纳滤波器、原始谱减法、基于过减技术的谱减法等 4 种经典降噪算法。验证实验选择通过对纯净语音信号进行自主加噪来模拟实现餐厅中的嘈杂音频信号，分析各降噪算法的降噪效果(与原纯净语音信号进行比较)，其时域波形效果如图 4 所示。(a)纯净语音信号(b)加噪语音信号 5 d

25、B(c)自适应滤波器法提取到的语音信号(d)维纳滤波器法提取到的语音信号(e)原始谱减法提取到的语音信号(f)基于过减技术的谱减法提取到的语音信号图 4不同语音增强(降噪)方法效果对比33第 42 卷实验选取的语音信号时长为 3 s，采样频率为 16kHz，设置的加噪信噪比为 5 dB。由图 4 可见，谱减法总体上能够较好地保持语音信号的完整性，与其他方法相比对原声的还原度较高。但谱减法会产生音乐噪声，在算法中可以采取改进措施，加入和参数后，对语音信号的破坏程度较小，相比于之前的方法能够有更强的去噪效果。2.2基于 GMM-UBM 和 MFCC 的说话人识别实验评估数据来自 VoxForg

26、e 数据集，单通道录音，采样率16 kHz，采样精度16 bit。随机抽取30 名不同的说话者，每位说话人分别用 5 段语音进行训练，5段音频进行评估测试。GMM 的阶数为 16。首先提取测试者的 39 维 MFCC 特征，使用 25 ms 的帧长与 10ms 的帧移。接下来计算每 1 帧的对数似然值并对所有帧求和，将似然得分最高的说话者模型作为识别说话者。采用 UBM 作为冒名者模型，利用文献 16中给出的公式，进行似然比检验，并拒绝非注册目标话者的对比。识别结果展示在图 5 的混淆矩阵中。在 30位说话人 150 段音频中，分类准确率为 0.99，说明具有较高的识别准确率。图 5说话人识别

27、效果混淆矩阵图由于该模型需部署到机器人硬件平台上，因此需要对运算过程改进效率。针对特征提取和说话人预测两个模块，实验中提出以下两种改进方法:(1)使用 python 和 C+混合编程，python 作为主要编译语言。python 的优点是语法简洁，但其明显的不足是运行速度不够理想，与此相比，C 语言作为最接近底层的高级语言，运行速度快是最大的优势。如在提取 MFCC 时将预加重和分帧功能的函数用 C+进行改写，编译为 DLL 动态链接库，最后通过 python 的ctypes 模块对 DLL 进行调用。(2)对于并行性较高的过程采用多线程加速。如说话人预测中 GMM-UBM 的计算似然值部分，

28、用python 的 threading 模块生成多个线程池并行执行，计算结束后汇总各个线程，再继续执行主函数。两种加速改进方法及其组合各自进行 50 次实验，完成基于 GMM-UBM 模型和 MFCC 特征的说话人识别，测算平均耗时如表 1 所示。由表中数据可知，多线程加速效果不佳，可能是由于划分线程数量过多导致汇合时耗费大量时间，而混合编程则能较大幅度地提升 MFCC 特征计算和提取速度。表 1说话人识别加速前后对比表(3 s 音频)计算方法常规无加速Python/C+混合编程多线程加速两种方法结合t/s08320076085000832.3深度神经网络语音识别本实验单元涉及的理论基础和实践

29、内容与本科专业课程教学内容相比，相对深入，故实验中在现有开源框架和解码器的基础上进行二次开发。其中语音识别模块采用 MAS 端到端的深度神经网络的中文普通话语音识别项目20，使用 PyTorch 深度学习框架，基于门控卷积神经网络实现，该语音识别网络内部结构仅使用 CNN 卷积神经网络，激活函数不使用 eLu 或HardTanh，而是 GLU 门控线性单元。训练数据集为清华大学中文语料库 THCHS-30，总时长约 32 h，采样频率 16 kHz，采样精度 16 bit，大部分语音内容来自含大量词汇种类的新闻。预处理阶段使用 SoX(SoundeXchange)将音频强制转换为单通道语音，完

30、成数据清洗后，生成训练数据列表和数据字典，包括:音频时长25 h 的训练集，含 10 000 条录音记录;2.14 h 的验证集，含 893 条记录;6.15 h 的测试集，含 2 495 条记录。网络模型设置初始学习率为 0.6，优化方法为 SGD 梯度下降法，损失函数采用 CTC 损失函数，训练迭代轮数为 200。实验场景中主要识别中文语音，故使用字错误率(Character Error ate，CE)作为模型识别结果的评价指标11。模型训练过程情况如图 6 所示。(a)训练过程 CE 曲线分析(b)训练过程损失 Loss 曲线分析图 6MAS 网络训练结果43第 1 期梁伊雯，等:室内服

31、务机器人人机交互对象语音识别实验2 4项目部署语音增强部分使用引入过减因子与谱下限的谱减法较好地还原纯净语音;说话人识别部分使用 GMM-UBM 模型并使用 python 与 C+混合编程的方法进行MFCC 特征提取加速;语音识别部分部署端到端的门控卷积神经网络，将上述语音识别模型部署至云端，编写 Flask 服务端进行模型调用，利用其中的 equest 模块，通过 estful API 架构完成前后端交互。在前述实验条件下，模拟测试语音输入-降噪-说话人识别-语音识别的整体流程，实验室现场采集语音音频样本长度为 3 s。之前系统验证使用第 3 方数据集进行评估;但由于室内移动机器人实际录制的

32、音频均为 pcm 格式，故音频需增加 wav 头部信息，转换为wav 格式后才能进行实际测试。通过多次实验验证，单次完成语音输入信号降噪、说话人识别和(单句)语音指令识别的全部流程耗费时间的典型值为 0.896 s，说明实验方案可行。模型将部署到移动机器人，本地采集音频并完成预处理和说话人身份识别，有效数据发送到云端调用模型进行语音识别，识别结果返回给移动机器人，实现机器人人机交互特定对象说话人识别和语音识别功能。3结语设计与实现一套完整的室内服务机器人人机交互语音实验系统，包括语音信号增强、说话人识别和语音识别三大模块。通过对各个模块算法部分的对比实验，兼顾夯实基础和拓展创新的教学要求，选取

33、适合本科教学相对较优的组合方式。学生在专业理论支持下进行工程实践，3 个部分按序连接，最终实现室内环境下服务机器人声纹识别和语音识别，可有效培养本科生创新思维和工程能力，达到解决复杂工程问题的能力要求。在今后的工作中，将尝试对算法模型架构进一步改进，优化现有的语音识别系统架构，提升实验平台的使用效率和用户体验，为专业教学和创新实践提供更好的实验案例。参考文献(eferences):1陈万米服务机器人系统设计 M 北京:化学出版社，20192Edwards J obotics rolls into high gear with signal processingJ IEEE Signal Pr

34、ocessing Magazine，2020，37(2):10-133赵雅婷，赵韩，梁昌勇，等养老服务机器人现状及其发展建议 J 机械工程学报，2019，55(23):13-244王耀南智能机器人感知与控制技术应用及发展 J 科学新闻，2021，23(5):14-175朱海荣，吴瑜基于工程教育专业认证的机器人创新实验平台开发 J 实验技术与管理，2018，35(11):32-376吴峰华，李婷雪，李连德，等产学研用一体化机器人学科建设 J 实验室研究与探索，2019，38(8):189-1967赵健雄高铁环境下自主送餐机器人的定位与导航技术研究 D 南京:东南大学，20208苏志东，

35、杨观赐，李杨，等基于服务机器人听觉的个体膳食构成自主感知算法J 贵州大学学报(自然科学版)，2019，36(4):80-879潘荔霞，徐文彬，李世宝，等基于声纹识别的研讨型智慧教室构建 J 实验技术与管理，2018，35(7):245-250 10许超，吴新杰，王倩非特定人语音控制机器人的课程设计与实现J 实验室研究与探索，2016，35(6):178-180 11韩纪庆，张磊，郑铁然语音信号处理M 3 版北京:清华大学出版社，2019 12郑纯军，王春立，贾宁语音任务下声学特征提取综述J 计算机科学，2020，47(5):110-119 13刘鹏基于深度学习的语音增强方法研究J

36、智能计算机与应用，2019，9(5):146-149 14Sohn J，Kim N S，Sung W A statistical model-based voice activitydetection J IEEE Signal Processing Letters，1999，6(1):1-3 15Berouti M，Schwartz，Makhoul JEnhancement of speechcorrupted by acoustic noiseC/Proceedings of 1979 InternationalConferenceonAcoustic，Speech，andSignalP

37、rocessing(ICASSP1979)Piscataway:IEEE，1979:208-211 16eynolds D A，Quatieri T F，Dunn B Speaker verification usingadapted Gaussian mixture modelsJ Digital Signal Processing，2000，10(1-3):19-41 17Graves A，Fernndez S，Gomez F，et al Connectionist temporalclassification:labelling unsegmented sequence data wit

38、h recurrentneural networksC/Proceedings of 23rd International Conferenceon Machine Learning(ICML2006)New York:ACM，2006:369-376 18Bahdanau D，Cho K，Bengio YNeural machine translation byjointly learning to align and translate C/Conference TrackProceedingsof3rdInternationalConferenceonLearningepresentat

39、ions(ICL2015)San Diego，CA:ICL，2015:1-15 19Chan W，Jaitly N，Le Q，et al Listen，attend and spell:A neuralnetwork for large vocabulary conversational speech recognitionC/Proceedings of 2016 IEEE International Conference on Acoustics，Speech and Signal Processing(ICASSP2016)Piscataway:IEEE，2016:4960-4964 20杨德举，马良荔，谭琳珊，等基于门控卷积网络与 CTC 的端到端语音识别J 计算机工程与设计，2020，41(9):2650-2654檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿殨殨殨殨名人名言伟大的事业，需要决心，能力，组织和责任感。易卜生53

展开阅读全文