收藏 分销(赏)

语音识别在轮机模拟器中的应用_冯涛.pdf

上传人:自信****多点 文档编号:602063 上传时间:2024-01-11 格式:PDF 页数:6 大小:1.60MB
下载 相关 举报
语音识别在轮机模拟器中的应用_冯涛.pdf_第1页
第1页 / 共6页
语音识别在轮机模拟器中的应用_冯涛.pdf_第2页
第2页 / 共6页
语音识别在轮机模拟器中的应用_冯涛.pdf_第3页
第3页 / 共6页
亲,该文档总共6页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第 40 卷第 3 期计算机应用与软件Vol.40 No 32023 年 3 月Computer Applications and SoftwareMar 2023语音识别在轮机模拟器中的应用冯涛何治斌张永成(大连海事大学船舶动态仿真与控制国家重点实验室辽宁 大连 116026)收稿日期:2020 07 09。国家自然科学基金项目(51479017);中央高校基本科研业务费专项资金项目(3132018306);“智能船舶综合测试与验证研究”项目(工信部装函 2018 473 号);辽宁省自然科学基金项目(2020HYLH37)。冯涛,硕士生,主研领域:轮机自动化与智能化。何治斌,副教授。张永成

2、,硕士生。摘要针对传统轮机模拟器的操作者身兼多职、人机交互复杂的问题,将语音识别技术应用于轮机模拟器。收集并制作轮机领域的语料库,提取语音信号的 MFCC 特征,基于 Kaldi 平台完成声学模型建立,使用 SILM 工具建立语言模型并对比多元语言模型性能差异,针对语料稀疏问题使用 Kneser-Ney 平滑算法进行处理,建立用于操作轮机模拟器的语音交互系统。通过测试表明,能够实现使用语音操作轮机模拟器。关键词轮机模拟器人工智能语音识别语音交互中图分类号TP3文献标志码ADOI:10 3969/j issn 1000-386x 2023 03 006APPLICATION OF SPEECH

3、ECOGNITION ON MAINE SIMULATOFeng TaoHe ZhibinZhang Yongcheng(Key Laboratory of Marine Simulation Control for Ministry of Communications,Dalian Maritime University,Dalian 116026,Liaoning,China)AbstractAimed at the problem of multi-jobs operator and complex human-computer interaction of the traditiona

4、lmarine simulator,the auto speech recognition technology is applied to the marine simulatorCorpus in marineengineering field was collected and made,MFCC features of speech signals were extracted,and speech models based onthe Kaldi platform were established The SILM tool was used to establish languag

5、e models and compare the performancedifferences of multilingual models Kneser-Ney smoothing algorithm was used to deal with the problem of sparse corpus,and a speech interaction system was established for operating marine simulators The test results shows that the marinesimulator can be operated by

6、speech recognitionKeywordsMarine simulatorArtificial intelligenceSpeech recognitionSpeech interaction0引言轮机模拟器是能够模拟船舶机舱中设备操作的系统,能够体现船舶机舱中的实际操作情况。在一定程度上能够克服实际中存在的缺陷,进行针对性的操作训练。近些年在 STCW 公约马尼拉修正案的标准约束下,轮机模拟器的交互方式也一直在发生着变化1,而在传统模拟器的实际操作中仍然存在着操作者的分工职能无法体现的缺陷2,并且在 V 技术应用于虚拟船舶机舱后,传统的交互方式会破坏仿真环境下的沉浸感。语音识别技术

7、的应用能够在一定程度上解决这个问题,在训练操作中如果出现超出操作者的职能范围的操作,可以使用语音交互的方式对模拟器发出指令,来模拟合作者的身份,从而更好地体现分工合作的目的。在应用了 V 技术后的虚拟船舶机舱中,语音识别可以使操作者摆脱键盘与鼠标的复杂交互方式,在虚拟船舶机舱中的交互更加便捷3。本实验工作主要分为两个部分:搭建语音识别系统;展示基于语音交互的发电机操作。1语音识别系统搭建1 1语音识别基本原理语音识别系统的任务是在输入为音频信号的情况下,输出最可能的词序列。搭建语音识别系统的核心34计算机应用与软件2023 年工作是构建由语音特征矢量至模型词序列之间的关系4。语音识别的原理可以

8、用以下公式简单概括:w=arg maxw P(wY)(1)式中:w 表示已有的词序列;w表示最终输出的词序列;Y 表示输入的音频信号。通过贝叶斯定理对公式变换可以得到:w=arg maxw P(Yw)P(w)(2)可以看出,AS(Automatic Speech ecognition)的概率模型分为 P(Yw)和 P(w)两个部分,其中:P(Yw)表示在词序列 w 一定的情况下获得音频信号Y 的概率;P(w)表示在所有的字词所组成的语句中,词序列 w 的概率。前者在语音识别系统中通常被称为声学模型(Acoustic Model,AM),后者被称为语言模型(Language Model,LM)。

9、由式(2)可以看出语言模型和声学模型对语音识别的结果至关重要,因此搭建语音识别系统的主要工作即在于对语言模型和声学模型的建模5。语音识别系统的基本架构如图 1 所示。图 1AS 架构1 2声学模型建立1 2 1语音信号处理与特征提取处理语音信号并提取特征是训练声学模型的准备工作。通过设备采集到的音频有低频段信号能量小、信号不平稳等问题,需要进行信号数字化、预加重、加窗分帧等处理。本实验提取语音信号的梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCC)作为声学模型训练的声学特征6。MFCC 的特征提取流程如图 2 所示。图 2MFCC 提取流程在提

10、取特征的流程中,为了提高信号高频部分的能量,使高频信号共振峰更加明显,对采集到的语音信号首先进行预加重。预加重滤波器为一阶高通滤波器。给定时域输入信号 x(n),则预加重之后的信号可以表示为:y(n)=x(n)(n 1)0 91 0(3)由于语音信号为非平稳信号且具有短时平稳的特性,因此,对预加重后的语音信号进行分帧加窗来获取短时平稳的语音信号。具体操作为在时域上使用窗函数与原始信号进行相乘,可由式(4)表示。y(n)=(n)x(n)(4)式中:x(n)为输入信号;(n)为窗函数;y(n)为加窗语音信号。窗函数的选取中较为常用的有:矩形窗:(n)=10nN 10其他(5)汉明窗:(n)=0 5

11、4 0 46cos2n()N0nN 10其他(6)对加窗分帧后的语音信号使用离散傅里叶变换,将时域信号变换到频域,并取离散傅里叶变换系数的模,得到谱特征。对获取的谱特征使用梅尔滤波器组进行滤波,然后对滤波后的结果取对数并进行离散余弦变换,获取 MFCC,这一过程的计算可表示为:CMFCC(i)=Mm=1logs(m)cosi(m 05)()Mi=1,2,L(7)式中:M 为梅尔滤波器组的个数;s(m)表示第 m 个滤波器的输出;L 为 MFCC 的阶数。为了使声学模型在轮机模拟器的指令识别中表现得更好,采集轮机领域相关的音频作为声学模型的训练语料,以 80%、10%、10%的比例将数据划分,分

12、别用于对声学模型的训练、测试与开发。具体提取过程分为以下几个步骤:(1)将语音信号通过高通滤波器进行预加重。(2)对预加重后的语音信号进行加窗分帧,使用汉明窗,帧长为 25 ms,帧移为 10 ms。(3)对分帧后的每一帧信号做离散傅里叶变换,将信号从时域变换至频域,并计算功率谱。(4)使用梅尔滤波器组对功率谱进行滤波,提取每个滤波器内的对数能量。(5)对对数能量进行离散余弦变换,输出 12 维原始 MFCC。(6)计算原始 MFCC 的一阶差分与二阶差分、讯框能量、讯框能量的一阶差分与二阶差分,共计 39 维,第 3 期冯涛,等:语音识别在轮机模拟器中的应用35作为生成声学模型的 MFCC

13、特征。图 3 为“启动预润滑油泵”的 MFCC 语谱图展示。图 3“启动预润滑油泵”的 MFCC 语谱图1 2 2声学模型训练本次实验采用混合高斯隐马尔可夫模型(Gaussianof Mixture Hidden Markov Model)对声学模型进行建模。其中,HMM(Hidden Markov Model)用于对声学特征序列进行建模,HMM 是一种双重随机过程的概率模型,通过对有限个状态之间的转换概率进行建模来描述语音信号特征7。GMM(Gaussian of Mixture)用于对 HMM 中的每个状态的输出概率进行建模。GMM-HMM 声学模型的示意图如图 4 所示,其中:Si表示H

14、MM 的状态序列;Oi表示观测序列,在语音识别中表现为 MFCC 特征向量;aij表示从状态 i 跳转至状态 j 的转移概率;bi(Ot)表示由状态 Si输出观测 Ot的概率。图 4 中语音信号表示的语句为“出口截止阀打开”。图 4GMM-HMM 声学模型示意图声学模型的训练可表示为在已知观测序列 O=(o1,o2,oT)的情况下,估计模型 使得 P(O)最大。使用 Baum-Welch 学习算法对 GMM-HMM 模型进行训练,其具体步骤如下:(1)初始化 GMM-HMM 参数。(2)E 步(count):估计状态占用概率,即给定模型 与观测 O,在时刻 t 处于状态 Si的概率,表示为:t

15、(i)=P(it=SiO,)(8)(3)M 步(normalize):基于估计的状态占用概率,最大化期望,重新估计 GMM-HMM 的参数。(4)重复步骤(2)和步骤(3)直至收敛。声学模型的训练在 Kaldi 平台中实现,其部分展示如图 5 所示。图 5声学模型片段1 3语言模型建立1 3 1语料收集与处理语言模型是一种数学模型,用来描述语言之间的规律,决定了语音识别的输出结果是否符合语言逻辑。特定的语言模型能够使语音识别系统在其所使用的领域中识别更准确。因此,本实验从中国船务周刊、现代汉语语料库等报刊与语料库中选取轮机领域相关语料72 910 句,并结合清华大学开源语料库 THCHS30,

16、共计 844 100 句,作为本实验训练语言模型的语料。对收集到的生语料使用 ICTCLAS 工具进行分词,将不同词性的词语进行划分,并对句子起始使用 s 、句子结尾使用 /s 进行标注。语料库部分如图 6 所示。图 6语料库片段1 3 2语言模型生成语言模型的基本类型分为基于文法规则的语言模型和基于统计的语言模型两种。基于文法规则的语言模型需要设立文法规则并对不同文法使用不同模型,工作量大且无法覆盖所有的语言词句之间的组合。基于统计的语言模型能够使用统计的方法来处理语句之间的前后关系,在处理大型数据时较基于文法的语言模型更快速准确8。为实现大词汇量的连续语音识别,本实验采用基于统计的方法对语

17、言模型进行建模。统计语言模型是在提供的语料库中的所有词序列上的一个概率分布,包含有限集合 V 与函数 P(x1,x2,xn),且满足以下条件:对于任意 x1,x2,xn v+,P(x1,x2,xn)0(9)x1,x2,xn v+P(x1,x2,xn)=1(10)本实验使用统计语言模型中的 N-gram 语言模型作为系统使用的语言模型,也可以称为 N 元语言模型。N-gram 所表示的含义为使用前 N 1 个词作为历史来估计第 N 个词(当前词)。一句由 n 个词组成的句子 S 可以表示为:P(S)=P(w1w2wn)=P(wn1)(11)36计算机应用与软件2023 年式中:wi表示第 i 个

18、词。N-gram 语言模型可以表示为:P(wiwi 11)=P(wiwi 1i N+1)(12)使用 SILM 工具训练并测试语言模型。建立语言模型的步骤分为统计词频、生成语言模型、计算困惑度三个步骤。困惑度(Perplexity,ppl)是用来评价一个语言模型性能的指标,合乎逻辑的词序列出现概率与其困惑度成反比。在测试集 W=w1w2wN中,语言模型的困惑度可以表示如下:PP(W)=NNi=11P(wiwi1iN+1)(13)为了得到性能更优的语言模型,分别对基于 Uni-gram、Bi-gram 和 Tri-gram 的语言模型进行建模并对比三者困惑度。实验结果如表 1 所示。表 1三种语

19、言模型的困惑度对比模型Uni-gramBi-gramTri-gramPPL1 143394262在对语言模型进行测试的过程中,出现许多频率为零的词序列,这是由语料的稀疏性(sparse data)导致的。为了解决语言模型中出现的这一问题,通常使用平滑算法(Smoothing)处理语言模型,其主要思想是将一部分出现的词序列概率分给未出现的词序列。本次实验采用 Kneser-Ney 平滑算法对语言模型进行处理。Kneser-Ney 平滑算法的基本思想为绝对折扣(absolute discounting)9,并在此基础上将绝对折扣与接续概率(continuation probability)进行插值

20、,从而达到对语言模型进行平滑处理的效果。绝对折扣的具体操作是将语言模型中词频的统计计数直接减去一个数值,作为调整计数使用,减去的这个数值被称作折扣系数。以 Bi-gram 为例,绝对折扣算法可以表示如下:Pabsolute(wiwi 1)=C(wi 1wi)DC(wi 1)C(wi 1wi)0(wi)P(wi)其他(14)式中:wi为第 i 个词;C(wi)为 wi出现的次数;(wi)为归一化系数;D 为折扣系数。接续概率描述了当给定词序列 w1w2wi 1后,下一个词为 wi概率。当一个词在语料库中出现更多种不同上下文时,其接续概率就更大。接续概率定义可以表示如下:Pcontinuation

21、(wi)=wi1:C(wi1wi)0wi wi1:C(wi1wi)0(15)Kneser-Ney 平滑算法将绝对折扣算法与接续概率结合并进行插值。以 Bi-gram 为例,可将 Kneser-Ney算法表示如下:PKN(wiwi 1)=C(wi 1wi)DC(wi 1)+(wi)Pcontinuation(wi)(16)经过 Kneser-Ney 平滑算法处理后,将语言模型以APA Format 形式存储。APA Format 是 N-gram 的标准储存模式,列举了所有非零的 N 元语法概率。每个语法条目中从左至右依次为:折扣后对数概率、词序列和回退权重。图 7 为生成的语言模型片段。图 7

22、语言模型片段1 4语音识别系统测试在完成声学模型和语言模型的建模后,使用基于OnlineFasterDecoder 的解码器进行解码,用以测试语音识别系统。为了验证使用 Kneser-Ney 平滑算法处理过语言模型的语音识别系统的性能,使用未处理过语言模型的语音识别系统作为实验对照组。由瘫船启动的流程操作指令构成测试使用的待识别语言,让 8 个测试者对两个语音识别系统各进行 30 次语音识别测试实验。实验结果如表 2 和表 3 所示。表 2未使用平滑算法的语音识别系统测试结果测试者测试次数识别正确次数识别准确率/%1302273 32302170 03302376 64302170 05302

23、480 06302170 07302273 38302273 3平均302273 3第 3 期冯涛,等:语音识别在轮机模拟器中的应用37表 3使用 Kneser-Ney 平滑算法的语音识别系统测试结果测试者测试次数识别正确次数识别准确率/%1302893 32302996 63302893 34302996 65302996 66302686 67302996 68302790 0平均3028 193 7由实验结果可以看出,在使用 Kneser-Ney 平滑算法处理语言模型后的语音识别系统中,测试平均识别准确率较未使用平滑算法的语音识别系统准确率提升20 4 百分点,证明了 Kneser-Ne

24、y 平滑算法的有效性。处理后的语音识别系统的识别准确率可以满足在轮机模拟器中对轮机设备日常操作的使用需求。该语音识别系统的构建也为语音识别系统应用于船舶机舱或无人船中打下了基础。2基于语音交互的发电机操作模拟为了在现有轮机模拟器中展示语音交互的效果,使用讯飞 SDK 提供的接口进行封装调用,完成语音合成功能。在 Windows 平台下设计船舶发电机启动的语音交互流程。交互流程如下:(1)启动语音识别程序,语音识别系统进入监听状态,如图 8 所示。图 8发电机关闭状态(2)通过麦克风讲话,识别指令“启动预润滑油泵”,轮机模拟器启动预润滑油泵并通过语音播报“预润滑油泵已开启”。(3)识别“启动轻油

25、泵”指令,轮机模拟器启动轻油泵并播报“轻油泵已启动”。(4)识别“打开空气截止阀”指令,轮机模拟器打开空气截止阀并播报“空气截止阀已打开”。(5)识别“启动发电机”指令,轮机模拟器启动发电机并播报“发电机已启动”,如图 9 所示。图 9发电机启动状态通过测试表明,该交互系统表现良好,识别率高,行动执行准确。3结语作为最自然的交互方式,语音识别在智能家居的语音控制系统以及车载语音识别系统中已经十分成熟,但在轮机模拟器以及船舶机舱仿真中却仍未有人实践。语音识别在轮机模拟器中的应用不仅可以减少对轮机员培训时的人力消耗,并且可以提升轮机员操作体验。本实验通过对语音信号的特征提取、声学模型的建模、多元语

26、言模型的对比实验,最终完成用于轮机模拟器的语音识别系统,并在轮机模拟器的发电机操作上应用语音交互系统。实验表明语音识别系统的识别率能够满足应用,解决了在培训轮机员时一人身兼多职和在虚拟环境下的交互问题,为在实际船舶机舱与无人船中应用语音识别打下了基础,对船舶轮机仿真系统的智能化具有促进意义。参考文献1 唐元元,张均东,贾宝柱,等 适合多种显示设备的轮机模拟器 GUI 缩放技术 J 中国航海,2017,40(4):34 382 段尊雷,任光,曹辉,等 基于遗传算法优化的虚拟机舱协作智能评估 J 哈尔滨工程大学学报,2017,38(4):5145203 鲁道毅,王怀宇,王君琪 船舶三维及 V 沉浸

27、式海事监管业务培训平台 J 计算机应用与软件,2020,37(6):1 44 李航 统计学习方法 M 北京:清华大学出版社,20125 符斌,任鸿翔,王德龙 语音交互在三维虚拟船舶仿真平台中的应用 J 船海工程,2018,47(3):133 1366 evathi A,avichandran C,Saisiddarth P,et al Isolatedcommand recognition using MFCC and clustering algorithm J SN Computer Science,2020,1(3):132 136(下转第 44 页)44计算机应用与软件2023 年FP

28、GA 的硬件加速器。该硬件加速器针对 YOLOv2 网络模型中的卷积层,采用输入输出二维循环展开和循环分块的方法。通过对卷积层硬件单元的设计,使用128 个乘法单元并行计算,提高整个网络的计算性能。本文在硬件加速器的输入输出接口部分采用双缓存设计,通过乒乓操作使读取,写入和片上计算单元能够并行操作,降低传输时延带来的计算性能损失。同时,为了降低网络模型的准确率损失和减少硬件资源的消耗,本文采用 16 位定点数对权重参数,偏置项参数以及输入输出特征图的像素值进行量化。实验结果显示,本文设计的硬件加速器与通用 CPU 酷睿 i5-4440处理器相比,计算性能提高 5 77 倍,同时,在 COCO

29、数据集上保持准确率几乎不变。除此之外,本文设计的硬件加速器在时钟频率为 150 MHz,计算性能达到28 88 GOPS。参考文献1 ajaraman S,Candemir S,Kim I,et al Visualization andinterpretation of convolutional neural network predictions indetecting pneumonia in pediatric chest radiographsJ Ap-plied Sciences,2018,8(10):17152 Lin T Y,Dollr P,Girshick,et al Fea

30、ture pyramid net-works for object detectionC/Proceedings of the IEEEConference on Computer Vision and Pattern ecognitionIEEE,2017:2117 21253 He K,Zhang X,en S,et al Deep residual learning forimage recognition C/Computer Vision and Pattern ecog-nition,2016:770 7784 Gu J,Wang Z,Kuen J,et al ecent adva

31、nces in convolu-tional neural networks J Pattern ecognition,2018,77:354 3775 吴艳霞,梁楷,刘颖,等 深度学习 FPGA 加速器的进展与趋势 J 计算机学报,2019,42(11):2461 24806 陆维娜,胡瑜,叶靖,等 面向卷积神经网络加速器吞吐量优化的 FPGA 自动化设计方法 J 计算机辅助设计与图形学学报,2018,30(11):2164 21737 Nurvitadhi E,Sheffield D,Sim J,et al Accelerating binari-zed neural networks:C

32、omparison of FPGA,CPU,GPU,andASIC C/2016 International Conference on Field-Program-mable Technology(FPT)IEEE,2016:77 848 Wang J,Lou Q,Zhang X,et al Design flow of acceleratinghybrid extremely low bit-width neural network in embeddedFPGAC/2018 28th International Conference on FieldProgrammable Logic

33、and Applications(FPL)IEEE,20189 Ma Y,Cao Y,Vrudhula S,et al Optimizing loop operationand dataflow in FPGA acceleration of deep convolutionalneural networks C/Proceedings of the 2017 ACM/SIGDAInternational Symposium on Field-Programmable Gate Ar-rays,2017:45 54 10 Jamal A S,Goeders J,Wilton S J E Arc

34、hitecture explora-tion for HLS-oriented FPGA debug overlaysC/Proceed-ings of the 2018 ACM/SIGDA International Symposium onField-Programmable Gate Arrays ACM,2018:209 218 11 Krizhevsky A,Sutskever I,Hinton G E ImageNet classifi-cation with deep convolutional neural networksJ Commu-nications of the AC

35、M,2017,60(6):84 90 12 Zhang X,Zhou X,Lin M,et al Shufflenet:An extremelyefficient convolutional neural network for mobile devices C/Proceedings of the IEEE Conference on Computer Vi-sion and Pattern ecognition IEEE,2018:6848 6856 13 Simonyan K,Zisserman AVery deep convolutional net-works for large-s

36、cale image recognitionC/Computer Vi-sion and Pattern ecognition,2014 14 Wu S,Zhong S,Liu Y Deep residual learning for imagesteganalysis J Multimedia Tools and Applications,2018,77(9):10437 10453 15 Szegedy C,Liu W,Jia Y,et al Going deeper with convolu-tions C/Proceedings of the IEEE Conference on Co

37、mputerVision and Pattern ecognition IEEE,2015 16 赵永强,饶元,董世鹏,等 深度学习目标检测方法综述 J 中国图象图形学报,2020,25(4):629 654 17 edmon J,Farhadi A YOLO9000:Better,faster,stronger C/Proceedings of the IEEE Conference on Computer Vi-sion and Pattern ecognition,2017:7263 7271 18 Qiu J,Wang J,Yao S,et al Going deeper with e

38、mbeddedFPGA platform for convolutional neural networkC/Pro-ceedings of the 2016 ACM/SIGDA International Symposiumon Field-Programmable Gate Arrays,2016:26 35 19 Zhao,Niu X,Wu Y,et al Optimizing CNN-based objectdetection algorithms on embedded FPGA platforms C/In-ternational Symposium on Applied econ

39、figurable Compu-ting Springer,2017:255 267 29 张雲轲,刘丹 基于小型 Zynq SoC 硬件加速的改进 TINYYOLO 实时车辆检测算法实现J 计算机应用,2019,39(1):192 198(上接第 37 页)7 Dighe P,Asaei A,Bourlard H On quantifying the quality ofacoustic models in hybrid DNN-HMM ASJ SpeechCommunication,2020,119:24 358 尹陈,吴敏 N-gram 模型综述 J 计算机系统应用,2018,27(10):33 389 Li L,Geissinger J,Ingram W A,et al Teaching naturallanguage processing through big data text summarization withproblem-based learningJ Data and Information Manage-ment,2020,4(1):18 43

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服