收藏 分销(赏)

语音识别技术科普与发展历史.pdf

上传人:自信****多点 文档编号:602671 上传时间:2024-01-11 格式:PDF 页数:2 大小:1.25MB
下载 相关 举报
语音识别技术科普与发展历史.pdf_第1页
第1页 / 共2页
语音识别技术科普与发展历史.pdf_第2页
第2页 / 共2页
亲,该文档总共2页,全部预览完了,如果喜欢就下载吧!
资源描述

1、语音识别技术旨在让人类与机器可以直接通过语音沟通,机器根据人类语音执行命令或者转化为文字输出,完成从时序语音序列到文本文字序列映射的技术。语音识别是自然语言理解等后续研究的前提条件,这项技术可以提供语音客服、语音翻译、情感分析等多项应用。在深度学习发展前,语音信号处理诞生了一些经典的特征提取方法和语言、声学模型。语音识别框架主要由声学模型、发音词典、语言模型组成。搭建中文语音识别系统,首先需要对语音进行预处理,再建立声学模型;其次通过训练文本语料建立语言模型,基于语料库建立发声词典;最后将三者组成解码器来输出识别结果。语音识别本质上就是寻找与语音最相近的文字序列的过程,其工作状态与搜索引擎类似

2、。其识别流程如图 1 所示。根据面向的应用场景不同,语音识别存在许多不同的类型:从对说话人的要求考虑可分为特定人和非特定人系语音识别技术科普与发展历史统;从识别内容考虑可分为孤立词识别和连续语音识别、命令及小词汇量识别和大词汇量识别、规范语言识别和口语识别;从识别的速度考虑还可分为听写和自然语速的识别等。在过去的半个世纪,语音识别技术发展迅速,比较成熟的研究结果是 20 世纪90 年代主流的 GMM-HMM 模型、21 世纪研究者探索研究的神经网络模型,以及近几年出现的端到端语音识别算法。关于语音识别的研究,最早可以回顾到十九世纪五十年代,1952 年,Bell研究所成功研发出了首个语音识别系

3、统,可以实现 1 10 的英文的识别,被命名为 Audrey 系统,它的出现标志着语音识别技术的开始。1980 年前后,孤立词识别已解决,研究重点开始是连续语音识别。Baum 等人采取对语音状态的时序进行建模,采用隐马尔可夫模型(HMM)理论。随着相关技术如最大似然线性回归、最大后验概率估计的使用,解决了 HMM 的自适应问题,随后使用高斯混合模型(GMM)建模,用于统计观测概率,取得了较为成功的结果。20 世纪 90 年代,GMM-HMM 为声学模型,N-gram 为语言模型成为主流方法。随着剑桥开源了科普延展图 1 语音识别流程38科技视界Science&Technology Vision

4、 APPLICATION OF NEW TECHNOLOGY 新技术应用模型,深度神经网络(DNN)开始取代 GMM 对 HMM 中的状态后验概率建模,取得了很好的效果。2013 年,Adbel 等人使用卷积神经网络(CNN),在大词汇量的语音识别中,大幅度减少模型参数,并将相对词错误率提高了 2%。同年,Graves 等人将长短时记忆网络(LSTM)用于 TIMIT 的音素识别中,得到了当时最低的音素错误率。2014 年,IBM 沃森研究中心,使用 CNN 及自适应技术,在 Sainathboard 测试集进行测试,词错率降至约 10%,相对错误率降至 0.3。以上识别算法的模型均比较复杂,

5、模型中各个模块都需要分开训练,所以近几年,端到端语音识别模型成为研究重点。端到端语音识别就是序列直接到序列的模型,直接将输入的声学特征序列映射到文本,不需要对齐,模块被整合到一个深度神经网络,以一个损失函数作为优化目标。目前端到端语音识别系统主要有两大类:一是基于连接时序分类(CTC)模型,二是基于注意力机制模型。阿里巴巴公司将低帧率技术与深层前馈序列记忆神经网络(DFSMN)相结合,该模型通过网络层之间的跳转成功避免很多问题,训练得到更深层的网络结构,将语音识别结果的错误率降低了 20%,解码速度提升 3 倍,模型识别准确率达到 96.04%,创下了最高记录。随后,科大讯飞搭建深层卷积网络,

6、采用后端识别方式,提高识别率达 98%。最近,百度首创的流式多级截断注意力模型,是全球第一次将注意力模型用于工业识别的在线语音系统。调用 API,极速版的语音识别系统实时率小于 0.1,一段 5s 的音频可以用不到 500ms 的时间完成识别过程,极大减少了识别语音过程的时间,提升了用户使用语音交互时的体验。在安静环境且距离较近的情况下,识别正确率达到了 98%。总体而言,当前主流语音识别技术主要在大词汇量连续语音数据集上,基于深度神经网络进行模型构建和训练,面向不同应用场景需求和数据特点对现有的神经网络不断改进,相比于传统的统计方法取得了极大的性能提升。HMM 工具包,极大地促进了语音识别技术的快速发展,出现了较成熟的研究成果:IBM 的 Via Voice、微软的 Whisper 和 CMU 的 SPHINX-等。21 世纪之后,深度学习开始兴起,人工智能在各领域都有了新的发展,语音识别也不例外。2002 年,中科院的中文语音识别产品 Pattek ASR 发布,标志着中文的识别不再被国外垄断。2011 年,微软把上下文相关(CD)技术融入声学图源网络图源网络39科技视界Science&Technology Vision APPLICATION OF NEW TECHNOLOGY 新技术应用

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服