收藏 分销(赏)

人机交互:第4章 人机交互技术--8.ppt

上传人:可**** 文档编号:10290566 上传时间:2025-05-16 格式:PPT 页数:30 大小:336KB
下载 相关 举报
人机交互:第4章 人机交互技术--8.ppt_第1页
第1页 / 共30页
人机交互:第4章 人机交互技术--8.ppt_第2页
第2页 / 共30页
点击查看更多>>
资源描述
,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,第,4,章 人机主要交互技术,(,新一代人机交互技术,),应用程序,语音,合成,语音,输入,语音,输出,语音人机交互,语音,识别,自然语言,处理,自然语言,生成,交互管理,语音合成,语音合成技术是使电脑或通信终端具有类似于人一样的说话能力的一项技术,让机器说话可以通过录音,/,重放,或,语音合成,实现,文语转换是语音合成的一种应用形式,文语转换是连续语音识别的逆过程,孤立词,/,音段阶段,注重音色,(,音质,音品,),语音合成的最早研究始于,1779,年,Kratzen sten,的研究他用一些材料制成具有各种特殊形状的共鸣腔,目的是研究如何用管形器官模型来模拟,5,个单元音,A,、,E,、,I,、,0,、,U,1791,年,,Von Kempelen,制成了一种能说话的机器,1939,年,BELL LAB,的,H.Dudley,应用共振峰原理制作了第一个电子合成器,VODER(VOice DEmonstratoR).,20,世纪,70,年代,线性预测技术用于语音合成,语句阶段,注重韵律,1980,年,MIT,的,D.Klatt,设计制造了著名的共振峰语音合成器,1986,年,E.Moulines,和,F.Charpentier,提出了基于时域波形修改的语音合成算法,PSOLA,2000s,,,Unit-selection,,,N.Campbell&A.Black,国外语音合成的发展,按照人类语言功能的不同层次,语音合成可分为三个层次:,(,1,),从文字到语音的合成,(,Text-to-Speech),(,2,)从概念到语音的合成(,Concept-to-Speech),(,3,)从意向到语音的合成(,Intention-to-Speech),语音合成的层次,文本,文本分析,输出语音,语音合成,语音库,韵律分析,字典,/,词库,分词规则,文语转换系统组成,多音字库,儿化音库,语音,合成技术,语言学,处理规则,协同发音,/,韵律规则,语音合成系统的三个主要组成部分:,文本分析模块,韵律分析模块,语音生成模块,文本分析主要功能,使计算机从这些文本中能够认识文字,从而知道要发什么音、怎么发音,(,声调,),,并将发音的方式告诉计算机,另外还要让计算机知道文本中,哪些是词,哪些是短语、句子,发音时到哪应该停顿,停顿多长等等,文本规整,多音字处理,声调判定,特殊声调调整,特殊符号,停顿处理,语音处理,自动分词,系统词库,多音字词库,变调规则库,特殊声调,规则,文本分析的任务,(1),文本规整,将输入的文本规范化。在这个过程中,要查找拼写错误,处理缩略语与外文字词等,同时分析文本中出现的数字、特殊字符、专有词语,并将文本中出现的一些不规范或无法发音的字符过滤掉。,(2),词的切分和词法分析,分析文本中词或短语的边界,确定文字的读音,以及各种多音字的读音方式。,文本分析的主要工作步骤,(3),语法和语义分析,根据文本的结构、组成和不同位置上出现的标点符号,确定语气的变换以及不同音的轻重方式,即语言学处理。确定停顿位置,长短,语调升降,语法重音等,(4),输出,文本分析模块将输入的文字转换成计算机能够处理的内部参数,便于后续模块进一步处理并生成相应的信息。,文本分析的主要工作步骤,文本分析的主要方法,/,词的切分,方法,(,1,)基于规则的方法,(,2,)基于统计的方法,(,3,)人工神经网络的方法,基于规则,(Rule-based),的方法,正向最大匹配法、,反向最大匹配法、,逐词遍历法,最佳匹配法、,二次扫描法等等。,基于规则方法,的特点,优点,:,结构较为简单、直观,易于实现,。,缺点,:,需要大量的时间去总结规则,且模块性能的好坏严重依赖于设计人员的经验以及他们的相应的背景知识。,应用,:,这些方法能够取得较好的分析效果,直到目前,这些方法依然被广泛的使用。,基于统计与人工神经网络的方法,(,连续语音识别的逆过程,语言模型部分,),基于数据驱动的文本分析方法 具有代表性的有:二元文法法,(Di,Grammar Method),、三元文法法,(Tri-Grammar Method),、隐马儿可夫模型法和神经网络法等等。,韵律分析,任何人说话都有韵律特征,比如汉语中,人说话有语调、节奏、重音等变化,反映出不同的语气、不同的发音长短、不同的停顿方式等,.,韵律参数包括了能影响这些特征的声学参数,如:基频、音长、音强等,.,为合成语音规划出音段特征,如音高、音长和音强等,使合成语音能正确表达语意,听起来更加自然。,韵律生成,有基于规则和基于语料库的数据驱动两种方法,(,1,)基于规则的方法,音高规则,变调规则,轻声规则,协同发音,音长规则,能量规则,两点说明,要求有大量的音韵学知识。,基于规则的方法,仍然被认作是行之有效的方法。目前大部分汉语的语音合成系统依然采用这种方法。,(,2,),基于数据驱动的韵律模型,(,人工神经网络方法,统计方法,),基于大规模语料库的韵律建模,:,通过神经网络或统计驱动的方法进行韵律生成,其实现步骤是首先设计或收集包含大量语音和文本信息的数据,然后建立一个训练模型,用数据库中提取出的韵律参数对模型进行训练,通过训练而,得到最终的韵律模型,。,语音生成,根据韵律建模的结果,从原始音库中取出相应的语音基元,利用特定的语音合成技术对语音基元进行韵律特性的调整和修改,最终合成出符合要求的语音。,语音生成,主要方法,规则合成,按韵律规则,缩减规则等,将预先存好的语音单元拼接起来,.,需要对文本理解,有些复杂,.,参数合成,(,1,)共振峰合成,(Pitch Synchronous OverLap Add),(,2,),LPC,(线性预测编码)合成,(,3,)其它如,LSP,和,LMA,合成,波形拼接,(,1,),PSOLA,(基音同步叠加)合成,参数合成法,早期的研究主要采用参数合成方法,它是计算发音器官的参数,从而对人的发音进行直接模拟。如著名的,Klatt,的共振峰合成系统。后来又产生了基于,LPC,、,LSP,等声学参数的合成系统。,这些方法用来建立声学模型的过程为:首先录制声音,这些声音涵盖了人发音过程中所有可能出现的读音;提取出这些声音的声学参数,并整合成一个完整的音库。在发音过程中,首先根据需要发的音,从音库中选择合适的声学参数,然后根据韵律模型中得到的韵律参数,通过合成算法产生语音。,参数合成方法的优点,是其音库一般较小,并且整个系统能适应的韵律特征的范围较宽,但其合成语音的音质却往往受到一定的限制。,共振峰合成,音色各异的语音具有不同的共振峰模式,因此,以每个,共振峰频率及其带宽,作为参数,可以构成共振峰滤波器,再用若干个这种滤波器的组合来模拟声道的传输特性,对激励源发出的信号可以调制,再经过辐射模型就可以得到语音合成,。,优点,:,由于它是对声道的一种比较准确的模拟,因此可以合成自然度比较高的语音,容易描述自然语言中的各种发音现象。,缺点,:,参数不好控制,从而对声道的模拟不精确,影响合成质量和自然度。,共振峰合成特点,LPC,参数合成,本质上是一种时间波形的编码技术,主要要是为了降低时域信号的的传输速率。,合成过程是一种简单的解码和拼接过程,.,一种类似,/,基于波形拼接的合成技术,主要从波形的直接录制和播放得到启发。,(,录音,+,重放,),LPC,参数合成特点,LPC,参数合成的优点,简单直观,而且由于波形拼接技术的合成基元是语音的波形数据,保存了语音的全部数据,因此对单个合成基元来说自然度很高,LPC,参数合成的缺点,只是简单进行波形拼接,语音生硬,波形拼接法,PSOLA,(基音同步叠加)合成技术,基音同步叠加,(TD,LPC,FD),调整音长,音强,音高,.,该技术主要着眼于通过参数对语音的韵律进行控制和修改。在拼接语音波形片断之前,首先根据上下文,对拼接单元的韵律特征进行调整,使合成波形既能保持原始发音的主要音段特征,又能使拼接单元的韵律特征符合上下文的要求,从而获取较高的清晰度和自然度。,PSOLA,合成技术的优点,保持了传统波形拼接的优点,简单直观、运算量小,而且可以控制语音信号的韵律参数,合成自然。自然度比以前基于,LPC,方法或共振峰合成器的文语合成系统的自然度要高,并且基于,PSOLA,方法的合成器结构简单易于实时实现,有很大的商用前景,PSOLA,合成技术的缺点,(,1,)它是一种基音同步的语音分析,/,合成技术,对基音周期或起始点的错误判断会影响合成效果;,(,2,)它是一种波形拼接合成,拼接能够保持平稳过渡对合成效果影响很大,但这种问题并没有很到得到解决。,提高语音合成的自然度,达到更加流利和自然的程度。,丰富合成语音的表现力,使得,TTS,技术可以实现各种音色,(,包括不同性别、不同年龄等,),的语音输出。,解决中文与其它语种混读问题。,实现多语种的语音合成,即实现方言、少数民族语言的合成技术。,降低语音合成技术的复杂度,减少音库容量,扩大应用领域。,情感语音合成,技术。,为各行业提供,TTS,核心技术和解决方案,特别是,CTI,和嵌入式系统,语音合成的未来发展方向,
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传
相似文档                                   自信AI助手自信AI助手

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4009-655-100  投诉/维权电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服