收藏 分销(赏)

现代语音信号处理(Python版) 课件第1--3章绪论、语音信号处理基础知识、语音信号分析方法.pdf

上传人:曲**** 文档编号:225130 上传时间:2023-03-08 格式:PDF 页数:208 大小:14.15MB
下载 相关 举报
现代语音信号处理(Python版) 课件第1--3章绪论、语音信号处理基础知识、语音信号分析方法.pdf_第1页
第1页 / 共208页
现代语音信号处理(Python版) 课件第1--3章绪论、语音信号处理基础知识、语音信号分析方法.pdf_第2页
第2页 / 共208页
现代语音信号处理(Python版) 课件第1--3章绪论、语音信号处理基础知识、语音信号分析方法.pdf_第3页
第3页 / 共208页
现代语音信号处理(Python版) 课件第1--3章绪论、语音信号处理基础知识、语音信号分析方法.pdf_第4页
第4页 / 共208页
现代语音信号处理(Python版) 课件第1--3章绪论、语音信号处理基础知识、语音信号分析方法.pdf_第5页
第5页 / 共208页
点击查看更多>>
资源描述

1、第1章褚於第1章绪论 研究意义 发展历史 研究方向 其它研究第1章褚於1.1意义语音信号处理就是对语音信号进行表示,分析,变换,处理,综合等的总称。它 是一门涉及计算机,通信,语音学,语 言学,数理统计学以及神经生理学等多 学科的一门交叉学科,是难度大的高科技 领域。第1章晓妮语音信息的童耍喉图像信息 60%图像信息 语音信息 其它信息第1章褚於语啬处理的应用背原布学科基础第1章褚於语音技术具有广阔产业化前景和重大战略意义智能语音技术:使信息时代的各种信息机器像人一样“能听 会说”的技术。语音合成技术语音评测技术可以将任意的文字信息转化为自然流畅的 语音,相当于给机器装上了人工嘴巴厂可以将语音

2、中内容、说话人、语种等信息 识别出来,相当于给机器装上了人工耳朵可以进行发音标准评价和错误反馈指导,相当于把机器变成语音评测老师第1章褚於1.2语音处理的发展历史 1876年Bell发明电话;1947年贝尔实验室发明语谱图仪一语音识别研 究的开始;-A V.50年代出现第一台口授打字机和英语单词语音识别器;60年代出现第一台以数字计算机为基础的孤立 词语音识别器和有限连续语音识别器;第1章褚於 70年代动态规划技术、隐马尔可夫模型、线性 预测技术和矢量量化码书生成方法用于语音编 码和识别;80、90年代语音处理技术产品化一I BMTangora-5angora-20英语听写机,DragonDi

3、ctate词汇翻译系统(70000),汉语听写机;近几年基于云计算技术的语音信号处理技术飞 速发展;国内,清华大学、中科院声学所和中科院自动 化所在汉语听写机研究方面有一定成果第1章褚於L3语音信号处理研究方向 是谁在说话?说话人识别 说的是什么内容?语音识别 有干扰怎么办?语音增强 话里有话?语音隐藏 说话人在哪?声源定位 说话人的情绪?-情感识别 计算机说话?语音合成 有效的传输 语音编码第1章褚於1.3.1语音增强语音增强是指当语音信号被各种各样的噪声干扰、甚至淹没后,从噪声背景中提取有用的语音信号,抑制、降低噪声干扰的技术。一句话,从含噪语 音中提取尽可能纯净的原始语音。第1章褚於演示

4、第1章褚於1.3.2说话人识别自动说话人识别是一种自动识别说话人的过程。说话人识别和语音识别的区别在于,它不注重 包含在语音信号内的文字符号以及语意内容信 息,而是着眼于包含在语音信号中的个人特征,提取说话人的这些个人信息特征,以达到识别 说话人的目的。第1章褚於说话人拥别系疣第1章褚於应用-身修补证第1章褚於应用点名系按J(语音考勤终端考勤管理系统 服务器第1章褚於1.3.3 语音识别语音识别是研究如何采用数字信号处理技术 自动提取以及决定语音信号中最基本、最 有意义的信息的一门新兴的边缘学科。颠覆传统PC输入方式的技术:便盘输入手写输入将书输入Just thin4M第1章褚於基域架构(机利

5、 文本输入语音形成话控制信息发传输系统(编码、译码)收 听(收听方)认 识空间传输文本解析控制信息。声音合成合成音声首、话 音识别理 解声首、话 音理解行动计算两处理第1章褚於语音识别技术涉及日 常生活的各个方面如 电信、金融、新闻、公共事业等各个行业,通过采用语音识别 技术,可以极大的简 化这些领域的 业务流 程以及操作;提高系 统的应用效率。语音搜索语音听写声音监吗语音拨吾音导航“1吾音命-语音翻译It第1章褚於应用-自劭翻笄系疡第1章褚於基4原理编码用户语音内容语音压缩本机识别器Tommaso Ristorante ItalianoGroen Street Sotto MareI fou

6、nd a number of Italian restaurants in North Beach:“Im in the mood for Italian food in North Beach 99Coiumbua AvonwoThe Stinking Rose上传互联网云服务器.识别/可理解的语言选取识别可能性最高的片 段进行优先处理根据用户最有可能的语音命令整理出一个候选列 表,并陈列出来第1李绪施泉4功犍上传数据反馈数据登 记病人资料塞气信息转到 12580系统 为客户登 记预约挂 号市挂号成功通 过飞语系统 告知用户万州明天天气如何?12580路况快信手机证券第1章褚於1.3.4 情

7、感识别计算机对从传感器采集来的信号进行分析 和处理,从而得出对方(人)正处在的情 感状态,这种行为叫做情感识别。目前对于情感识别有两种方式:一种是检 测生理信号如呼吸、心律和体温等,另一 种是检测情感行为如面部特征表情识别、语音情感识别和姿态识别。第1章褚於情感的种类It第1章褚於 人类基本情感快乐愤怒恐惧悲哀盛 4 4 4第1章褚於应用一嗫人航天情绪心理状态评估第1章褚於应用一一服务质量评佶非特定说话人声学特征特征规整化服务质量考评情感识别模型第1章褚於1.3.5 语音合成与转换语音合成是人机语音通信的一个重要组成 部分,语音合成技术赋予机器“人工嘴巴”的功能,它解决的是如何让机器象人那样

8、说话的问题。第1章褚於系统构成-vr 五 二五一万田 的他bk工田:五之八舍网络/数据 词典/规则 语音库库第1章褚於系统实例富士通中文音傅换系统示意圜A坪刑一合成睛流第1章褚於EmotionTTS/在现在陈述语气合成的基础上实现感叹,疑问,强调的 效果,在正常情绪合成的基础上增强系统在高兴,生气,悲伤 等多种情绪方面的表现能力中立合成情感合成生气 电 难过 电 侬第1章褚於应用文语转换系统第1章褚於智能公交系统应用第1 f诸论应用家庭安全警示系统家用懋气灶第1章褚於1.3.6 声源定位声源定位技术主要是研究系统接收到的语音 信号相对于接收传感器是来自什么方向和什 么距离,即方向估计和距离估计

9、。声源定位 是一个有广泛应用背景的研究课题,其在军 用、民用、工业上都有广泛应用。X第1 f诸论应用被劭声灵住器第1章褚於_应用-2cMl取k以飞a/P-2 Q2。4第1 f诸论成用勤听器方向喉妻克凤枝木第1章褚於1.3.7 语音隐藏信息隐藏技术是利用多媒体信息中存在的冗 余及人类感知系统的特性,在不影响原始多 媒体信息的感知质量的前提下,把额外的信 息隐藏到原始载体中的一种技术。信息隐藏 技术按载体信息的类型通常可分为:语音和 音频信息隐藏、图像和视频信息隐藏等。I 第1多褚急演示隐藏测试 4+=麻+一倒山kHHM-n联V隐藏测试第1章褚於演示39.39%3.96%滤波攻击压缩攻击 拉伸攻击

10、第1章褚於语音傀藏系疣相架安全密钥K消息W语音信号C第1章褚於语音傀藏类别第1章褚於L4其它研究方向语音编码第1章褚於1.4其它研究方向回声消除回音的形成第1章褚於1.4其它研究方向场景分类民航搬来超上空Inside office|v|青慈事静的郊野打椿、翻土在 10米靛圈工地施工drivet switched on(within 10 m)在26米靶圉交通繁忙的禹路上的士高内的弓苗监力音架Powerful music in disco在25米凰柴油 火卓高速前谨Afull speed dieseltrain(within 25m)_客盛内的壁相舌Chatting In a living ro

11、om播音茎Broadcasting panelCountrysideAlow flying civil planeConstruction site with pile and foundryStreets with busy traffic(within 26 m|一第1章褚於1.4其它研究方向语音分离10-1输入声音1241-100输入声音224-0.5 L 00.500.5输入声音32x 105混合声音1x 105混合声音24 6x 105-0.502-1 04 6x 1051020.10-0.1混合声音324 6x 1054 6x 105第1章褚於电何辔肠语著信号处理这门勰7.扎实的理

12、论基础.多研究代码,利用网络资源.多实践.遇到问题学会多思考、多分析、多总结第1章褚於第2章语音信号处理基础知识o 语音的产生与感知 语音产生的数学模型O 语音信号的数字化O 语音信号的表征第1章褚於2.1 语音的产生与感知2.1.1 人类发音系统A语音:由人体发音器官在大脑控制下的生理运动产生。A发音器官:由肺和气管、喉(包括声带)、声道(咽腔、鼻腔和口腔)三部分组成。肺和气管:整个语音系统的能源提供者 喉:主要的声音生成机构 声道:则对生成的声音进行调制第1章绪稔A肺的功能:呼吸功能,进行气体交换提供能量,将压缩空气供给发音器官A气管:连接肺和喉,是肺与声道联系的通道A喉:由软骨和肌肉组成

13、的复杂系统,含声带(发音器官)A声带:是阀门,又是振动部件声带紧绷在喉头的前后壁上,有折叠声带的长度约1014 mmA声带的声学功能:为语音提供主要的激励源第1章褚於A空气作用:使声带开启/闭合,形成脉动气流(声门脉冲串)A基音周期(振动周期):声带每开启/闭合一次的时间A基音频率(基频):基音周期的倒数A基频随人性别、年龄而不同A基频:通常为50450 Hz男性一般为50250 Hz女性一般为200450 Hz8 6 4 面积/mm50%35%2。2 4 6 8 10 12 14 16时间/ms声带开启的面积与时间的关系曲线A老年男性偏低,小孩和青年女性偏高A基频高则音调高,基频低则音调低基

14、频与声带的大小、厚薄、松紧程度以及声门上下之间的气压 差等有关第1章褚於A声道:从声门至口唇的所有发音器官 包括咽腔、口腔和鼻腔A成男声道:长17 cm/面积20 cm2声道可看成非均匀截面的声管,是时间函数。A口腔各器官协同动作,空气流通过时 形成不同阻碍,并产生振颤,发出 不同声音。A口腔是声道最重要的部分,其大小声道纵剖面图A咽腔与口腔使声道的形状变化增多,能发出较多的声音。和形状可以通过调整舌、唇、齿和腭来改变。第1章褚於声门肌力软上腭和小舌 d+h严巾语音产生的机理图口腔肺A在发音过程中,肺部与相连的 肌肉相当于声道系统的激励源A浊音:声带处于收紧状态时,气流使声带振动产生的声音A清

15、音:声带处于放松状态时,不伴有声带振动产生的音A两种清音:摩擦音,爆破音A摩擦音:舌在声道的某处形成狭窄部位(收紧点)气流经过时产生湍流形成噪声型的声音A爆破音:松懈声带,用舌和嘴唇关闭声道,暂时阻止气流。气压升高,突然放开舌与嘴唇,气流释放产生短暂冲音不同的声道收紧点和声道形状,形成不同的摩擦音不同的声道闭紧点和声道形状,形成不同的爆破音It第1章褚於2.1.2 人类听觉系统1)耳的结构A人的听觉系统。组成:外耳、中耳和内耳。外耳和中耳有导音的作用,合称为导音系;内耳有感音作用,称感音器。其感音作用起始于蜗神经的终端(螺旋器),故内耳的淋巴系 统也属于导音系。第1章褚於A外耳:由耳翼、外耳道

16、和鼓膜组成。耳翼:有保护耳孔和定向作用。外耳道:是一条耳管,声音沿其传至鼓膜。有许多共振频率,封闭时最低共振频率约为3060 Hz。共振效应会使声音得到10 dB左右的放大。鼓膜:位于外耳道内端的韧性锥形结构,声音的振动通过鼓膜传到内耳。日常谈话中,鼓膜位移约为10一811。A外耳的作用:有对声源定位和声放大。A头部的衍射效应也会增大鼓膜处的声压,A系统总放大:20 dB左右。第1章褚於A中耳的结构。A中耳:为充气腔体,由鼓膜将其与外耳隔离,通过圆形窗和前 庭窗两个小孔与内耳相通。通过咽鼓管与外界相连,以平衡气 压,保护鼓膜。A听骨链:由锤骨、砧骨和镣骨三块听小骨组成,由韧带悬挂在 中耳的腔体

17、内。听骨链将振动传到内耳并放大,起到杠杆的作用。放大30倍左右。A听小骨在不同声强范围内实现 声音的线性或非线性传递。A中耳的作用:通过听小骨进行声阻抗变换,放大声压;保护 内耳。韧带 锤骨 鼓膜 外耳道中耳的结构1方第1章褚於A内耳(迷路):在颅骨腔内,由半规管、前庭窗和耳蜗组成。A半规管和前庭窗属于本体感受器,与机体的平衡机能有关。半规管内的感受器能感受旋转变速运动的刺激,前庭窗内的感受器能感受静止的位置和直线变速运动。A耳蜗:由鼓阶、中阶和前庭阶三个分隔的部分组成。听觉接受器,把声音经机械变换产生神经发放信号。第1章褚於中阶的底膜称为基底膜,基底膜之上是柯蒂氏器官,由耳蜗覆膜、外毛细胞(

18、共3列,约20000个)以及内毛细胞(共1列,约3500个)构成。柯蒂氏器官:是一个传感装置。毛细胞上部的微绒毛感受耳蜗内流体速度的变化,从而引起毛 细胞膜两边电位的变化,可造成听觉神经的发放或抑制。A内耳的作用:感受声音。听觉产生过程声波 今骨膜振动少听小骨传递个 耳蜗基底膜振动9产生神经脉冲柯蒂氏器官示意图第1章褚於2.1.3说话过程说话过程可分五个阶段:想说阶段、说出阶段、传送阶段、接收阶段、理解阶段1、想说阶段:(与大脑中枢的活动有关)大脑决策产生说话动机 讲话神经中枢选单词、短语,按规则组合表达内容和情感2、说出 阶段:(与发音器官的活动有关)大脑中枢决策,向发音器官发指令,使舌、唇

19、、颗、声带、肺等协调动作,发出声音 大脑也发指令给其它器官,产生各种动作来配合 根据听觉系统接收的反馈语音信息,来帮助修改语音。3、传送阶段:(传送声波信息的物理过程)声波以空气为媒介传送到听者的耳中第1章褚於4、接收阶段:(与听觉系统活动有关)外耳收集声波信息,经中耳放大,传到内耳 经内耳基底膜振动,激发柯蒂氏器官内的神经元产生脉冲 将信息以脉冲的形式传送给大脑5、理解阶段:(至今尚未完全了解,机理不很清楚)听觉神经中枢收到脉冲信息,辨认话者及所说信息A说话过程相当复杂,有心理、生理、物理及个人和社会因素A个人因素:话者口音、用词造句特色听者的听力、理解力。社会因素:话者、听者的社会基础、环

20、境等A语言要素:分语言的语素、词、短语和句子等不同层次 及词法、句法、文脉等语法和语义内容等。A句法的最小单位是单词,词法的最小单位是音节。A不同语言有不同语言规则A语音的产生和理解:与神经系统和大脑有关,是高级活动。A搞清大脑产生和理解语音的机理,对语音技术有极重要意义。特别是对语音合成与语音识别两个分支。A例,语音合成:目前,按规则合成只能从寻找各种语言的规则入手,尽可能得 出较好的人工语言。如果发音时大脑智能活动的机理之迷揭开,就可以获得高度自 然的语音合成。例,语音识别:目前,只能从语音信号出发,用“隐过程”(如隐马尔可夫模 型)来模拟神经系统的听觉过程,不是按人的听觉过程建立处 理模

21、型。不能达到理想的识别和理解效果。这种方法与大脑用的方法并不一致。第1章褚於2.1.4听觉感知特性A听觉系统的两个重要特性:耳蜗对于声信号的时频分析特性;听觉掩蔽效应。耳蜗的时频分析特性:声音使镜骨运动,使耳蜗内流体压强变化,引起行波沿基底膜的传播。声频不同,产生的行波不同,峰值 出现在基底膜的位置不同。为对数型分布。频率低,峰值出现在基底膜的顶附近;频率高,峰值出现在基底膜的底附近。振动强度增加,基底膜运动幅度加大,A耳蜗:有频谱分析作用。第1章褚於 Gammatone滤波器组:听觉选择性通常由一组基于等效矩 形带宽刻度的Gammatone滤波器实现,每个滤波器模拟基 底膜不同部位最大位移处

22、的响应。其冲激响应函数可表示 为:gm=件1 g2Gteos(2万+服)M”,1K 加 K N其中,立表示相位;N表示滤波器的个数;为滤波器的 阶数;,是各个滤波器的中心频率;纥是中心频率/在 等效矩形带宽域上的变换频率,其关系为:纥=1.019 W)第1章褚於A四阶的Gammatone滤波器能够很好地模拟基底膜的滤波 特性。在听觉心理学中,每个滤波器的等效矩形带宽的一般 关系式为:ERB 1fm,EarQ,minBw,order)=x x orderJ m/orderI EarQ)+min6/尸minBw为低频信道的最小带宽,EarQ是高频处的渐近滤 波器性能,order为控制参数。剑桥大学

23、的实验心理系的Moore和Glasberg推荐参数分别为24.7,9.26449,1,则ERB(f)=24.714.37x-+/I 1000)第1章褚於第个滤波器通道的中心频率的计算公式如下:mln 九_/max+C)/=-C+ex(九x+。)其中,C=EarQxminBW=228.83,7max为最高截止频率,通 常取为采样率的一半,fmn为最低截止频率,o第1章褚於A基底膜上的绒毛细胞的特性:振动使基底膜和耳蜗覆膜之间的毛细胞上的绒毛发生弯曲。绒毛弯向一边,引起毛细胞的去极化,加强传入神经的作用;绒毛弯向另一边,引起毛细胞的超极化,导致抑制效应。基底膜上不同部位的毛细胞具有不同的电学和力学

24、特性。在基部,基底膜窄而劲度强,毛细胞及其绒毛短而有劲度;在顶部,基底膜宽而柔和,毛细胞及其绒毛较长而柔和。这种差异是基底膜有频率选择性和对数分布性的重要因素。A人的听觉范围:20Hz20kHz,0130dB的声音信号。听觉范围外的信号分量可忽略掉,以节省处理成本。人耳的感觉不是绝对的,随着信号特性的不同而不同。第1章褚於A听觉掩蔽效应:在一个强信号附近,弱信号将变得不可 闻,被掩蔽掉。A掩蔽效应分为同时掩蔽和短时掩蔽。A同时掩蔽:同时存在的一个弱信号和一个强信号频率接 近时,强信号会提高弱信号的听阀,当弱信号的听阀被 升高到一定程度时就会导致这个弱信号变得不可闻。A短时掩蔽:分为后向掩蔽和前

25、向掩蔽。掩蔽声即使消失 后,其掩蔽作用仍将持续一段时间,约0.52秒,这是 由于人耳的存储效应所致,这种效应称为后向掩蔽。若 被掩蔽声出现后,相隔0.0502秒之内出现了掩蔽声,它也会对起掩蔽作用,这是由于声尚未被人所反应接 受而强大的声已来临所致,这种掩蔽称为前向掩蔽。掩蔽门限:被掩蔽掉的不可闻信号的最大声压级,在这 个掩蔽阈值以下的声音将被掩蔽掉。第1章褚於被掩蔽掉的不可闻信号的最大声压级称为掩蔽门限或掩蔽 阈值,在这个掩蔽阈值以下的声音将被掩蔽掉。最底端的 曲线表示最小可听阈曲线,即在安静环境下,人耳对各种 频率声音可以听到的最低声压,可见人耳对低频率和高频 率是不敏感的,而在1kHz附

26、近最敏感。低于掩蔽曲线的声 音即使阈值高于安静听阈也将变得不可闻。第1章褚於A掩蔽效应是指人的耳朵只对最明显的声音反应敏感,而对于不敏感的声音,反应则较不为敏感。A MP3等压缩编码便是听觉掩蔽的重要应用,在这些编 码中只突出记录了人耳朵较为敏感的中频段声音,而 对较高和较低的频率的声音则简略记录。A掩蔽效应不仅是听觉生理现象,也是心理现象,“鸡 尾酒效应”就是其中的一例。第1章褚於2.2语音产生的数学模型语音生成系统分成三个部分:1)在声门(声带)以下,称为“声门子系统”,它负责产生激励振动,是“激励系统”;2)从声门到嘴唇的呼气通道是声道,是“声道系 统”;3)语音从嘴唇辐射出去,所以嘴唇

27、以外是“辐射 系统”。,4.2.1激励模型第1章褚於A语音分成清音和浊音,清音由随机噪声激励产生浊音由准周期脉冲串激励产生,其周期称为基音周期。A浊音情况下,激励信号的产生示意图如下。冲激串发生器输出的单位冲激序列(冲激间隔为基音周期)。线性激励系统函数为G(z),经幅度控制后输出为浊音激励。G(z)的反变换g()可以用R osenberg函数近似表小:0.5(1-cosNJ Mn-NJ=cos.-;2N?0;0nNNin G(z)馋二_ _ A增益控制出式中,Ni斜三角波上升部分的时间,约占基音周期的50%;Ni斜三角波下降部分的时间,约占基音周期的35%。第1章褚於ItA斜三角波的占时比例

28、关系与声带开启面积的与时间关系对应。12第1章褚於A清音情况下,发塞音或摩擦音,声道被阻形成湍流。激励可模拟成随机白噪声,用均值为0、方差为1,时间或/和幅值为白色分布的序列。A图示为考虑所有的激励因素,语音产生的数字模型。特点:二元激励,浊音、清音激励交替进行。声道可以用多种滤波器来模拟,通常,把辐射和声道等因素全部结合,表示为全极点函数:第1章褚於结论:优点:该模型对大多数语音是一个好模型,能合成出较满意的语音,是分析语音最重要的基础。缺点:二元激励模型有局限性。模型建立“短时”平衡为前提,不完全符合实际;理论上鼻音和擦音需有零点,浊擦音不是简单的 浊音和清音的叠加,因此不能用该模型模拟。

29、第1章褚於222声道模型A 一般分为两类:声管模型和共振峰模型A无损声管模型(行波型模型):由多个不同截面积的 无损耗管子串联而成的系统,是最简单的声道模型。A图示为10级的无损声管级联模型。语音信号的某一“短时”期间,声道可表示为形状稳 定的管道。每个管子可看作为一个四端网 络,该网络具有反射系数,此 时声道可由一组截面积或一组 反射系数来表示。声门/5 嘴唇 ifl-10级无损声管级联,第1多绪荒*共振峰模型A共振峰:元音激励声道时,引起共振,产生的一组共振频率 称为共振峰频率(共振峰)共振峰是区别元音的重要参数,包括其位置和频带宽度A精确描述语音,应该用尽可能多的共振峰A工程中,常用前三

30、个共振峰参数第一共振峰Fi、第二共振峰F2、第三共振峰F3A元音的共振峰特性与发音机制有关A Fi与舌位高低有关,舌位高Fi低;舌位低Fi高A舌位越低,嘴张得越大(开口度大);舌位越高开口度越小A F2与舌位前后密切相关,舌位靠前F2高,舌位靠后F2低前元音i的舌位靠前,F2达2000 Hz后元音u的舌位靠后,F2只有500 Hz第1章褚於 Fi和F2和嘴唇的圆展程度也有关系,如圆唇可使F2降低等。AF3与舌位有关,并不密切,但受舌尖活动的影响,舌尖抬高卷起时,F3就明显下降 A舌位前后、唇形圆展和开口度大小对Fi和F2的影响情况。舌位、唇形和开口度对F1和F2的影响第1章褚於 成年女子和儿童

31、的基频高于成年男子。A区分语音是男声还女声,是成人声音还是儿童声音,更重要的 因素是共振峰频率的高低。10个英语单元音前3个共振峰频率的平均值。成年女性和男性的共振峰频率有明显的差别(约高25%)-_兀首11:eaeaA0:uu:3Fi男270390530660730570440300640490女310430610860850590470370760500f2男22901990184017201090840102087011901350女27902480233020501220920116095014001640f3男3010255024802410244024102240224023901

32、690女3310307029902810281027102610267027801960第1章褚於A将声道看成为谐振腔,共振峰是该腔体的谐振频率。柯蒂氏器官的纤毛细胞按频率感受排列,故共振峰模型有效。A实践证明:元音用前3个共振峰。辅音或鼻音,用到5个以上的共振峰。A应用物理学知识可推导出均匀断面声管的共振峰频率。A例:成人声道约为17.5 cm,可计算出:力=500 Hz,#=1500 Hz,#=2500 Hz。发e时声道最接近均匀断面,其共振峰最接近上述值。A从语音信号求出共振峰频率、带宽和幅度的方法是重要的。A三种实用的共振峰模型:级联型、并联型、混合型。级联型共振峰模型A级联型共振峰模

33、型认为声道是一组串联的二阶谐振器。声道有多个谐振频率和反谐振频率,可模拟为零极点模型0一般元音,使用全极点模型,其传输函数如下:式中,N极点个数;G幅值因子;ak-多项式系数。可将传输函数分解为多个二阶极点的网络的串联,即:口 1-2eBkT cos 2兀F J+e2BkT 口.dtz 1 L=1 1-(2eBkT cos 2叫Tp+e,口z/一 1Lt 1-btzx-czz-2 式中,j=-e-R,4=23 cos2冗?%=1 _&-G G=d遥M是(N+l)/2的整数部分。第儿个极点为z&=,尸3,T是取样周期,是带宽的1/2o取上式中的某一级,设为:匕(2)=乌一工1-btz-ctz则其

34、幅频特性及其流图如图所示。级联型共振峰模型(取N=10,则M=5)o激励模型和辐射模型参照前述的结果,G是幅值因子。激励模型一口 vi vi V3-V4%辐射模型 一M级联型共振峰模型It第1章褚於并联型共振峰模型A非一般元音和大部分辅音,必须考虑零极点模型。零极点模型传输函数P(z)为:(今3与今母无公国3及今母无混合型共振峰模型A级联型简单,可描述一般元音。级数取决于声道长度,取3T级A鼻音、塞音或摩擦音时,级联模型不能胜任。A采用并联型可解决其不足。它比级联型复杂些。A混合型:级联型与并联型相混合。一种较完备共振峰模型。冲激序列 发生器 T 音调周期随机噪声 发生器混合型共振峰模型第1章

35、褚於223辐射模型从声道模型输出的是速度波,而语音信号是声压波,二 者之倒比称为辐射阻抗。该阻抗表征口唇的辐射效应,也包括圆形的头部的绕射效应等。此时,可推导出辐射阻 抗的公式如下:ZL(。)=Rr+由于辐射引起的能量损耗正比于辐射阻抗的实部,所以辐 射模型是一阶类高通滤波器。在实际信号分析时,常用所谓“预加重技术”,即在取样 之后,插入一个一阶的高通滤波器。此时,只剩下声道部 分,就便于声道参数的分析。第1章褚於224数学模型的实现完整的语音信号的数字模型可以用三个子模型激励模型、声道模型和辐射模型的串联来表示。第1章褚於2.4语音信号的数字化语音信号的数字化一般包括放大及增益控制、反 混叠

36、滤波、采样、A/D变换及编码。模/数转换(A/D)脉冲编码调制存入计河机(PCM)预滤波的目的:抑制输入信号各频域分量中频 率超出二分之一采样频率的所有分量,以防止混 叠干扰。抑制50Hz的电源工频干扰。第1章褚於2语音信号的表征2.5.1语音基本参数对人耳听觉特性的研究目前仅限于在心理声学和语言声学。在人耳的声域范围内,声音听觉心理的主观感受主要有响 度、音高、音色等特征和掩蔽效应、高频定位等特性。其中响度、音高、音色可以在主观上用来描述具有振幅、频率和相位三个物理量的任何复杂的声音,故又称为声音“三要素”;而在多种音源场合,人耳掩蔽效应等特性更重要,它是心理声学的基础。第1章褚於(a)音强

37、对应振幅大小(b)音长对应声波持续时间(d)音质不同时波形有别(c)音高对应频率高低第1章褚於2.3.1强度与响度强度是一个物理测量值,以dBIL(声强级)、dB SPL(声压级)、dB HL(听力级)或dB SL(感觉级)为单位。响度属于心理范畴即人耳辨别声音由强到弱的等 级概念。小量增加一个微弱声音的强度,感觉的 响度会增加很大。若使响的声音更响比使弱的声 音更响,需要增加更大的强度。第1 f绪施*声压与声压级声压是定量描述声波的最基本的物理量。通常讲 的声压值指的是有效声压,即在一定时间间隔内 将瞬时声压对时间求均方根值所得。Pe=声压级是声音的有效声压与基准声压之比,取以 10为底的对

38、数,再乘以20。4=201g4(必)Pref第1章褚於*声强与声强级声强:在物理学中,声波在单位时间内作用在与其传递方 向垂直的单位面积上的能量。声强级:用对数尺度来表示声音强度的等级。在声学中,参考声强/0的大小为1 o,2 W/m2 o人二ioig(/)(四)第1奉褚稔*响度A在物理上,客观测量声音强弱的单位:dyn/cm2(声压,达因每平方厘米),或W/cm?(声强)。A在心理上,主观测量声音强弱的单位:方(phon)(响度级),或宋(sone)(响度)。客观和主观两种声音强弱的计量单位是完全不同的两种概念,它们之间又有一定关系。A国际协议规定,0 dB声强级的1 kHz纯音的响度级定义

39、为0方,n dB声强级的1 kHz纯音的响度级定义为n方。A听阈:当声音的强度小到人耳刚刚可听见时的声强。1 kHz纯音,听阈为10 w/cm?声强(OdB声强度级);0 dB声强级是非常小的单位,仅使鼓膜移动约I O cm。A痛阈:当声音的强度大到人耳感到疼痛时的声强。1kHz纯音,痛阈约为loTw/ci1声强(120dB声强度级);120 dB使鼓膜的位移约为10一1111。“听阈-频率”和“痛阈-频率”曲线表征其变化特性A两曲线间为听觉范围。A听觉范围相当宽,达I O1?量级以上。A例:1kHz,10 dB声强级的声音,响度级为为方;与200 Hz,30dB 声强级的声音,感觉响度相同。

40、第1章褚於A等响度曲线:当不同频率的声音有同样响度的时候,它 们的强度并不一定是一样的。等响度曲线就是把不同频 率和不同强度的纯音和1kHz的纯音做等响度的配对。A研究历史:对于等响曲线的研究,最早可追溯到1927年 Kingsbury的工作,由于他是对单耳听觉条件下的等响 曲线进行的测量,因此受到了一定限制。2003年,Suzuki和Takeshima根据新近的研究数据对标准等响曲 线进行了重新修订,公布了I SO226.2003版等响曲线。标准:根据I S0226.2003标准,频率为/的纯音的声压级:4=(叱%+94)(e),第1章绪稔2.3.2频率与音高A音调:是描述听觉分辨声音高低时

41、的一种特性。客观上,用频率表示声音的音调,其单位是Hz,主观上,感觉音调的单位采用美(mel)标度。这是两个概念上的不同、既有联系的计量单位A感音范围:20Hz20 kHz,约1000倍频程,910个八度音。A规定:音调的测量以40 dB声强为基准,由主观感觉定标,且1 kHz纯音的音调定为1 000美。例:让听者听两个40dB声强级的纯音,一纯音频率固定,调节另一个纯音的频率使其感觉音调高1倍,标定这两个同声强声音的音调差为1倍。A实验表明:音调与频率是非线性的,与声强及波形有关。例:1kHz、1000美纯音的倍音调是2000美(频率4 kHz);其半音调为500美(频率400 Hz)。第1

42、章褚於“A音调和频率/的关系可以近似地表示为z=25951og10(l+/700)人耳可分辨音调约1400个,可分辨响度约280个。A若声强和频率皆变化,人可分辨纯音达3040万个。0 5 0 5 0 53 2 2 1 1 主观感觉的音调/美020OOOOOOOOOOOO50 100 200 500 Ik 2k 5k 10k频率/Hz“音调-频率”曲线第1 f绪施2.3.3音色与音质音色又称音品,指的是声音的感觉特性,由声音 波形的谐波频谱和包络决定。声音波形的基频所 产生的最清楚的音称为基音,各次谐波的微小振 动所产生的声音称泛音。不同的发声体由于材料、结构不同,发出声音的音色也就不同。“音

43、质”笼统的意义是声音的品质,但是在音响 技术中它包含了三方面的内容:声音的音高,即 音频的强度或幅度;声音的音调,即音频的频率 或每秒变化的次数;声音的音色,即音频泛音或 谐波成分。第1章褚於A结论:清辅音波形类似于白噪声,振幅很小,没有明显的周 期性;元音有明显的周期性,且振幅较大。其周期对应声带 振动的频率,即基音频率,它是声门脉冲的间隔。A元音语音波形携带共振峰特性。A语音信号属于短时平稳信号,1030 ms内其特性基本不变,或者变化很缓慢。可截取一小段语音进行频谱分析,得出语音的频域特 性。It第1章褚於2.5.2时域表示A语音信号可用 其时间波形表示,A观察波形可看出语 音信号的一些

44、重要 特性。A汉语拼音souji”的时域波形。0 50 100 150 200 250250 300 350 400 450 5001w1lTrlTl1l理mTl 1H1111111 凶 1 1 h H111111H1 nnhiimrii 111 _1撕nig 0一li脚n理0一题nIgg u一500 550 600 650 700 7501题n理01_|_|_|_L750 800 850 900 950 1000时间/ms第1章褚荒253频谱表示A语音信号属于短时平稳信号,一般认为在1030ms内语音信号 特性基本上是不变的,或者变化很缓慢。N-1Y=20*logF F T(xz?(m)w(

45、m)|=20*logm=0由谱图能得看出浊音的基音频率及谐波频率(本例约250 Hz)。频谱中明显的凸起点是共振峰频率。清音频谱峰点之间的间隔是随机的,没有周期分量。-200 0.5 1 1.5 2 2.5 3 3.5 4频率/kHzo o O2 3 4-CQP/翟-100 0.5 1 1.5 2 2.5 3 3.5 4频率/kHz002.5.4语谱图A时域和频域分析是两种重要方法,但有局限性。时域分析对频率特性没有直观了解;频域分析出的特征中没有随时间的变化关系。A语音信号是时变信号,所以其频谱也是随时间变化的。A一帧内可以认为语音频谱是不变的,这种频谱又称为短时谱。A短时谱只反映静态频率特

46、性,不能反映动态频率特性。A改进措施:时变频谱(Fourier谱)图,即语谱图。A语谱图是三维频谱图,纵轴为频率,横轴为时间,谱能量用相 应点的灰度或色调的浓淡来表示。A语谱图:显示大量与语音特性有关的信息,它综合了频谱图和 时域波形的特点,明显地显示出语音频谱随时间的变化情况,或者说是一种动态的频谱。第1章褚荒A用语谱图可确定语音参数,例如共振峰频率及基音频率。A语谱图的纹路,称为“声纹”;因人而异,可用于讲话人识别。A语谱图中的花纹有横杠、乱纹和竖直条等。横杠是与时间轴平行的几条深黑色带纹,相应于共振峰。A竖直条相当于基音,条纹的起点相当于声门月机原起点,条纹之间的距离表示基音周期。1A乱

47、纹的深浅和上下限反映;喳0噪声能量在频域中的分布O8 6 4 2 052.第1章褚於第3章语音信号分析方法 概述 语音信号预处理o 时域分析 频域分析 倒谱分析 线性预测分析第1章褚於3.1概述贯穿于语音分析全过程的是“短时分析技术”。语音信号 从整体来看其特性及表征其本质特征的参数均是随时间而 变化的,所以它是一个非平稳态过程。但是,由于不同的 语音是由人的口腔肌肉运动构成声道某种形状而产生的响 应,而这种口腔肌肉运动相对于语音频率来说是非常缓慢 的。因此,语音信号具有短时平稳性。任何语音信号的分析和处理必须建立在“短时”基础上,将语音信号分为一段一段来分析其特征参数。通常,每一 段被称为一

48、“帧”,帧长一般取1030ms。止匕时,对于整 体的语音信号来讲,分析出得到的参数应该是由每一帧特 征参数组成的特征参数时间序列。第1章褚於3.2语音信号预处理3.2.1 分帧与加窗 分帧虽然可以采用连续分段的方法,但一般采用交叠分段的 方法。前一帧和后一帧的交叠部分称为帧移。帧移与帧长的 比值一般取为01/2。分帧是用可移动的有限长度窗口进行 加权的方法来实现的,即用一定的窗函数来乘以语音信号。第1章褚於321分帧与加窗加窗信号的表示形式:xn(m)=w(m)x(n+m)第一个问题频谱泄漏 频谱泄露由截断加窗导致,即单频信号的频谱为一条谱线,截断后谱线能量发散,称为频谱泄露。对于周期信号,如

49、果加矩形窗正好取到整数个周期,相当于 没有窗,不泄露。为减少频谱泄漏,可采用不同的窗函数对信号进行截断,泄 漏与窗函数频谱的两侧旁瓣有关,如果两侧旁瓣的高度趋于 零,而使能量相对集中在主瓣,就可以较为接近于真实的频 谱。第1章褚於现象及分析设有两个余弦波,一个是1kHz,一个是1.05kHz,即x=cos(2%x 1000%)+cos(2 乃 x 1050。设采样频率为100kHz。第1章褚於原因:频率分辨率不足1时间分辨率:凡二亍 时间长度频率分辨率:4?加=与-1 FFT长度一 Nfft第1章褚於补7000个零频率分辨率改善频谱点密集,但是依然无法将1kHz和L05kHz的两个 频率成分分

50、开。这是因为波形分辨率只与原始数据 的时长T(有效数据)有关,而与参与FFT的数据点 数无关。第1章褚於(3)7000个有效数据频谱泄露Hz分辨率改善为14Hz,可看到两个谱峰。图上1kHz对 应的幅值为1,与原始信号中该频率成分的幅值一致;但1.05kHz对应的幅值明显低于1,且其周边的点 上却都有不小的幅值,即所谓的频谱泄露。第1章褚於(4)7000个有效数据+1000个零点谱峰改善,/心 Hz此时,分辨率为12.5kHz,是两信号频率的公约数,lkHz=80*12.5Hz,L05kHz=84*12.5Hz,所以谱线同时经过1kHz和L05kHz这两个频率点。由于未增加有效数据,所以仍有频

展开阅读全文
部分上传会员的收益排行 01、路***(¥15400+),02、曲****(¥15300+),
03、wei****016(¥13200+),04、大***流(¥12600+),
05、Fis****915(¥4200+),06、h****i(¥4100+),
07、Q**(¥3400+),08、自******点(¥2400+),
09、h*****x(¥1400+),10、c****e(¥1100+),
11、be*****ha(¥800+),12、13********8(¥800+)。
相似文档                                   自信AI助手自信AI助手
百度文库年卡

猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 考试专区 > 其他

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服