收藏 分销(赏)

语音信号处理-第02章 语音信号的产生、特征与人耳的听觉特性.pdf

上传人:xrp****65 文档编号:6110922 上传时间:2024-11-28 格式:PDF 页数:18 大小:1.29MB
下载 相关 举报
语音信号处理-第02章 语音信号的产生、特征与人耳的听觉特性.pdf_第1页
第1页 / 共18页
语音信号处理-第02章 语音信号的产生、特征与人耳的听觉特性.pdf_第2页
第2页 / 共18页
点击查看更多>>
资源描述
1语音信号处理语音信号处理Speech Signal ProcessingSpeech Signal Processing长春工业大学图像工程研究所史东承教授长春工业大学图像工程研究所史东承教授2010.8第二章 语音信号的产生、特征与人耳的听觉特性第二章 语音信号的产生、特征与人耳的听觉特性2.1 语音信号的产生2.1 语音信号的产生鼻腔口腔气管嘴巴鼻子声带软腭人类发音器官示意图人类发音器官示意图发音器官:1)肺和气管:能源与能量传输;2)咽喉:振动源,包括声带和声门;3)声道(声门到嘴唇的呼气通道):谐振腔(包括口腔、鼻腔等);4)其他发音器官:包括嘴唇、齿、舌、面颊等,使谐振腔改变形状。发音器官:1)肺和气管:能源与能量传输;2)咽喉:振动源,包括声带和声门;3)声道(声门到嘴唇的呼气通道):谐振腔(包括口腔、鼻腔等);4)其他发音器官:包括嘴唇、齿、舌、面颊等,使谐振腔改变形状。产生语音的器官产生语音的器官2发音机理发音机理 喉位于气管的上端,实际上是气管末端一圈软骨构成的一个框架,前方稍高处的软骨称为甲状软骨,前后方环成一圈的称为喉部环形软骨,喉中两片肌肉称为声带,声带之间的空隙为声门。喉位于气管的上端,实际上是气管末端一圈软骨构成的一个框架,前方稍高处的软骨称为甲状软骨,前后方环成一圈的称为喉部环形软骨,喉中两片肌肉称为声带,声带之间的空隙为声门。当声带张开时,声门打开,空气可自由呼出,正常呼吸就处于这种情况;当声带闭合,声门关闭。当声带张开时,声门打开,空气可自由呼出,正常呼吸就处于这种情况;当声带闭合,声门关闭。Tp基音周期基音周期声带靠拢声带靠拢当说话时,声带在软骨的作用下相互靠近但不完全闭合,声门变成一条窄缝,当气流通过窄缝时压力减小,外界压力大,从而两片声带完全闭合使得气流不能通过,当气流阻断时压力恢复正常,推开两片声带,声门再次打开,气流再次流过。当说话时,声带在软骨的作用下相互靠近但不完全闭合,声门变成一条窄缝,当气流通过窄缝时压力减小,外界压力大,从而两片声带完全闭合使得气流不能通过,当气流阻断时压力恢复正常,推开两片声带,声门再次打开,气流再次流过。声带的开启和闭合称为振动。这一振动过程周而复始,形成了一串周期性脉冲气流送入声道。这个过程发出的音称为浊音。如汉语发音的a、i、u和o等。声带的开启和闭合称为振动。这一振动过程周而复始,形成了一串周期性脉冲气流送入声道。这个过程发出的音称为浊音。如汉语发音的a、i、u和o等。男声发音男声发音“我的语音我的语音”的时域波形和语谱图的时域波形和语谱图3第二章 语音信号的产生、特征与人耳的听觉特性第二章 语音信号的产生、特征与人耳的听觉特性2.2 语音信号的分类2.2 语音信号的分类声学语音学,根据激励方式划分:声学语音学,根据激励方式划分:(1)浊音((1)浊音(Voiced Speech),又称为有声语音基音(pitch)),又称为有声语音基音(pitch):声道打开,声带在先打开后关闭,气流经过使声带要发生张驰振动,变为准周期振动气流。浊音的激励源被等效为准周期的脉冲信号。(2)清音((2)清音(Unvoiced Speech),又称为无声语音:),又称为无声语音:声带不振动,而在某处保持收缩,气流在声道里收缩后高速通过产生湍流,再经过主声道(咽、口腔)的调整最终形成清音。清音的激励源被等效为一种白噪声信号。(3)爆破音(3)爆破音(Plosive Speech):):声道关闭之后产生压缩空气然后突然打开声道所发出的声音。语音的形成原理 肺中的空气受到挤压形成气流,气流通过声门(肺中的空气受到挤压形成气流,气流通过声门(Vocal Cords)(声带)沿着声道(声带)沿着声道(Vocal Tract)(由咽(由咽-Pharynx、喉、喉-Throat、口腔、口腔-Cavity等组成)释放出去,就形成了语音。等组成)释放出去,就形成了语音。气流气流Stream、声门(、声门(Glottis)可以等效为一个)可以等效为一个激励源激励源Excitation,声道可以等效为一个时变,声道可以等效为一个时变滤波器滤波器(共振峰)。(共振峰)。语音信号具有很强的相关性(长期相关、短期相关)。语音信号具有很强的相关性(长期相关、短期相关)。浊音 激励脉冲的周期值称为激励脉冲的周期值称为“基音周期基音周期”,用,用Tp表示。表示。称为称为“基因频率基因频率”。fs与声带尺寸与特性有关。与声带尺寸与特性有关。由周期脉冲串产生的语音称为由周期脉冲串产生的语音称为“浊音浊音”。pp1fT?60200:200450pppHzHzfff男性说话者在范围内女性说话者和小孩在之间发音语音学发音语音学都是基本单位,二者等同。都是基本单位,二者等同。由音节构成词,由词构成由音节构成词,由词构成“节奏群节奏群”或或“句子句子”;音素的各种不同发音方式称为;音素的各种不同发音方式称为“音素变体音素变体”。音节音节=元音元音Vowel+辅音辅音Consonant 辅音在元音前或后端(声母)辅音在元音前或后端(声母)元音是音节主干(长度和能量占主要部分)(是浊音)(韵母)元音是音节主干(长度和能量占主要部分)(是浊音)(韵母)音节结构:音节结构:C-V结构,结构,V-C结构,结构,C-V-C结构结构音素:构成语音流的最小单位音节:发声的最小单位4汉语普通话音节结构框架发音语音学发音语音学 韵母韵母a,i,u,o为浊音;为浊音;声母声母s,sh,h,x,f为清音;为清音;声母声母z,zh,j既有清音又有浊音。既有清音又有浊音。鼻音韵母鼻音韵母n,ng.鼻音声母鼻音声母m,n,l.Phoneme(smallest)音素音素:清音,浊音清音,浊音 Morpheme 词素词素 Syllable 音节:元音和辅音构成;(声母和韵母)音节:元音和辅音构成;(声母和韵母)Word 单词单词 Phrase 短语短语 Sentence 句子句子 Paragraph 段落段落 Topics,Articles,Stories 主题文章主题文章5语音信号时频特性32毫秒女声的时域波形及其功率谱毫秒女声的时域波形及其功率谱第二章 语音信号的产生、特征与人耳的听觉特性第二章 语音信号的产生、特征与人耳的听觉特性2.3 语音信号产生的模型2.3 语音信号产生的模型语音生成模型常用的有:(1)声管模型:波动方程描述(2)LPC模型:数学模型描述(3)共振峰模型:谐振腔描述语音生成模型常用的有:(1)声管模型:波动方程描述(2)LPC模型:数学模型描述(3)共振峰模型:谐振腔描述一.无损声管模型一.无损声管模型 短期内,声道可以表示为形状稳定的管道短期内,声道可以表示为形状稳定的管道 各段管子截面积的和差比,称为反射系数各段管子截面积的和差比,称为反射系数一.无损声管模型一.无损声管模型声道为一变截面积的声管。声道为一变截面积的声管。声道的频率特性主要取决于声道截面最小值出现的位置(该点称为收紧点)。收紧点位置由舌来控制。声道的频率特性主要取决于声道截面最小值出现的位置(该点称为收紧点)。收紧点位置由舌来控制。17cm8.5cm13cm声道的无损模型声道的无损模型6气流从喉向上经过口腔或鼻腔后从嘴或鼻孔向外辐射。气流流过声道时犹如通过了一个具有某种谐振特性的腔体,放大某些频率,在频谱上形成相应位置的峰起,称为共振峰。声带振动频率输出气流的频率气流从喉向上经过口腔或鼻腔后从嘴或鼻孔向外辐射。气流流过声道时犹如通过了一个具有某种谐振特性的腔体,放大某些频率,在频谱上形成相应位置的峰起,称为共振峰。声带振动频率输出气流的频率声道的谐振特性声道的谐振特性讲话时,由于舌和唇的连续运动,使声道形状改变,随即改变谐振频率,使得发不同的音。声道的不同的形状,对应不同的谐振频率。讲话时,由于舌和唇的连续运动,使声道形状改变,随即改变谐振频率,使得发不同的音。声道的不同的形状,对应不同的谐振频率。谐振频率的计算谐振频率的计算谐振频率发生在:Fn=(声道的横截面是均匀的,发元音e时,声道近似是均匀的。)谐振频率发生在:Fn=(声道的横截面是均匀的,发元音e时,声道近似是均匀的。)L=17cm,声道的长度,L=17cm,声道的长度,c=340 m/sn=1,2,3 n=1,2,3 称为第一共振峰F1=500Hz、第二共振峰F2=1500Hz、第三共振峰F3=2500Hz,称为第一共振峰F1=500Hz、第二共振峰F2=1500Hz、第三共振峰F3=2500Hz,2n-14L2n-14Lc由四部分组成:GU/V浊音激励+激励形成激励源清音激励声道模型V(Z)辐射模型R(Z)增益参数 和清浊音标识二离散时域模型语音信号产生的离散时域数字模型语音信号产生的离散时域数字模型 a 声道模型:声道模型:把连续变化的声管,近似为由把连续变化的声管,近似为由P段截面不变的声管的串接。当段截面不变的声管的串接。当P=812时可以满足一般精度要求,一般取时可以满足一般精度要求,一般取P=10。P取偶数,此时取偶数,此时V(Z)有有P/2对共轭极点。其共轭极点为对共轭极点。其共轭极点为 各称为语音信号的共振峰。各称为语音信号的共振峰。()1V Z()1PiiiGH Za Z=()exp,1,2.2kkpjkr=2kkF=7语音信号产生的离散时域数字模型语音信号产生的离散时域数字模型 b基音系数基音系数 设:语音信号采样频率为设:语音信号采样频率为 fs,基音频率,基音频率F0,则,则 N0=fs/F0 当当 fs=8kHz(8000样样/秒秒),F0=50450Hz时有时有 N0=18160 取样周期取样周期Ts=1/fs,即每隔,即每隔Ts时长取一个样。时长取一个样。N0的意义:系统要求每隔的意义:系统要求每隔N0*Ts时间产生一个冲激脉冲。时间产生一个冲激脉冲。基音频率基音频率F0(Fundamental Frequency)基音频率基音频率F0=1/Tp由声带的质量来决定由声带的质量来决定。F0的大小决定了声音的高低,称为音高。的大小决定了声音的高低,称为音高。男性的男性的F0大致分布在大致分布在:60200Hz 女性和儿童的女性和儿童的F0大致分布在大致分布在:200450Hz语音信号产生的离散时域数字模型语音信号产生的离散时域数字模型 c脉冲激励形成模型脉冲激励形成模型 取:取:其中其中g1,g2为接近为接近1的小数,的小数,Av用于调节浊音的幅度或能量;用于调节浊音的幅度或能量;Au用于调节清音的幅度或能量;用于调节清音的幅度或能量;G(Z)按按12dB每倍频程速度下降。每倍频程速度下降。()()()1111211G zggzz=语音信号产生的离散时域数字模型语音信号产生的离散时域数字模型 d辐射模型辐射模型 R(z)=,表示嘴型对语音的影响,表示嘴型对语音的影响 e声道面积函数声道面积函数 上述模型中上述模型中G(Z)和和R(Z)始终保持不变。始终保持不变。Fp,Av,Au和浊和浊/清开关及清开关及a1ap随时间变化。但变化速度受限,一般认为在随时间变化。但变化速度受限,一般认为在1030ms内保持不变,常取语音分析帧长为内保持不变,常取语音分析帧长为20ms,但对塞音和爆破音取帧长为,但对塞音和爆破音取帧长为5ms。()zr118语音信号产生的离散时域数字模型语音信号产生的离散时域数字模型 f激励源修正模型激励源修正模型 把浊把浊/清开关改为按权相加操作。清开关改为按权相加操作。以上模型的缺点:传输函数不含零点(全极点模型)以上模型的缺点:传输函数不含零点(全极点模型)激励模型辐射模型1H2H3H4H5H语音级联型共振峰模型级联型共振峰模型激励模型辐射模型1H2H3H4H5H语音混合G1A3A2A4A5A并联型共振峰模型并联型共振峰模型三共振峰模型随机噪声激励模型辐射模型1H2H3H4H5H语音混合1A3A2A4A5A周期脉冲激励模型5HvG2H1H3H4HuG基音周期T浊音增益清音增益混合型共振峰模型混合型共振峰模型第二章 语音信号的产生、特征与人耳的听觉特性第二章 语音信号的产生、特征与人耳的听觉特性2.4 人耳的听觉特征2.4 人耳的听觉特征语音听觉系统(一个十分巧妙的音频信号处理器)人类接收语音由人耳来完成,空气振动由耳廓收集,经外耳道而抵达鼓膜,鼓膜随之振动,使鼓室中的空气和听骨链也发生振动,听骨链的振动经前庭窗(卵圆窗)激励前庭淋巴,变为液波,液波使位于基底膜上的螺旋器受到刺激,将神经冲动经听神经传到中枢而产生听觉。语音听觉系统(一个十分巧妙的音频信号处理器)人类接收语音由人耳来完成,空气振动由耳廓收集,经外耳道而抵达鼓膜,鼓膜随之振动,使鼓室中的空气和听骨链也发生振动,听骨链的振动经前庭窗(卵圆窗)激励前庭淋巴,变为液波,液波使位于基底膜上的螺旋器受到刺激,将神经冲动经听神经传到中枢而产生听觉。9 听阈:听阈:指人进入声场后能听到的自由场最低声压级,即可听声的最小声压级指人进入声场后能听到的自由场最低声压级,即可听声的最小声压级(dB)。正常人的听阈介于正常人的听阈介于-5 130dB之间,对低频和高频是不敏感的,听阈为之间,对低频和高频是不敏感的,听阈为60dB,在,在1kHz附近最敏感。附近最敏感。听觉范围听觉范围 频率:频率:0.02Hz-20kHz 强度:强度:-5 130dB SPL(声压级声压级)纯音听阈与频率有关纯音听阈与频率有关24dB50dB4dB15kHz40Hz1kHz 响度响度 人耳对于频率不同的纯音的听辩灵敏度,在数值上等于人耳对于频率不同的纯音的听辩灵敏度,在数值上等于1KHz纯音的声强级,单位纯音的声强级,单位:方方(Phon)主观值主观值 强度强度 频率频率 波形波形 单位单位:宋宋(Sone)频率为频率为1KHz、在听阈之上、在听阈之上40dB的纯音所具有的响度为的纯音所具有的响度为1Sone.Fletcher-Munson 人耳听觉等响度级曲线人耳听觉等响度级曲线常规声场的声压级表常规声场的声压级表0.0000630.00020.000630.0020.020.0630.63202000.0000630.00020.000630.0020.020.0630.6320200声压/Pa声压/Pa10农村静夜20树叶沙沙声30耳语40安静房间60普通谈话70繁华街道90地铁100织布车间140飞机附近10农村静夜20树叶沙沙声30耳语40安静房间60普通谈话70繁华街道90地铁100织布车间140飞机附近声压级/dB声源声压级/dB声源10 音调:音调:音调是听觉分辩声音高低时,用于描述这种感受的一种特性。音调是听觉分辩声音高低时,用于描述这种感受的一种特性。对于频率低的声音,听起来感觉它的音调对于频率低的声音,听起来感觉它的音调”低低”主观值主观值 频率,声强及波形频率,声强及波形 单位单位:Mel 一个高于听阈一个高于听阈40dB、频率为、频率为1KHz的纯音所产生的音调为的纯音所产生的音调为1000Mel.人耳结构和功能人耳结构和功能 1.1.外耳外耳:有对声源定位和对声音放大的作用,由耳廓和外耳道组成。:有对声源定位和对声音放大的作用,由耳廓和外耳道组成。耳廓:耳廓:呈漏斗型,其作用是收集声音。呈漏斗型,其作用是收集声音。外耳道:外耳道:直至鼓膜,其中充满空气,是一谐振腔,使谐振频率附近的频率成分有某些放大作用,导致声音有某些失真。直至鼓膜,其中充满空气,是一谐振腔,使谐振频率附近的频率成分有某些放大作用,导致声音有某些失真。外耳道的长度为外耳道的长度为2.5cm,对波长为其,对波长为其4倍作用的声波能起到较好的放大作用,即有:倍作用的声波能起到较好的放大作用,即有:4 2.5=10cm,3000-4000Hz声波的波长为声波的波长为8.5cm-11.41cm,因此外耳道对这部分频率的信号有,因此外耳道对这部分频率的信号有10dB左右的扩音作用。左右的扩音作用。2.中耳2.中耳 结构:总容量为结构:总容量为 2 立方厘米,内含三块听小骨,锤骨、砧骨、镫骨,其中锤骨与鼓膜相接触,镫骨则与内耳的前庭窗相接触。立方厘米,内含三块听小骨,锤骨、砧骨、镫骨,其中锤骨与鼓膜相接触,镫骨则与内耳的前庭窗相接触。作用:进行阻抗变换,将中耳两端的声阻抗匹配起来;保护内耳。在一定声强范围内,听小骨实现声音的线性传递,而在特强声时,实现非线性传递。作用:进行阻抗变换,将中耳两端的声阻抗匹配起来;保护内耳。在一定声强范围内,听小骨实现声音的线性传递,而在特强声时,实现非线性传递。113.内耳3.内耳 结构:主要部分是耳蜗,耳蜗长约结构:主要部分是耳蜗,耳蜗长约 3.5cm,呈螺旋状盘绕,呈螺旋状盘绕 2.5-2.75 圈,是一个密闭的管子,内部充满了淋巴液。圈,是一个密闭的管子,内部充满了淋巴液。作用:将振动变换为神经冲动。当声音传入中耳时,镫骨的运动经过前庭窗引起耳蜗内液体压强的变化,从而引起行波沿基底膜的传输,引起基底膜的振动。作用:将振动变换为神经冲动。当声音传入中耳时,镫骨的运动经过前庭窗引起耳蜗内液体压强的变化,从而引起行波沿基底膜的传输,引起基底膜的振动。内耳(耳蜗)结构内耳(耳蜗)结构前庭窗前庭窗镫骨镫骨基底膜基底膜 不同频率的声音产生不同的行波,其峰值出现在基底膜的不同位置上。基底膜的振动导致沿基底膜分布的毛细胞的电位发生改变,引起神经冲动,传递给大脑,产生听觉。不同频率的声音产生不同的行波,其峰值出现在基底膜的不同位置上。基底膜的振动导致沿基底膜分布的毛细胞的电位发生改变,引起神经冲动,传递给大脑,产生听觉。如果信号是一个多频率的信号,则产生的行波将沿着基底膜在不同的位置产生最大幅度,从这个意义上讲,耳蜗就像一个频谱分析仪,将复杂信号分解成各种频率分量,这种作用称为如果信号是一个多频率的信号,则产生的行波将沿着基底膜在不同的位置产生最大幅度,从这个意义上讲,耳蜗就像一个频谱分析仪,将复杂信号分解成各种频率分量,这种作用称为人耳的时频分析特性人耳的时频分析特性。耳蜗在语音接收过程起着重要的作用。耳蜗在语音接收过程起着重要的作用。人工耳蜗人工耳蜗人工耳蜗是一种电子装置,能帮助重度及极重度耳聋患者获得或重新恢复听觉。它代替病变受损的听觉器官,把声音转换成编码的电信号传入内耳耳蜗,刺激分布在那里的听神经,再由大脑产生听觉。人工耳蜗是一种电子装置,能帮助重度及极重度耳聋患者获得或重新恢复听觉。它代替病变受损的听觉器官,把声音转换成编码的电信号传入内耳耳蜗,刺激分布在那里的听神经,再由大脑产生听觉。12人工耳蜗的工作原理人工耳蜗的工作原理 麦克风接收声音,并通过导线将其传至言语处理器;言语处理器对声音进行数字化、滤波编码等处理,并将编码信号经导线传至传输线圈;传输线圈将编码信号通过耦合传至皮下的接收器;接收器对编码信号进行解码;按信号选择一定位置的电极,刺激耳蜗内的听神经纤维,使其产生兴奋,将信号传入大脑,产生听觉。麦克风接收声音,并通过导线将其传至言语处理器;言语处理器对声音进行数字化、滤波编码等处理,并将编码信号经导线传至传输线圈;传输线圈将编码信号通过耦合传至皮下的接收器;接收器对编码信号进行解码;按信号选择一定位置的电极,刺激耳蜗内的听神经纤维,使其产生兴奋,将信号传入大脑,产生听觉。声音传入内耳的途径声音传入内耳的途径(1)由空气传导称为气导,其过程为:)由空气传导称为气导,其过程为:声波耳廓鼓膜听骨内耳基底膜上毛细胞电位改变神经冲动声波耳廓鼓膜听骨内耳基底膜上毛细胞电位改变神经冲动(2)由骨传导称为骨导,其过程为:由骨传导称为骨导,其过程为:声波颅骨外淋巴振动内耳基底膜上毛细胞电位改变神经冲动声波颅骨外淋巴振动内耳基底膜上毛细胞电位改变神经冲动人耳的两个重要特性人耳的两个重要特性(1)耳蜗对声信号的时频分析特性(2)人耳的掩蔽效应(1)耳蜗对声信号的时频分析特性(2)人耳的掩蔽效应人耳的掩蔽(人耳的掩蔽(Masking)效应:指耳朵对一个声音的听觉感受,受到另一个声音影响的现象,即在一个强信号附近弱信号将变得不可闻,被掩蔽掉了。)效应:指耳朵对一个声音的听觉感受,受到另一个声音影响的现象,即在一个强信号附近弱信号将变得不可闻,被掩蔽掉了。13掩蔽阈值掩蔽阈值 被掩蔽掉的不可闻信号的最大声压级称为掩蔽门限和掩蔽阈值被掩蔽掉的不可闻信号的最大声压级称为掩蔽门限和掩蔽阈值(Masking Threshold),在这个掩蔽阈值以下的声音将被掩蔽掉。,在这个掩蔽阈值以下的声音将被掩蔽掉。掩蔽效应掩蔽效应分为分为同时掩蔽同时掩蔽(频域掩蔽频域掩蔽)和和短时掩蔽短时掩蔽(时域掩蔽时域掩蔽)。同时掩蔽:同时掩蔽:是指存在一个弱信号和一个强信号,当其频率接近时,强信号会提高弱信号的阈值导致弱信号变得不可闻。是指存在一个弱信号和一个强信号,当其频率接近时,强信号会提高弱信号的阈值导致弱信号变得不可闻。1000200030004000020406080声压级SPL(dB)频率(赫兹)主音(掩蔽音)掩蔽曲线同时掩蔽(频率掩蔽):纯音的同时掩蔽现象同时掩蔽(频率掩蔽):纯音的同时掩蔽现象短时掩蔽短时掩蔽 短时掩蔽(非同时掩蔽)分为前向掩蔽和后向掩蔽两种。短时掩蔽(非同时掩蔽)分为前向掩蔽和后向掩蔽两种。前向掩蔽:前向掩蔽:若被掩蔽声若被掩蔽声 A 出现后,相隔出现后,相隔(0.05s,2s)之内出现了掩蔽声之内出现了掩蔽声B,对,对A起掩蔽作用,因为起掩蔽作用,因为 A 声尚未被人所反应接收而强大的声尚未被人所反应接收而强大的B声已来临。声已来临。后向掩蔽:后向掩蔽:掩蔽声掩蔽声B即使消失后,其掩蔽作用仍将持续一段时间,约即使消失后,其掩蔽作用仍将持续一段时间,约(0.5s,2s),这是由于人耳的存储效应所致。,这是由于人耳的存储效应所致。-100-500501001502000102030405060强度SPL(dB)时间(ms)前向屏蔽区后向屏蔽区时间掩蔽:纯音的非同时掩蔽现象时间掩蔽:纯音的非同时掩蔽现象14数学描述实例数学描述实例 假设:同时出现的假设:同时出现的A声和声和B声,若原来声,若原来A声的阈值为声的阈值为50dB,由于另一个频率不同的,由于另一个频率不同的B声的存在使得声的存在使得A声的阈值提高了声的阈值提高了68dB,则,则B声称为掩蔽声,声称为掩蔽声,A声称为被掩蔽声。掩蔽量为声称为被掩蔽声。掩蔽量为68dB50dB18dB。掩蔽效应的作用掩蔽效应的作用 当只有当只有A声时,必须将声压级在声时,必须将声压级在50dB以上的声音信号传送出去,以上的声音信号传送出去,50dB以下的声音是听不到的。以下的声音是听不到的。当同时出现了当同时出现了B声,由于掩蔽效应,使得声,由于掩蔽效应,使得A声中的声中的68dB以下的声音是听不到了,可以不予传送,只是传送以下的声音是听不到了,可以不予传送,只是传送68dB以上的信号。以上的信号。同时掩蔽:掩蔽声越强,掩蔽作用越大;掩蔽声和被掩蔽声的频率越接近,掩蔽效果越明显;当频率相同时,掩蔽效果最大。同时掩蔽:掩蔽声越强,掩蔽作用越大;掩蔽声和被掩蔽声的频率越接近,掩蔽效果越明显;当频率相同时,掩蔽效果最大。掩蔽效应与临界频带掩蔽效应与临界频带 Fletcher 和和 Munson于1937年发现,一个音调于1937年发现,一个音调(tone)可被一个以该音调频率为中心频率的宽带噪声所掩盖。如果该宽带噪声能量不变而改变其带宽的话,这种掩盖现象不受噪声带宽变化的影响,除非噪声带宽超过一个临界值,这个临界值即称为可被一个以该音调频率为中心频率的宽带噪声所掩盖。如果该宽带噪声能量不变而改变其带宽的话,这种掩盖现象不受噪声带宽变化的影响,除非噪声带宽超过一个临界值,这个临界值即称为临界频带临界频带(Critical Band)。换言之,人耳对一个临界频带里的音不易分清。)。换言之,人耳对一个临界频带里的音不易分清。临界带宽值得确定临界带宽值得确定 掩蔽性:一个纯音可以被以它为中心频率、并且具有一定频带宽度的连续噪声所掩蔽。掩蔽性:一个纯音可以被以它为中心频率、并且具有一定频带宽度的连续噪声所掩蔽。确定性:如果这一频带内噪声功率等于该纯音的功率,这时该纯音处于刚能被听到的临界状态,则称这一带宽为临界带宽。确定性:如果这一频带内噪声功率等于该纯音的功率,这时该纯音处于刚能被听到的临界状态,则称这一带宽为临界带宽。实验测得实验测得15临界带宽值得确定实验测量实例临界带宽值得确定实验测量实例临界频带这个参数提出的意义是可将人耳当作一个并联的滤波器组,各个滤波器有不同的带宽,分别对听觉作出不同的贡献。临界频带这个参数提出的意义是可将人耳当作一个并联的滤波器组,各个滤波器有不同的带宽,分别对听觉作出不同的贡献。临界频带的单位一般用临界频带的单位一般用Bark来表示以纪念科学家来表示以纪念科学家Barkhauseu。1。1 Bark用来指明一个临界频带的频率宽度用来指明一个临界频带的频率宽度若记若记Bark域的频率变量为域的频率变量为b b,频率变量为,频率变量为f,则有:,则有:fb=6006sinh(/)一个临界带宽单位可用一个临界带宽单位可用Bark来表示来表示 24个个Bark 基底膜上基底膜上1.5mm长或长或1200根听神经根听神经 临界带宽编号临界带宽编号Z(Bark)与频率)与频率f(Hz)之间的关系可近似表示为:)之间的关系可近似表示为:Z=26.81 f /(1960+f)-0.5316 言语听觉:言语听觉:语音强度对言语清晰度的影响语音强度对言语清晰度的影响 通过听觉测试证实,可正确辨别的单音节词与所有试听单音节词的比值是语音强度的函数。通过听觉测试证实,可正确辨别的单音节词与所有试听单音节词的比值是语音强度的函数。语音的掩蔽作用语音的掩蔽作用 频率选择性频率选择性 不同频率分量所包含的语音信息不同频率分量所包含的语音信息 1000Hz以下功率以下功率80%,清晰度清晰度10%限幅削波的影响限幅削波的影响17限幅削波的影响限幅削波的影响第二章 语音信号的产生、特征与人耳的听觉特性第二章 语音信号的产生、特征与人耳的听觉特性 2.5 人耳的其它各种听觉效应2.5 人耳的其它各种听觉效应 哈斯(Hass)效应(延时掩蔽):人们听到先后两个声音时所感到的声音方向,完全由前一个声音的方向所决定的前提是哈斯(Hass)效应(延时掩蔽):人们听到先后两个声音时所感到的声音方向,完全由前一个声音的方向所决定的前提是A.后一个声音比前一个声音晚发出后一个声音比前一个声音晚发出135ms,B.后一个声音的响度比前一个声音的响度低后一个声音的响度比前一个声音的响度低10dB以上。尽管后一个声音不会产生方向信息,但它却仍然能够对声音的空间感产生影响。以上。尽管后一个声音不会产生方向信息,但它却仍然能够对声音的空间感产生影响。哈斯技巧哈斯技巧:哈斯技巧就是简单的将一个原始信号分配到立体声输出的一个声道上,而将它的幻像复制信号延时:哈斯技巧就是简单的将一个原始信号分配到立体声输出的一个声道上,而将它的幻像复制信号延时135ms,分配到立体声输出的另一个声道上而产生的。,分配到立体声输出的另一个声道上而产生的。人耳利用声波达到双耳的不同来进行精确的方向定位,当声音不在听音者的正前方时,它将会首先达到距离较近的一只耳朵,然后再到达距离较远的一只。人耳利用声波达到双耳的不同来进行精确的方向定位,当声音不在听音者的正前方时,它将会首先达到距离较近的一只耳朵,然后再到达距离较远的一只。双耳的时间差双耳的时间差称作称作ITD。(延迟造成时间差延迟造成时间差)。双耳效应双耳效应:英国物理学家瑞利于:英国物理学家瑞利于1896年通过实验发现人的两只耳朵对同一声源的直达声具有时间差(年通过实验发现人的两只耳朵对同一声源的直达声具有时间差(0.44-0.5微秒)、声强差及相位差,而人耳的听觉灵敏度可根据这些微小的差别准确判断声音的方向、确定声源的位置,但只能局限于确定前方水平方向的声源,不能解决三维空音声源的定位。微秒)、声强差及相位差,而人耳的听觉灵敏度可根据这些微小的差别准确判断声音的方向、确定声源的位置,但只能局限于确定前方水平方向的声源,不能解决三维空音声源的定位。耳廓效应耳廓效应:人的耳廓对声波的反射以及对空间声源的定向有重要的定向作用。借此效应,可判定声源的三维位置。:人的耳廓对声波的反射以及对空间声源的定向有重要的定向作用。借此效应,可判定声源的三维位置。18 人耳的频率滤波效应人耳的频率滤波效应:人耳的声音定位机制与声音频率有关,对:人耳的声音定位机制与声音频率有关,对20-200赫的低音靠相位差定位,对赫的低音靠相位差定位,对300-4000赫的中音靠声强差定位,对高音则靠时间差定位。据此原理可分析出重放声音中的语言、乐音的差别,经不同的处理而增加环绕感。赫的中音靠声强差定位,对高音则靠时间差定位。据此原理可分析出重放声音中的语言、乐音的差别,经不同的处理而增加环绕感。头部相关传输函数头部相关传输函数:人的听觉系统对不同方位的声音产生不同的频谱,这一频谱特性可由头部相关传输函数(:人的听觉系统对不同方位的声音产生不同的频谱,这一频谱特性可由头部相关传输函数(HeadRelated Transfer Function,HRT)来描述。)来描述。鸡尾酒会效应鸡尾酒会效应(选择性接收):指的是在喧闹的鸡尾酒会上,两个人面对面讲话,能够听清楚对方的声音,本意是说明人耳朵的选择性接收。(选择性接收):指的是在喧闹的鸡尾酒会上,两个人面对面讲话,能够听清楚对方的声音,本意是说明人耳朵的选择性接收。又比如,在大街上,车水马龙,噪声很大,突然有个人叫你的名字,你一定能够听清。这个也是人耳朵的选择性接收。又比如,在大街上,车水马龙,噪声很大,突然有个人叫你的名字,你一定能够听清。这个也是人耳朵的选择性接收。这个例子常常用来比如码分系统,这个例子常常用来比如码分系统,N多人使用同一频率通话,因为大家使用不同的码区分,所以不影响通信。但是当噪声足够大的时候,有用信号被淹没在噪声中了,这时候即使有码区分也无济于事了。多人使用同一频率通话,因为大家使用不同的码区分,所以不影响通信。但是当噪声足够大的时候,有用信号被淹没在噪声中了,这时候即使有码区分也无济于事了。
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传
相似文档                                   自信AI助手自信AI助手

当前位置:首页 > 行业资料 > 医学/心理学

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4009-655-100  投诉/维权电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服