1、数字信号处理数字信号处理matlab 变声器变声器 2013-07-09 07:44:20|分类:数字信号|标签:声音信号|举报|字号大中小 订阅 效果不好。项目目标:项目目标:把自己(男)的声音分别变成小孩的声音、女人的声音和老人的声音。变声原理变声原理:语音科学家将人类发声过程视作一个由声门源输送的气流经以声道、口、鼻腔组成的滤波器调制而成的。人类语音可分为有声语音和无声语音,前者是由声带振动激励的脉冲信号经声腔调制变成不同的音,它是人类语言中元音的基础,声带振动的频率称为基频。无声语音则是声带保持开启状态,禁止振动引发的。一般来说,由声门振动决定的基频跟说话人的性别特征有关,如下表,而无
2、声语音则没有体现这个特征。说话人的个性化音色和语音的另外一个声学参数共振峰频率的分布有关。儿童由于声道短,其共振峰频率高于成年人,成年女性的声道一般短于成年男性,所以女性的共振峰频率一般高于男性。人群基频分布 Hz共振峰频率分布男声50,180偏低女声160,380中童声400,1000偏高 由上可知,在进行性别变声时,主要考虑基频和共振峰频率基频和共振峰频率的变化。当基频伸展,共振峰频率也同时伸展时,可由男声变成女声,女声变成童声;反之,基频收缩,共振峰频率也同时收缩时,则由童声变女声,女声变男声。为了获得自然度、真实感较好的变声效果,基频和共振峰频率通常必须各自独立地伸缩变化如下图:共振峰
3、频率的改变是基于重采样实现的共振峰频率的改变是基于重采样实现的,从重采样原理知道,这也同时引发了基频的变化,为保证基频变化和共振峰频率变化的独立、互不相关,在基频移动时必须考虑抵消重采样带来的偏移,理论上只要基频检测足够精确,确实可以保证基频改变和共振峰频率改变间的互不相关。设计方案:设计方案:1 录入自己(小孩、女人、老人)的一段声音 2 用 MATLAB 做 fft 得到其频谱 3 做 fft 频谱分析 4 搬移和改变基频、语速,实现变声%读取语音信号s fs nbits=wavread(f:datamy.wav);s=s/max(s);%归一化%sound(s,fs)L=length(s
4、)%读入语音长度S=fft(s,L);%画图:原始信号figure(1)subplot(2,1,1);plot(s);title(原语音信号波形);subplot(2,1,2);plot(abs(S);title(原语音信号频谱);%findpitch.m%下面变声会用到的,没有的话变声不会成功的,自己单独保存为 m 函数文件,上面的程序要调用的%计算一段语音的基音周期function PT=findpitch(s)B,A=butter(5,700/4000);s=filter(B,A,s);R=zeros(143,1);for k=1:143 R(k)=s(144:223)*s(144-k:
5、223-k);endR1,T1=max(R(80:143);T1=T1+79;R1=R1/(norm(s(144-T1:223-T1)+1);R2,T2=max(R(40:79);T2=T2+39;R2=R2/(norm(s(144-T2:223-T2)+1);R3,T3=max(R(20:39);T3=T3+19;R3=R3/(norm(s(144-T3:223-T3)+1);Top=T1;Rop=R1;if R2=0.85*Rop Rop=R2;Top=T2;endif R3 0.85*Rop Rop=R3;Top=T3;endPT=Top;return 以下是整理的变声的完整程序:s,f
6、s,nbits=wavread(a.wav);%载入语音 s FL=80;%帧长 WL=240;%窗长 P=10;%预测系数个数 s=s/max(s);%归一化 L=length(s);%读入语音长度 FN=floor(L/FL)-2;%计算帧数%预测和重建滤波器 exc=zeros(L,1);%激励信号(预测误差)zi_pre=zeros(P,1);%预测滤波器的状态 s_rec=zeros(L,1);%重建语音 zi_rec=zeros(P,1);%合成滤波器 exc_syn=zeros(L,1);%合成的激励信号(脉冲串)s_syn=zeros(L,1);%合成语音 last_syn=0
7、;%存储上一个(或多个)段的最后一个脉冲的下标 zi_syn=zeros(P,1);%合成滤波器的状态%变调不变速滤波器 exc_syn_t=zeros(L,1);%合成的激励信号(脉冲串)s_syn_t=zeros(L,1);%合成语音 last_syn_t=0;%存储上一个(或多个)段的最后一个脉冲的下标 zi_syn_t=zeros(P,1);%合成滤波器的状态%变速不变调滤波器(假设速度减慢一倍)hw=hamming(WL);%汉明窗%依次处理每帧语音 for n=3:FN%计算预测系数 s_w=s(n*FL-WL+1:n*FL).*hw;%汉明窗加权后的语音 A E=lpc(s_w,
8、P);%用线性预测法计算 P 个预测系数%A 是预测系数,E 会被用来计算合成激励的能量 s_f=s(n-1)*FL+1:n*FL);%本帧语音,下面就要对它做处理%(4)用 filter 函数 s_f 计算激励,注意保持滤波器状态 exc1,zi_pre=filter(A,1,s_f,zi_pre);exc(n-1)*FL+1:n*FL)=exc1;%计算得到的激励%(5)用 filter 函数和 exc 重建语音,注意保持滤波器状态 s_rec1,zi_rec=filter(1,A,exc1,zi_rec);s_rec(n-1)*FL+1:n*FL)=s_rec1;%计算得到的重建语音%注
9、意下面只有在得到 exc 后才会计算正确 s_Pitch=exc(n*FL-222:n*FL);PT=findpitch(s_Pitch);%计算基音周期 PT G=sqrt(E*PT);%计算合成激励的能量 G%本段激励只能修改本段长度 tempn_syn=1:n*FL-last_syn;exc_syn1=zeros(length(tempn_syn),1);exc_syn1(mod(tempn_syn,PT)=0)=G;%某一段算出的脉冲 exc_syn1=exc_syn1(n-1)*FL-last_syn+1:n*FL-last_syn);s_syn1,zi_syn=filter(1,A
10、,exc_syn1,zi_syn);exc_syn(n-1)*FL+1:n*FL)=exc_syn1;%计算得到的合成激励 s_syn(n-1)*FL+1:n*FL)=s_syn1;%计算得到的合成语音 last_syn=last_syn+PT*floor(n*FL-last_syn)/PT);%(13)将基音周期减小一半,将共振峰频率增加 150Hz,重新合成语音(男声变女声)PT1=floor(PT/2);%减小基音周期 poles=roots(A);deltaOMG=150*2*pi/fs;%下面为女声变男声,要用的话把上面一段换成以下三行%PT1=floor(2*PT);%poles=roots(A);%deltaOMG=0.005*2*pi/fs;for p=1:10%增加共振峰频率,实轴上方的极点逆时针转,下方顺时针转 if imag(poles(p)0 poles(p)=poles(p)*exp(j*deltaOMG);elseif imag(poles(p)=0.85*Rop Rop=R2;Top=T2;endif R3 0.85*Rop Rop=R3;Top=T3;endPT=Top;returnrefer:1.http:/