数字信号处理——matlab变声器.docx

资源描述

1、数字信号处理matlab变声器2013-07-09 07:44:20|分类：数字信号 |标签：声音信号 |举报 |字号大中小订阅效果不好。项目目标：把自己（男）的声音分别变成小孩的声音、女人的声音和老人的声音。变声原理:语音科学家将人类发声过程视作一个由声门源输送的气流经以声道、口、鼻腔组成的滤波器调制而成的。人类语音可分为有声语音和无声语音，前者是由声带振动激励的脉冲信号经声腔调制变成不同的音，它是人类语言中元音的基础，声带振动的频率称为基频。无声语音则是声带保持开启状态，禁止振动引发的。一般来说，由声门振动决定的基频跟说话人的性别特征有关，如下表，而无声语音则没有体现这个特征。说话人的

2、个性化音色和语音的另外一个声学参数共振峰频率的分布有关。儿童由于声道短，其共振峰频率高于成年人，成年女性的声道一般短于成年男性，所以女性的共振峰频率一般高于男性。人群基频分布Hz共振峰频率分布男声50, 180偏低女声160, 380中童声400, 1000偏高由上可知，在进行性别变声时，主要考虑基频和共振峰频率的变化。当基频伸展，共振峰频率也同时伸展时，可由男声变成女声，女声变成童声；反之，基频收缩，共振峰频率也同时收缩时，则由童声变女声，女声变男声。为了获得自然度、真实感较好的变声效果，基频和共振峰频率通常必须各自独立地伸缩变化如下图：共振峰频率的改变是基于重采样实现的，从重采样原理知道

3、，这也同时引发了基频的变化，为保证基频变化和共振峰频率变化的独立、互不相关，在基频移动时必须考虑抵消重采样带来的偏移，理论上只要基频检测足够精确，确实可以保证基频改变和共振峰频率改变间的互不相关。设计方案：1录入自己（小孩、女人、老人）的一段声音 2用MATLAB做fft得到其频谱3做fft频谱分析4搬移和改变基频、语速，实现变声%读取语音信号s fs nbits = wavread(f:datamy.wav); s=s/max(s); %归一化%sound(s,fs)L = length(s) % 读入语音长度S=fft(s,L);%画图：原始信号figure(1) subplot(2,1,

4、1);plot(s);title(原语音信号波形); subplot(2,1,2);plot(abs(S);title(原语音信号频谱);%findpitch.m%下面变声会用到的，没有的话变声不会成功的，自己单独保存为m函数文件，上面的程序要调用的% 计算一段语音的基音周期function PT = findpitch(s)B, A = butter(5, 700/4000);s = filter(B,A,s);R = zeros(143,1);for k=1:143 R(k) = s(144:223)*s(144-k:223-k);endR1,T1 = max(R(80:143);T1

5、= T1 + 79;R1 = R1/(norm(s(144-T1:223-T1)+1);R2,T2 = max(R(40:79);T2 = T2 + 39;R2 = R2/(norm(s(144-T2:223-T2)+1);R3,T3 = max(R(20:39);T3 = T3 + 19;R3 = R3/(norm(s(144-T3:223-T3)+1);Top = T1;Rop = R1;if R2 = 0.85*Rop Rop = R2; Top = T2;endif R3 0.85*Rop Rop = R3; Top = T3;endPT = Top;return 以下是整理的变声的完

6、整程序：s,fs,nbits = wavread(a.wav); % 载入语音s FL = 80; % 帧长 WL = 240; % 窗长 P = 10; % 预测系数个数 s = s/max(s); %归一化 L = length(s); % 读入语音长度 FN = floor(L/FL)-2; % 计算帧数 % 预测和重建滤波器 exc = zeros(L,1); % 激励信号（预测误差） zi_pre = zeros(P,1); % 预测滤波器的状态 s_rec = zeros(L,1); % 重建语音 zi_rec = zeros(P,1); % 合成滤波器 exc_syn = ze

7、ros(L,1); % 合成的激励信号（脉冲串） s_syn = zeros(L,1); % 合成语音 last_syn = 0; %存储上一个（或多个）段的最后一个脉冲的下标 zi_syn = zeros(P,1); % 合成滤波器的状态 % 变调不变速滤波器 exc_syn_t = zeros(L,1); % 合成的激励信号（脉冲串） s_syn_t = zeros(L,1); % 合成语音 last_syn_t = 0; %存储上一个（或多个）段的最后一个脉冲的下标 zi_syn_t = zeros(P,1); % 合成滤波器的状态 % 变速不变调滤波器（假设速度减慢一倍） hw = h

8、amming(WL); % 汉明窗 % 依次处理每帧语音 for n = 3:FN % 计算预测系数 s_w = s(n*FL-WL+1:n*FL).*hw; %汉明窗加权后的语音 A E = lpc(s_w, P); %用线性预测法计算P个预测系数 % A是预测系数，E会被用来计算合成激励的能量 s_f = s(n-1)*FL+1:n*FL); % 本帧语音，下面就要对它做处理 % (4) 用filter函数s_f计算激励，注意保持滤波器状态 exc1,zi_pre = filter(A,1,s_f,zi_pre); exc(n-1)*FL+1:n*FL) = exc1; %计算得到的激励

9、% (5) 用filter函数和exc重建语音，注意保持滤波器状态 s_rec1,zi_rec = filter(1,A,exc1,zi_rec); s_rec(n-1)*FL+1:n*FL) = s_rec1; %计算得到的重建语音 % 注意下面只有在得到exc后才会计算正确 s_Pitch = exc(n*FL-222:n*FL); PT = findpitch(s_Pitch); % 计算基音周期PT G = sqrt(E*PT); % 计算合成激励的能量G %本段激励只能修改本段长度 tempn_syn = 1:n*FL-last_syn; exc_syn1 = zeros(lengt

10、h(tempn_syn),1); exc_syn1(mod(tempn_syn,PT)=0) = G; %某一段算出的脉冲 exc_syn1 = exc_syn1(n-1)*FL-last_syn+1:n*FL-last_syn); s_syn1,zi_syn = filter(1,A,exc_syn1,zi_syn); exc_syn(n-1)*FL+1:n*FL) = exc_syn1; %计算得到的合成激励 s_syn(n-1)*FL+1:n*FL) = s_syn1; %计算得到的合成语音 last_syn = last_syn+PT*floor(n*FL-last_syn)/PT);

11、 % (13) 将基音周期减小一半，将共振峰频率增加150Hz，重新合成语音(男声变女声) PT1 =floor(PT/2); %减小基音周期 poles = roots(A); deltaOMG =150*2*pi/fs; %下面为女声变男声，要用的话把上面一段换成以下三行 % PT1 =floor(2*PT); % poles = roots(A); % deltaOMG =0.005*2*pi/fs; for p=1:10 %增加共振峰频率，实轴上方的极点逆时针转，下方顺时针转 if imag(poles(p)0 poles(p) = poles(p)*exp(j*deltaOMG); elseif imag(poles(p)= 0.85*Rop Rop = R2; Top = T2;endif R3 0.85*Rop Rop = R3; Top = T3;endPT = Top;returnrefer:1.

展开阅读全文