1、资料内容仅供您学习参考,如有不当或者侵权,请联系改正或者删除。 基于特征参数的歌唱评分方法研究 重庆大学硕士学位论文 学生姓名: 吴国章 指导教师: 黄 仁 副教授 专 业: 计算机应用技术 学科门类: 工 学 重庆大学计算机学院 二O一一年四月 Singing Grading Method in Light of Feature Parameters A Thesis Submitted to Chongqing University in Partial Fulfillment of t
2、he Requirement for the Degree of Master of Engineering By WU Guozhang Supervised by Ass. Prof. Huang Ren Major: Computer Application Techniques College of Computer Science of ChongqingUniversity, Chongqing, China April 摘 要 随着中国经济的高速发展, 人民群众对生活的要求也不但仅局限于物质生活上, 同时人们的精神文化生活也越
3、来越丰富, 许多歌唱比赛节目也应运而生。但其评分方法大多是根据若干个擅长领域、 专业水平以及个人喜好各有不同的评委共同进行评分, 这样得出的评分结果难免会参杂评委个人的主观因素, 引起较多争议。另一方面, 现在也有一些自娱自乐歌唱评分软件, 可是存在着歌唱参数选择不合理的问题, 使最后的评分结果不合理或者存在着一定的局限性。鉴于以上问题, 本文提出了一种更加全面、 合理的歌唱评分方法。 本文经过对声乐相关资料进行研究和分析, 而且还请教了若干音乐和歌唱方面的专业老师进行交流和探讨, 选取音调、 歌词和音量等歌唱元素作为反映歌唱者唱功水平的评分指标。本文分别选取基音频率、 梅尔倒频谱系数、 平
4、均声音信号幅度作为以上评分指标对应的声学特征参数。本文采用自相关基音检测算法(ACF)提取基音频率。梅尔倒频谱系数经过快速傅立叶变换, MEL滤波器组滤波, 离散余弦变换求得。经过对所有采样点的幅值进行绝对值求平均值即可求出平均声音信号幅度。 评分思想是基于特征参数对比的角度, 将歌曲原唱者的声音信号文件作为标准样本, 歌唱者声音信号文件作为目标样本, 用动态时间归整算法实现目标样本与标准样本特征参数向量的对比, 得到两者之间的差值。差值越小, 歌唱者的歌唱得分越高; 反之则越低。由于歌唱难度受歌唱音量的影响, 因此歌唱音量与歌唱得分成正比关系。根据对比结果以及目标样本的音量结合因素评分法给
5、出反映歌唱者唱功水平的评价方法。 经过MATLAB仿真, 实验表明: 本文评分方法能够较好的反映出歌唱者对于歌曲音调、 歌词等方面的水平, 所得出的评价结果与人们的主观感觉保持一致。 关键词: 声学参数, 语音信号处理, 特征参数, 动态时间规整 ABSTRACT As the rapid development of economy and people’s cultural life, many singing contest programs come out. However, most of scoring methods are based on a
6、 number of areas of expertise, professionalism, and personal preferences, so that the result of scoring will inevitably mixed subjective factors and rise to a lot of controversy. On the other hand, some existing amusing singing score softwares contain the problem of irrational parameters, so that th
7、e scoring result are irrational and limited. In view of the above problem, we propose a more comprehensive and rational scoring method. Through the research and analysis of voice material, with the communication and discussion with some professionals on music and singing, we choose accent, lyrics a
8、nd intensity of sound as the indicators to reflect the proficiency of a singer. These feature parameters such as pitch, MFCC and the average amplitude of sound signals are considered as the correspondences to those indicators above. Pitch frequency can be extracted by auto correlation function (ACF)
9、 To get MFCC, it should make use of FFT, Mel-filter, DCT. By calculating the average of all the sampling points of the amplitude of the absolute value, the average amplitude of sound signals can be obtained. The scoring idea is based on the comparison of the feature parameters, the voice of singer
10、 as the target sample signal file and the voice of original singer as the standard sample signal file. We compare the difference of the feature parameters between target sample and standard sample which can be obtained by using dynamic time warping (DTW) to compare the two samples. The less the diff
11、erence is, the high the score of a singer will be, and vice versa. Due to the singing difficulty is reflected by the intensity of sound, we suggest the score be proportional to the intensity of sound. According to comparison results and the intensity of the target sample, we propose a formula to ref
12、lect the proficiency of a singer by integrating the factor assessment method. Through the simulation with MATLAB, the results illustrate that this scoring method can reflect the level of singer in accent, lyrics and other aspects better than other singing scoring softwares mentioned in this Thesis,
13、 and it is consistent with the subjective feeling of people. Keywords: acoustic parameters, speech signal processing, feature parameters, dynamic time warping 目 录 中文摘要 I 英文摘要 II 1 绪 论 1 1.1 课题研究的背景 1 1.2 已有的歌唱评分系统 1 1.3 本课题需要解决的基本问题 2 1.4 课题研究的意义 2 1.5 本文的主要组织结构 2 1.6 本文的主要工作
14、 3 2 相关的理论知识和概念 5 2.1 什么是声音 5 2.2 声音信号产生的原理 5 2.3 人耳对声音信号的接收原理 8 2.4 声音信号的分类 9 2.5 声音的物理特性 9 2.6 乐谱 10 2.7声音信号的主要特征参数 13 2.7.1 基音频率 14 2.7.2 梅尔倒频谱系数 15 2.7.3 声音强度 18 3 声音信号预处理 19 3.1 声音信号预加重 19 3.2 声音信号的采样和分帧 21 3.3 语音信号的加窗 23 4 特征参数提取 27 4.1基音频率的提取 27 4.1.1 多种基音频率的提取方法 29 4.1.2 自
15、相关法( ACF法) 提取基音频率 30 4.2 MFCC的提取 33 4.2.1 FFT 33 4.2.2 Mel滤波器组 35 4.2.3 DCT 35 4.3 提取声音强度 36 4.4 特征参数匹配方法 37 5 评分方法 42 5.1 评分公式 42 5.2 实验 43 5.2.1 实验环境及实验工具介绍 43 5.2.2 实验结果 49 6 总结与展望 54 致 谢 56 参考文献 58 附 录 61 作者在攻读学位期间发表的论文目录 61 1 绪 论 1.1 课题研究的背景 我们知道, 在人类社会中人们最重要、 最有
16、效、 最常见和最方便的交换信息的形式是经过语音进行传递信息。语言是人类区别于其它动物的特有功能, 而声音则是人类进行语言交流的媒介, 是人类之间相互传递各自信息的最主要手段。因此, 语音信号是人们在日常生活中交流个人思想和自身情感的主要途径。而且到现在, 我们能够说人类已开始进入了电子信息化时代, 能够经过现代科技手段来研究语音信号处理技术, 能够使人们相互之间语音信息的产生、 传达、 获取和存储更加有效。可见进行语音处理技术的研究对于促进整个社会的蓬勃发展具有非常重要的现实意义。 随着中国经济的不断发展, 中国国民的生活水平有了很大的提高。人们现在对生活的需求已经不但仅体现在物质上了。众多
17、的娱乐节目也受到了大众的关注。而这个时候, 一些选秀节目就也应运而生。特别是一些歌唱选秀节目, 标榜的是以唱功为衡量标杆, 可是总是会出现很多有争议的结果。比如像网上经常爆料出的一些内定的内幕等等, 或者评委的评分结果跟大多数观众的主观感觉有很大的悬殊, 从而引起很大的争议。 以上这些种种现象的根本原因, 本文认为是没有一个统一的标准, 或者是没有对每个标准细化到具体的量的这个层面上。简单的说, 就是只有定性, 没有定量。而本文提出的观点就正是为了解决这个衡量参赛选手的唱功方面很有争议的问题, 分别从选手的音调、 音准、 音律, 音强方面给出一个具体的评价值, 在根据这些具体得出的评价值按照
18、事先制定好的评分方法给出一个最后的综合分数, 即选手的最终得分。其意义在于一切的评分规则对于参赛选手、 主办方、 以及观众来说, 在信息的获取上都是公平对等的, 而且得出最终得分的全过程都没有人的参与, 也就是说没有参杂人的主观因素在里面, 相信这样得出的评分结果应该比仅仅靠几个评委或者在加上若干个大众评委甚至还有很多不知道具体来源的手机短信投票所得出的结果要更客观。 1.2 已有的歌唱评分系统 曾经在90年代初国内相继出现来很多的歌唱比赛评分软件, 如卡拉蜂,是一个在线歌唱比赛评分软件,需要上网下载特殊格式的播放文件, 并在线使用该软件,不过一般这类软件的评分功能都是象征性的,分数是
19、按照你每首歌的完成度来算的。比如一首歌放到一半关掉,分数就是50,即使你一个字都没唱。这种软件其实质性功能是自己录了歌自己听,找到问题并提高的。它的评分系统仅仅是以每首歌的完成度来进行评分的, 评分标准非常不全面。 还有就是万利达的歌唱比赛评分软件, 其主要特点是: ( 1) 无法分辨曲调准不准确的, 因此音准肯定和打分没有关系; ( 2) 一般男生比女生分数高, 因为声音比较大, 因此声音大小和得分成正比; ( 3) 如果中间有几个字没唱出来, 分数一般都不高, 因此是否跟着字幕唱完整了很重要, 与字幕的进度越合拍, 分数越高。 这些软件大多数都是为了提高其产品功能的多样性,
20、 增加产品宣传的噱头。其产品的歌唱评分功能仅仅是简单的按照完成度和音量进行评分的。其选取的评分参数和给出的评价分数并不能客观准确地反映出歌唱者的歌唱水平。 1.3 本课题需要解决的基本问题 在给出关于歌唱评分方法的过程中, 需要解决的问题有: ① 明确歌唱者的歌唱水平主要体现在哪些方面; ② 如何选取能够代表歌唱者歌唱水平的特征参数; ③ 如何从声音信号中提取这些特征参数; ④ 给出一个评价歌唱者歌唱水平的方法或者公式。 1.4 课题研究的意义 经过找出能够客观描述歌唱者对歌曲的音调、 音准、 音律, 音强[1-9]方面的歌唱水平的物理参数, 而且转化为相应的特
21、征参数[10-15], 最后结合这些特征参数将歌唱者的歌唱水平用一个直观的数字进行评价。使结果一目了然, 而且方法客观、 公正, 而且能从专业的角度体现出歌唱者的歌唱水平, 有效地减少了争议。另外, 歌唱者还能够从评分的各个指标中明确自己在歌唱水平中的哪些环节和方面需要继续加强, 在哪些方面有自己的优势和特点, 在自己的歌唱方面做到扬长避短, 在声音特色方面尽量有所突出, 也能够为个人生活添加一份乐趣。 1.5 本文的主要组织结构 本文主要分为4个部分: ①第一部分: 主要是介绍了本文所研究课题的背景和现状以及其所需要熟悉的一些基本概念知识; ②第二部分: 介绍了对于提取声音信
22、号特征参数之前所需要做的一些前期准备工作, 即声音信号预处理及其意义; ③第三部分: 介绍了本文中用于歌唱评分所参照的几个特征参数以及这些特征参数的提取过程和提取结果; ④第四部分: 给出了一个评价歌唱者歌唱水平的评分方法( 即评分公式) , 而且结合前面特征参数的提取结果进行了评分, 而且在MATLAB条件下进行了实验测试。根据测试结果得出了总结以及后续研究的展望。 本文具体的章节结构如下: ①第一章: 阐述了本文所涉及领域的现状以及现在所存在的问题, 以及本文产生的背景及其本文所做研究的实际意义; ②第二章: 介绍了在本文中需要涉及到的一些基本概念知识。具体分别有声音的定
23、义, 声音信号产生的原理, 人类身体相关器官对声音信号的接收原理, 声音信号根据不同方法进行的分类, 本文所需要用到的特征参数( 基音频率、 梅尔倒频谱系数等) 以及本文实验所用到的仿真工具( MATLAB) ; ③第三章: 介绍了在对歌唱者的声音信号中的特征参数提取之前需要进行的声音信号预处理及其具体的三个步骤: 声音信号预加重、 信号分帧和信号的加窗; ④第四章: 分别介绍了提取歌唱者声音信号特征参数( 基音频率、 梅尔倒频谱系数等) 的具体理论步骤和实际提取过程中常见的方法以及实验数据和结果; ⑤第五章: 给出一个对于歌唱者歌唱水平的评分公式。将上一章中分别提取的标准模板的特
24、征参数和提取到的歌唱者声音信号的特征参数经过使用动态时间规整方法( DTW) 进行对比, 而且根据对比的结果结合评分公式得出一个具体分数。在实验环境下进行模拟仿真, 用实验数据来验证本文所给出的评分方法的科学性和优越性。 ⑥第六章: 根据上一章的实验结果和结合生活中的实际情况进行总结和展望。 1.6 本文的主要工作 1、 经过借助于互联网上所提供的相关信息, 了解国内歌唱评分现状, 以及找出其存在的问题及其原因; 2、 经过查阅相关资料和请教专业老师, 了解有关音乐方面的专业知识以及在歌唱时需要从哪些方面来表现歌曲。找出最能表现歌唱者歌唱水平的音乐元素, 并找到与之对应的特征参数
25、 而且掌握相应的提取方法与步骤; 3、 掌握声音信号在提取特征参数之前所需要做的前提工作( 即预处理) , 以及接下来提取特征参数的具体方法; 4、 结合相似的一些方法和方式, 给出一种歌唱评分方法; 5、 用MATLAB进行相应地仿真实验, 验证本文给出的歌唱评分方法的正确性和科学性; 6、 根据实验数据总结出本方法的优缺点, 进一步完善本论文的相关理论和方法, 为后续工作做好准备。 2 相关的理论知识和概念 在明确了本文的基本思想路线和主要工作以后, 首先就需要对一些声音信号方面的基本原理、 声音信号的一些物理特性还有关于音乐和歌唱方面的基本概念以及本文的
26、歌唱评分方法中所涉及到的一些特征参数进行了解。 2.1 什么是声音 我们常说的声音有两种定义。声波是声音在物理学上的定义, 在物理学上, 声音被定义为一种具有一定能量的波, 它是由振动物体所产生而且需要在一定的介质中进行传播的。在生理学上则是将声音定义为一种主观感觉, 它是听觉器官由于声波的作用于而引起的一系列的主观感觉。尽管这两种对于声音的定义在文字上存在有差异, 但它们之间还是存在着一定的内在关联。在心理学上, 人们听觉上对于声音的接收以及大脑对其的一系列响应是属于主观感觉层面上的。因为人的感觉不可能像语音信号处理系统那样绝正确数量化, 而且人类对物理量的感应结果一般与描述声音信号
27、的物理量并不会成正比甚至也不会保持一致, 因为这里存在一个心理物理量的原因。这也就是为什么会出现如音强、 音调、 音色和音长等一系列人们对声音特征的主观描述。 声音信号具有3个基本的物理特性, 分别是: 频率、 强度和声谱。这3种特性对应着人耳对声音信号的音调、 音强和音色这三种主观感觉的描述。 本文中研究的声音是指由物体振动产生, 正在发声的物体叫声源。声音以声波的形式传播。声音只是声波经过固体或液体、 气体传播形成的运动。声波振动内耳的听小骨, 这些振动被转化为微小的电子脑波, 它就是我们觉察到的声音。内耳采用的原理与麦克风捕获声波或扬声器的发音一样, 它是移动的机械部分与气压波之间
28、的关系。相应地, 在声波音调低、 移动缓慢并足够大时, 我们实际上能够”感觉”到气压波振动身体。 2.2 声音信号产生的原理 人类身体器官中负责发出声音的器官主要有: 口、 鼻、 声带、 咽喉、 气管以及肺, 这些器官相互有机地组合在一起, 构成了人类的发声系统( 如图2.1) 。一般把位于人们咽喉的那部分器官称为声门, 而从声门一直延伸到嘴唇边缘所形成的一条用于呼气的通道叫做声道, 声道的形状主要取决于嘴唇、 舌头以及颈部的位置, 而正是因为声道形状的能够不断地改变, 因此人们才能够发出各种不同的声音。声音主要是由从左右两肺所呼出的气流而且经过位于咽喉直至嘴唇之间的所有的器官各种各样
29、的作用所产生的。 图2.1 人体发声器官示意图 Fig.2.1 human vocal organs 这些发声器官的作用方式能够分为以下三种: 第一, 把从两肺之间呼出的直流气息经过各种作用转化为音源气流, 即转化为交叉气流或者是不规则变化的气流; 第二, 各种发声器官经过对音源产生共振或者反共振作用, 使其产生的声音具有个性特征( 即音色) ; 第三, 从两个鼻孔和嘴唇向身体以外的空间产生声波辐射作用。因此, 我们把这些与人们发出各种声音有关的相关器官称作人体的发声器官。 人们在做正常呼吸运动时, 由肺部所呼出的相对稳定的气流构成了能够产生各种人类语音的激
30、励能量。众所周知, 在人体器官中, 主要负责血液和空气之间进行氧气交换和代谢的器官是”肺”, 它的主要实质功能是将血液中的二氧化碳气体等废气排出; 将空气中的氧气经过肺部一些组织的相应作用过滤出来, 以保证人体氧气的必要供给。经过科学研究, 人类在讲话的时侯两肺大概能够容纳大约1.5L左右的空气, 而人类正常呼出空气的时侯大约能够呼出250-300mL左右的空气, 而且还测试出人们在讲话时两肺的气压大约比讲话的时侯所处的外部环境的大气压略大, 大约高出百分之一左右。而在不讲话时人类呼气和吸气所用的时间是大致相等的。相应地, 人类在讲话的时侯在呼气方面所耗费的时间会比吸气所耗费的时间较长, 一般
31、来说大约能够占到人们整个呼吸周期时长的80%左右。经过研究得知, 人类用于呼吸的气管的组成成分主要是一些环状的软骨组织, 这些组织在人们讲话的时侯, 主要负责将来自肺部呼出的空气传送到咽喉部分。”咽喉”则是由许多软骨所构成的。在生理学和医学上, 将日常生活中人们所看到的在颈部突出的那部分结构称为甲状软骨, 喉的顶端部分是一块形状似梨的软骨, 称为: 会厌软骨。会厌软骨的主要功能是: 在人们吞咽食物时能够有效避免食物进入到气管中。而在咽喉部分的众多器官中, 对发声影响作用最大的则是从喉结直至沟状软骨之间的韧带褶, 这便是我们日常所谓的声带。一般人们声带的长度大约在10-15mm之间, 声带的面积
32、比我们的指甲盖还小, 左右两边声带在人们呼吸时向左右两边张开, 在人们讲话时左右两边声带则从两边向中间合拢。其中, 我们把左右两边声带之间的部分称为声门, 由两个沟状的软骨组织负责控制声门的开启和关闭, 它能够使声门呈类似于”A”的形状开启或者关闭, 在人们讲话时声带会在合拢的状态下因受到声门之中传来的气流冲激而向两边张开, 也能够根据声带自身固有的韧性而且加上两肺之中的气压发生下降而又能迅速地闭合, 接下来又能够不断重复张开与闭合的动作。正是由于声门能够不间断地张开与闭合, 而使声门能够送出一连串呈现喷流状态的气息, 从而形成一系列以气流为激励的脉冲。我们把声带每次张开与闭合一次所耗费的时间
33、 即声带的振动周期) 称为基音周期。而基音周期的倒数就是语音识别中常见到的特征参数: 基音频率( pitch) 。基音频率一般取决于声带的自身结构, 如声带的形状大小、 声带整体的厚薄、 声带软骨组织的松紧程度以及声门上下之间所形成的气压差异的效应等, 人类声带的基音频率的波动范围主要在50-500Hz之间。基音频率的范围因人而异, 而且能够随着人的性别、 年龄而存在差异。一般来说, 年龄较大的老年男性声带的基音频率会比较低, 而青年女性和小孩子声带的基音频率则会较高。基音频率是决定人们所产生的声音音调高低的最主要的因素, 基音频率高则所产生的声音的音调就会相应地较高; 相反, 基音频率低则
34、所产生的声音的音调就会相应地低一些。在人们讲话时, 从声门一直到嘴唇之间的用于呼气的通道叫做声道。在人们说话的时候, 声门处的气流因为冲激声带而产生振动, 接下来气流经过声道的一系列响应而产生语音。根据发声时声道形状的不同, 而产生不同的声音。其中人们的声道形状以及固有的特点则主要是由人的嘴唇、 舌头和腭的大小和位置共同来决定的。另外, 软腭还能够经过向下降低位置来使鼻腔和声道形成相互耦合。我们把组成人们声道的各个器官对于语音的作用称为声道的调音作用。而且我们把这些能够对人类的声音起到调音作用的器官称为调音器官。一般来说, 大多数成年人的声道长度大约会在16cm左右, 有些成年人声道的最大横截
35、面积甚至能够达到20cm。与发声有关的咽腔则是指连接喉咙、 食管与口腔、 鼻腔之间的一段管状组织。当人们在讲话的时侯, 咽腔自身的形状是能够根据讲话的需要而做出相应改变的。咽腔与口腔一起共同发挥作用, 这样能够使我们声道的形状变化多种多样, 因此人类能够发出各种不同的声音。而鼻腔则是指从咽腔开始一直延伸到鼻孔这一段之间的所有器官, 一般在10cm左右长。人们在尝试发出鼻音的时侯, 软腭是下垂的; 如果将软腭向上抬, 则就是我们日常最常见的口音。其中口腔是人们声道的最重要的组成部分, 我们能够经过调整唇、 舌、 齿以及腭的大小和位置来改变声道的形状和大小。其中舌头是最为活跃的: 舌的尖端部分、
36、中央部分以及边缘部分都能比较自由地活动, 而舌体的整个部分也能够在上下左右前后的方向上自由活动。而我们的双唇是位于口腔末端, 它能够经过我们自身的调节形成许多种的形状。牙齿是我们发出齿化音的关键部分, 比如〔θ〕音等等。最后, 在口腔旁边的软腭如前面所叙述的, 是负责控制是否需要配合发出鼻音的阀门。而硬腭以及齿龈则是构成声道管壁的主要部分, 而且还要参与人类整个的发声过程。综上所述, 在声门和声带之后, 声道是人们发声器官中最重要的, 对发声起到了决定性作用的器官。 2.3 人耳对声音信号的接收原理 耳朵是人类听觉系统的重要组成部分, 它主要包括了外耳、 中耳和内耳这三大部分。其中,
37、外耳道、 耳翼和鼓膜共同组成了我们的外耳。外耳的作用主要是对声音信号的感知起到定位和放大的作用, 因为外耳会对一定频率范围内的声音信号能够产生共振作用, 因此, 外耳能够将从外部接收到的声音信号放大10dB左右。另外, 人的头部由于能够起到一定的衍射作用, 从而增加骨膜处的声压, 最终能够使 图2.2 人耳构造图 从外部接收到的声音信号得到一定程度的 Fig.2.2 structure of ear 放大。听小骨(主要包含锤骨、 砧骨和镫骨)和咽鼓管组成了我们的中耳部分。在中耳的组织中, 锤骨与鼓膜相接触, 镫骨则与内耳的前庭窗相接
38、触。中耳的主要作用是进行声音阻抗的变换, 即将中耳两端的声音阻抗匹配起来, 在一定的声音强度范围内, 听小骨对声音进行线性传递, 而在声音强度特别大的情况下, 听小骨则对声音进行非线性传递, 这样能够对内耳起到保护的作用。耳蜗是内耳的主要组成部分, 耳蜗好比是声音信号的收纳器, 它能够经过机械变换把声音转化为能够在人体神经系统中进行传送的生物信号。耳蜗内部充满了淋巴液, 耳蜗相当于是一根密闭的管状组织。耳蜗是由三个部分组成:鼓阶、 中阶和前庭阶。其中中阶是负责连接鼓阶和前庭阶, 中阶的底膜称为基膜, 基膜上是柯蒂氏器宫, 柯蒂氏器官则是一个传感装置。经过科学研究发现, 人耳具有两个重要的特性,
39、 其中之一就是耳蜗对声音信号所具有的时频分析特性, 第二个则是与本文有较大相关度的人耳听觉掩蔽效应。就是当声音信号经外耳传入到中耳的时候, 镫骨的运动会引起耳蜗内淋巴液压强的变化, 进而引起声波沿基膜传播, 不同频率的声音信号分量产生不同的声波, 其峰值出现在基膜的不同位置上。频率较低时, 基膜振动的幅度峰值出现在基膜的顶部附近;相反, 频率高时, 基膜振动的幅度峰值出现在基膜的基部附近。如果所接收到的声音信号是一个多频率的复合声音信号, 则产生的声波将沿着基膜在不同位置产生相应大的振幅。从这个原理上来讲, 我们的耳蜗就相当于是一个声音信号频谱分析仪, 能够将复杂的混合声音信号分解成各种频率的
40、声音信号分量。 2.4 声音信号的分类 根据声音产生的来源不同大致能够分为以下三种语音: ① 浊音 浊音主要是由位于声门处的准周期的气息脉冲序列激励产生的。在我们呼气的时候, 空气从我们的肺部排出形成空气流, 当此股空气流经过声带时, 如果此时我们的声带是绷紧的, 则会在声门处产生一个准周期性质的脉冲气流。即声带产生比较有规律的弛张振动, 从而形成周期性地开启与闭合。当声带开启的时候, 空气流会从声门处喷射出来, 从而形成一个脉冲, 声门的闭合时相当于脉冲序列之间的间隙。此空气脉冲流会经过声道而且最终从嘴唇处以声波的形式向外辐射, 这就是浊音的发声原理。 ② 清音 清音主要
41、是有位于声道的某个收缩区的湍流(类似噪音)激励而形成的。在我们呼气的时候, 如果此时声带是完全舒展开的, 则肺部呼出的空气流将不会受到任何器官的作用经过声门。在此股空气经过声门后, 如果声道某个部位发生收缩, 则会形成一个狭窄的通道, 当空气流到达此处时将会被迫以高速气流冲过此收缩区, 并在此附近产生空气湍流。而清音(也称摩擦音)则正是由这种湍流空气经过声道所形成的。 ③ 爆破音 爆破音是由位于声道的某个闭合点处建立起来的气压所激励而形成的, 爆破音具有突然释放的特性。产生爆破音的时候, 声带的状态如同上面产生清音的开始阶段一样, 可是当空气经过声门后, 如果此时声道的某个部位完全闭合在一
42、起, 那么当空气流到达时便会在此处建立起较大的空气压力, 一旦此闭合点突然开启便会使之前在此形成的气压得到快速释放, 此时就会产生所谓的爆破音。 2.5 声音的物理特性 音色: 是指某种声音自身区别于其它声音的固有特征。音色一般由3个因素决定: 发声体, 由不同的发声体产生的声音显然不会相同, 比如笛子和箫, 虽然两者外表看起来比较相似, 可是却能产生的不同风格的声音; 声道的自身特点, 就好比笛子本身, 我们能够经过手指来按放笛子上的气孔( 相当于改变了笛子的声道) 从而产生不同的声音; 传气方式, 又如口风琴, 虽然是同一个琴孔, 可是分别采用吹气和吸气而产生的声音也是不相同的。
43、 音调: 又称为音高, 表现为人们的主观听觉上声音的高低。音调一般与声音的频率有关, 频率越高, 听到的声音音调就越高; 频率越低, 相应地听到的声音音调就越低。但并不是说音调与声音频率成正比例关系, 而且音调还和声音的强度以及声音信号的波形有关系。一般把一个频率为1000Hz、 听阈大于40dB的声音的音调定义为1000Mel。相应地, 如果一个声音听起来感觉比1000Mel的声音音调高出了一倍, 则其音调为 Mel。用公式表示两者的关系, 则有: ( 2.1) 音强: 是指声音信号的强弱, 一般与声音信号的波形幅度有关。一般来说, 声波的幅度越大则声音强度越大, 声音
44、强度就越大; 声波的幅度越小, 声音强度就越小。 音长: 是指声音信号的长短, 它与发声体产生声音的持续时间有关。 2.6 乐谱 在介绍人的歌唱声音信号中所涉及到的特征参数之前, 先需要了解一些有关音乐方面的乐谱知识。 乐谱是一种以印刷或手写制作, 用符号来记录音乐的方法。不同的文化和地区发展了不同的记谱方法。记谱法能够分为记录音高和记录指法的两大类。五线谱和简谱都属于记录音高的乐谱。吉她的六线谱和古琴的减字谱都属于记录指法的乐谱。传统的乐谱主要以纸张抄写, 现在亦有电脑程式能够制作乐谱。 乐谱的分类: 1、 中国古代就有”宫, 商, 角( jue) , 徵( zhi) ,
45、羽”五音, 对应简谱中的1 2 3 5 6, 是乐谱的基本音符, 在谱曲时古曲用这五个音。在谱曲时是以它们其中的一音定调, 只有在乐曲中才会体现音节, 几分音符和音的长短。如云南民歌《小河淌水》就是这样谱曲的, 整首歌里没47两种音出现, 是传统民歌。 2、 简谱, 是指一种简易的记谱法。有字母简谱和数字简谱两种。一般所称的简谱, 系指数字简谱。数字简谱以可动唱名法为基础, 用1、 2、 3、 4、 5、 6、 7代表音阶中的7个基本音级, 读音为do、 re、 mi、 fa、 sol、 la、 si, 休止以0表示。每一个数字的时值名相当于五线谱的4分音符。 数字简谱的雏形初见于16
46、世纪的欧洲。17世纪时法国天主教方济名会教士J·J·苏艾蒂加以改进后用来教唱宗教歌曲。18世纪中叶, 著名的法国思想家J·J·卢梭再加改进, 大力倡导, 并编入她的《音乐辞典》之中。19世纪, 经过P·加兰、 A·帕里斯和E·J·M·谢韦3人的继续改进和推广, 才在群众中得到广泛使用。因此这种简谱在西方被称为”加—帕—谢氏记谱法”。 19世纪末叶, 简谱传到日本, 再传入中国。19 沈心工编著出版的《学校唱歌集》是中国最早自编的一本简谱歌集; 之后逐步普及到各地的学校, 30年代随着救亡歌咏运动的开展, 简谱得以在群众中广泛流传。 由于简谱的记法与中国的工尺谱(流行在中国民间的一种文字
47、谱)相当接近, 因此在中国简谱得到了空前的发展, 就世界范围而言, 中国是把简谱吸收得最好、 最发扬光大的国家。而五线谱, 经过以西方为中心的音乐教育体制, 已基本通行于各个国家, 在学校里已是必修项目之一, 它为世界音乐统一于一种曲谱提供了基础。 3、 五线谱, 是当前世界上通用的音乐记谱法。它是在5根距离相等而且平行的横线上, 经过用不同时值的音符以及其它乐谱记号来记载音乐的—种方法。五线谱的每根线以及线与线之间的空间, 从下而上分别称为第一线、 第二线、 第三线、 第四线、 第五线和第一间、 第二间、 第三间、 第四间。线和间如不够使用, 可在五线谱上方或下方增加线和间。加线及加间各
48、分别称为上加第一线、 上加第一间, 下加第一线、 下加第一间等, 各代表一个音级。这些音级的固定高度根据所用的谱号来决定。谱号有三种: 高音谱号, 又称G谱号, 低音谱号, 又称F谱号, 中音谱号, 又称C谱号。五线谱为适应不同音域的人声和乐器的需要, 并避免过多的加线, 有多种谱表, 其中常见的有五种: 即高音谱表(用G谱号): 低音谱表(用F谱号)、 女高音谱表、 中音谱表、 下中音谱表(后三种用”C’”谱号)。女高音谱表现已不常应用, 中音谱表仅用于中提琴, 次中音谱表常见于大提琴、 大管、 长号的较高音区。另外还有上低音谱表、 女中音谱表等。
49、 下图是一张音乐简谱图: 图2.3 音乐简谱图 Fig.2.3 Musical notation 在大致查看此图以后, 我们能够经过此音乐简谱图得知以下的一些关于此乐谱的信息: 1、 歌曲名为我们耳熟能详的《千里之外》; 2、 此歌曲的词作者是方文山, 曲作者兼演唱者是周杰伦; 3、 接下来占据此图绝大部分的就是此歌曲的歌曲内容以及歌曲的曲调。 以上仅仅是作为我们大多数人能够从此音乐简谱图得到的一下关于此乐谱的信息, 如果我们对于乐谱还有一些了解的话, 我们还能够从中得知: 1、 其中1=D4/4代表此歌曲的节奏为4/4拍。其中, 第一个4代表每一小节所
50、耗时4拍, 第二个4代表每个小节的节奏以1次手臂正常匀速放、 抬的时间为单位。”手臂抬放的时间”即开始时手臂放在桌上做举手状, 然后将手臂向前伸直直至平放在桌面, 最后将手臂向上抬升, 直到恢复到初始状的动作所经历的时间。每一次的抬升和放下所经历的时间为1拍。 2、 每种音符及其耗时情况如下表所示: 表2.1 音符与节拍对应关系 Table.2.1 correspondence between note and beat 音符 5 节拍 1拍 1/2拍 1/4拍 3、 其中, 上面的点表示音高在此基础上上升一个音阶; 右边的点表示此音调要延长之前所占音长的二分之一






