资源描述
《多媒体技术》
复习思考题及参考答案
第1章 引论
1. ITU定义了哪五类媒体?通常所说的媒体是指其中的什么媒体?
答:感觉(Perception)、表示(Representation)、展现(Presentation)、存储(Storage) 和传输(Transmission)媒体;感觉。
2. 目前多媒体所能处理的有哪些具体媒体对象?它们被分为哪两类?
答:文本、图形、图像、声音、动画、视频等;静态媒体(文本、图形、图像)、流式媒体(声音、动画、视频)。
3. 多媒体技术的特点有哪些?为什么传统电视不是多媒体?举出几种常见的多媒体设备。
答:多样性 、集成性、交互性、[实时性];不交互;DVD、计算机、手机、数字电视。
4. 多媒体的核心技术是什么?
答:数据压缩
第2章 文字
1. 计算机对文字的处理,包括哪三个部分?
答:文字输入、字符编码、文字输出。
2. 文字录入计算机的方法主要有哪几类?
答:键盘输入、手写输入、语音输入、扫描输入。
3. 汉字有哪三个要素,各对应于什么键盘输入法?
答:形、音、义,对应形码(如五笔字形)、音码(如全拼)、基于词汇与整句的智能化输入法(如微软拼音)。
4. 语音识别系统可以如何分类?语音识别的目标是开发什么样的语音识别系统?
答:小/中/大词汇量、孤立词/连接词/连续语音、特定人(1人)/限定人(n人)/非特定人(任意人);大词汇量、非特定人的连续语音识别系统。
5. ASCII的英文原文和中文译文是什么? ASCII是由什么组织在什么时候制定的?
答: American Standard Code for Information Interchange,美国信息交换标准码;ANSI于1963年制定。
6. ASCII所对应的ISO标准号是多少?该ISO标准是什么时候制定的?
答:646;1972年。
7. 给出标准化组织ANSI、ISO和IEC的含义。
答: ANSI = American National Standards Institute,美国国家标准协会;ISO = International Organization for Standardization,国际标准化组织——是由各国的标准协会联合组成的一个非政府国际组织;IEC = International Electrotechnical Commission,国际电工技术委员会——国际标准化权威组织,属于联合国的甲级咨询机构,负责制定关于电工电子各方面的标准。
8. 常用的中文编码的国家标准有哪些?它们各自的特点与适用范围是什么?
答:GB 2312—早期、基本、经典、收字少(6千7百多),适用于老式中文软件;GBK/GB 18030—过渡、收字多(2万7千多)、与GB 2312兼容,适用于现在的中文软件;GB 13000—通用、与国际标准Unicoe和ISO/IEC 10646等价、收字多(接近2万1千)、与GB 2312不兼容,适用于现代国际化软件。
9. GB 2312中的汉字分成几级?各级中的汉字按什么顺序排列?
答:分成两级,其中:常用的一级汉字按拼音字母顺序排列(同音字再按笔顺的横、竖、撇、捺、点、折序排列);生僻的二级汉字按部首顺序排列(同部首的字按笔画数排列,同笔画数的字再按笔顺排列)。
10. GB 2312中的汉字用几个字节表示?为什么只有94个区/位?
答:2个(7位)字节;为了与ASCII码兼容,保留每个(7位)字节中的32个控制符和两个特殊可显字符(Space/Del),所以有128-34=94。
11. 给出Big5的含义。
答: Big5内码(大五码)是1984年由台湾财团法人资讯工业策进会与宏碁(Acer)、神通(MiTAC)、佳佳、零壹(Zero One)、大众 (FIC)等五大软件公司联合推出的一种用于港澳台及海外的繁体汉字编码方案。
12. GB 13000与ISO/IEC 10646的关系是什么?
答:等价(英文译成了中文)。
13. 给出UCS和BMP的英文原文、中文译文、含义与关系。
答: UCS = Universal [Multiple-Octet Coded] Character Set,通用[多八位编码]字符集; BMP = Basic Multilingual Plane,基本多文种平面;UCS是ISO/IEC 10646的具体字符编码方案(4字节),BMP是UCS中的第00组的第00平面(2字节)。
14. 中日韩统一汉字(CJK)在BMP的哪个区?含有多少个汉字?
答:I区;20 992个。
15. UCS的字符编码有哪些表示形式?它们各有什么特点?
答:UCS-2—双字节、简单实用(BMP);UCS-4—4字节、复杂通用(整个UCS);UTF-8/16/32—变字节、分别适用于西文/中文/通用。
16. GBK与GB 18030有什么关系?它们与GB 2312和GB 13000又有什么关系?
答:GBK为指导性技术规范,GB 18030是对应于GBK的国家标准;GBK/GB 18030收字多(与GB 13000兼容)且码位与GB 2312兼容,是从GB 2312到GB 13000的过渡性标准。
17. Unicode与ISO/IEC 10646有什么关系?比较它们的异同。
答:Unicode与ISO/IEC 10646是由两个组织(统一码协会和ISO/IEC)分别制定的国际通用字符编码标准,早期互不相干,1991年起走向融合,从1993年(Unicode 1.1/10646-1:1993)起Unicode与10646保持两者标准的码表兼容;同——码表兼容;异——10646只是字符集/贵/字体质量好,Unicode还含语义符号和算法/免费/字体质量不太好;所以,Unicode的使用更为广泛些。
18. UTF是什么?它有哪些具体编码方式?这些方式各有什么特点?
答:UTF = Unicode/UCS Transformation Format 统一码/通用字符集转换格式,是一类具体的字符编码方式;UTF-8——每个字符1~6个字节的变长编码,与CPU的字节顺序无关,主要适用于西文ASCII编码;UTF-16——每个字符2或4个字节的变长编码,与CPU的字节顺序有关,无法相容于ASCII编码,主要适用于中文编码;UTF-32—4个字节的通用编码,适用于整个Unicode/ UCS。
19. 文字输出方式包括哪两大类?
答:图形(图符)、声音(语音)。
20. 字形技术含哪三个方面?
答:字型、字体、字库。
21. 有哪三种字型?它们各有什么特点?
答:点阵字——位图、显示快、占空间(字库大)、放大后有马赛克效应,已被淘汰;矢量字——单线条、字库小、算法简单、难看、只用于笔式绘图仪(少见);轮廓字——用曲线描绘字的轮廓、输出效果好、所见即所得、可无级放大、易实现空心/阴影/填充/变形等各种特效功能,是现代的主流字型。轮廓曲线一般采用二、三次B样条或Bezier曲线。
22. 常用的汉字字体是哪几种?它们各用于哪些方面?
答:宋体/正文;仿宋体/正文及摘要等;黑体/标题及工艺美术;楷体/中小学教材的正文及工艺美术等。
23. 语音输入与语音输出的核心技术各是什么?
答:语音识别技术、语音合成技术。
24. 给出TTS的英文原文和中文译文,并描述其系统的构成。
答:Text-To-Speech,文语转换;文本分析(通过对输入文本进行词法分析、语法分析,甚至语义分析,从文本中抽取音素和韵律等发音信息)+ 语音合成(使用从文本分析得到的发音信息去控制合成单元的谱特征(音色)和韵律特征(基频、时长和幅度),送入声音合成器(软件或硬件)产生相应的语音输出)。
第3章 音频
1. 音频的英文是什么?它与声音有什么区别?音频一般分为哪三类?
答:audio;音频指人能听到的声音(20Hz~20kHz),不包括次声和超声;话音、音乐、其他(环境声、音效声、自然声)。
2. 室温下空气中的声速是多少?
答:340 m/s。
3. 声音是一种什么样的波?与水波有何区别?一般用哪两个物理量来描述?
答:纵向压力波(纵波或疏密波);水波为横波;振幅和频率。
4. 什么叫纯音?什么叫复音?怎样确定复音的音高?
答:具有单一频率的声音;具有多种频率成分的声音;基频。
5. 什么叫基音和谐音?它们之间有什么关系?
答:和谐复音中具有基频的声音(其频率是和谐复音中的最低频,且通常具有最大振幅)、频率是基频整数倍(谐频)的声音(也叫泛音);谐音的频率是基音的整数倍。
6. 声音有哪三个要素?它们的含义是什么?
答:音调(tone)——人耳对声音高低的感觉,主要与声音的频率有关、响度(loudness)——对声音强弱的主观感知,一般用无量纲的声级(soundlevel)表示(单位为dB分贝)、 音色(timbre)——人们区别不同发声体的主观感觉,每个人和每种乐器都有各自的音色。音色主要是由复音中不同谐音的分布和组成所决定的,其他影响因素还有声音的时间过程。
7. 人类听觉的频率范围是什么?语音的频率范围又是什么?
答: 20Hz~20kHz;300Hz~3000 Hz。
8. 人耳有哪些部分构成?它们各有什么功能?
答:人耳分为外耳、中耳和内耳三个部分。外耳由耳廓(用于区分声源位置)和耳道(谐振腔)构成;鼓膜处在外耳和中耳之间(用于传导声音);中耳包含三根听骨及通向咽腔的耳咽管(平衡气压、保护内耳、匹配阻抗);内耳则包括耳蜗(柯蒂器负责听觉)、前庭和三半规管(平衡觉感受器)和听神经等部分。
9. 听觉有哪些有用的感知特性?
答:听阈曲线(不能感知弱低音)、(频域、时域和中枢)掩蔽效应。
10. 模拟信号与数字信号的区别在哪里?如何将音频信号数字化?
答:模拟信号在时间和幅度上都是连续,数字信号在时间和幅度都用离散的数字表示;采样+量化。
11. 如何确定无损数字化的采样频率? 按Nyquist采样定理语音和音乐之无损数字化的采样频率各是多少?
答:按Nyquist采样定理——采样频率不低于声音信号最高频率的两倍;2*3kHz = 6kHz、2*20kHz = 40kHz。
12. MIDI的英文原文与中文译文各是什么?与波形数据相比MIDI有哪些优缺点?
答: Musical Instrument Digital Interface,乐器数字接口;优点——文件小、容易编辑、常用作背景音乐;缺点——不能表示人声。
13. 与MIDI相关的标准还有哪些?
答:GM( General MIDI,通用MIDI)、XMF (eXtensible Music Format,可扩展音乐格式)、MIDI XML。
14. 音乐生成方法有哪两种?它们各有什么特点?
答:调频和波表;调频——将数字表示的简单乐音波形用计算机组合起来,通过数模转换器DAC来生成乐音,简单便宜,有些失真;波表——把真实乐器发出的声音以数字的形式记录下来,播放时改变播放速度和音量,从而生成各种音阶和大小的音符,比调频法所产生乐音更逼真,但较贵。
15. MIDI的控制器与音序器各起什么作用?以电子琴和计算机为例说明之。
答:控制器输入音符、音序器合成音乐;电子琴——控制器=键盘、音序器=处理芯片;计算机——控制器=键盘或MIDI文件、音序器=声卡芯片。
16. 多音色和复音的含义是什么?
答:多音色指能同时播放多种不同乐器的声音、复音指合成器一次能够同时播放的音符数。
17. 声卡有哪些功能和指标?
答:功能——录制与播放、编辑与处理、MIDI音乐合成、(文语转换与语音识别);指标——声道数(1/2/5.1/6.1/7.1)、合成方法(调频/波表)、复音数(11/22/32/64/~/4096)、采样频率(11/22/44.1/48/96/192)、量化精度(8/16/24)。
18. 窄带和宽带音频信号各指什么?
答:窄带(3.4kHz)——话音信号、宽带(20kHz)——音乐及其他音频信号。
19. 话音编码有哪三类?它们各有什么特点?
答:波形编码——音质好但数据量大、音源编码——数据量小但音质差、混合编码——数据量中等且音质较好
20. PCM的英文原文与中文译文各是什么?PCM编码的含义是什么?
答:Pulse Code Modulation,脉冲编码调制;最简单的波形编码,只是对输入信号进行采样和量化(离散化)。
21. μ律与A律有什么共同点和不同点?
答:都为对数型非线性量化的PCM;具体对应关系和适用地区不同:μ律——纯对数、用于北美和日本等地区;A律——分段函数:信号小时为直线/信号大时为对数、用在欧洲和中国大陆等地区。
22. 数字通信中的T1/E1等级及其数据率是如何制定的?
答:话音通信中的时分多路复用,每一个话路的数据传输率=8kHz×8b=64kb/s;T1=24路制1544kb/s;E1=30路制2048kb/s
23. 给出差分编码与自适应编码的思路。
答:差分编码是对预测的样本值与原始的样本值之差进行编码。由于话音样本之间存在相关性,差值幅度的变化就比原始话音样本幅度值的变化小,因此量化位数较少;自适应编码是根据输入信号幅度大小来改变量化阶大小的一种波形编码技术。
24. 语音处理可分为哪三类?它们各有什么特色?
答:语音通信(人→人)、语音合成 (机→人)、语音识别(人→机)。
25. 根据识别对象不同,语音识别可分为哪两类?它们的主要应用各是什么?
答:语音内容识别(语音输入/声控)、讲话人识别(声纹口令、罪犯确认)。
第4章 图形与图像
1. 人眼有哪些主要部分构成?它们各有什么功能?与照相机进行对比。
答:人眼由眼球和眼球壁构成。眼球从前到后为:晶状体(调焦距)、房水和玻璃体(保护视网膜和缓冲震动);眼球壁从外到内为:角膜(聚焦,镜头)、巩膜(眼白,巩固和保护眼球)、虹膜(含瞳孔,调光圈)、睫状体(内含睫状肌,可调节晶状体的形状)、脉络膜(含丰富黑色素细胞,可吸收外来杂散光、消除光线在眼内的乱反射)、视网膜(含感光细胞,感知光和色,底片)、视神经(传导光电信号到大脑)。眼皮(快门)→ 角膜(镜头)→ 虹膜/瞳孔(光圈)→ 晶状体(焦距)→ 视网膜(底片)。
2. 视网膜中有几类感光细胞?它们各有什么特点和功能?
答:视锥细胞和视杆细胞;视锥细胞(稀疏,明视,对弱光不敏感,分成红绿蓝三种)负责色觉、视杆细胞(密集,暗视,对弱光敏感)负责光觉。
3. 人类的视觉可以分成哪些方面?各有什么特点或指标?
答:光觉(明适应过程1分钟、暗适应过程30分钟)、形觉(最高分辨力为1分度,近视291点/英寸)、色觉(400~750纳米)、立体觉(存在错觉)和运动觉(15’ 位移和60~100毫秒的离散运动视觉)。
4. 视觉滞留是怎么一回事?有什么用处?
答:由于人眼感光需要一定时间,所以物体在视网膜中成像后,并不立即消失,会滞留一段时间(25~100毫秒);观看电影、电视和动画(将本来离散的画面,看成连续的)。
5. 光的三个要素是什么?颜色的三个特性又是什么?它们之间有没有联系?
答:主波长、纯度、辉度;色调、饱和度、明度;后者由前者的对应要素决定。
6. 给出明度(brightness)、亮度(luminance)和光亮度(lightness)的区别与联系。
答:明度是视觉系统对可见物体辐射或者发光多少的感知属性、亮度是用反映视觉特性的光谱敏感函数加权之后得到的辐射功率(光的强度)、光亮度是人的视觉系统对亮度的感知响应值;明度为主观特征,不好度量;亮度是客观物理量,容易计算,但与主观感觉有差距;光亮度则是根据物理量计算出来的与主观感觉相近的值。
7. CIE的XYZ与RGB有什么区别? CIE的xyY色度图与XYZ颜色空间有什么联系?
答:RGB为与设备相关的颜色空间,且配色时R会出现负值;XYZ是CIE在RGB模型基础上,用数学的方法推导出来的与设备无关的理论三基色之颜色系统;xyY为XYZ颜色空间上的X+Y+Z=1平面。
8. 颜色空间是几维的?常用的颜色模型有哪一些?
答:三维;RGB、CMY、HSL、YCrCb。
9. HSL模型中各个字母的含义是什么?给出其对应的颜色空间的形状及各个坐标的意义。
答:H(hue色调)、S(saturation饱和度)、L(lightness亮度);双六角锥体;柱面坐标,z轴=L亮度、极径r=S饱和度、极角α=H色调。
10. 说出光电三原色与色料三原色的内容、混色原理和应用。
答:光电三原色为红R、绿G和蓝B,混色满足加色原理,主要用于显示;色料三原色为青色C、品红M和黄Y,混色满足减色原理,主要用于打印和印刷。
11. 矢量图(图形)与点阵图(图像)各有什么特点?它们之间如何转换?
答:矢量图用一系列计算机指令来表示一幅图,优点——文件小、易编辑修改、可无级放大,缺点——难逼真、显示慢,适用于简单的人造图形;点阵图为像素点表示的光栅图像,优点——逼真、显示快,缺点——文件大、难编辑修改、放大会产生马赛克,适用于复杂的自然图像;光栅化:矢量图à点阵图;矢量化:点阵图à矢量图。
12. 真彩色(直接色)与伪彩色(索引色)的区别在哪里?
答:真彩图的每个像素值为RGB三个基色分量;而伪彩图的像素值为彩色表中对应表项的序号(入口地址)。
13. 图像的深度与像素的深度是一回事吗?其含义是什么?
答:是一回事;都是指存储每个像素所用的位数。
14. 为什么需要γ校正? CRT的γ值大约是多少?CRT屏幕图像是如何适合暗淡环境下观看的?
答:因为电设备的光电转换特性大都是非线性的幂-律关系,为了使不同环境下的再生图像可重现原始场景,必须设置γ值;2.5;摄像机γ(0.5)* CRTγ(2.5) = 暗淡环境γ(1.25)。
15. 常用的位图文件格式有哪些?它们各有什么特点?各适用于哪些领域?
答:
a) BMP——格式简单、显示快,文件大,占存储空间和传输带宽,一般用于Windows平台中小尺寸图像或中间/临时图像;
b) GIF——变长LZW无损压缩、压缩比较高、文件小,最多256色、64K*64K像素,使用广泛(尤其是网络);
c) TIFF——通用、高质、无损压缩,标准不统一、格式复杂、解码难,常用于对质量要求高的专业图像的存储;
d) JPEG——国际标准、压缩比高且可调整、图像效果好,有损压缩、只适用于灰度图与真彩图,使用非常广泛(尤其是网络);
e) PNG——W3C标准、GIF的一种推广、无损压缩、支持16位灰度和48位彩色、16位α通道、 γ校正、检错、快速逐次逼近显示、标准读/写工具包,主要用于万维网。
16. PNG增加了哪些GIF所没有的特性?
答:支持16位灰度和48位彩色、16位α通道、 γ校正、CRC检错、快速逐次逼近显示、标准读/写工具包。
17. 计算机在显示器上绘图与显存中的数据内容有什么关系?
答:计算机在显示器上绘图 = 改写视频存储器VRAM(显存)中的数据内容。
18. VGA的英文原文与中文译文各是什么?其分辨率和颜色数各是多少?
答: VGA = Video Graphics Array视频图形阵列;640*480(16色) / 320*200(256色)。
展开阅读全文