多媒体和 flash.docx_咨信网zixin.com.cn

资源描述

数字音频的编辑和处理声音信号的两个基本参数是频率和幅度。频率是指信号每秒钟变化的次数，用Hz表示。人们把频率小于20 Hz的信号称为亚音信号，或称为次音信号(subsonic)；频率范围为20Hz～20kHz的信号称为音频(audio)信号；虽然人的发音器官发出的声音频率大约是80Hz～3400Hz，但人说话的信号频率通常为300Hz～3000Hz，人们把在这种频率范围的信号称为话音(speech)信号；高于20kHz的信号称为超音频信号，或称超声波(ultrasonic)信号。在多媒体技术中，处理的信号主要是音频信号，它包括音乐、话音、风声、雨声、鸟叫声、机器声等。 1. 声音的数字化声音进入计算机的第一步就是数字化。人耳听到的声音是一种具有振幅、周期的声波，计算机要处理这种声波，可以通过话筒把机械振动转变成相应的电信号，这也是一种连续的模拟信号，而计算机只能处理数字量，所以只有把这种模拟量转换成数字量计算机才能处理。这个转换过程称为模/数转换(A/D转换)即声音的数字化。模/数转换过程主要分采样、量化及编码3步。 (1) 采样。在某个特定的时刻对模拟信号进行测量叫做采样(sampling)。其做法是每隔一定时间对模拟信号的幅值进行测量，得到离散的幅值，用它代表两次采样之间的模拟值。假设输入电压的范围是-4V～4V，并假设它的取值只限定在0、1、2、…，7共8个值。第一次采样得到的幅度值是-0.82V，它的取值就应算作-1V，第二次采样得到的幅度值是0.89V，它的取值就算作1V，以此类推下去即可得到一系列的采样值，用这些离散数值代表相应时间段内声音的连续值(如图10-1所示)。图10-1声音的采样和量化采样频率是指单位时间(1s)内采样的次数。采样频率越高，声音回放出来的效果越好，文件所占的存储空间也就越大。采样频率不应低于声音信号最高频率的两倍，常用的采样频率有44.1kHz、22.05kHz、10.25kHz。 (2) 量化。量化是将经过采样得到的离散数据转换成二进制数的过程，量化位数即分辨率是指将经过采样得到的离散数据转换成几位二进制数。上例中，如果取量化位数为8位，即将采样的到的值用8位二进制数表示，则第一次采样得到的值-1即可表示为-00000001，第二次采样得到的值可表示为00000001。在多媒体计算机中音频的量化位数一般为32、16、8、4位。显然，量化位数(二进制位数)越多，量化后的波形越接近原始波形，声音的音质越好，存储该声音所用的文件也就越大。 (3) 编码。将采样量化后的二进制数据按照一定的规则进行组织，以利于计算机的处理称为编码。最简单的编码是用二进制的补码表示。如上例中第一次采样值-1经过编码后被表示为11111111，第二次表示为00000001。上述声音的数字化过程是由声卡完成的。一秒钟声卡对声音采样上千次，通过模/数转换器将模拟声波转换成数字信息存储在扩展名为.wav的波形文件中。当声音播放时，声卡中的数/模转换器将声音还原成模拟信号、放大输出到喇叭或耳机，变成人耳能够听到的声音。 2. 声音的压缩 (1) 声音文件的大小。一般来说，采样频率、量化位数越高，声音质量也就越高，保存这段声音所用的空间也就越大。立体声(用两个波形记录声音)是单声道(用一个波形记录声音)文件的2倍。即文件大小(B)=采样频率(Hz)×录音时间(s)×(分辨率/8)×通道数(单声道为1，立体声为2) 如：采用采样频率为44.1kHz，分辨率为16位，立体声的标准录音，录制10s的文件大小为： 44.1×103×10×(16/8)×2=1764000B即1.68MB 由此可见，音频的数字化要占用很大的空间，因此对音频数字化信号进行压缩是十分必要的。 (2) 声音的压缩。声音信号的压缩编码方式有两种：一种是波形编码技术，针对声音波形进行编码；另一种是声码技术，是对声音数字信号进行分析，提取其特征参数。经编码后可由重构来合成声音信号。波形编码是对声音波形进行抽样、量化、编码。在信号采样和量化过程中，考虑到人的听觉特性，使编码后的音频信号与原始信号的波形尽可能匹配，采样频率如果在9.6Kbps～64Kbps的到的声音信号的质量较高。但波形编码法易受量化噪声影响，进一步降低编码率也较困难。常用的压缩编码是DPCM(差分脉冲编码调制)和ADPCM(自适应差分量化)。参数分析与合成的编码方法是以声音信号产生的模型为基础，将声音信号转换成参数后再进一步编码。声音的基本参数是基音周期、共振峰、语音谱、声强等。利用这些参数，就可以不对声音的波形进行编码，只要记录和传输这些参数就能实现声音数据的压缩。声音的基本参数可以由声音生成机构模型通过实验得到。典型的分析合成技术有通道声码器、同态声码器和线性预测声码器。其压缩率大，但计算量大、保真度不高，适合于语音信号的编码。典型的有LPC线性预测编码。 3. 声音文件的格式声音数据有多种存储格式，目前比较流行的有以.wav (waveform)、.au(audio)、.aiff(audio interchangeable file format)和.snd(sound)等为扩展名的文件格式。.wav格式主要用在PC上，.au主要用在Unix工作站上，.aiff和snd主要用在苹果机和美国视算科技有限公司(Silicon Graphics Inc.，SGI)的工作站上。这里主要介绍.wav和.midi。 (1) WAV 文件。 WAV文件是微软公司的音频文件格式，又称为波形文件格式，它来源于对声音模拟波形的采样，用不同的采样频率对声音的模拟波形进行采样可以得到一系列离散的采样点，以不同的量化位数把这些采样点的值转换成二进制数，然后存盘，就产生了声音的WAV文件。此种格式的声音是由采样数据组成的，所以它需要的存储容量很大。用前面介绍的公式可以简单地推算出WAV文件的文件大小。 (2) MIDI文件。 MIDI是Musical Instrument Digital Interface的首写字母组合词，可译成“电子乐器数字接口”，是用于在音乐合成器(music synthesizers)、乐器(musical instruments)和计算机之间交换音乐信息的一种标准协议。MIDI是乐器和计算机使用的标准语言，是一套指令(即命令的约定)，它指示乐器即MIDI设备要做什么、怎么做，如演奏音符、加大音量、生成音响效果等。MIDI不是声音信号，在MIDI电缆上传送的不是声音，而是发给MIDI设备或其他装置让它产生声音或执行某个动作的指令。当信息通过音乐或声音合成器进行播放时，该合成器对系列的MIDI信息进行解释，然后产生出相应的音乐或声音。记录MIDI信息的标准格式文件称为MIDI文件，其中包含音符、定时和多达16个通道的乐器定义及键号、通道号、持续时间、音量和击键力度等各个音符的有关信息。由于MIDI文件是一系列指令而不是波形数据的集合，所以其要求的存储空间较小。 (3) WAV文件和MIDI文件的区别。 WAV文件记录的是声音的波形，要求较大的存储空间;MIDI文件记录的是一系列的指令，文件紧凑占用空间小，预先装载比WAV容易，设计播放所需音频的灵活性较大。WAV文件的可编辑性好于MIDI文件，音质也比MIDI文件饱满。由此可见，WAV文件适合于: ① 计算机资源足够处理数字文件。 ② 有语言会话的需要。 ③ 对回放设备没有特定要求。 MIDI文件适合于： ① 没有足够的内存、硬盘空间或CPU处理能力不强。 ② 具备符合要求的回放设备。 ③ 具有高质量的声源。 ④ 没有语言对话的需要。 (4) VOC文件。 VOC文件是Creative公司波形音频文件格式，也是声霸卡使用的音频格式文件。每个VOC文件由文件头块和数据块组成。声霸卡提供的软件可以实现VOC和WAV文件的转换。 10.2.2多媒体图像技术在计算机屏幕上显示的文本和画面通常用位图图像、矢量图形来描述。 1. 位图图像 (1) 概念。位图图像是通过显示器像素点的颜色和亮度来反映原始图像的效果。可以把一幅位图图像理解为一个矩阵，矩阵中的每个元素就是图像中的一点，称之为像素。每个像素都有颜色和亮度。矩阵中的所有不同颜色、不同亮度的点就组成了一幅图像。位图图像适合于表现比较细致，层次、颜色比较丰富，含有大量细节的图像。 (2) 位图图像的相关概念。 ① 分辨率分辨率包括屏幕分辨率、图像分辨率和像素分辨率3种。屏幕分辨率指计算机屏幕上最大显示区域水平和垂直方向上的像素个数，如VGA显示器的屏幕分辨率为640×480，是指水平方向有640个像素，垂直方向上有480个像素。图像分辨率是指图像数字化时，在水平、垂直方向上的像素个数。当图像分辨率大于屏幕分辨率时屏幕上只能显示一部分图像。像素分辨率是指一个像素点的长和宽的比例。像素点尽可能长宽相等，使之成为正方形，否则图像就会变形。 ② 色彩空间色彩空间是指彩色图像所使用的颜色描述方法(也叫彩色模式)，如RGB空间就是通过调节R(红)、G(绿)、B(蓝)3种颜色的组成成分使人眼和大脑感受各种各样的颜色。常用的颜色空间有RGB、CMYK(青、品红、黄、黑)、HSB(色相、饱和度、亮度)等。 ③ 图像深度图像深度是指图像中可能出现的不同颜色的最大数目。它取决于数字化时每个像素所占的位数，也就是用几位二进制数表示一个像素，即通常说的几位位图，如颜色深度为1(一位位图)则位图中每个像素用1位二进制数表示，那么它就可以有两种取值即黑白两种颜色；同样颜色深度为24，则每个像素可用24位二进制数表示，有224种不同取值即16772216种颜色，就是平时说的真彩色。 ④ 图像文件的大小图像文件的大小是指在磁盘上存储整幅图所占的字节数，可用下面的公式计算：文件字节数=图像分辨率(高×宽)×图像深度/8 如一幅800×600大小的真彩色图片所需存储空间大小为800×600×24/8=1440000B。由此可以看出，位图图像文件所需存储空间很大，存储时必须采用压缩技术。 2. 矢量图形 (1) 矢量图形的概念。矢量图形是用一组指令集合来描述的，这些指令用来描述构成一幅图的所有直线、圆、矩形、曲线等的位置、形状、维数和颜色等各种属性和参数。显示时，需要相应的软件读取、解释这些指令，并将其转换为屏幕上所显示的形状和颜色。如要在屏幕上画个矩形，从屏幕左上角开始，水平方向走300个像素，再往下走300个像素，同时记录边框的颜色、方框中填充的颜色。这样就完成了一个矩形的绘制。 (2) 矢量图形与位图图像的区别。矢量图形和位图图像都是静止的，与时序无关。 ① 图形是用一组指令来描述画面的直线、圆、曲线等，而图像则是用画面中每个像素的颜色和亮度来描述的。所以图形很容易分解成不同单元，分解后的成分有明显的界限；而图像分解较难，各成分之间的分界往往有模糊之处，有些区间很难区分属于哪部分，彼此平滑的连接在一起。图形可以随意缩小放大不会失真，而图像不能则不能。 ② 位图占用的存储器空间比较大。影响位图大小的因素主要有两个：图像分辨率和像素深度。分辨率越高，就是组成一幅图像的像素越多，则图像文件越大；像素深度越深，就是表达单个像素的颜色和亮度的位数越多，图像文件就越大。而矢量图文件的大小则主要取决图形的复杂程度。 ③ 矢量图与位图相比，显示位图文件比显示矢量图文件要快。尤其对于复杂图形，使用矢量图形计算机要花费很长的时间去计算每个对象的大小、位置、颜色等特性。矢量图侧重于绘制、创造，而位图偏重于获取、复制；矢量图和位图之间可以用软件进行转换，由矢量图转换成位图采用光栅化(rasterizing)技术，这种转换也相对容易；由位图转换成矢量图用跟踪(tracing)技术，这种技术在理论上说是容易的，但在实际中很难实现，对复杂的彩色图像尤其如此。 3. 图像文件的格式常见图像文件的格式有以下几种。（1） GIF格式是美国Compu Serve公司于1987年制定的格式，目的是能够在不同的平台上交流使用，是Internet上WWW的重要文件格式之一，支持64000像素的图像。（2） BMP格式是Windows采用的图像文件存储格式，在Windows环境下运行的所有图像处理软件都支持这种格式。Windows 3.0以前的BMP位图文件格式与显示设备有关，因此把它称为设备相关位图文件格式。Windows 3.0以后的BMP位图文件格式与显示设备无关，因此把这种BMP位图文件格式称为设备无关位图格式，目的是为了让Windows能够在任何类型的显示设备上显示BMP位图文件。（3） JPEG格式是采用JPEG方法压缩而成的，其压缩比高，并可在压缩比与图像质量之间平衡，用最经济的存储空间得到较好的图像质量。（4） TIFF格式，缩写为TIF，由原Aldus和微软公司合作开发的用于扫描仪和桌面出版系统的文件格式。其有压缩与不压缩两种格式，多数应用程序都支持这种格式。 4. 图形、图像的获取图形、图像一般可以通过下面的方法获取。 (1) 用图形工具软件生成。利用Photoshop、CorelDRAW等图形软件创作所需要的图形，它们都可以利用鼠标绘制各种图形，填充颜色，将图形变形、剪切、粘贴，也可以输入文字，生成各种文字效果。用这些工具生成小型、简单的画面，设计修改方便，成本较低。 (2) 用扫描仪从照片、艺术作品中扫描。扫描仪主要应用在图纸之类平面图像的采集上。现在的大部分扫描仪均支持OCR功能，把页面中的文字以位图的形式输入到计算机，通过OCR软件检查位图区的质地与密度，并查明边界，然后使用概率和人工智能算法，把图像中的正文区转换为ASCII码或中文编码。 (3) 数字摄像输入。利用电视摄像机或数字式照相机可把照片、艺术作品甚至实际场景，输入计算机产生一幅数字图像。摄像机与扫描仪的区别是：扫描仪只能输入平面的图像，而摄像机可以捕获三维空间的景物，即使是输入平面的图像，速度也比扫描仪快。 (4) 利用录像机和电视机捕获图像。可以对录像机和电视机中的视频输出信息进行采集，通过视频采集卡和有关软件生成数字图像。 (5) 视频抓帧。从VCD视频节目中抓取某一帧图像素材，可以利用软解压VCD播放软件“超级解霸”按如下方法静抓帧处理。打开“超级解霸”播放器，播放VCD影碟；如果播放到某一精彩画面，立即按下暂停键，让画面停止；然后单击照相机外形的按钮，弹出对话框，提示将此时的图像存盘；可以在对话框中指明存储文件的文件名及存盘路径，单击OK按钮即可。 (6) 购买现成的图像库。厂商把各种各样的图像数字化后存储在光盘中，其中包括自然风光、花鸟鱼虫、风土人情等。专业化的开发和规模生产使其具有较高的性能价格比。 5. 静止图像压缩方法图像不仅数据量大而且含有大量的冗余信息。如一幅画面是由若干个像素组成的，每幅内的相邻像素之间相关性很大，有大量的冗余信息，为图像的压缩提供了必要性；另外在多媒体应用中，信息的主要接收者是人，而人的视觉有视觉掩盖效应，对图像边缘急剧变化放映不灵敏，此外人眼对图像的亮度感觉灵敏，对色彩的分辨率能力弱，这为图像压缩提供了可能性。典型的图像压缩方法是JPEG静止图像压缩法。JPEG是Joint Photographic Experts Group(联合专家小组)的英文缩写。JPEG经过5年的研究后，于1991年3月提出了一个适合于连续色调、多级灰度、彩色或单色静止图像的数据压缩的国际标准，即ISO CD10918号标准草案：“多灰度静止图像的数字压缩编码”。其主要内容是： ① 基本系统提供顺序扫描重建图像，实现信息有损的图像压缩，而重建图像的质量要高达难以察觉损伤的要求。它采用8×8像素自适应DCT算法、量化、以及Huffman型的熵编码器。② 扩展系统选用累进工作方式，编码过程采用具有自适应能力的算术编码。③ 无失真的预测编码及Huffman编码(或算素编码)，可保证重建图像数据与原始图像数据完全相同。 6. 视频视频影像是指通过摄像机、录像机等设备捕捉的动态画面。视频具有信息量大、感染力强的特点，适宜表现事物细节、呈现一些比较陌生的事物。视频素材可通过视频压缩卡采集将模拟信号转换成数字化信号，可以从VCD中直接截取，或用屏幕抓图软件录制。视频素材常用的格式有Windows视频文件(.avi)、MPEG视频文件(.mpg)、Quick Time视频文件(.mov)、VCD中的视频文件(.dat)以及网上常用的Real Video文件(.rm)等。数据流是因特网上一种数据信息的传播方式，用于实时地表现文字、图像、声音、视频和动画等媒体。流媒体的常用文件格式有以下几种：RealAudio声音流文件(.ra)、Real Media声音流或视频流文件(.rm)、metafile流媒体元文件(.ram)、RealTxet Clip实时文件(.rt)、RealPix Clip实时图像(.rp)、HTML文件插件(.rpm)、Advanced Stream Format网上影音文件(.asf)、Authorware流式文件(.aam)以及Real Flash和Shockwave Flash动画文件(.swf)等。 10.3多媒体压缩技术多媒体计算机的主要特性是能处理数字化的声音、图像以及视频信号。而数字化的声音、图像以及视频信号的数据量非常大，例如，在VGA分辨率为640×480的256色彩色图像显示模式中，一帧画面所占的数据量约为308KB，如果采用NTSC制式标准视频30帧／s，则传输率约为73.7Mbps，远远高于计算机的数据传送速率。而对于音频信号，按CD的标准采样，频率为44.1kHz，量化位数为16位，双声道，则100M的硬盘只能存储约10min的声音数据量。这样大的数据量不仅超出了计算机的存储和处理能力，更是当前通信信道的传输速率所不及的。因此，数据压缩是多媒体的关键技术，它直接影响到多媒体计算机的发展和应用。多媒体数据压缩技术因信号类型和应用目的的不同而有许多方法，这里只介绍目前数据压缩技术的主要分类和一些基本概念。 10.3.1多媒体数据压缩方法的分类数据压缩方法种类繁多，可以分为无损压缩和有损压缩两大类。 1. 无损压缩无损压缩方法利用数据的统计冗余进行压缩，可完全恢复原始数据而不引入任何失真，但压缩率受到数据统计冗余度的理论限制，一般为2：1～5：1。这类方法广泛用于文本数据、程序和特殊应用场合的图像数据(如指纹图像、医学图像等)的压缩。由于压缩比的限制，仅使用无损压缩方法不可能解决图像和数字视频的存储和传输问题。无损压缩中经常采用的方法有游程编码(Run-length Encode)、Huffman编码、算术编码和LZW编码等。 2. 有损压缩有损压缩方法利用了人类视觉对图像中的某些频率成分不敏感的特性，允许压缩过程中损失一定的信息；虽然不能完全恢复原始数据，但是所损失的部分对理解原始图像的影响较小，却换来了大得多的压缩比。有损压缩广泛应用于语音、图像和视频数据的压缩。常用的有损压缩方法有PCM(脉冲编码调制)、预测编码、变换编码(离散余弦变换、小波变换等)、插值和外推(空域亚采样、时域亚采样、自适应)等。在新一代的数据压缩方法中，许多都是有损压缩，如矢量量化、子带编码、基于模型的压缩，分形压缩和小波压缩等已接近成熟，并用于实际的多媒体开发。活动图像的最新压缩标准MPEG-4就是采用了基本分形的压缩方法。

展开阅读全文