资源描述
第一章 绪论
什么是媒体?
媒体是指传播信息的媒介。是人用来传递信息与获取信息的工具、渠道、载体、中介物或技术手段。
存储信息的实体:媒质 承载信息的载体:媒介
什么是多媒体?
以数字化为基础 ;
对多种媒体信息进行采集、编码、存储、传输、处理和表现;
综合处理多种媒体信息并建立起有机逻辑联系;
集成为一个系统并能具有良好交互性;
多媒体举例
1. 多媒体课件
文字、图形、图像、声音、动画、影像等多种媒体素材在时间和空间两方面进行集成,使他们融为一体并赋予交互特性,满足辅助教学。
软件
PowerPoint、Authorware
2. 多媒体查询系统
多媒体硬件系统:包括计算机、各种外部设备以及与各种外部设备的控制接口卡(其中包括多媒体实时压缩和解压缩电路)
软件系统:包括多媒体驱动软件、多媒体操作系统、多媒体数据处理软件、多媒体创作工具软件和多媒体应用软件。
1.1 多媒体的基本概念
概念1 :国际电信联盟(ITU)对媒体分类
感觉、表示、显示、存储、传输
感觉媒体 直接作用于人的感官、使人能直接产生感觉的一类媒体听觉、视觉、触觉嗅觉等
表示媒体 信息的表示形式,为了加工感觉媒体而构造出来的一种媒体图像、图形、视频等
图像:BMP、JPG、PNG、GIF等;
语音:MP3、WMA、 WAV、 APE、AAC等;
视频:MP4、 3GP 、 WMV 、 AVI 、 flv等;
图形:3ds、OBJ、STL、VRML等;
显示媒体 表现和获取信息的物理设备,感觉媒体与通信电信号进行转换的一类媒体
可分为:输入表现媒体,输出表现媒体显示器、打印机、扬声器、键盘、摄像机
存储媒体 存储数据的物理设备,用于存放表示媒体的一类媒体硬盘、光盘等
传输媒体 传输数据的物理媒体,用来将表示媒体从一处传送到另一处的物理传输介质
各种通信电缆
五类媒体的关系是什么?
冯·诺伊曼结构:运算器、逻辑控制装置、存储器、输入和输出设备 如下图
概念2 :什么是多媒体
定义1:(Lippincott,Byte杂志 1990)
计算机交互式综合处理多种媒体信息 -- 文本、图形、图像、声音,使多种信息建立逻辑连接,集成为一个系统并且具有交互性。
输入设备
控制器
存储器
输出设备
CPU
显示媒体
显示媒体
表示媒体
表示媒体
感觉媒体
感觉媒体
传输媒体
存储媒体
定义2:(IBM Multimedia Foundation 1990)
多媒体是下面两种以上媒体组成结合体:文本、图形、动画、静态视频、动态视频、声音。这就意味着电视节目、动画片、个人视话都可被看作是多媒体。
定义3:(J. Morgen,SGI,1992)
多媒体是传统的计算媒体 : 文本、图形、图像以及逻辑分析方法等与视频、音频以及为了知识创建和表达的交互式应用的结合体。
定义4:(汪成为, 1994)
所谓多媒体技术就是能对多种载体(媒介)上的信息和多种存储体(媒质)上的信息进行处理的技术。
多媒体的关键特性
特性1:多样性
图像
图形
文字
视频
图形
符号
视觉
(静止)
(动态)
其他表示为视觉的媒体
二维动画
三维动画
语言文字
真实感生成
动态影像视频
抽象化
抽象化
信息载体的多样性是相对于计算机而言的,指的就是信息媒体的多样化,有人称之为信息多维化。
媒体分类
视觉
声音
听觉
声响(自然界)
语音(人类语言)
音乐
抽象化
听觉
振动
运动
触觉
传感发生器
触觉
其他感觉
其他(嗅觉、味觉等)
特性2:交互性(易于人和计算机的交互)
交互可以增加对信息的注意力和理解力,延长信息保留的时间。
当交互性引入时,“活动”本身作为一种媒体便介入到了数据转变为信息、信息转变为知识的过程之中。
交互的类型
视觉:图形用户界面
听觉:声音用户界面
触觉:实体用户界面
交互水平
从数据库中检录出某人的照片、声音和文字材料,是多媒体的初级交互应用;
通过交互特性使用户介入到信息过程中,不仅仅提取信息,是中级交互应用水平;
当我们完全地进入到一个与信息环境一体化的虚拟信息空间自由遨游时,这才是交互式应用的高级阶段,这就是虚拟现实(Virtual Reality)。
虚拟现实
虚拟现实技术(Virtual reality),“灵境”,利用计算机系统和各种显示及控制设备生成一个逼真地可交互地具有视觉、听觉、触觉等沉浸感觉的三维环境的技术。
沉浸性:使用户难以觉察、分辨出其自身正处于一个由计算机生成的虚拟环境中;
交互性:使用户通过自己的行为自主地改变所处的虚拟环境、感受内容;
构想性:依靠自身的感知和认知能力可全方位地获取知识,发挥主观能动性,寻求对问题的完美解决;
交互设备 穿戴设备 非穿戴设备 力反馈设备
1.WIMP界面
Window:窗口,图形用户界面的基础
Icon:图标
Menu:菜单
Pointer:指针
交互方式 键盘+鼠标+显示器
特性3:集成性(实现了信息处理的集成性)
多媒体信息媒体的集成
处理这些媒体的设备与设施的集成
特性4:协同性
每一种媒体都有其自身规律,各种媒体之间必须有机地配合才能协调一致。
时间、空间和内容方面的协调是多媒体的关键技术之一。
特性5:实时性
实时性是指在多媒体系统中多种媒体间无论在时间上还是在空间上都存在着紧密的联系,是具有同步性和协调性的群体。
实时多媒体分布系统是把计算机的交互性、通信的分布性和电视的真实性有机地结合在一起。
归纳 叙述多媒体关键特性及这些特性之间的关系
多样性 、交互性、 集成性 、 ( 协同性和实时性 ) 。
信息 载体的多样性是集成性的基础 , 没有多种信息媒体 , 也就无法进行多媒体信息的集成化处理 ;处理 多媒体的设备与设施的集成性是实现交互性的前提 , 没有系统 、 网络 、 软硬件设施的集成 , 就无法为用户交互式使用 、 加工和控制信息提供平台 。
多媒体的 协同性 是指 各种 媒体之间必须有机地配合才能协调一致 , 时间 、 空间和内容方面的协调是多媒体的关键技术之一 。
多媒体 的实时性是指在多媒体系统中多种媒体间无论在时间上还是在空间上都存在着紧密的联系 , 是具有同步性和协调性的群体 。
什么 是WIMP 交互范式?你认为未来人机交互的发展趋势是什么 ?
u 集成化 : 人机交互将呈现出多样化、多通道交互的特点 。语音、手势、
表情、眼动、唇动、头 动等 交互手段将集成在一起,是新一代自然、高
效的交互技术的一个发展方向 。
u 网络化:新一代的人机交互技术需要考虑在 不同设备、不同网络、不同
平台之间 的无缝切换和延伸,支持用户随时随地利用多种简单的自然方
式进行人机交互,而且包括 支持多个用户之间以协作的方式进行交互 。
u 智能化:在人机交互中,使计算机更好地自动捕捉人的姿态、手势、语
音和上下文等信息,了解人的意图,并做出合适的反馈或动作, 提高交
互活动的自然性和高效性 ,使人- 机间 的交互像人-人交互一样 自然。
u 标准化 :从降低产品成本,提升 设备的兼容性和可扩张性 能等角度,人
机交互标准的设定是一项长期而艰巨的任务,并随着社会需求的变化而
不断变化。
u 应用:AI 、VR 、AR 、大数据结合,应用到 数据分析、数字娱乐、游戏 等
1.2 多媒体技术的产生与发展
应用需求
计算机发展初期 :只能用数值媒体承载信息
输入/输出:纸带和卡片 (机器语言)
极少数计算机专业人员能使用
上世纪50s~70s:出现了高级语言,文字作为信息载体
输入/输出:键盘/显示器等,英文(汇编等)
应用扩大到具有一般文化程度的科技人员
80s开始:人们致力于将声音、图形和图像作为新的信息媒体输入输出计算机
输入/输出:1984年Apple公司的Macintosh机上引进了“bitmap”的图形机理和Mouse输入
文化水平较低的人(包括儿童)
启蒙发展阶段
多媒体计算机技术最早起源于八十年代中期。
1984年,Apple公司在研制Macintosh计算机时,为了改善人机交互界面, 创造性地使用了位映射(bitmap)、窗口(window)、图符(icon)等技术, 所带来的图形用户界面(GUI), 同时鼠标作为交互设备配合GUI使用, 大大方便了用户的操作。
1985年,Microsoft公司推出了Windows,它是一个多任务的图形操作环境。
1985年,美国Commodore公司首先推出世界上第一台多媒体计算机Amiga系统。其CPU采用Motorola M68000, 3个专用芯片: 图形处理芯片Agnus 8370, 音响处理芯片Paula 8364, 视频处理芯片Denise 8362。
Amiga机具有自己专用的操作系统, 能够处理多任务, 并具有下拉菜单、多窗口、图符等功能。
1986年,荷兰Philips公司和日本Sony公司联合出CD-I(Compact Disc-Interactive),同时公布了该系统所采用的CD-ROM光盘的数据格式,这项技术对大容量存储设备光盘发展起着巨大的影响,并经ISO认可成为国际标准。
该系统把高质量的声音、文字、计算机程序、图形、动画以及静止图像等都以数字的形式存放在容量为650MB的5英寸只读光盘上。
最早家庭所用的多媒体系统。
多媒体热潮的兴起
MPC联盟规定多媒体计算机
包括5个基本的部件:个人计算机、只读光盘驱动器(CD-ROM)、声卡、Windows 操 作系统和一组音箱或耳机
1990年10月, 微软公司 MPC1.0标准(286/386)。
1993年,由IBM、Intel等 MPC2.0(486)。
1995年6月, MPC3.0(586)。
1996年以后, 新的个人机均支持基本多媒体功能。
项 目
MPC-1
MPC-2
MPC-3
CPU
16MHz 386SX
(推荐386DX或486SX)
25MHz 486SX
(推荐486DX或DX2)
75MHz Pentium或兼容芯片
(推荐100MHz Pentium)
RAM
≥2MB
≥4MB
≥8MB
硬盘
≥30MB
≥160MB
≥540MB
CD-ROM
150KB/S
300KB/S
600KB/S
声卡
8位数字声音,8个合成音、MIDI
16位数字声音、8个合成音、MIDI
16位数字声音、WAVE TABLE、MIDI
显卡
640×480,16色
(推荐256色)
640×480 256色
(推荐65 536色)
640×480 65 536色
(推荐图形加速卡)
项 目
MPC-1
MPC-2
MPC-3
视频播放
352×240 30FPS
(352×288 25FP)
15Bit/Pixes
I/O端口
MIDI接口、串并口、游戏杆接口
MIDI接口、串并口、游戏杆接口
MIDI接口、串并口、游戏杆接口
操作系统
DOS版本3.1以上、Windows 3.0带多媒体扩展
DOS版本3.1以上、Windows 3.1
Windows 3.1
多媒体的第二次浪潮
一批设备普及
移动终端、VR设备、交互设备……
一批产品出现
HTC VIVE、 Oculus、Unity3D
一批产业出现
美国硅谷、中国中关村等
互联网媒体 Youtube、乐视等
产业化前景极好
用途范围极为广泛
信息处理手段得以加强
– 高速计算能力
– 大规模存储
– 高速通讯网
• 人机交互形式(4 4 种)
– 计算机— 计算 机;
– 人— 人;
– 人— 计算机;
– 计算机—
计算机—机 计算机 (数据传输)
– 多媒体信息系统:为综合考虑 多媒体信息的处理、统一数据格式、网络传输协议与标准奠定了基础。
• 人—人 人 (通过计算机)
– 计算机是 高效 信息传递媒介,如发邮件。
– 计算机成为 “宽”通道 ,不仅使用文本。
– 如果计算机可以 理解信息 的含义,做到自动语言翻译,可提高人人交互的水平。
人工智能-深度学习
– 语音识别:速记准确率达 95% ;
– 图像识别: ImageNet 比赛的图像识别准确率
95% ;
– 文字识别: OCR 技术,识别率超过 99.9% %
– 国际象棋: 深蓝
– 围棋 :a AIpha
人— 计算机 (克服局限)
– 人的思维模式 :形象、联想、多样、模糊、并行
– 计算机的工作方式 :精确、清楚、串行、……
– 方法:
形式化描述问题;
找到一个算法解决问题
以合理的复杂程度在计算机上实现算法。
多媒体利用各种信息媒体形式,集成使用 声 、 图 、 文 等来承载信息,缩短了信息传递的路径。
信息共享
– 数据结构 提供数据处理基础
– 高效的算法和高速的网络通信 提高表示概念的能力
– 声音,图像,视频,动画 丰富信息获取和传递手段
1.3 多媒体技术研究的主要内容
1.3.1 多媒体技术的基础
媒体 (第二章)
• 媒体的性质与相应的处理方法
• 每一种媒体的采集、存储、传输和处理
– 数据压缩 (第三章)
• 文本、图像、视频、图形
• JPEG 、MPEG4 、H.26L 等
1.3.2 多媒体软硬件平台技术
– 硬件
• 光盘驱动器、声音适配器、图形显示卡、扫描仪、打
印机、数码相机、交互设备
– 软件
• 操作系统: windows
• 编辑创作软件:Photoshop、 、 会声会影、Cool edit
• 专用软件:Unity 3D
1.3.3 网络媒体与应用技术
– 基于网络的分布式 系统
实时性和同步性
– HTML5 :移动互联网; 超文本 标记 语言的 第五次重大 修改;支持MPEG-4、H.264及WebM等影
音编码;
– WebGL :用于在任何兼容的Web浏览器中呈现
交互式3D和2D图形;
1.3.4 多媒体信息管理与处理技术
– 多媒体数据量大、种类多;
– 文件系统管理方式
• 多媒体信息以 文件 的形式存储在计算机中, 操作系统 的文件管理 功能 可以实现 信息存储管理 等。
• 对于不同格式的文件采用相应的软件进行打开、编辑、修改。
• 当多媒体信息较少时,浏览查询方式快捷,当多媒体数量和种类较多时,管理不方便。
多媒体数据库
– 扩充关系数据库方式
• 文件系统与数据库相结合,多媒体数据以 文件系统存放,用关系数据库存放 媒体类型 、 应用程序名 、媒体属性 、 关键词 等。
– 面向对象数据库方式
• 将 面向对象程序设计语言 与 数据库技术 结合
• 由于继承、封装、多态的特性,设计出高内聚、低耦合的系统结构,使得系统更灵活、更容易扩展。
多媒体信息的检索
– 基于 内容 的多媒体信息检索技术 (Content-based
Retrieval,CBR) 。
u 通俗的说,就是从媒体数据中提取出特定的信息线索,然后根据这些线索从大量存储在数据库中的媒体中进行查找,检索出具有相似特征的媒体数据出来。
u 根据用户的要求,可分为文本、声音、图形、图像、动画等检索。
1.4 多媒体技术的应用
1 、教育与培训
– 教育、培训的应用大约占40% 。
– 幼儿启蒙教育
– 中小学教学
– 大众化教育
– 技能训练
2 、商业广告宣传
– 在因特网上使用的多媒体应用之一就是 产品广告 和促销服务 。
• 电视和杂志广告常在显著位置刊登厂商的 网址 。在 因特网上提供产品信息 ,能够进入另一个全球市场,花费很少的额外投资,增强效果。
• 在 在线产品目录 和 小册子 中添加 多媒体内容 ,可使用户对产品感兴趣,增加销售量和知名度。如,汽车经销商提供从软件产品到汽车的“虚拟试用”。
• 高质量的多媒体 三维动画 广告在电视上越来越多。
3 、影视娱乐
– 影视娱乐 和 游戏产品 是多媒体计算机应用的一个重要方面。
– 面向家庭娱乐的 多媒体软件 、 游戏产品 、 音乐 、 影像 和 游戏光盘 , 计算机 和 网络游戏 。
– 使用 不同节目 的多媒体软件,在家中利用多媒体计算机学习各种 生活技能 或 发展业余爱好 和丰富学习内容。
4 、网络通信
– 多媒体通信信息服务
• 多媒体通信技术可以把 电话 、 电视 、 图文传真 、 音响 、 摄像机 等各类电子产品与计算机融为一体,形成新一代的家电类消费。
• 由计算机完成 音频 、 视频信号采集 , 音频 、视频的特技处理 , 压缩
• 多媒体信息 网络传输,解压缩 、 音频播放 和视频显示
– 远程信息服务
• 由 多媒体通信 和 分布式系统 相组合的 分布式多媒体计算机系统 ,使远程信息服务(远程多媒体信息的编辑、获取和传输同步)成为可能。
• 在 远程教育系统 中, 中央电视大学 和 各高等院校
– 远程医疗
• 在 远程医疗会诊系统 中,利用 多媒体会议系统 ,与病人 面对面交谈 ,进行 远程咨询 和 检查 ,甚至在远程专家指导下进行 手术 。
• 在 医院 与 医院 之间,甚至 国与国 之间的医疗系统建立 信息通道 ,实现 信息共享 。
• 目前的瓶颈是 网络的带宽 。
– 多媒体会议
• 通过计算机 远程参加会议或交流 ,以可视化的、实时的、交互的形式实现在 不同地理位置 上人们的多媒体资源共享和信息交流。
• 多媒体会议技术在 远程教育 、 远程医疗 、 经济或军事决策 、 金融服务 等方面广泛应用。
• ISDN 上按H.320 标准协议规范、 局域网 按照H.323 协议规范、 公用电话网 按照H.324 标准协议规范。
• 如,我国已经建立了国家会议电视骨干网,在全国安装了几百个会议系统点。
– 多媒体视频点播
• 已建立有线电视台600 多座,有线电视用户约几千万户。
• 视频点播系统的主要功能是,用户在 家里的计算机 或 电视机 前,不需要从电视频道收看电视节目,通过 遥控器和菜单 任意 点播视频点播系统 的电影、电视和新闻。
– 军事通讯
5 、办公自动化
– 多媒体技术的出现,改变 人机交互界面 ,提供各种灵活方便的 输入手段 ,使计算机 使用简单 。
• 电视会议系统 :通过网络实现面对面交谈;
• 多媒体数据的 存储 和 查询 打破了 单一的文本信息 存储的局面,使用各种图、文、声并茂的信息处理;
• 光笔、扫描 和 录音 等多媒体输入方式简化了信息输入计算机的难度。
6 、公共服务
– 多媒体信息咨询公共服务可在 机场 、 码头 、 车站 、 旅游胜地 、 娱乐中心 和 连锁店 、 展览馆公开场所 ,使用 多媒体 技术编制的各种图文并茂的 软件 ,开展商业销售、导游等各种宣传活动。
– 如 房地产公司 使用多媒体技术可不用把用户带到现场,通过计算机演示楼房的外貌、内部结构、装修、周围环境等,通过语言解说,使人身临其境。
– 各公司、企业、学校等都有自己的信息 网站 。
7 、电子出版物
– 多媒体电子出版物
• 存储容量大, 一张光盘可存储几百本长篇小说 。
• 媒体种类多 ,可以集成文本、图形、图像、动画、视频和音频等多媒体信息。
• 运输与携带方便 ,检索迅速,可长期保持,不会出现纸面出版物那样变色、虫蛀和粉化等现象。
• 及时传播 ,经由计算机网络立即发行到世界各地。
• 价格低廉
本章重点
• 多媒体技术的概念与分类
• 多媒体的三大关键特性
– 信息载体的多样性、交互性和集成性
• 多媒体技术的发展历程
• 多媒体技术的优势
– 改善 了人类信息的交流
– 缩短了人类交流途径
第二章 媒体及媒体技术
2.1 媒体的种类和特点
视觉媒体 图片上文已有
视觉媒体一:文本
字符代码及字符格式表示的数据
字符代码的识别是计算机文字处理程序的基础
英文常用的ASCII (American Standard Code for Information Interchange 美国信息交换标准代码 )
7位 / 1个字节:
(a)控制字符:
0-31和127
(b)可打印字符:
32-126
视觉媒体一:文本
字符代码及字符格式表示的数据
文本识别是计算机文字处理程序的基础
ASCII:美国信息交换标准代码
中文编码: 字符集中每个字符指定的存储位置,字符集中字符的数字编号;
GB2312国家标准,共收录6763个汉字,其中一级汉字3755个,二级汉字3008个;
GBK:《汉字内码扩展规范》 (注意:十六进制和十进制)
Unicode :计算机工业中的国际字符标准集。它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。
视觉媒体1:文本
Ø1.字符编码
Ø2.字符显示
Ø3.文本可视化
字符的显示
点阵字符 :每个字符定义为称为字符掩膜的矩阵;每个元素为一位二进制数,1表示字符的笔画经过此位,该像素置为字符颜色;0表示字符的笔画不经过此位,该像素置为背景颜色。
字符的8方向编码
优点:显示速度快;
缺点:(a)将耗费巨大的存储空间;
(b)放大后在文字边缘出现锯齿状;
矢量字符:将字符表达为点坐标的序列,相邻两点表示一条矢 量,字符的形状便由矢量序列刻画。
方向编码式字符:用有限的若干种方向编码来表达一个字符
矢量表示:
问题:边缘不光滑
Bezier曲线是用数学方法计算出来的曲线,用来把多个点连成自由形态的光滑曲线或曲面,字体中Postscript Type、 TrueType、OpenType都采用。
数字字体
字体:包含一整套字符的数据文件,如宋体等;
字形:字符形状,如笔画粗细、浓淡、倾斜等;
字号:字的大小;
一种字体有多种字形,一种字形有多种字号;
字符的显示
Windows系统中字体设置 上方选择菜单
Windows字体
C:\Windows\Fonts
扩展名为FON,点阵字库,如fixedsys常规字体;
扩展名为TTF,矢量字库,如幼圆常规字体;
文字的显示程序
Visual C++
CFont myFont; //创建字体对象
BOOL CreateFont(
int nHeight, //字体的高度
int nWidth, //字体的宽度
int nEscapement, //字体显示的角度
int nOrientation, //字体的角度
int nWeight, //字体的磅数
BYTE bItalic, //斜体字体
BYTE bUnderline, //带下划线的字体
BYTE cStrikeOut, //带删除线的字体
BYTE nCharSet, //所需的字符集
BYTE nOutPrecision, //输出的精度
BYTE nClipPrecision, //裁减的精度
BYTE nQuality, //逻辑字体与输出设备的实际字体之间的精度
BYTE nPitchAndFamily, //字体间距和字体集
LPCTSTR lpszFacename //字体名称
);
视觉媒体一:文本
文本文件分类
非格式化文本文件
只有文字信息,没有其他格式信息
格式化文本文件
带有各种文本排版信息等格式信息的文本文件
段落格式、字体格式、文章的编号、分栏、边框
文本编辑工具
Office; WPS ; EditPlus; Notepad++
数据可视化
指将文本数据以视觉的形式来呈现,如图表或 地图等,以帮助人们了解这些数据的意义;
数据可视化
软件工具
(1) PowerPoint
(2) Excel
(3) Google charts
(4) SmartBi
视觉媒体二:图像
图像是指由输入设备捕捉的实际场景画面,或以数字化形式存储的任意画面;
静止的图像是一个矩阵,由一些排成行列的点组成,这些点称之为像素点(pixel);
二维数组表示
数字图像生成
(a)设备采集
模拟图像图像
图像采样图像
图像编码图像
(b)软件生成
程序直接生成: 例如 Visual studio 画板 MFC编程
心形线
x=a*(2*cos(t)-cos(2*t))
y=a*(2*sin(t)-sin(2*t))
int a=100;
for( double t=0.0; t<180.0;t=t+0.01)
{
x= a*(2*cos(t)-cos(2*t));
y= a*(2*sin(t)-sin(2*t));
pDC->SetPixel(x,y, RGB(255,0,0));
}
阿基米德曲线
数字图像生成
计算机图形投影生成:例如 Meshlab
图像的主要技术参数
Ø 参数一:分辨率
– 每英寸包含的像素总数
– 水平方向的像素数竖 × 直方向的像素数
– 每毫米的线数或行数
包括:
– 屏幕分辨率:显示器屏幕显示图像的最大显示区
– 图像分辨率:数字化图像的大小
– 像素分辨率:像素的宽高比,一般为1:1
– 打印分辨率(DPI):每英寸所能印刷的点数
参数二:图像深度 (图像 的最大颜色数)
(a )1: 位: 黑白2 色;
(b )4 位: : 16 色 ;
(c )8: 位: 256 色;
(d )24 位:真彩色;
(e )32 位:alpha 通道; 用256级灰度来记录图像中的透明度
信息,定义透明、不透明和半透明区域;
图像文件大小= ( 高 × 宽 × 像素位数 )/8 ( 字节 )
例如 :分辨率为640 × 480 的256 色的图像大小为:
640 ×480 × 8 位/ 8 位=307000 (字节
应用: 两幅图像合成
Newimage= alpha ×(IMG1)+ ( ( 1-alpha ) ) ×(IMG2)
ALPHA 为权值 [0,1]
for 每个像素, i ,j 表示行列
Newimage(i,j, 红) = IMG1(i,j, 红)*ALPHA + IMG2(i,j, 红)*(1-ALPHA);
Newimage(i,j, 绿) = IMG1(i,j, 绿)*ALPHA + IMG2(i,j, 绿)*(1-ALPHA);
Newimage(i,j, 蓝) = IMG1(i,j, 蓝)*ALPHA+ IMG2(i,j, 蓝)*(1-ALPHA);
end
Ø 参数三:真彩色与伪彩色
Ø 真彩色:像素的颜色值用3 个字节红 、 蓝 、 绿表示;
问题:1024*768 分辨率的真彩色图像需要多少显存 ?
Ø 伪彩色:图像的每个像素值实际上是一个索引值或代码 , 该代码值作为彩色查找表的表项入口地址;根据该地址可查找显示图像时使用的R 、G 、B 强度值 。 这种用查找出的R 、G 、B 强度值产生的色彩称为伪彩色;
伪彩色的优点:在帧缓存单元 ( 显存 ) 不增加的情况下 ,具有大范围挑选颜色的能力
伪彩色的缺点: 调色板与原始图像的颜色不匹配 ,图像出现色偏;
图像的基本格式:BMP 文件 格式 ( 位图 )
1. 图像文件 头:提供文件的格式、大小等信息;
2. 位图 信息头:提供图像数据的尺寸、位平面 数、
压缩方式、颜色索引等信息;
3. 颜色表( 可选 ):调色板;备注: 真 彩色时空;
4. 位图 数据:图像数据,定义位图的字节阵列。
位图数据
• 位图数据记录了位图的每一个像素值,记录顺序是在扫描行内是从左到右,扫描行之间是从下到上。
– 当biBitCount=1, 时, 8 个像素占1 个字节;
– 当biBitCount=4, 时, 2 个像素占1 个字节;
– 当biBitCount=8, 时, 1 个像素占1 个字节;
– 当biBitCount=24 时,1 个像素占3 个字节。
• 24 位RGB 按照B 、G 、R 的顺序来存储每个像素的各颜色通道的值,32 位按照B 、G 、R 、Alpha 存储。
图像 的基本格式:BMP 文件格式
– 调色板:颜色查找表,索引号与颜色对应关系。
索引:(蓝,绿,红)
0号:(fe,fa,fd)
1号:(fd,f3,fc)
2号:(f4,f3,fc)
3号:(fc,f2,f4)
4号:(f6,f2,f2)
5号:(fb,f9,f6)
Class RGBQUAD
{
BYTE rgbBlue; -- 蓝色强度
BYTE rgbGreen; -- 绿色强度
BYTE rgbRed; -- 红色强度
BYTE rgbReserved; -- 保留
位图 数据:对齐
• Windows 寻找空间4 个字节
• 要求 每行 的数据的长度必须是4 字节的倍数 ,如果不够需要进行比特填充(以0 填充),这样可以达到按
行的快速存取。
• 填充后每行的字节数:
RowSize=4×(width×bitCouns+31)/32 取整
– width 是以像素为单位的行宽度,bitCounts 表示像素的位数
例题
biBitCount=8;
bfWidth=925;
bfHeight=925;
biSizeImage=858400
按照填充公式:每行有数据RowSize=4×(width×bitCouns+31)/32=928字节
每行计算数据:925*1=925 bytes
每 行填充 了3 bytes ;
验证:一共925 行 ,共 填充925*3=2775 bytes
图像计算数据:925*925*1=855625 bytes 相差 :2775 bytes
biBitCount=24;
bfWidth =499;
bfHeight=365;
biSizeImage=547500
按照填充公式:每行有数据RowSize=4×(width×bitCouns+31)/32=1500字节
每行计算数据:499*3=1497 bytes
每 行填充 了3 bytes ;
验证:一共365 行 ,共 填充365*3=1095 bytes
图像 计算数据: 499 *365*3=546405bytes ,相差:1095bytes
图像的读取和处理: MATLAB
MATLAB 是 美国MathWorks 公司出品的商业数学软件 ,用于算法开发 、 数据可视化 、 数据分析以及数值计算的高级技术计算语言和交互式 环境;
图像处理工具箱 (Image ProcessingToolbox ) , 以黑盒方式提供 了图像变换 、 图像增强 、 图像复原 、 图像编码与压缩等技术 ;
Ø 基本函数
ü 图像读取:imread ( )
ü 图像显示:imshow ( )
ü 存储图像:imwrite ( )
ü 彩色图像转灰度图像:rgb2gray ( )
ü 图像 二 值 化:graythresh ( )im2bw ( )
ü 直方图:imhist ( )
ü 边缘检测:edge ( )
ü 增加亮度: imadd ( )
图像分割算法
概念:图像分割是将图像分成各具特性的 区域 , 并提取出感兴趣目标 的技术和 过程 。
– 灰度图像分割方法:
(a ) 基于 阈值的分割 :通过 阈值对不同物体进行 分割;
(b ) 基于边缘的分割 : 通过直接确定区域间的边界来 实现分割;
(c ) 基于 区域的 分割 :把各 像 素 划归到各个物体或区域 中;
Ø (a ) 基于阈值的分割
– 原理: 利用 图像中背景与对象之间的灰度差异多 媒 体 技 术
设f(x,y) 表示原图像,g(x,y) 表示分割后的图像,T 为选定的灰度阈值,分割算法表为:
或
其中:“1” 表示物体(对象、目标)“0” 表示背景。
关键:阈值的选择
方法1 :多阈值法
设置 两个灰度阈值T1 、 T2, T1>T2 , 这 两个阈值间的灰度范围都对应 于目标 , 即
方法2 :灰度直方图阈值法
图像的灰度级范围为0,1,2,…l-1 , 设灰度级为i
的像素素个数为n i , 则一幅图像的总像素N 为:
灰度级i 出现的概率定义为:
灰度直方图 :灰度级的函数,它表示图像中具有某种灰度级的像素的个数,反映了图像中某种灰度出现的频率。
图像 的灰度 直方图 中 横坐标 是灰度级,纵坐标是该灰度级出现的 频率或像素个数 。
20 世纪60 年代中期,Prewitt 提出了“直方图双峰法”,如果灰度直方图呈现明显的双峰状,则选取两峰之间的谷底对应的灰度级作为 阈值 。谷底就是直方图的极小值 。
• 为了求解极小值点:将 各端点相连,形成直方图的包络线h(z) ,这是一条曲线,它的极小值满足 :
方法3 :大津法OTSU
原理:类间方差 最大
假设原始灰度图像灰度为 灰度级为的像
素个数为, 则图像的全部像素数为 , 归一化直方图为 。 阈值t 将图像划分为两类:
C0类出现的概率:
C1类出现的概率:
C0类的灰度均值:
C1类的灰度均值:
C0类方差:
C1类方差:
for (k=0;k<256;k++)
{
if (icv>fmax)
{
fmax=icv;
thresholdValue=k;
}
}
(b ) 基于边缘的
基本原理:当物体与背景有明显对比度时,通过跟踪图像的边界,进而实现图像分割。
结论:一阶导数 在图像由 暗变明 的位置处有1 个 向上 的阶跃 , 而其它位置都为0 , 这表明可用一阶导数的 幅度值来检测边缘 的存在 ,幅度峰值一般 对应边缘 位置
一个二元连续函数表示为f(x,y) , 它在 (x,y) 的 梯度 可表示为:
信号与系统分析中基本运算相关与卷积,在实际图像处理中都表现为邻域运算。
邻域运算:输出图像中每个像素是由对应的输入像素及其一个邻域内的像素
展开阅读全文