资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,人机交互基础教程,第,4,章 交互技术,重点大学计算机专业系列教材,在目前人机交互领域所研究的课题中,我们手指的一个微小动作、声波在空气中的震动、眼珠和舌头的转动、肌肉传导的兴奋,都可以成为信息传导的过程,而人的交互对象不只是计算机,包括了我们,周围的整个环境,。,人机交互输入模式;,基本交互技术:定位、笔画、定值、选择和字符串;,图形交互技术:几何约束、引力场、拖动、橡皮筋技术、操作柄技术和三维交互技术;,语音交互技术;,笔交互技术:手写识别技术、数字墨水技术;,内容摘要,人机交互技术概述,根据,用户界面的具体形式,,人机交互技术分为:,批处理;,联机终端,(,命令接口,),;,文本菜单;,WIMP,界面;,多媒体用户界面;,多通道用户界面和虚拟现实用户界面;,命令行交互技术,1,、,命令行,真正意义上的人机交互开始于联机终端的出现,。,用户输入文本命令,系统也以文本的形式表示对命令的响应。这种人机界面称为命令行界面。,图,4-1,命令行界面概念模型,命令行交互技术,操作系统,MS-DOS,是文本命令行交互界面。,例如,需要将所有扩展名为“,.AAA,”,的文件替换为扩展名为“,.BBB,”,,如果在“我的电脑”或“,WINDOWS,资源管理器”中,需要一个一个地去查找、改名,操作的局限性是显而易见的。利用如下命令:,rename drive:path filename1 filename2,或,ren drive:path filename1 filename2,,,使用通配符“,*,”或“?”,就可以方便地更改一组文件名或扩展名。,文本菜单的交互设计,设计基于文本菜单的系统主要包括两方面的工作:,菜单的生成和显示、内部流程的控制及错误处理,。,【,例,】,图书管理程序的主菜单的,Java,语言代码。,import java.io.*;,public class MenuDemo,static void display_maintenace_menu(),System.out.print(“nnttnn”);,System.out.println(“t1-,注册借书者,”,);,System.out.println(“t2-,注册图书,”,);,.,System.out.println(“t0-,返回主菜单,”,);,public static void main(String args)throws Exception,boolean quit=false;,char ch;,do,display_mainmenu();,ch=(char)System.in.read();,switch(ch),./,调用相应的处理函数,while(!quit);,Sytem.in.read();,人机交互技术概述,根据,用户界面中信息载体的类型,,人机交互技术分为:,文本为主的字符用户界面,(CUI),;,二维图形为主的图形用户界面,(GUI),;,多媒体用户界面;,图形用户界面,图形用户界面又称为,WIMP,界面,由窗口,(windows),、图标,(icons),、菜单,(,menu),、指点设备,(pointing device),四位一体,形成桌面,(desktop),,如图,4-2,所示。,图形用户界面是当前用户界面的主流,广泛应用于各档台式微机和图形工作站。,比较成熟的商品化系统有,Apple,的,Macintosh,、,IBM,的,PM(Presentation Manager),、,Microsoft,的,Windows,和运行于,Unix,环境的,X-Window,、,OpenLook,和,OSF/Motif,等。,图,4-2 WIMP,界面概念模型,图形用户界面,图形用户界面的共同特点是以窗口管理系统为核心,使用键盘和鼠标器作为输入设备。,窗口管理系统除了基于可重叠多窗口管理技术外,广泛采用的另一核心技术是事件驱动,(event-driven),技术。,图形用户界面,WIMP,界面可看作是第二代人机界面,是基于图形方式的人机界面,。,在,WIMP,界面中,人被称为用户,人机通过对话进行工作。,用户只能使用,手这一种交互通道输入信息,,通过,视觉通道获取信息,。,在,WIMP,界面中,界面的输出可以为,静态或动态,的二维图形或图像等信息。,图形用户界面,这种方式能,同时输出不同种类的信息,,用户也可以在几个工作环境中,切换,而不丢失几个工作之间的联系,通过菜单可以执行控制型和对话型任务。,由于引入了,图标、按钮和滚动条技术,,大大,减少键盘输入,,提高了交互效率。,基于鼠标和图形用户界面的交互技术极大地推动了计算机技术的普及。,图形用户界面的主要思想,图形用户界面的三个重要思想,1,桌面隐喻,(desktop metaphor),2,所见即所得(,What You See Is What You Get,,,WYSIWYG,),3,直接操纵,(direct manipulation),1.,桌面隐喻,(desktop metaphor),桌面隐喻是指在用户界面中用人们熟悉的,桌面上的图例清楚地表示计算机可以处理的能力,。,图形具有一定的文化和语言独立性,可以提高搜索目标的效率。,图形用户界面中的图例可以代表对象、动作、属性或其他概念。,隐喻的表现方法,:,静态图标,动画,视频,隐喻的分类:,直接隐喻,:隐喻本身就,带有操纵的对象,如,Word,绘图工具中的图标,每种图标分别代表不同的图形绘制操作。,工具隐喻,:代表所使用的,工具,如用磁盘图标隐喻存盘操作、用打印机图标隐喻打印操作等,这种隐喻设计简单、形象直观,应用也最为普遍。,过程隐喻,:其通过描述,操作的过程,来暗示该操作,如,Word,中的撤销和恢复图标。,晦涩的隐喻不仅不能增加可用性,反而会弄巧成拙。,隐喻的主要缺点:,需要占用屏幕空间,难以表达和支持比较抽象的信息。,2.,所见即所得(,WYSIWYG,),在,WYSIWYG,交互界面中,显示的用户交互行为与应用程序最终产生的结果是一致的,。,非,WYSIWYG,的编辑器,用户只能看到文本的控制代码,对于最后的输出结果缺乏直观的认识。,WYSIWYG,的一些弊端:,如果屏幕的空间或颜色的配置方案与硬件设备所提供的配置不一样,在两者之间就很难产生正确的匹配。,文本处理器都提供了定义章、节、小节等的标记,这些标记显式地标明了对象的属性,但并不是用户最终输出结果的一部分。,3.,直接操纵,(direct manipulation),直接操纵是指可以把操作的对象、属性、关系显式地表示出来,用光笔、鼠标、触摸屏或数据手套等指点设备直接从屏幕上获取形象化命令与数据的过程。,直接操纵的对象是,命令、数据或是对数据的某种操作,。,直接操纵的特性,1.,直接操纵的对象是动作或数据的形象隐喻,形象隐喻应该与其实际内容相近,使用户能通过屏幕上的隐喻直接想象或感知其内容。,2.,用指点和选择代替键盘输入,用指点和选择代替键盘输入有两个优点,一是操作简便,速度快捷。,3.,操作结果立即可见,操作结果立即可见,用户可以及时修正操作,逐步往正确的方向前进。,4.,支持逆向操作,用户在使用系统的过程中,不可避免地会出现一些操作错误,通过逆向操作,用户可以很方便地恢复到出现错误之前的状态。,直接操纵的特性,5.,借助物理的、空间的或形象的表示,而不是单纯的文字或数字的表示。,6.,不具备命令语言界面的某些优点,.,例如从用户界面设计者角度看,设计图形比较繁琐,需进行大量的测试和实验,.,7.,表示复杂语义、抽象语义比较困难。,人机交互技术概述,根据,计算机输出信息的形式,,人机交互技术分为:,以符号为主的字符界面;,以视觉感知为主的图形用户界面;,兼顾听觉感知的多媒体用户界面;,综合运用多种感观,(,包括触觉等,),的虚拟现实界面;,人机交互技术概述,根据,人机界面中的信息维度,,人机交互技术可以分为:,一维信息,(,主要指文本流,如早期电传式终端,),;,二维信息,(,主要是二维图形技术,利用了色彩、形状、纹理等信息,),;,三维信息,(,主要是三维图形技术,但显示技术仍利用二维平面为主,),和多维信息,(,多通道的多维信息,),空间;,人机交互技术概述,根据,人机交互中采用的语言,,人机交互技术分为:,形式语言,:,形式语言是一种人工语言,特点是简洁、严密、高效。,类自然语言,:,类自然语言则是介于计算机语言和自然语言之间。,自然语言,:,自然语言的语法成分有更多的规则,具有多义性、微妙、丰富、灵活的特点。,多通道用户界面,为适应目前和未来的计算机系统要求,人机界面应能支持时变媒体(,time-varing media,),实现三维、非精确及隐含的人机交互,而多通道人机界面是达到这一目的的重要途径。,80,年代后期以来,多通道用户界面,(Multimodal User Interface),成为人机交互技术研究的崭新领域,在国内外受到高度重视。,多通道用户界面,多通道用户界面的研究正是为了消除当前,WIMP/GUI,用户界面通信带宽不平衡的瓶颈,,综合采用视线、语音、手势等新的交互通道、设备和交互技术,使用户利用多个通道以,自然、并行、协作,的方式进行人机对话,通过整合来自多个通道的、精确的和不精确的输入来捕捉用户的交互意图,提高人机交互的自然性和高效性,图,4-10,所示。,图,4-10,多通道人机界面概念模型,多通道人机界面主要解决,科学计算可视化、虚拟现实,对计算机系统提出的高效、三维和非精确的人机交互要求。,在多通道人机界面中,用户可以使用,自然的交互,方式,如语音、手势、眼神、表情等与计算机系统进行协同工作。,交互通道之间有,串行,/,并行、互补,/,独立,等多种关系,因此人机交互方式向人与人的交互方式靠拢,交互的自然性和高效性得到极大的提高。,多通道用户界面,多通道用户界面,多通道用户界面主要关注人机界面中,用户向计算机输入信息以及计算机对用户意图的理解,,所要达到的目标可归纳为如下方面:,(,1,)交互的自然性,使用户尽可能多地利用已有的日常技能与计算机交互,降低认识负荷。,(,2,)交互的高效性,使人机通讯信息交换吞吐量更大、形式更丰富,发挥人机彼此不同的认知潜力。,(,3,)与传统的用户界面特别是广泛流行的,WIMP/GUI,兼容。,多通道用户界面的基本特点,使用多个感觉和效应通道,允许非精确的交互,三维和直接操纵,交互的双向性,交互的隐含性,多通道用户界面的基本特点,1.,使用多个感觉和效应通道,感觉通道侧重于多媒体信息的接受,,,效应通道侧重于交互过程中控制与信息的输入,,两者密不可分、相互配合。,一种通道,(,如语音,),不能充分表达用户的意图时,需辅以其它通道,(,如手势指点,),的信息;有时使用辅助通道以增强表达力。,交替而独立地使用不同的通道不是真正意义上的多通道技术,必须允许充分地并行、协作的通道配合关系。,多通道用户界面的基本特点,2.,允许非精确的交互,人类语言本身就具有高度模糊性,人类在日常生活中习惯于并大量使用非精确的信息交流。,允许使用模糊的表达手段可以避免不必要的认识负荷,有利于提高交互活动的自然性和高效性。,多通道人机交互技术主张以充分性代替精确性。,多通道用户界面的基本特点,3.,三维和直接操纵,人类的大多数活动领域具有三维和直接操纵特点(数学的和逻辑的活动例外)。,人生活在三维空间,习惯于看、听和操纵三维的客观对象,并希望及时看到这种控制的结果。,多通道人机交互的自然性反应了这种本质特点。,多通道用户界面的基本特点,4.,交互的双向性,人的感觉和效应通道通常具有双向性的特点,如视觉可看可注视,手可控制、可触及等。,多通道用户界面使用户避免生硬的、不自然的、频繁的、耗时的通道切换,从而提高自然性和效率。,视线跟踪系统可促成视觉交互双向性,听觉通道利用三维听觉定位器实现交互双向性。,多通道用户界面的基本特点,5.,交互的隐含性,追求交互自然性的多通道用户界面并不需要用户显式地说明每个交互成分,反之是在自然的交互过程中隐含地说明。,例如,用户的视线自然地落在所感兴趣的对象之上;又如,用户的手自然地握住被操纵的目标。,多媒体技术,定义,多媒体(,multimedia,)的含义是使用,计算机交互式综合技术和数字通信网技术,处理多种表示媒体,如文本、图形、图像和声音,使多种信息建立逻辑连接,集成为一个交互系统。,多媒体技术,多媒体技术的组成部分包括:,存储与访问技术,表现与表达技术,实时处理技术,接口技术,人机交互界面技术等,多媒体技术,多媒体技术与人机交互技术,多媒体技术使人机交互技术最终要向着更接近于人的自然方式发展,使计算机具有听觉和视觉,以更自然的方式与人交互。,多媒体技术引入了动画、音频、视频等动态媒体,大大丰富了计算机表现信息的形式,拓宽了计算机输出的带宽,提高了用户接受信息的效率,使人们可以得到更直观的信息,从而简化了用户的操作,扩展了应用范围,。,多媒体技术优点,能提高人对信息表现形式的,选择和控制能力,。,能提高,信息表现形式与人的逻辑和创造能力的结合程度,,在顺序、符号信息以及并行、联想信息方面扩展人的信息处理能力。,多媒体信息比单一媒体信息对人具有更大的,吸引力,,有利于人对信息的主动探索而不是被动接受。,另外,由于多媒体所带来的信息冗余性,重复使用别的媒体或并行使用多种媒体可消除人机通信过程中的多义性及噪声。,虚拟现实技术,虚拟现实(,Virtual Reality,),又称虚拟环境(,Virtual Environment,)。,虚拟现实系统向用户提供,沉浸,(,immerse,)和,多感觉,通道(,multi-sensory,)体验。,在虚拟现实中,人是主动参与者,复杂系统中可能有许多参与者共同在以计算机网络系统为基础的虚拟环境中协同工作。,虚拟现实系统具有三个重要特点:,沉浸感(,immersion,),交互性(,interaction,),构想性(,imagination,),虚拟现实技术,虚拟现实中的基本要素:,(,1,)计算机生成的虚拟世界(环境)必须是一个能给人提供视觉、听觉、触觉、嗅觉以及味觉等多种感官刺激的世界。目前虚拟现实通常由,视觉、听觉和触觉,三种刺激构成。,(,2,),虚拟现实统,实质上是一种高级的人机交互系统。这里的交互操作,是对多通道信息,进行的,并且对,沉浸式系统要求采用自然方式的交互,操作,对于,非沉浸式系统也可使用常规交互设备,进行交互操作。,虚拟世界的概念模型,虚拟世界的概念模型,虚拟现实是人们可以通过视、听、触等信息通道感受到设计者思想的用户界面,由两部分组成:,一部分是创建的,虚拟世界,(环境),另一部分是为,介入者,(人),。,虚拟世界的核心是强调两者之间的交互操作,即反映出,人在虚拟世界(环境)中的体验,。,人机交互是虚拟现实的核心。,虚拟现实的概念模型,介入者,感知系统,反应系统,虚拟世界(环境),感官刺激信号,反应动作,图,4-11,虚拟现实的概念模型,虚拟现实的概念模型,理解虚拟现实的概念模型,从,虚拟环境对人的作用,来看,虚拟现实的概念模型可以看作为,“显示,/,检测”模型,。,从,人对虚拟环境的作用,来看,也就是从用户的角度看,上述概念模型可以看作,“输入,/,输出”模型,。,输入是指用户感知系统接受虚拟环境提供的各种感官刺激信号。,输出是指用户对虚拟环境系统做出的反映动作。,虚拟现实与多媒体及多通道,虚拟现实技术正是一种以集成为主的技术,其,人机界面可以分解为多媒体、多通道界面,。,从本质上说:,多媒体用户界面技术侧重解决,计算机信息表现及输出,的自然性和多样性问题;,多通道技术侧重解决,计算机信息输入及理解,的自然性和多样性问题。,虚拟现实造型语言,VRML,VRML,是一种描述交互式三维世界和对象的文件格式。,VRML,允许描述对象并把对象组合到虚拟场景中,可以实现仿真系统,可模拟动画、具有动力学特性的物体。,VRML,能构造一个交互的虚拟世界,其中的对象能对外部事件做出响应,并可在其中任意穿行。,可以支持虚拟场景的网上发布,并可实现多用户的实时参与。,VRML,比高级语言容易掌握,并且无须再去了解,OpenGL3D,或者,Directx3D,之类的三维图形开发库。,VRML,文件的解释、执行和显示一般由浏览器来完成。,VRML,浏览器的概念模型,VRML,浏览器概念模型,的组成,解释器,读取,VRML,文件并产生场景图。,场景图,场景图包括节点的变换层次和路径图及执行引擎。,执行引擎处理事件、读取和编辑路径图、改变节点的变换层次。,听视觉展示,浏览器的听视觉展示部分完成变换层次的图形和声音的产生,给用户以反馈。,用户,执行引擎,路径图,*插值器,*感知器,*脚本,变换层次,音频视频展示,解释器,原型,内建节点,VRML,文件,用户输入,VRML,浏览器,场景图,图,4-12,一种,VRML,浏览器的概念模型,由于输入设备是多种多样的;而且对一个应用程序而言,可以有多个输入设备;同一个设备又可能为多个任务服务,这就要求对输入过程的处理要有合理的模式。,请求模式,(Request Mode),采样模式(,Sample Mode,),事件模式(,Event Mode,),4.1,人机交互输入模式,请求模式,在请求模式下,输入设备的启动是在,应用程序中,设置的。,应用程序执行过程中需要输入数据时,,暂停,程序的执行,直到从输入设备接受到请求的输入数据后,才继续执行程序。,程序工作,输入设备等待程序请求,遇到请求指令,输入设备工作,程序等待接收数据,请求满足,图,4-1,请求模式的工作过程,采样模式,输入设备和应用程序独立地工作,。,输入设备连续不断地把信息输入进来,信息的输入和应用程序中的输入命令无关。应用程序在处理其它数据的同时,输入设备也在工作,,新的输入数据替换以前的输入数据,。当应用程序遇到取样命令时,读取当前保存的输入设备数据。,优点:这种模式对连续的信息流输入比较方便,也可同时处理多个输入设备的输入信息。,缺点:当应用程序的处理时间较长时,可能会失掉某些输入信息。,程序工作,数据采样,数据生成,数据缓存区,输入设备工作,图,4-2,采样模式的工作过程,事件模式,输入设备和程序并行工作。输入设备把数据保存到一个输入队列,也称为事件队列,所有的输入数据都保存起来,不会遗失。应用程序随时可以检查这个事件队列,处理队列中的事件,或删除队列中的事件。,应用程序,事件,检查事件调用过程模块,处理类型,1,事件的过程,处理类型,n,事件的过程,输入设备,图,4-3,事件模式,4.2 基本交互技术,在交互设计时,将用户的输入抽象成一些独立的、基本的逻辑输入单元,这些抽象的逻辑输入单元称为输入原语,由这些基本输入原语可以形成复杂的交互。,主要的输入原语:,1.,定位,定位,是去确定平面或空间的一个点(,x,y,)或(,x,y,z,)的坐标,是,图形交互的最基本的输入原语,,许多原语都是建立在定位的基础上的。,2.,选择,在一个选择集中选出一个元素或几个元素称为选择。,3.,笔划输入,笔划输入用于,输入一组顺序的坐标点,,笔划输入相当于,多次调用定位输入,,输入的一组点常用于显示折线或作为曲线的控制点。,4.,数值输入,数值输入是要在给定的数字范围内确定一个值。,5.,字符串输入,定位,笔划,定值,选择,字符串输入,4.2,基本交互技术,定位,确定平面或空间的一个点的坐标,是交互中最基本的输入技术之一。,直接定位,:用定位设备,直接指定某个对象的位置,,是一种精确定位方式。,间接定位,:通过,定位设备的运动控制屏幕上的映射光标进行定位,,是一种非精确定位方式。其允许指定的点位于一个坐标范围内,一般用鼠标等指点设备配合光标来实现。,3DS Max,中的精确定位,笔划,笔划输入用于输入一组顺序的坐标点。它相当于多次调用定位输入,输入的一组点常用于显示折线或作为曲线的控制点。,定值,定值(或数值)输入用于设置物体旋转角度、缩放比例因子等,选择,选择是在某个选择集中选出一个元素,,通过注视、指点或接触一个对象,使对象成为后续行为的焦点,,是操作对象时不可缺少的一部分。,键盘,Ctrl+A,鼠标,选择,字符串,键盘是目前输入字符串最常用的方式,现在用写字板输入字符也已经很流行。,几何约束,引力场,拖动,橡皮筋技术,操作柄技术,三维交互技术,4.3,图形交互技术,几何约束,几何约束可以用于对图形的方向、对齐方式等进行规定和校准。,对定位的约束(网格吸附),Adobe Photoshop,网格线,几何约束,方向约束,例如要绘的垂直或水平方向的线,当给定的起点和终点连线和水平线的交角小于,45,时,便可绘出一条水平线,否则就绘垂直线。绘制印刷线路板、管网图或地籍图时非常有用。,在,Word,绘图中,通过锁定纵横比,在拖动线段一个端点时,线段只是沿原来方向放缩,引力场,引力场也可以看作是一种,定位约束,,通过在特定图素(如直线段)周围假想有一个区域,当光标中心落在这个区域内时,就自动地被直线上最近的一个点所代替,就好像一个质点进入了直线周围的引力场,被吸引到这条直线上去一样。,引力场的大小要适中,太小了不易进入引力区,太大了线和线的引力区相交,光标在进入引力区相交部分时可能会被吸引到不希望选的线段上去,增大误接的概率。,拖动,要把一个对象移动到一个新的位置时,如果我们不是简单地用光标指定新位置的一个点,而是当光标移动时拖动着被移动的对象,这样会使用户感到更直观,并可使对象放置的位置更恰当。,图形模式和图像模式,橡皮筋技术,被拖动对象的形状和位置随着光标位置的不同而变化。,不断地进行画图擦除画图的过程,操作柄技术,可以用来对图形对象进行缩放、旋转、错切等几何变换。先选择要处理的图形对象,该图形对象的周围会出现操作柄,移动或旋转操作柄就可以实现相应的变换。,三维交互技术,许多应用,(,如虚拟现实系统,),需要三维空间定位技术:三维空间控制器的共同特点是具有,六个自由度,,分别描述三维对象的宽度、深度、高度、俯仰角、转动角、偏转角。,通过控制这六个参数,用户可以在屏幕上平移三维对象或光标,也可沿三个坐标轴转动三维对象。,三维空间控制器、视线跟踪器、数据手套等输入设备产生的空间位置是相对的。,在三维用户交互中必须便于用户在三维空间中观察、比较、操作、改变三维空间的状态。,面临问题,三维交互技术采用六自由度输入设备。所谓六自由度,指沿三维空间,X,、,Y,、,Z,轴平移和绕,X,、,Y,、,Z,轴旋转,而现在流行的用于桌面型图形界面的交互设备,如鼠标、轨迹球、触摸屏等只有两个自由度,(,沿平面,X,、,Y,轴平移,),。,窗口、菜单、图符和,传统的二维光标在三维交互环境中会破坏空间感,,用户难以区分屏幕上光标选择到对象的深度值和其他显示对象的深度值,使交互过程非常不自然。,三维交互技术,直接操作,三维光标必须有深度感,即必须考虑光标与观察者距离,离观察者近的时候较大,离观察者远的时候较小。,为保持三维用户界面的空间感,光标在遇到物体时不能进入到或穿过物体内部。,为了增加额外的深度线索,辅助三维对象的选择,可以采用半透明三维光标。,三维光标可以是人手的三维模型,三维交互技术,三维交互技术,三维,Widgets,三维交互界面中的一些小工具,三维空间中漂浮的菜单、用于拾取物体的手的三维图标、平移和旋转指示器等。,1992,年美国,Brown,大学计算机系提出三维,Widget,设计原则,三维,Widget,的几何形状应能表示其用途(,eg,:,一个用来扭曲物体的,Widget,,最好本身就是一个扭曲的物体),适当选择,Widget,控制的自由度:由于三维空间有六个自由度,有时会使三维交互操作变得过于复杂,因此在用户使用某种,Widget,时,可以固定或者自动计算某些自由度的值。,根据三维用户界面的用途确定,Widget,的功能。例如,用于艺术和娱乐的三维用户界面的,Widget,,只要能够完成使画面看起来像的操作就可以了,而用于工业设计和制造的用户界面,则必须保证交互操作参数的精确性。,三维交互技术,三视图输入,用二维输入设备在一定程度上实现三维的输入。,如果输入一个三维点,只要在两个视图上把点的对应位置指定后便唯一确定了三维空间中的一个点;,把直线段上两端点在三视图上输入后便可决定三维空间的一条直线;,把一个面上的各顶点在三视图上输入后,也唯一确定了三维空间中的一个面;,如果把一个多面体上的各面均用上述方法输入,,也就在三维空间中输入了一个多面体。,语音识别(Speech Recognition)是计算机通过识别和理解过程把语音信号转变为相应的文本文件或命令的技术,其所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等。,一个完整的语音识别系统大致可分为语音特征提取,声学模型与模式匹配,以及语言模型与语义理解三部分。,4.4,语音交互技术,语音识别涉及的技术,数字化语音信号的转换和量化涉及到信号表示问题,需要研究如何使系统在传感器与环境的变化中保持性能的稳定,以适应这些变化。,各种语音必须被恰当地建模,目前采用的最广泛的建模技术是隐马尔科夫模型(,HMM,)。,最后是语言的约束问题。,语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。,目前主流的语音识别技术是基于统计的模式识别的基本理论,如图,4-13,所示。,图,4-13,语音识别系统的处理流程,语音特征提取,从语音信号中提取语音的特征,既可以获得语音的本质特征,也起到数据压缩的作用。,输入的模拟语音信号首先要进行预处理,包括预滤波、采样和量化、加窗、端点检测、预加重等。,声学模型,声学模型对应于语音到音节概率的计算。在识别时将输入的语音特征同声学模型(模式)进行匹配与比较,得到最佳的识别结果。,目前采用的最广泛的建模技术是隐马尔科夫模型,HMM,建模和上下文相关建模。,语音识别系统的组成,隐马尔科夫模型,HMM,建模,马尔可夫模型是一个离散时域有限状态自动机,隐马尔可夫模型,HMM,是指这一马尔可夫模型的内部状态外界不可见,外界只能看到各个时刻的输出值。,语音识别中使用,HMM,通常是用从左向右单向、带自环、带跨越的拓扑结构来对识别基元建模,一个音素就是一个三至五状态的,HMM,,一个词就是构成词的多个音素的,HMM,串行起来构成的,HMM,,而连续语音识别的整个模型就是词和静音组合起来的,HMM,。,语音识别系统的组成,上下文相关建模,上下文相关建模方法在建模时考虑了协同发音的影响。,协同发音是指一个音受前后相邻音的影响而发生变化,从发声机理上看就是人的发声器官在一个音转向另一个音时只能逐渐变化,从而使得后一个音的频谱与其他条件下的频谱产生差异。,上下文相关模型能更准确地描述语音,只考虑前一音的影响的称为,Bi-Phone,,考虑前一音和后一音的影响的称为,Tri-Phone,。,英语的上下文相关建模通常以音素为基元,由于有些音素对其后音素的影响是相似的,因而可以通过音素解码状态的聚类进行模型参数的共享。,语音识别系统的组成,语言模型,语言模型计算音节到字的概率。语言模型主要分为:,规则模型,统计模型,统计语言模型是用概率统计的方法来揭示语言单位内在的统计规律,其中,N-Gram,模型简单有效,被广泛使用。,听写机,大词汇量、非特定人、连续语音识别系统通常称为听写机。其架构就是建立在声学模型和语言模型基础上的,HMM,拓扑结构。,对话系统,对话系统往往是面向一个狭窄领域、词汇量有限的系统。,语音识别系统的组成,语音识别技术在实际使用中达到了较好的效果,但如何克服影响语音的各种因素还需要更深入地分析。目前听写机系统还不能完全实用化以取代键盘的输入,但识别技术的成熟同时推动了更高层次的语音理解技术的研究。由于英语与汉语有着不同的特点,针对英语提出的技术在汉语中如何使用也是一个重要的研究课题,四声等汉语本身特有的问题也有待解决。,语音识别技术存在问题,笔式输入具有连续性、使用笔的连续线条绘制可以产生字符、手势或者图形等特点。其优点是便于携带,输入带宽信息量大,输入延迟小;其缺点是翻译困难,再现精度低。,手写识别技术是笔交互中的一种基本技术,目前已经嵌入到各种设备中,得到广泛应用。,数字墨水技术,4.5,笔交互技术,手写识别,发展手写识别技术并嵌入到各种设备中,将是手写识别技术未来发展的重要方向之一。,世界上绝大多数语言的字符都可以用,Unicode,的形式来表示。,联机手写识别技术的优点是不需专门学习与训练、不必记忆编码规则、安装后即可手写输入汉字,是最简单方便的输入方式。同时符合人的书写习惯,可以一面思考、一面书写,不会打断思维的连续性,是最自然的输入方式。,手写识别的形式和约束,脱机(,off-line,,又称离线)识别,脱机识别就是机器对于已经写好或印刷好的静态的语言文本图像的识别。,联机(,on-line,,又称在线)识别,联机识别是指用笔在输入板上写,用户一边写,机器一边进行识别,可实时人机交互。,手写体识别的方法和识别率取决于对手写约束的层次,这些约束主要是手写的类型、写字者的数量、词汇量的大小以及空间的布局。显然,约束越宽识别越困难。,联机手写文字的识别过程通常分为四个阶段:预处理、特征抽取、特征匹配和判别分析,联机手写识别,汉字,手写,输入板,预处理,模式表达,(特征提取),判别,(分类或句法分析),字典,(特征模板集合或句法规则集合),汉字代码,脱机手写识别比印刷体汉字识别、联机手写体识别都要困难。,脱机手写识别得到的描述则是点阵图像,要得到笔段的点阵通常需要细化运算。,细化会损失一些信息,并且不可能得到时间顺序信息。,脱机识别中,笔画与笔画之间经常粘连,很难拆分,而且笔段经过与另一笔段交叉分成两段后,也难以分清是否应该连起来。,脱机手写识别,汉字识别的方法,结构识别,结构识别方法的出发点是汉字的组成结构。汉字是由笔划,(,点、横、竖、撇、捺等,),、偏旁、部首构成,通过把复杂的汉字模式分解为简单的子模式直至基本模式元素,对子模式的判定以及基于符号运算的匹配算法,实现对复杂模式的识别。,结构识别法的优点是区分相似字的能力强,缺点是抗干扰能力差。,汉字识别的方法,统计识别,统计识别方法是将汉字看为一个整体,其所有的特征是从整体上经过大量的统计而得到的,然后按照一定准则所确定的决策函数进行分类判决。统计识别的特点是抗干扰性强,缺点是细分能力较弱。,神经网络,神经网络具有学习能力和快速并行实现的特点,因此可以通过神经网络分类器的推广能力准则和特征提取器的有效特征提取准则,对手写字符进行识别。,影响汉字识别率的因素,笔顺问题,书写习惯影响笔划的书写顺序,单纯通过串匹配进行识别难以达到理想效果。对汉字进行描述时,仅仅采用一维串也就显得不够,必须利用一些二维方法来描述,但其会极大地增加匹配的难度。,连笔问题,对于结构识别而言,连笔一方面使笔划种类大大增加,甚至达到难以归纳的程度;另一方面,连笔又使得笔段抽取难度大增,连笔会增加一些冗余笔段,连笔造成的畸变又会使笔段方向严重离散。,相似字区分,汉字种类繁多,很多汉字彼此之间非常相似,例如,“,己、已、巳,”,三个字相差只在细微之间。手写汉字的变形十分严重,怎样能使识别系统抓住微小的差别,是一个非常值得研究的问题。,对抗干扰能力的要求,书写时候,笔划的畸变、丢失,多余笔段,(,如笔锋,),的插入,字的倾斜,部件间相对位置、大小的变化,经常出现,会造成基元提取和识别的错误。,影响汉字识别率的因素,数字墨水在数学上是通过三阶贝塞尔曲线来描述笔输入的笔迹,它的记录格式与图像和文本格式都不同。这种存储方式使得数字墨水文件很小,从而可以更有效地进行存储。,数字墨水的处理包括数字墨水的表示、压缩和显示,智能的墨水分析技术,墨水标记和注解技术,墨水的智能操作以及墨水存储和搜索等一系列有关技术。,数字墨水技术,数字墨水的处理,数字墨水的表示,压缩和显示,智能的墨水分析技术,墨水标记和注解技术,墨水的智能操作,墨水存储,墨水搜索,数字墨水的解析,墨水解析技术是数字墨水技术中的亮点,它可以将笔输入的文字串解析成单字,从而将复杂的语句级手写识别化繁为简,分解成语句解析和单字识别两个部分。,可以对记录下来的数字墨水进行结构化和深度分析,分析目的不是要去解决“写的是什么字”,而是要解决“到底在写什么,以及是如何写的”。,数字墨水的保存格式,数字墨水可以用墨水格式保存(,ink,文件),用户不再需要利用其他,Windows,应用程序来把手绘、手写的笔迹转换为别的格式来保存、发送和编辑。同样,由于,Windows,平台将数字墨水定义为基本数据类型之一,如同文本得到操作系统级的支持一样,数字墨水在不同应用软件之间的交换也变得非常容易。,数字墨水的数据格式比图像数据格式所占的空间小得多,而且数字墨水记录的是结构化的信息,可以进行全文搜索。,数字墨水的使用,当前,微软已实现了数字墨水技术对英文、德文、法文、韩文、日文、简体和繁体中文等语言的支持。,Windows XP Tablet PC Edition,拥有强大而简单的数字化墨水控件和,API,,方便软件开发商将笔墨功能扩展到其现有和即将推出的软件中,就如同集成目前的键盘和鼠标一样简单。,汉字信息处理技术,汉字信息处理主要是研究汉字的属性、编码、输入方法、词处理、字形存储等基本理论和技术,提高汉字字符处理系统的性能,加强汉语理解和高层次应用研究。,文字信息的计算机处理过程,图,4-17,文字信息的计算机处理过程,汉字编码,国标码:,GB2312-80,信息交换用汉字编码字符集,是目前国内所有汉字系统的统一标准。,每个国标码都对应着一个惟一的汉字或符号。,国标码共有字符,7445,个,包括汉字和其他字符。其中一级汉字有,3755,个,按汉语拼音顺序排列;二级汉字有,3008,个,按部首和笔画排列;其他字符有常用符号、序号、,GB1988,图形字符集、希腊字符、制表符等。,是一个四位十六进制数编码,前两位表示行,(093),,后两位表示列,(093),,分别用双,7,位二进制数表示,即两个字节的最高位为,0,。,汉字的编码,区位码,区位码是一个四位的十进制数,前两位叫做区码,(194),,后两位叫做位码,(194),,分别用双,2,位十进制数表示,不足两位时前面补,0,。,机内码,是计算机内部实际使用的表示汉字的代码,在微机中多用两字节,(,最高位为,1),代码作为机内码。,BIG5,我国台湾地区的计算机界实行的汉字编码字符集,包含了,420,个图形符号和,13070,个汉字(不包含简化汉字)。,汉字的编码,GBK,汉字内码扩展规范,,国家于,1995,年,12,月,15,日将它确定为技术
展开阅读全文