1、计算机视觉和图像理解 1.导言 在社会机器人的新兴领域,人类–机器人相互作用通过手势是一个重要的研究课题。人类进行交际的手势中,指向手势的互动与机器人特别有趣。他们开放的直观指示对象和位置的可能性,是特别有用的机器人的命令。指向手势也可结合语音识别指定的口头陈述和位置参数,还提供了一个明确的输入语音识别时发生歧义。这种类型的一个例子的情况是指向手势引导机器人到一个特定的对象或使用地点。机器人必须能够检测的指向手势和估计目标位置,从而指出,主要的问题出现,有关最近在这一领域的研究视野[1–4,8]。一些最重要的挑战是相关的实时计算,得到的精度和运行在困难的杂乱环境可能遮挡,光照和不同的背景。
2、另一个共同的要求是,指向手势必须认识到,无论规模大小,大指向手势是指进行全臂延伸而小的指向手势只减少前臂和手的运动[ 3,4 ]。 基于这一事实,对于大多数应用程序,它是指目标而不是实际的指向,这是非常重要的,我们制定了一个新的方法,与现有的指向手势识别的方法,也考虑到可能指出目标位置的先验信息。假设的指示语的手势,最常见的类型例如,一个涉及食指指向对象的利益和用户的目光指向同一目标[ 5,6 ] 我们制定我们的方法使用单眼设置高精度跟踪下飞机头部旋转,同时识别手指的手势。这两种输入流被组合在一起推导出指向目标使用的配方是基于Dempster-Shafer理论的证据[7]。一种区别我们的方法
3、来自使用相机基本的方法,多数使用立体声或多摄像机设置。然而,本文的主要内容在于基于Dempster-Shafer理论输入端的组合,让该方法在一种或两种输入数据流丢失的情况下能妥善处理(例如手指向的来自遮挡了的可见光);也就是,使用的输入的信号缺乏,实现了令人印象深刻的结果,这是当代概率融合方法不可能得到的来源[1,8]。此外,本文所提出的制定的信念被分配到设置尖锐的目标而不是个人提出的目标。Dempster的组合规则有助于这些信念相结合,而不需要将他们的个人目标的分别观测指出,假如没有明确的建议。在下面的章节中对相关工作(第2节)和提出的方法(第3节)进行了论述。手指的手势识别的简要讨论在第4
4、节而人脸姿势识别在第5节进行了阐述。人脸姿态和手指的融合,是本文的重点,在第6节进行了分析。在模拟环境下的实验结果及其使用的地面真实数据的结果在第7节。本文的结论与讨论在第8节。 2相关的工作 手势识别的研究近年来受到越来越多的关注,也超越了人类–机器人互动的区域,例如在情感计算和身临其境的游戏技术。第一次尝试解决手势解读导致的机械装置,直接测量手或手臂的关节角度和空间位置,所谓的手套设备[ 9 ]。随着计算机视觉技术及快速处理器可用性的最新研究进展,在基于视觉的非接触式接口增加了可穿戴设备,克服阻碍缓解作用的弊端。最近基于视觉的手势识别技术作了较全面的介绍[ 11 ]而且大部分的努力都集
5、中在手势识别[12,6]以及手语翻译[ 13,14 ]。 基于视觉手势的研究指出,有使用立体声或多摄像机系统的几种方法,这只手/手臂、双手、手臂和头。他们中的大多数估计指向在水平方向上,而其他的一些在水平和垂直方向。在那些用手或手臂,奇波拉等人。[ 15 ]利用立体视觉与主动轮廓跟踪的位置和指向对机器人的两维空间。Hosoya等人[ 16 ]衍生的肩膀和手臂的深度和立体彩色图像的三维位置来估计三维指向。最近,Huetal [ 17 ]用合适的AdaBoost级联反应检测器[ 18 ]的手势检测和指向从立体图像估计的主动外观模型,然而检测时间高成本。 其他作者的关于人脸的三维位置和指向手使用
6、的信息,以获得视线和估计的指向。Jojic等人。[ 19 ]识别指向手势的基础上密集的视差图和辨别从身体的手臂的统计模型和估计的指向从头部和手部的极值点。在Stiefelhangen和Nickel的工作中[ 1,2,20 ]使用神经网络的头部姿态估计和基于HMM模型的方法来识别指向手势。然而,他们的方法因延迟识别搜索三种特征序列检测的指向手势。Kelh和Van Gool [ 21 ],以及Watanabe等人。[ 22 ]利用多摄像机系统检测脸和手。首先提取人体轮廓,头和手的极值点,解决了三维的对应关系和推导出的指向。图像分割的质量有很强的影响该方法的准确度,这在[ 21 ]是不定量评估。后者
7、估计人脸方向八可用相机离散面方向特征类一起使用它的3D手的位置指向估计。最近,Park和Lee[ 4 ],基于立体相机,使用同样的[ 2 ]一个基于HMM的方法在两个阶段识别指向手势,但在指向手势的不同定义的。本文考虑的姿态,但规模第一,该方法的精度主要取决于第一阶段的HMM的状态数,因此需要更多的训练数据和处理时间。这些方法中的一些遭受延迟识别,例如[ 2,17 ],有限的精度评估,例如21,17 ]和大多数的(除非在这里[ 4 ])不支持手势规模。 不像我们使用一个单一的摄像头,可以放置在一个移动机器人平台上面的方法。单相机系统进行Kolesnik和Kulessa [ 23 ]控制使用俯
8、视相机虚拟物体的运动通过Cernekova等人。【24】基于视频的交互作用。在[ 23 ]架空的相机的就业产生的实验装置,明显偏离一个使用在当前的工作,因此,没有进一步的关注[ 23 ]。后来的工作主要集中在识别画面上的是指用户的网格单元,通过梯度向量流(GVF)检测指手蛇的。用户初始化屏幕区域的边界,映射到二维图像,通过指向左上和右下角的屏幕。随后,通过线性变换计算指向子区域。虽然报告说这初步的结果是良好的方法,针对具体应用的视野非常狭窄,限制在其他环境中的普遍性的方法。Richarzetal。[ 25 ]提出了一种神经网络的体系结构,能够估计一个参照目标点上的地板从指出构成,从而使得用户能
9、够通过指向命令移动机器人。结果表明,神经网络估计是相当敏感的偏离的姿势是训练。在两个测试对象的情况下,可接受的结果已经报告只有当手动的头检测中得到应用,而在Viola–Jones方法中[ 18 ]取代人工检测导致的整体性能[ 25 ]的一个明显的降解。 表1总结了上述审查的方法。正如已经提到的,大多数这些方法使用两个或多个摄像机,可以推导出在指向精度好的结果。只有多机系统,如[ 21 ],可以支持360°指向手势检测。规模大的指向手势手势,指全臂进行扩展和小的指向手势减少前臂和手的运动,只在Park和Lee[ 4 ]中支持,但只有在[-90°;90°]的范围内。 本文提出的方法使用单眼相机
10、安装和支持规模的手势,以及钝角的指向手势超出范围°调整到在水平方向的[-90°;90°]范围内。同时,指出了提高精度和实施的方法以及在实时中的操作,照顾了遮挡,光照和动态背景。 表格1 审查的系统指的方向估计的总结。NC代表的相机数。PA是指向精度,给出了 每一个具体的应用和并且 N/A表示不支持。RT是实时处理,表中的○是指实时处理,△意味着近实时处理并且 N/A表示不支持。SG站规模的姿态,其中X表示不支持大的和小的指向手势,○是指大的和小的指向手势的支持。OG是钝角的姿态,其中X是钝角的手势是不支持的,而○意味着它是支持。 方法 NC PA RT SG OG Cipo
11、lla等人[15] 2 2cma △ X X Hosoya等人[16] 2 0.5-1m △ X X Hu等人[17] 2 N/A △ X X Jojic等人[19] 2 15cm ○ X X Nickel和Stiefelhangen[2] 2 25° △ X X Kelh和vanGool[21] 4-8 N/A ○ X ○ Watanabe等人[22] 8 2.14°b N/A X X Park 和Lee[4] 2 7.2°/18.7°c △ ○ X Kolesnik和Kulessa[23] 1
12、 N/A ○ X X Cernekova等人[24] 1 10cmd ○ X X Richarz等人[25] 1 10°e ○ X ○ a 在一个40cm的地方 b 在[-22.5°,22.5°]的视角范围内 c 大/小手势 d 在一个2mX1.5m的屏幕上,计算[-25°,25°]的视角 e 45%的案例 这项工作的主要新颖之处是以人脸定位的有效融合与公认的手指手势相结合,要精确地估计所指的目标。Dempster-Shafer理论上[ 7 ]是利用制定融合作为一个可能的指向信念的空间估计问题。即使在情况下,系统无法识别手指手势或面取向
13、或没有),这(缺乏)的信息提供了一个证据,在大多数情况下是足够的重要的明显限制可能的个数。这一特征使得Dempster-Shafer组合最适合手头的任务的理论,从人脸跟踪和/或手势识别这样的错误并不少见,在现实世界中的相互作用。 3. 目标情况下,提出的方法 该目标的情况下,我们的地址是一个机器人在公共空间的操作,如展览或博物馆,与人类和提供感兴趣的信息有关特定点的相互作用(“景点”,例如展品)。具体的景点,用户可以在目标设定,换句话说,“指出目”。在前面的章节中已经提到的,正是针对的目标是估计在我们的工作中,而不能任意指向可能造成的不受限制的指示语的手势在用户的环境。 该机器人配备有
14、2D地图的环境,此外,知道在这地图的上的所有景点的位置。定位模块提供了机器人在地图上的位姿(2D位置和方向),因此,机器人可以与自己的坐标计算出所有景点的相对位置。人与机器人交互的用户站在机器人的前面,他/她相对于机器人的位置在地图上是机器人使用激光测距仪来测定的。 所有的人类–机器人之间的互动是通过机器人的对话和行动还有处理(DAM)负责提示用户输入,对用户的响应(语音和手势)和生产机器人的响应。对话的大部分机器人开始所以DAM知道期望用户的手势和手势是希望每一次。 尤其是指向手势,机器人只希望这种手势的相关问题后(例如机器人问用户,这表现出(即POI)他/她想参观下)。因此,这是合理的
15、假设,我们知道什么时候期待一个指向手势和我们的算法只需要找到(a)时,正是这个指向手势发生和(b)的POI,用户代表的是什么。 一个重要的假设是,所有的手势指向景点。因此,手头的任务有关的POI,用户点的精确估计。另一个假设,我们可以很容易地使是当用户点一个点,这一点必须是“可见”的用户和机器人。这里,术语“可见”意味着视线之间的用户(或机器人)和POI不是由一些障碍物遮挡。换句话说,机器人期望用户不会点到一个点,一堵墙的后面。然而,用户还可以指出一点,后面是机器人或后面的用户,只要有点和用户或机器人之间没有障碍。 指出目标 基于D-S证据理论的融合 头定位 LSM 鼠标手势 鼠
16、标手势 运动检测 手指检测 手和脸的识别 分类 手势识别 图1。所提出的估计方法,指出目标框图 图1描绘的是所提出方法的概述。第一步是跟踪用户的面部斑点和手。这些都是使用皮肤颜色的斑点追踪[ 29 ]图像平面跟踪。增量贝叶斯分类器[ 30 ]是用来检测轨道分类皮肤色的斑点,成左右手,手和脸。然后两个独立模块用于手和脸。手斑点是美联储的手势识别模块,用于识别手指手势[ 31 ]时,面部斑点被馈送到一个最小二乘匹配(LSM)模块[ 37 ]这是用来推导出差动旋转通过补丁的图像帧之间的变形。 该手
17、势识别模块的输出可以带三个值:“左边点”“右边点”和“看不见”,如果没有指向手势可以确认。该人脸定位估计模块的输出是一个标量变量,如人脸定位计算,或'NaN'如果面对的方向不能计算。 最后,我们的方法估计的指向手势(计算提出POI)通过整合信息的人脸定位与使用Dempster规则的组合的手势识别的信息。 4.手指手势识别 能够识别指向手势的人需要有与机器人交互的位置和姿态信息。因此,我们跟踪的人的脸和手的位置,这些都在指点手势识别的重要特征。 我们方法的第一步是检测输入图像中的肤色区域。为了这个目的,我们使用一种类似于在[26,27]里描述的。最初,图像的前景区域是由一个背景减法算法利
18、用提取[28]。然后,前景像素的特点是根据他们的概率来描绘人类的皮肤,然后组合成固体皮肤颜色的斑点,使用滞后阈值和连接的组件标签。位置和每个斑点的速度被建模为一个离散时间,线性动态系统,利用卡尔曼滤波方程和传播的像素的假设算法跟踪[29]。该算法根据信息对每个被跟踪的对象的像素的空间分布(即它的形状)传播框架使用对象的当前动态帧,所估计的卡尔曼滤波器。传播的像素密度的假设提供了度量,它是以副观察皮肤颜色的像素与现有的对象跟踪的一种方式,是意识到每个对象的形状和与它相关联的不确定性轨迹。 它要注意跟踪结果依赖于背景模型的质量以及照明条件这一点上,这有望作为机器人的移动变化。为了这个目的,机器人
19、将自动调整相机的白平衡速度参数以便该背景模型每次到达一个新的位置和快门能重置。 第二步是进一步区分出斑点的左手,右手和面,以及保持和不断更新的信念,类似的每个跟踪点。为了这个目的,我们使用一个增量的概率分类,如[ 30 ],使用作为输入的速度,方向,对皮肤色的斑点的位置和轮廓形状。该分类器可识别的手和多个面孔的人,即使在部分遮挡的情况下,也能够保持左右手的假设。 对于实际的手指识别,一个重要的方面是一个指向手势发生的有效时间检测。根据[ 6 ],手势的时空结构可以分为三个阶段:准备,举动和回缩,与此规则的所谓的“'跳动“例外”(对语音的韵律结构相关的手势)。“'准备”和“'回缩”的特点是快
20、速改变手的位置,而在“'举动”,手仍然是,在一般情况下,不动。考虑到的运动的手的轨迹和一系列的相关标准,在[ 31 ],我们检测的'举动”阶段,即相所指向的姿态发生。为了识别手指手势手势组成的机器人,手势词汇集之间,此外,将其分类为“'指向左”和“指向右”'手势,我们采用一个以规则为基础的技术[ 32、31 ]。根据该技术,手势识别是基于数与手执行的手势,即区分手指的姿势,可见指尖和它们的相对位置相对于手的斑点质心的数量。因此,它是可以识别的小手指手势大角度的前腰位置,在指尖可以在手上斑点的区别,除了案例的人是直接指向相机的角度接近0°,正如图2所示。 5.面对姿态估计 估计的POI,用户
21、是看在一个非侵入性的方式进行的指向手势,我们采用的技术,跟踪用户的头的方向。这是通过跟踪在水平方向绕头的Y轴面面旋转实现(第5.2节)通过一个基于特征的人脸跟踪方法基于最小二乘匹配(LSM)。 5.1.最小二乘法 区域或基于模板的方法已在各种情况下包括匹配[ 33 ]立体开发,视觉运动分析[ 34 ],表面重建[ 35 ]和[ 36 ]对象跟踪。LSM [ 37 ]是一个匹配技术能够有效地模拟的辐射和几何图像块之间的差异,也看作是一个概括的互相关,因为,在其一般形式,它可以弥补几何差异旋转,缩放和剪切,而相关模型的几何差异只有翻译和辐射的差异仅由于亮度和对比度的变化。因此,它的精度是有限的
22、迅速降低,如果几何模型是违反(旋转大于20和尺度大于30%的差异),而LSM,其一般形式,可以补偿几何差异旋转,缩放和剪切。在我们的语境LSM用于帧间计算,跟踪在一个较长的时间跨度,得到用户的脸部旋转而进行的指向手势。 图2。手指手势识别不同指向目标。它是认识的手在一个大范围的在前腰位置指向角的姿态是可行的,除了角接近0°如左图。 一般的估计模型的制定是基于这样的假设,有两个(或更多)的图像窗口(称为图像的补丁)。这些图像块进行离散函数f(x,y),g(x,y),其中f是g的模板和搜索图像块模板和搜索图像分别。问题陈述发现模板图像补丁f(x,y)相应的部分;在搜索图像g(x,y)。如
23、果匹配是理想的建立: 而真正的误差矢量e(x,y)在(2)包括模型误差在图像的辐射和几何的不同所引起的。 该函数的值的位置g(x,y)必须被确定为匹配。这是通过最小化目标函数的措施,模板的灰度和补丁之间的距离实现。以最小化的目标函数的L2范数的残差最小二乘估计。在最小二乘法的背景下,方程(2)可以被视为一个非线性观测方程模型观测向量f(x,y)与一个函数g(x,y),其在搜索图像的位置需要估计。假设我们有两个连续的帧,考虑到图像的变形和获得更好的匹配,图像形成参数介绍在平移参数。因此,一组变换参数需要估计从(2)和非线性,(2)是通过扩大成泰勒级数和只保留零和阶,条款根据线性化(3
24、 dpi..通过变换参数 这参数的数量是由以下因素决定的。估计模型应适应以足够的参数能够形成完全的底层图像过程模型。参数是非确定性、高参数间的相互关系有影响的估计模型和恶化的比赛质量。在建立一个地区类似的努力,包括Hager和Belhumeur的工作[ 38 ],明确建模的几何结构和光照低参数模型的变化。在模型的几何参数包括和辐射校正,例如均衡,在不同的照明条件下的补偿之前被应用到最小二乘模板和图像。假设人脸区域的局部表面补丁是一个平面,充分逼近,深度变化的面部特征表现出足够小,仿射变换模型模板或图像帧n和搜索图像或图像帧n + 1之间的几何差异。
25、而不是一个共形参数组[ 39 ],我们利用仿射变换在非平面的头部转动的脸补丁跟踪。仿射参数的适形组相比,在下飞机头部旋转的情况下更适合,因为他们可以更好地逼近片变形,在两个连续的图像帧,而在面内旋转形集可满足的情况下。仿射变换(4)被施加相对于初始位置(x0,y0;): 通过区分(4),简化因式得到(5) 然后由(3)得到结果(6): 结合参数(6)中的参数向量x 他们在设计一个系数矩阵,和差异向量观测的f(x,y)- g(x0,y0)于I,在经典的符号得到的观测方程(e = e(x;y)):
26、 该系统的最小二乘解给出了(9): 其中p是权重矩阵。灰度级的若干意见涉及在模板的像素数。假设一个模板尺寸m×n像素,观测方程的数目是ng = M·N个未知数,nu= 6的数量,设计矩阵的尺寸是ng·nu;P是一个非零元素并且I和ng对角矩阵是一种天然元素矢量。采用加权方案,以减少灰度观测方程对应的边界附近的像素接收更小的权重贡献(0.1)比其他人(即统一)。 该方法需要从帧到帧的变化是小的,考虑到物体的速度和所获得的图像序列帧速率,以收敛的解决方案。在我们的系统中摄像机工作在30–40帧,从而使我们能够
27、处理快速的头部运动。在高帧速率的提高性能的改进,我们经营的头部定位估计算法在低分辨率水平(即半图像大小)。由于尺寸模板减小,观测方程的数目减少,导致更快的实现。 5.2.估计头方向 考虑到人体头部的三维空间中的刚体,头部方向可以通过分析面部补丁的变换(头的前部)由于人脸旋转相当于头部转动。更具体地说,头部的旋转可以计算平面旋转头部附近的离面旋转轴,垂直方向的头部周围的X轴和水平方向绕头的Y轴平面旋转(见图3)。后者,这对应于一个平面的旋转面向指向,主要变形的面部补丁X位移和X-级。 导出上述面旋转采用LSM初始化模板补丁,在被检测的BLOB椭圆中心在图像帧n和假设的人脸正面姿态准备阶段发
28、生。在实践中的脸的正面视图的初始位置可以导出了通过现有的人脸检测器为[ 18 ]。模板是在n+1的基础上估计的仿射参数和匹配的下一帧图像的图像帧更新。有关质量,用于评估匹配结果的迭代次数的标准(假设快速收敛应达到),在每一次迭代参数的大小的变化和参数的大小。同时,在参数值的变化(大小和符号)在每一次迭代得到的解的稳定性观察。 图3.(a)旋转轴的头在三维空间和(b)离面面贴片绕Y轴的头。 该转换参数提供新的斑块形状和重心解收敛后。模板的初始位置和最终匹配位置之间的转动是由差动旋转角度的累积匹配每个连续的模板和补丁导出计算。在图4中,px表示而且”补片宽度和p'x是“'变量”弥补宽度在两
29、个连续的图像帧(图4的中间和右边的图像)。在一个平面绕Y轴旋转的发生,面部补丁移到新的位置和变形补丁p'x < px 其中x规模较小。x1,x’1是最小和最大的x坐标的图像而且补丁,假设相对于摄像机的脸的正面视图,这样px =(x’1 - x1)。同样,x2,x 2是最小和最x的图像坐标的'变量”的补丁,这样p'x =(x’2 - x2)。 图4. 水平面方向的计算方法 计算旋转角度,假设头近似球体,我们利用球面坐标系(R;∅;λ),其中R是球的半径,∅是从水平面角(垂直角)和λ是方位角(水平角)。它的垂直投影映射方程,即地图投影,对
30、应于一个球体或球时直接从一定的距离与观众对齐平行于地球的z轴正方向轴的外观,是由变换方程 其中(φ1;λ0)是用在垂直的透视投影和起源和P投影中心坐标的透视点的球半径的单位的距离 和 我们计算水平角λ参考λ0 = 0°与φ= 0并且参考φ1 = 0°。因此由(10)得到 从μx位置水平旋转λh计算根据(14)和(15),其中μx位置对应于在初始化贴片的中心坐标 图5说明了时间匹配结果与LSM,人脸的跟踪平面的水平旋转。 图5.通过最小二乘法从相机不同距离的人脸定位的推导。 6.获取指向的证据 假设在图6中描述的设置。用户(在图表的中心)和机器人站在一个
31、场景中含有N个可见(由机器人和用户)感兴趣的P1, P2,…,Pn(在这个特定的例子里n = 8)周围的用户和机器人。我们认为我们知道用户点的N个景点(如对话框经理提供此信息)但我们不知道这正是这一点。每个POI可能构成的指向。 设X是普遍的:这是包含所有可见的兴趣点的集合,也被称为识别框架(16) 发电机组2x是集,包括的所有子集X,包括空集φ和整个集合X的幂集元素可以被用来代表的指向命题。每一个命题包含该命题成立的景点,它分配一个质量(信念量)的功能是:2x→[0,1]称为一个基本信念分配,它有两个属性: *质量(大量的信念)的空集合为零: *根据功率所有成员群众集总
32、计达共1: 在手头的任务,用户提出了他的手,指向一个展览pi,1≤i≤n同时转动他/她的脸看展览的方向,在3节中描述。因此,两个来源的信息存在:从手指手势和信息的人脸定位信息。每两个来源的信息有一个独立的基本信念分配。让mf表示从人脸姿态估计和mh的信念代表从手指向的信念。结合这两个来源的信息,我们利用Dempster组合规则的证据。 它是要注意这一点,建议制定允许我们指定的群众,包含多个景点的命题。例如,让我们假设的手势识别器识别出用户点向左但不能鉴别性用户是否点出P2,P3和P4。DemsterShaffer理论允许我们指定一个信念(例如,mh)的命题“用户指向一个的P2,P3或P
33、4”;然后这个信仰没有同样的“断裂”这一信念的每个的P2,P3和P4;我们将不得不做如果我们工作的概率(例如我们会分配一个概率的0.33每一个P2;P3,P4,;这是一个假设,超出我们的观察)。 根据Dempster组合规则,接头质量mf;h可计算为正交和(交换性和结合性)的两个群众,如下: 其中K是一个归一化系数是用来评估两个大规模集之间的冲突的数量,给出如下的: 方程(20)提供了一种用于每个POI A1结合的信念质量作为所有证据mf功能(A2)和mh(A3)同意在A1 ,A2和A3。是普遍设置x为 A1 = A∩A3亚群。具有较大的组合质量的POI作为一指出用户。 它是在
34、这一点上说明,这项工作背后的假设用户同时看和指向同一个具有消除冲突证据的情况下,根据Zadeh的鉴定[ 40 ]对Dempster规则的组合,可能导致(20)产生反直觉的结果。在接下来的两部分,我们将阐述mh和mf的实际计算。 6.1.信念质量mh计算 手指向手势识别,我们假设系统知道当一个动作发生而只能如果它在区间[φh-min;φh-max] ∪[-φh-max;-φh-m]。如果一个“左指向”的手势是公认的,我们假设用户是指向一个POI在[-φh-max;-φh-min](P 6或P7在图6的示例)。同样,如果一个“'右指向”手势是公认的,我们假设用户是指向一个POI在[φh-mi
35、n;φh-max](P 3或P4)。如果没有公认的手势,我们假设用户指出,除了这两个时间点(“中间指向”)有信念质量mh-0 = mh({ P1,P2,P5,P 8 })。为“中心指向”的情况下,在图6的例子,用户可能已经指出,任何P1 P2 P5和P 8;。根据公认的手指手势(“左指向”,“右指向”)或事实的手势是“隐形” ,不同信仰的群众分配给左边的展品,展品在权利和展品在前面和后面的用户为其中的一个无法识别指向手势。 在图6的例子,这些信仰群众的定义如下: mh-L=mh({P6,P7}) mh-R=mh({P3,P4}) mh-C=mh({P1,P2,P5,P8}) 得到m
36、h-L +mh-R +mh-C=1 指定集对应的“左指向”,“右指向”和“中间指向”的方向和定义群众mh-L;mh-R和mh-C因此,我们使用特定的定义值φh-min和φh-max。这些值被作为φh-min=140°,和 φH-max=40°大致对应于角超过这一限额的手指手势不可识别的计算。 设G是由用户执行的实际的姿态,让GO是手势识别(或没有)的系统。G值在HG = { “左指向 ”,“ 右指向”“中间指向”}和GO的值在HO = { “左指向”,“右指向”,''无信号”}。 给群众mh-L,mh-R和mh-C,我们计算的概率P(G =“左指向”|GO),P(G =“右指向”|GO
37、和P(G =“中间指向”|GO),分别采用Bayess规则计算: 在上述方程PðGÞ计算可见景点数量属于G除以可见景点总数的可能。Pð去JGÞ得到脱线和对应的时间指点手势的百分比是去给实际的姿态是G的实际值计算在我们的实验总结在表2中的混淆矩阵。 6.2信仰的mf计算质量 人脸定位,我们认为它只能在[-φf-max,φf-max]范围内。如果用户是在寻找一个POI奠定了在这个范围内则面临方向可以被计算使用的算法在第5.2节中描述的,此外,这些信息可以用来识别目标表现出我有信仰,mf({pi})。如果面对的方向不能计算,我们假设一个信仰mf-o=mf({P1,P2,P8}),脸看着外
38、面[-Φf-max,-φf-max]。因为mf是一个基本信念分配,我们确保下列等式。 同样的手指手势,把群众的mf,我们使用的条件概率为用户查看每个POI Pi的感知人脸定位φO,计算: 在任何先验信息的缺失,P(Pi)分配给所有我平等的价值观的可能性,P(φO|Pi)根据Pi与尊重用户的相对角的计算。确切的值被发现通过插值数据离线,存储为一个混淆矩阵(图7)。 7.实验结果 7.1.地面真实数据 指向结果的定量评价是困难的崇拜因为缺乏地面真理的可靠。为了克服这个困难,我们进行了定量评价,通过设置一系列涉及用户在脚本的情况下进行的实验。根据该方案,用户站在预定义的方向在
39、机器人和点前(指定景点)用他的手和脸。该景点是定义在0°± 180°范围在10°的角距离。 每一个指向手势,该系统识别人脸的定位和它将手势为左或右指向手势。人脸定位样本识别结果如图8所示。图7的混淆矩阵是绝对(左、右)估计头方向的预定的头的方向,范围在0°±180°。百分比均来自7000个图像帧序列图像。可以很容易地看到,该算法实现了较高的成功率,对于小角度(用户看起来在方向接近相机的方向),降低大角度(用户看起来离相机)。该算法能够保持显著的成功率(50%以上)即使角度可达120°,只有面部补丁的一小部分是可见的。手指向手势一直被公认为指向的方向正确的范围内 [ 30°,130°]和[-
40、130°,- 30°]。 表2 手指向手势混淆矩阵 GO G 左指向 中间指向 右指向 左指向 0.90 0.05 0.00 隐形 0.10 0.90 0.10 右指向 0.00 0
41、05 0.90 图7。混淆矩阵编码感知脸部方向(行)为每个预定的人脸定位(列)在0°±180°范围。基质含有数据的左和右指向 图8.指出使用的地面真实数据的方向估计。 7.2.模拟环境 显然,一个标识指出景点而不是指向方向算法的性能取决于环境和泊松分布的结构内。对不同环境的安排下,所提出的方法的性能,我们在三个不同的模拟环境下进行了一系列的实验,在图中描绘的图9和10。的第一环境,如图9所示(a),由一个单一的矩形的房间位于城墙四景点。第二环境,如图9所示(b),类似于第一个,但是包含八个景点而不是四。最后,最后的环境,如图10所示,有五个房间通过
42、一个走廊连接在一起。在房间里,共有八个展品,但他们被安排在一个没有超过三个展览同时可见的两个机器人和用户,任何用户的机器人装置。 运行的模拟实验,我们随机抽取了大量的人力–安排机器人在这些环境(1000)。每个装置包括一个随机选择的点,由用户和机器人的可见光和被假定为指出的用户。图10描述了两个这样的安排。在第一排有三个可见的景点(P3;P4和P 7,标有绿色)和用户点P4。第二装置包括两个明显的兴趣点(P5和P 6,带有绿色的颜色),P5为指出的用户。 在仿真实验以及模拟的人脸定位和手指的手势识别模块的输出。模块的输出被假定是不完善的,模拟分别在表2和图7描述的混淆矩阵显示的分布。 结
43、果如表3所示。总人数的安排(N)的每个环境是1000。在绝大多数情况下,融合算法返回一个结果。的情况下,有关于提出POI歧义(例如,有一个以上的点在图6中定义的角区外),该算法返回多个结果的质量。返回的结果相同,最大的平均数量,质量是指控为资产净值nav。行标记为“'Corm”提供的次数,正确的结果是在返回的结果,即使在最大的质量结果的数目是一个以上的。行标记为“'Cors”提供的数字为例,该算法返回一个单一的,正确的结果。最后,行标记的“错误”对应的情况下,该算法不能提供正确的POI在返回的结果。 图9。两个仿真环境,用于评估所提出的算法的性能 图10。两个不同的,在模拟环境中的
44、机器人配置的用户,一个房间数。机器人的位置描述使用一个绿色矩形。用户描述使用一个绿色圆圈的线段表示指向。对于每个配置可见景点都涂上绿颜色。(对参考图中的传奇色彩,读者可以参考这篇文章。网络版的解释) 表3 所提出的三种环境的方法得到的仿真结果 在图9和10中描绘 实验A 实验B 实验C (图9a) (图9b) (图10) N 1000 1000
45、 1000 nav 1.06 1.25 1.13 Corm 996(99.6%) 970(97.0%) 997(99.7%) Cors 961(96.1%) 819(81.9%) 927(92.7%) 虚假的 4(0.4%) 30(3.0%) 3(0.3%) 值得注意的是,在这一点上,上面有许多的安
46、排对应于机器人是不能够认识到无论是手指向不面对方向的情况下(例如,当用户点展示在他/她)。在这些情况下,投入不足是由本身的证据一块,这是正确地利用我们的算法来限制可能的解的个数。可以从表3的结果很容易看到,这对环境是在图中描绘的是成功的。9A和10在景点的空间安排和环境的拓扑结构(墙,门,等)有助于区分不同的可能的解决方案之间的。 表4显示了相同的配置时,一个单一的信息来源是唯一可用的结果:要么脸或手指向的方向。Vh对应数量的情况下,提出POI是在[φh-min,φh-max]或在[-φh-max,-φh-min],即,在一个范围,指向手势识别(见图6)。Ch对应的正确分类的结果,是否在范围
47、的指向手势识别可分类的唯一获得的信息。是,我们有一个正确的分类如果姿势正确识别假设用来推导得到的结果(识别率根据表2所示的百分比假设),此外,一个单一的POI指区域内存在的。同样,Vf对应数量的情况下,出POI在[-φf-max,φf-max]和Cf对应的正确分类的结果,将是如果我们使用一个分类器可实现如图7所示的结果。 通过比较从表3和表4的结果,一个到达的结论,该方法明显优于“'单一的证据”分类描述以上。在所有三个环境中,该算法成功地结合了信息流的证据,实现的识别率,已经不能由任何两个信息流单独获得的。 表4 仿真结果获得只通过使用一个单一的信息来源。 实验A(图
48、9a) 实验B(图9b) 实验C(图10) Vh 550(55.00%) 558(55.80%) 535(53.50%) Ch 245(24.50%) 47(4.70%) 336(33.60%) Vf 731(73.10%) 730(73.00%) 796(79.60%) Cf 722(72.20%) 703(70.30%)
49、776(77.60%) 图11。这两个环境中使用真实条件下所提出的系统评价。景点编号与有界。灰色区域在图片表明,实验发生的地区。 7.3真实的环境 进一步的测试系统的性能,实际情况我们已经设置两人–机器人互动的实验。第一个实验发生在一个走廊结构(图11(a)),包含28个景点,分配给每一个门通往一个不同的房间。第二个实验发生在一个大的公共结构(图11(b)),也在我们的大楼。在这种情况下,兴趣点被分配到门导致的复杂,不同部位的电梯,自助餐厅,以及各种海报在门厅的墙壁。在第二个实验图像,如图12所示,表明由于光照变化和不同的背景环境的困难。
50、 图12. 在实验过程中,从第二环境图像 这两个实验涉及自主导航,机器人与人类用户的互动。人类是在距离从机器人两米,所以他/她的手指很容易辨认,并用他的头和手指的一个预定fi内德目标点(景点)。机器人的使用,所提出的方法来识别指出目标。如果针对目标模糊有(如算法返回同质量的多个结果)机器人随机挑选的一个可能的目标。机器人移动到目标和人的笔记采摘机器人是否正确地识别目标或不。该程序是一个多次反复的结果总结在表5。正确的认识是指一个单一的结果正确、正确选择包括单结果与随机选择的正确。 第一环境






