机器人室内定位关键技术说明指导书.doc

资源描述

1、新型机器人室内定位技术XXX软件研究所有限公司一，技术背景机器人六十年代，自第一台机器人装置诞生以来，机器人发展经历了一种从低档到高档发展过程。第一代机器人为示教再现型机器人，是通过计算机来控制多自主机械装置，通过示教存储程序把信息读取出来并发出指令，也可以依照人示教成果再现动作，它对于外界环境没有感知能力。在20世纪70年代后期人们开始研究第二代机器人：带感觉机器人。这种机器人有类似人类力觉、触觉、听觉、视觉等。第三代机器人是智能机器人，它是当今机器人发展热点和重点，机器人通过各种传感器获取环境信息，运用人工智能辨认、理解、推理并进行判断和决策来完毕一定任务。因而智能机器人除了具备感知环境和

2、简朴适应环境能力外，还具备较强辨认理解能力和决策规划能力。80年代中期，技术革命第三次浪潮冲击着全世界，机器人总数每年以30%以上速度增长。1986年国家把智能机器人课题列为高技术发展筹划，进入90年代，在国内市场经济发展推动下，拟定了机器人及其应用工程并重、以应用带动核心技术和基本研究发展方针，实现了高技术发展与国民经济主战场密切衔接，研制出有自主支持产权工业机器人系列产品，并小批量试产，完毕了一批机器人应用工程，建立了9个机器人产业化基地和7个科研基地。通过近年努力，获得了举世瞩目硕果。我司智能移动机器人具备超声、红外等多传感器融合导航系统，可以在一定室内环境中自由行走，实现定位与自动避障

3、等功能，在国内处在先进水平，具备一定影响力。随着机器人技术发展，具备移动行走功能、环境感知能力以及自主规划能力智能移动机器人得到了各国研究人员普遍注重，特别是在20世纪八、九十年代，随着计算机技术、微电子技术、网络技术等迅速发展，机器人技术发展突飞猛进。我司智能移动机器人重要特点在于它自主性和适应性。自主性是指它可以在一定环境中，不依赖外部控制，完全自主地执行一定任务；适应性是指它可以实时辨认和测量周边物体，并依照环境变化，调节自身参数、动作方略以及解决紧急状况。随着智能移动机器人技术发展，其在军事、医疗、商业等领域发挥着重要作用，人们对智能移动机器人需求和盼望也越来越高，越来越迫切，移动机

4、器人研究从而进入了崭新发展阶段。定位技术是智能移动机器人研究核心，同步也是其实现完全自动化核心技术。机器人只有精确懂得自身位置，工作空间中障碍物位置以及障碍物运动状况等信息，才干安全有效地进行移动，由此可见，自主定位和环境分析是移动机器人最重要能力之一。我司机器人室内定位技术是用于机器人在室内环境中定位。此项技术概念是通过场景主旨（Gist）和视觉明显性（Saliency）模型算法，逼真，精准地模仿人脑神经元以及视觉行为体系，但愿机器人从未知环境未知地点出发，在运动过程中通过重复获取、观测周边环境特性信息，从而定位自身位置。二，技术内容2.1高斯金字塔高斯金字塔是在图像解决、计算机视觉、信号解

5、决上使用一项技术。本质上是信号多尺度表达办法，亦即将同一信号或图片多次进行高斯模糊，并且向下取样，从而产生不同尺度下多组信号或图片用于后续解决。例如在影响辨识上，可以通过对比不同尺度下图片，防止要寻找内容在图片上有不同大小。高斯金字塔理论基本是尺度空间理论。给定一张图片f（x,y),它尺度空间表达方式L(x,y;t)定义为：影像信号f(x,y)和高斯函数旋积。完整表达式如下：其中分号代表旋积对象为x,y,而分号右边t表达定义尺度大小当t0是对于所有t都会成立，但是普通只会选用特定t值。其中t为高斯函数变异数，当t越接近零时候，使得L(x,y;t) = f(x,y),这代表t=0时候咱们把这项

6、操作视为图片f自身，当t增长时，L表达将影像f通过一种较大高斯滤波器，从而使得影像细节被去除更多。在建立高斯金字塔时，咱们一方面会将影像转换为尺度空间表达方式，即乘上不同大小高斯函数，之后再一句取定尺度向下取样。乘上高斯函数大小和向下取样频率普通会选为2幂次。因此，在每次迭代过程中，影像都会被乘上一种固定大小高斯函数，并且被以长宽各0.5比率被向下取样。如果将向下取样过程图片一张一张叠在一起，就会呈现一种金字塔样子，因而这个成果称为高斯金字塔。2.2尺度不变特性转换(SIFT)SIFT是一种用于侦测与描述影像中局部性特性视觉算法，它在空间尺度中寻找极值点，并提取出其位置、尺度、旋转不变数，其应

7、用范畴包括物体辨识、机器人地图感知与导航、影像缝合、3D模型建立、手势辨识、影像追踪和动作比对。局部影像特性描述与侦测可以协助辨识物体，SIFT 特性是基于物体上某些局部外观兴趣点而与影像大小和旋转无关。对于光线、噪声、些微视角变化容忍度也相称高。基于这些特性，它们是高度明显并且相对容易撷取，在母数庞大特性数据库中，很容易辨识物体并且鲜有误认。使用 SIFT特性描述对于某些物体遮蔽侦测率也相称高，甚至只需要3个以上SIFT物体特性就足以计算出位置与方位。在现今电脑硬件速度下和小型特性数据库条件下，辨识速度可接近即时运算。SIFT特性信息量大，适合在海量数据库中迅速精确匹配。2.3主成分分析

8、(PCA) 在多元记录分析中，主成分分析是一种分析、简化数据集技术，用于分析数据及建立数理模型。主成分分析经惯用于减少数据集维数，同步保持数据集中对方差贡献最大特性。这是通过保存低阶主成分，忽视高阶主成分做到。这样低阶成分往往可以保存主数据最重要方面。其办法重要是通过对共变异数矩阵进行特性分解，以得出数据特性向量它们特性值。PCA是最简朴以特性量分析多元记录分布办法。其成果可以理解为对源数据中方差作出解释：哪一种方向上数据值对方差影响最大？换而言之，PCA提供了一种减少数据维度有效办法；如果分析者在源数据中除掉最小特性值所相应成分，那么所得低纬度数据必然是最优化，由于这样减少维度是失去信息至少

9、办法。PCA是最简朴以特性量分析多元记录分布办法。普通状况下，这种运算可以看作是揭露数据内部构造，从而更好解释数据变量办法。如果一种多元数据集可以在一种高维数据空间坐标系中被显现出来，那么PCA就可以提供一副比较低维度图像，这幅图像即为在讯息最多点上原对象一种投影。PCA数学定义是：一种正交化线性变换，把数据变换到一种新坐标系统中，使得这一数据任何投影第一大方差在第一种坐标上，第二大方差在第二个坐标上，以此类推。定义一种n m矩阵，XT为去平均值（以平均值为中心移动至原点）数据，其行为数据样本，列为数据类别（注意，这里定义是XT 而不是X）。则X奇异值分解为X = WVT，其中m m矩阵W是X

10、XT本征矢量矩阵，是m n非负矩形对角矩阵，V是n nXTX本征矢量矩阵。据此，当 m n 1时，V 在普通状况下不是唯一定义，而Y 则是唯一定义。W 是一种正交矩阵，YT是XT转置，且YT第一列由第一主成分构成，第二列由第二主成分构成，依此类推。为了得到一种减少数据维度有效办法，咱们可以把 X 映射到一种只应用前面L个向量低维空间中去，WL：where with the rectangular identity matrix.X 单向量矩阵W相称于协方差矩阵本征矢量 C = X XT,在欧几里得空间给定一组点数，第一主成分相应于通过多维空间平均点一条线，同步保证各个点到这条直线距离平方和最

11、小。去除掉第一主成分后，用同样办法得到第二主成分。依此类推。在中奇异值均为矩阵 XXT本征值平方根。每一种本征值都与跟它们有关方差是成正比，并且所有本征值总和等于所有点到它们多维空间平均点距离平方和。PCA提供了一种减少维度有效办法，本质上，它运用正交变换将环绕平均点点集中尽量多变量投影到第一维中去，因而，减少维度必然是失去讯息至少办法。PCA具备保持子空间拥有最大方差最优正交变换特性。然而，当与离散余弦变换相比时，它需要更大计算需求代价。非线性降维技术相对于PCA来说则需要更高计算规定。PCA对变量缩放很敏感。如果咱们只有两个变量，并且它们具备相似样本方差，并且成正有关，那么PCA将涉及两个

12、变量主成分旋转。但是，如果把第一种变量所有值都乘以100，那么第一主成分就几乎和这个变量同样，另一种变量只提供了很小贡献，第二主成分也将和第二个原始变量几乎一致。这就意味着当不同变量代表不同单位（如温度和质量）时，PCA是一种比较武断分析办法。一种使PCA不那么武断办法是使用变量缩放以得到单位方差。普通，为了保证第一主成分描述是最大方差方向，咱们会使用平均减法进行主成分分析。如果不执行平均减法，第一主成分有也许或多或少相应于数据平均值。此外，为了找到近似数据最小均方误差，咱们必要选用一种零均值。假设零经验均值，数据集 X 主成分w1可以被定义为：为了得到第 k个主成分，必要先从X中减去前面个

13、主成分：然后把求得第k个主成分带入数据集，得到新数据集，继续寻找主成分。PCA类似于一种线性隐层神经网络。隐含层 K 个神经元权重向量收敛后，将形成一种由前 K 个主成分跨越空间基本。但是与PCA不同是，这种技术并不一定会产生正交向量。2.4 独立成分分析(ICA)在记录学中，ICA是一种运用记录原理进行计算办法。它是一种线性变换。这个变换把数据或信号分离成记录独立非高斯信号源线性组合。独立成分分析最重要假设就是信号源记录独立。这个假设在大多数盲信号分离状况中符合实际状况。虽然当该假设不满足时，依然可以用独立成分分析来把观测信号记录独立化，从而进一步分析数据特性。独立成分分析典型问题是“鸡尾

14、酒会问题”（cocktail party problem）。该问题描述是给定混合信号，如何分离出鸡尾酒会中同步说话每个人独立信号。独立成分分析并不能完全恢复信号源详细数值，也不能解出信号源正负符号、信号级数或者信号数值范畴。观测数据或者信号用随机向量表达，独立成分量可以定义为向量。独立成分分析目是通过线性变换把观测数据，转换成独立成分向量，而独立成分分量满足互相记录独立特性。记录独立量化普通通过某指定函数来衡量。2.5 基于视觉明显性(saliency)模型迅速场景分析Saliency模型是受初期灵长类动物神经构造启发提出一种视觉注意系统。各种不同比例特性图形结合形成一张saliency图

15、，然后由动态神经网络选用视觉上最引人注意点来减少明显性。该系统将复杂场景理解问题，分解为迅速场景选取，找出最引人注目点。尽管灵长类动物神经元计算能力有限，但是对复杂场景实时理解有着非常出众能力。所谓视觉焦点，通过两种方式扫描场景图片，一种是迅速自底向上，saliency驱动，独立于任务方式，一种是自顶向下，缓慢，意志控制并基于任务方式。注意力模型涉及动态路由模型，在这个模型中，只有视觉区域中一小某些信息可以通过视觉皮层被解决。这些信息是通过自顶向下和自底向上控制下皮层连接动态变化或者事件短时间模式建立。该模型采用是Koch和Ullman提出第二种生物上可行构造。模型理论基本有许多模型。例如：特

16、性结合理论，是对人类视觉搜索方略一种解释。一方面将视觉输入分解为一组特性图，接着空间上不同位置会互相竞争，直到找出明显点，因而只有局部明显点可以被保存下来。所有特性图自下而上汇总形成saliency图，这样就能找出整个场景局部明显点。这种方式，是灵长类动物大脑后顶叶形成对视觉输入解决成果图，模型saliency图具备生成注意力转换能力。因而此模型可以表达自底向上saliency模型阐明，而不需要自顶向下协助进行注意力转移。这个框架构造，对于计算机视觉计算技术而言，提供了大量并行办法，咱们可以通过迅速选用出一组图片中感兴趣点来分析更复杂和更消耗时间物体辨认过程。Saliency模型：程序输入是

17、一张静态彩色图片，普通采用640*480图片，通过运用高斯金字塔构建9种不同空间尺度，对输入图像进行低通过滤和二次采样，生成从1:1到1:256这8个幅度横向和纵向图像缩小因素。每一种特性都是通过计算一组线性“center-surround”运算。类似于视觉接受域：典型视觉神经元对视野中心区域一小块区域特别敏感，而刺激更广泛外围区域则会抑制神经元反映。对局部不持续空间敏感这样一种构造，特别合用于检测明显与周边不同局部特性，因而被用作模仿视网膜、外侧膝状体和初级视皮层运算法则。Center-surround 在实现中会有从精细到粗犷不同尺度。中心分别取每个像素取c为2倍、3倍、4倍，外围则是每个

18、像素相应s相应s = c + ，取3或4。两张图跨尺度区别是通过修改精细尺度和点对点做减法获取。通过使c和两方面，可以获取真正中心区域和周边区域多尺度特性提取。2.6 提取初期视觉特性模型研究特性分为三种，分别为明暗特性，色彩特性和方向特性。r,g,b分别代表输入图像红色、绿色和蓝色，图像亮度通道I通过I=(r+g+b)/3计算得到。I用于创立高斯金字塔I()，其中取0到8整数。r,g,b通道通过计算I进行正规化，将色彩从亮度中解耦。然而由于色彩变换在亮度特别低时候是无法感知，因而是不明显，因而正规化仅仅作用于I不不大于整张图片亮度最大值十分之一部位。4个调和后色彩通道分别为红色通道R = r

19、 - (g + b)/2，绿色通道G = g - (r + b)/2，蓝色通道B = b - (r + g)/2和黄色通道Y = (r + g)/2 -|r -g|/2 -b，通过这4个通道，由此，咱们可以创立R()，G()，B()，and Y()四个高斯金字塔。前面定义center-surroun d差值通过中心精细比例c和外围粗糙比例s差值产生了特性图。第一组特性图考虑是亮度对比，哺乳动物是通过神经元对暗中心区域和亮外围区域或亮中心区域作用于暗外围区域效果进行分别。这两种类型敏感是用6组亮度图I(c,s)同步计算,c分别取2，3，4，s = c + ，分别取3或4：第二组特性图与前面类似

20、，是为色彩通道构建，在人类视觉皮层中是通过一种称为“双色对比”系统来解决色彩：在感受野中部神经元会被一种颜色（例如红色）刺激产生兴奋而被另一种颜色（例如绿色）抑制。反之对外围神经元也成立。这种空间色彩对比在人脑视觉感受皮层中存在红绿、绿红、蓝黄和黄蓝4组对比。因而，通过创立模型中RG(c,s)特性图可以同步模仿红绿和绿红两种对比，BY(c,s)则可以模仿蓝黄和黄蓝两种对比：第三组特性图是局部方向特性图，通过Gabor金字塔作用于亮度图I产生方向明显图O(, )，取0到8正整数来表达比例，是表达方向，分别取0，45，90和135。Gabor过滤是余弦光栅和2D高斯包络乘积，成果近似于初级视皮层感

21、受野对方向敏感辨识限度。方向特性图O(c，s，),表达了中心和周边尺度方向对比。综上所述，共通过计算生成了42张特性图，其中涉及6张亮度图，12张颜色图和24张方向图。2.7 明显图（The Saliency Map）明显图用于通过常量表达一种区域明显性。明显图与特性图结合起来，以动态神经网络为模型提供了自低向上构建特性图办法。在结合不同特性图时，由于各张特性图之间有着不同值域，且提取方式不同，因而数值上不具备可比性。此外由于要结合所有42张图，因而出当前少数几张图中几种位置视觉明显也许会被噪声或者其她较为不明显物体遮挡。由于缺少自顶向下监督，咱们提出一种对图进行正规化办法，用N(.)来表达

22、。通过正规化可以达到效果为，增强只有少量明显点明显图，削弱明显点较多明显图，环节如下：1.将每张图进行正规化到一种固定值域0.M，以消除振幅差别。2.找出每张图全局极大值M，并计算所有局部极大值平均值m3.对整个特性图进行运算，乘上(M-m)2只有局部极大值才会被计算，这样正规化就可以忽视同质区域。比较整张图极大值和平均值可以看出最活跃部位和平均值区别。当这个差别较大时候，最活跃区域就会较为明显，若这个差别较小，则这张图就会被抑制。正规化办法生物学解释在于，它简朴地重现了外侧皮层抑制机制，相邻类似特性会通过一种特殊物理链接互相抑制。特性图分别被合并到尺度为4三张明显图，分别为亮度图I，颜色图C

23、和方向图O。计算办法如公式所示，其中跨尺度加法是由将每幅图降尺度到尺度四再进行像素对像素加法：对于方向而言，一方面依照给定角度和六张特性图生成中间环节四张图，接着整合成一张方向特性图。创立三张单独通道图I，C，O和她们各自正规化是基于假设：类似特性会为了明显而激烈竞争，然而不同特性对于明显图会有各自体现。三张图片通过正规化后取平均值即可得到最后saliency图。在任意时刻，saliency图最大值定义了整张图片最明显位置，也就是注意力焦点所在位置（FOA）。咱们可以简朴地以为，图片中最活跃区域就是模型关注下一种焦点。然而，在一种神经元可行实现中，咱们运用比例为42D 积聚触发模型对salie

24、ncy图进行建模。模型中这些神经元有一种电容可以将突触输入电量汇集起来进行充电，一种漏电导和一种电压阈值。当电压达到了这个阈值，就会生成一种触发原型，并且电容电量会减少到0。尺寸为4saliency图会输入到一种2D赢家通吃（WTA）神经网络，不同单元之间突触交互可以保证最活跃区域被保存，而其她区域都被抑制。明显图(SM)兴奋接受区域神经元都是独立，在更加明显位置SM神经元增长会更快（然而这些神经元仅用于单纯汇集但不触发）。每一种SM神经元都会刺激周边WTA神经元。所有WTA神经元都是独自进化，懂得其中一种一方面达到阈值，同步触发三个机制。过程可以概括成三个环节，如下：1）FOA转移到赢家神经

25、元区域；2）对于WTA抑制机制被惩罚接着抑制WTA神经元；3）在SM区域，局部抑制被短暂触发，方式是在FOA区域依照位置和大小进行抑制。这样不但可以动态转移FOA，从而使得次明显点也可以成为赢家，还可以防止FOA及时回到之前位置。这种“返回抑制”已经在人类视觉心理物理学中得到了证明。为了使得模型可以紧接着跳转到当前注意点附近明显点区域，会短暂地刺激在FOA附近SM区域。（这种方式被称为Koch和Ulman法则）。由于咱们没有创立任何自顶向下注意部件，FOA仅是一种半径固定为输入图片宽度或高度六分之一圆盘，时间常数，电导，和模仿神经元阈值都是被选定，从而FOA可以从一种明显点在30-79毫秒左右

26、跳到下一种明显点，并且上一种明显点区域会被抑制500-900毫秒，这个过程与视觉心理物理学中是被观测到。这些延迟使得可以充分扫描图片并且避免了在几种明显点间重复循环。在详细实现中，这些参数是固定，在研究中所有图片在系统中成果都是稳定。2.8 与空间频率内容模型比较Reinagel和Zador 使用了眼球追踪装置分析依照人类自由观看灰度图像生成沿眼扫描局部空间频率分布。她们发现，总来说，在关注区域空间频率内容要明显高于随机区域。虽然在乎志力控制下，眼轨迹是可以与注意力轨迹不同，但是视觉注意力经常被以为是一种先于眼球运动机制，对于自由浏览有很大影响。因而，咱们便探究了与否咱们模型可以重现Reina

27、gel和Zador发现。对于空间频率内容（SFC）咱们给出了一种简朴表达方式：对于一种给定图像位置，从每个灰度、R、G、B、Y图中提出一种16*16图像块，然后对这个图像块进行2D迅速傅里叶变换（FFTs）。对于每个图像块而言，一种阈值用于计算不可忽视FFT数系数，阈值相应于FFT刚感知光栅丰富度（1%对比度）。SFC表达五个相应图像块不可忽视系数数目平均值。选定相应大小和尺度图像块，从而使得SFC对RGB通道和灰度通道中进行计算。通过这种方式，可以生成一种尺度为4SFC图，并于明显图进行比较。(a) 是色彩图片例子；(b)是相应明显图输入；(c)是空间频率内容（SFC）图；(d)黄色圈标出了

28、通过明显图找出明显点，红色方框标出了SFC找出明显点，从成果可以看出，明显图对于噪声容忍度很高，然而SFC受噪声干扰很大。明显图在FOA模型中常被用到，但是很少提到详细构建和动态变化，在这里，咱们研究了如何进行前馈特性提取，图像组合方略和明显图时间特性都对于整体系统性能有贡献。咱们用许多人工图像对模型进行了测试从而保证它正常运作。例如，诸多相似形状但背景不同，按照对比度递减顺序排列物体。模型体现出了对于噪声良好容忍性，特别是对于噪声没有直接影响目的重要特性图。模型可以重现人类对于许多弹出任务视觉体现。当一种目的在方向，颜色，灰度或者大小方面，与周边干扰项不同步，它总是可以成为最明显点。反之，如

29、果目的与干扰项在各种特性中存在区别（例如在红色竖直条和绿色水平条图中，有一种唯一红色水平条），找到明显点所需搜索时间与干扰项数目成正比。这两种成果结论已经被广泛地观测和记录在人类视觉研究中。咱们还是用了真实图片进行了测试，例如真实户外图片和人工图画，通过正规化对图片进行调节。由于这些图片没有被其她人作为实验素材使用，因此无从进行比较。咱们建立Saliency模型是一种架构和部件都模仿人类视觉属性模型，本模型可以良好解决复杂自然环境图像，例如，它可以迅速检测到车流中明显交通信号（圆形，三角形，正方形，长方形），颜色（红色，蓝色，白色，橙色，黑色），和文字信息（字母，箭头，条纹，圆圈）。从计算机角

30、度而言，此模型最大优势在于有大量并行运算，涉及初期特性提取阶段大量操作和视觉注意系统。咱们模型构造可以支持在硬件上进行实时操作，这与之前其她模型有较大不同。2.9 场景主旨模型（Gist）随着计算机视觉技术发展，机器场景辨认能力也在不断提高，这方面研究也日益丰富，当前重要分为基于物体场景辨认、基于区域场景辨认、基于内容场景辨认和生物可行场景辨认。由于尽管硬件性能和计算算法在不断提高和优化，当前场景辨认水平依然和人眼相比差距甚远，因此采用生物可行场景辨认是一种新颖而布满潜力研究方向。gist算法是一种应用于机器人场景辨认算法。这种算法长处在于，它具备生物学上可行性，并且计算复杂度较低，与其她视觉

31、注意模型共享相似底层特性，可以在机器人上与其她模型进行并行计算，计算速度快，效率高。2.10 视觉皮层特性提取和视觉引导，Saliency计算机制相似，人类尚有一项绝妙迅速获取图像“要点（Gist）”能力，例如迅速在镜头和人眼前闪过一张图像，仅仅是一闪而过，就足以让观测者回答图像是一张室内厨房图，图中有诸多五颜六色物体。由此咱们可以发现，仅仅需要100ms或者更短时间，人们就可以对图像产生整体印象（例如，室内还是室外，厨房还是办公室等）某些大体特性也可以被获取，然而，更让人惊讶是，如果需要观测者回答，图中与否有一只动物等问题，观测者只需要28ms就可以做出对的回答。Gist是在大脑中优先相应“

32、位置”区域中计算，也就是相应限制空间布局视觉场景类型。空间内容和颜色判断会影响Gist感知，这就增进了当前专门研究空间分析计算机模型发展。Gist广义心理学定义是观测者看一眼获取图像信息，咱们讨论Gist表达是建立与这个定义基本上，指在一种短时间内获取相对维度较低场景图。咱们将Gist表达为特性空间向量，如果相应某个给定图像Gist向量可以被分类到某个特定场景类别，那么基于Gist场景分类就是可实现。咱们当前研究重心集中在通过各种域功能从图片中提取Gist，计算它整体特性，同步兼顾其大体空间信息。既有模型是依照Saliency模型提出。2.11 场景主旨（Gist）特性提取通过底层center

33、-surround进行特性提取后，每个子通道都会提取一种相应特性图gist向量。将图片分割为4X416个子区域，对每个字区域进行均值计算。从获取成果角度看，Gist和Saliency是相对，由于gist是对图像子区域进行特性提取，而saliency是对整个区域进行特性提取。但是，人类只有一种大脑，同步要进行Gist和Saliency计算，因此与saliency 相似，在Saliency模型中，输入图像通过一系列底层视觉特性通道过滤，得到不同尺寸色彩、亮度、方向特性图，有些通道有许多子通道。每个子通道均有9种不同尺寸金字塔来表达过滤后输出，在水平和竖直方向，比例都是从1:1到1:256，并且

34、都要进行5*5高斯平滑。对于每个子通道i，模型采用center-surround操作进行原则化。色彩和灰度通道公式如下：Mi(c，s) = |Oi(c) Oi(s)| = |Oi(c)Interpsc(Oi(s)|Gist模型复用Saliency模型方向、色彩和灰度通道，对于方向通道，对灰度输入图像采用Gabor滤波器从四个不同角度，四个空间尺度计算十六个子通道和。需要注意是，Gabor滤波器不进行center-surround由于这些滤波器自身已经各不相似了。Mi(c) = Gabor(i，c)对于色彩通道解决，与Saliency相似。每个子通道从各自特性图中都能提出一种Gist向量。公式是

35、对16个社区域进行亮度特性提取办法，k和l分别是子区域在水平方向上和竖直方向上序号。W和H分别是整张图片宽度和高度。类似地，咱们可以得到方向通道特性提取。尽管其她数据记录可以提供不同有效信息，然而它们计算开销太高，并且她们在生物学上解释仍有争议，因而咱们只进行一阶记录就可以进行有效分类。2.12 颜色恒常算法运用这种基于记录gist算法长处在于它稳定性可以屏蔽局部或随机噪声干扰。在gist算法中更重要是全局特性，例如光线对整张图片变化。颜色恒常算法例如gray world算法和white patch算法就假设场景中光线是恒定。然而，在现实场景中光线并不一定会恒定。光线不但会随着时间推移而变化，

36、并且在同一场景中，光源也不一定是单点光源。由于光源不稳定性，场景中不同物体会在不同步间被照亮。值得注意是，这一步目的不是为了高精度地对色彩进行辨认或正规化，而是生成稳定颜色亮度gist特性图。咱们也可以使用另一种正规化办法，叫做Comprehensive Color Normalization(CCN)，可用于全局和局部正规化。当光线饱和时候（即当摄像机捕获视频太亮或太暗时候），物体纹理信息会丢失，并且无论用多复杂正规化办法都无法恢复。在这种状况下，考虑到gist计算特性，最佳解决方就是在不同光线条件下进行gist辨认。因而咱们不应当进行任何解决，而应当在不同光线条件下训练咱们gist分类器。

37、gist自身特性（Garbor或center-curround）就已经协助咱们将光照变化影响降到了最低。通过度析在不同光线条件下信号比峰值，咱们发现底层特性解决产生信息对于光线是合理并且稳定。2.13 PCA/ICA 降维未经解决gist特性分为16个区域，每个区域均有34张特性图，因而维度总数是544维。咱们使用principal component analysis (PCA) 、Independent Component Analysis(ICA)和FastICA将维度降到80，并且对于3000张测试图保存了97%信息。2.14 场景分类上图呈现了场景分类完整过程。咱们使用了一种三层神经

38、网络（中间层有200和100个神经节点），使用1.667G赫兹AMD机器和BP算法进行训练。这样做不但获得了更高成功率，同步大大减少了运算时间和训练时间。三，定位技术实验成果室外机器人定位研究诸多，然而由于绝大多数时间人们都在室内生活、工作、学习，室内将是智能机器人一种广泛应用区域，而实现室内定位，就是智能机器人在室内进行智能化第一步。从以上多张图可以看出，室内场景图像无论是全局图还是局部图都存在着很大相似性，辨识难度较高，也正因而，进行室内定位研究才有很大价值。咱们运用了前文中提到Gist、Saliency和各种算法进行室内定位研究。咱们以某学校教学楼为数据集采集对象采集图片。当前针对8间房

39、间，有实验室和办公室，选定了62个不同图像采集位置，拍摄了62个大概30秒视频图像，并从中获取了1988张图像。选出其中398张建立数据集，1590张作为训练集。研究流程如上图流程图所示:一方面输入一张图片，进行Gist和Saliency解决后可以获取有明显区域Saliency图，将测试图片与所有图片进行比较和匹配，选出十张最相似图片，作为成果，检查这十张图片中与否有输入图片自身。若有，则表白匹配成功，否则，匹配失败。咱们实验成果是，对于每张测试图片，计算选出前十张匹配图片中有一张是原图概率，LDA为96.5%，PCA为91.7%。精确率都非常高。四，总结XXX软件研究所有限公司所拥有机器人室内定位，采用先进视觉明显性Saliency模型、场景主旨Gist模型等算法，结合集成为一整套完整视觉定位算法，在以各种室内场景中进行了测试，具备较高精确性，为机器人室内定位技术进行了创新。

展开阅读全文