1、第 卷第 期 年 月西南科技大学学报 :收稿日期:;修回日期:基金项目:国家自然科学基金();国防基础科研计划项目();四川省自然科学基金();西南科技大学博士基金()作者简介:第一作者,霍建文(),男,博士,特聘副教授,研究方向为多机器人认知差异与辐射强度重建的放射源搜索方法,:;通信作者,刘宏伟,:分布式参数估计的多机器人放射源搜索策略霍建文刘宏伟凌铭润罗明华(西南科技大学特殊环境机器人技术四川省重点实验室四川绵阳 )摘要:为在未知环境中快速、准确搜索失控放射物,将认知差异理论和一致性方法结合,提出了一种分布式参数估计的多机器人源项估计算法,以有效解决单机器人测量不准及运算量大等问题;将人
2、工势场与信息熵结合,采用多机器人变步长分布式搜索策略以实现高效自主搜索。结果表明:本文算法与其他搜索策略相比具有更高的搜索成功率()和更短的搜索时间。本文方法可用于核电站、化工厂等放射性及有毒有害物质泄漏的应急处置。关键词:多机器人放射源搜索认知差异一致性变步长策略中图分类号:文献标志码:文章编号:(),(,):,():;半个多世纪以来,核能在优化能源结构、保障能源安全、促进污染减排和应对气候变化等方面发挥着重要作用。然而,在核能及核技术发展过程中,若发生核事故,则会给社会安全和国家经济带来极大威胁,可能造成大规模人员伤亡和严重社会恐慌。如:年日本福岛核电站特大事故 、年南京放射源 和松原放射
3、源 不慎丢失等事件引起了广泛的社会关注。传统机器人放射源搜索方法采用遍历整个搜索区域 的方法,这种方法的优点是不需要事先对放射源的参数进行估计,搜索准确度高,但是搜寻效率低。为了提高搜索效率,等 在遍历基础上提出了二分查找、逐次逼近。二分查找通过每次丢弃一半的区域来降低了搜索时间,但搜索准确性低;逐次逼近则需要放射源的活度更高,因为该算法需要在区域边界上检测到剂量率的明显变化。放射性衰变是随机发生的且服从泊松分布,可知探测器的计数率将服从泊松分布。因此,计数率统计法通过在不同位置采集计数率或剂量率并建立热点参数的后验概率分布来近似估计放射源位置。然后,机器人根据当前估计的结果,在每个步骤中采取
4、适当的行动以帮助其以最小成本抵近放射源,如信息增益 、信息熵 、人工势场 等方法使机器人运动到目标点。文献 在单个无人系统上研究了粒子滤波及改进方法来估计放射源参数;文献 提出了一种按固定队形移动的多无人系统协同估计放射源,解决了单一系统探测局限的问题;针对大区域单个无人系统寻源效率低的问题,张天宝等 提出一种基于领航者模型的多无人系统合作搜寻放射源的方法;等 设计了粒子融合与自适应步长的多机器人协同放射源搜索算法。虽然多机器人按固定队形可增加数据采集量,但在有限通信资源下现有方法难以有效解决单机器人测量不准及计算量大等问题。本文在贝叶斯框架下设计了分布式参数估计的多机器人源项估计算法,算法将
5、认知差异理论和一致性方法结合,有效解决单个机器人测量不准确以及计算量大的问题,从而提高放射源参数估计的准确性。根据放射源参数估计结果,多机器人通过变步长人工势场与信息熵结合的策略渐进完成放射源搜寻,从而提高搜索效率。放射源估计模型假设多机器人在二维平面内搜索某个放射源,(,),其中 ,为放射源在二维平面内的笛卡尔坐标。机器人 (,)在 时刻通过位置传感器和 传感器的测量值为 ,那么机器人 在运动过程中连续的测量值为 :,。根据贝叶斯法则,可以得到机器人 的观测序列 :的似然函数为:(:)(,)()式中:(,)!;,为探测器探测效率,为多次测量的平均值;受当前位置剂量率 以及探测器能量响应常数
6、的影响,即 。本文考虑了障碍物屏蔽的影响,构建了存在障碍物的放射源搜索环境,在此环境下剂量率 的具体计算如式()所示:()()()式中:为屏蔽材料 的衰减因子;是屏蔽材料的厚度;为环境中的背景辐射,本文将其设为常数。机器人 搜索放射源是一个渐进的过程,在获得辐射场内的观测序列 :后,可得放射源参数的后验概率分布函数为:(:)(,:)(:)(:)()在搜索过程中后验概率分布函数 (:)很难通过解析计算得到,因此可以通过粒子滤波的方式来近似求解。我们通过 时刻在目标区域内均匀分布的粒子来表示潜在的放射源,时刻机器人 的每个粒子 对放射源的估计都将被赋予一个权重,最终后验分布由所有粒子所逼近:(:)
7、(),()式中:()是狄拉克函数;为粒子权重。具体计算如下:()()()()式中:()为状态转移概率;()为重要性概率密度函数。每个粒子的归一化权重为 ,从而可以得到所有粒子的加权平均值,根据公式()估计出放射源的参数。随着算法迭代次数的增多,粒子出现退化现象,即存在大量权重很低的粒子导致参数估计不准确。本文用有效粒子数 小于某一设定阈值()来判定是否出现退化现象。当出现粒子退化现象时,采用公式()进行重采样。()()西南科技大学学报第 卷 分布式放射源搜寻策略在搜寻放射源的过程中,目标点是未知放射源的位置,也就是在未知目标点的情况下,多机器人通过自身对周围环境的感知、信息交互估计源项参数。最
8、后,利用这些局部信息设计移动策略,实现对放射源的搜寻任务。基于一致性的分布式源项参数估计算法由于搜索区域过大及障碍物存在的情况,可能导致多机器人间通信受限制。因此,定义多机器人放射源搜寻过程中的邻居 为:(),()()槡 ()式中:为寻源任务的机器人;()表示以机器人 为中心 为半径的机器人 邻居集合。如果机器人间交换所有的粒子权重,将面临严重的通信问题。为了减少通信负载,用高斯密度函数来近似概率分布,则(,),因此每个机器人只需要交换高斯参数来获得认知差异。但是,参数交换过程中存在着其他机器人 ()交换的错误信息,错误信息的出现将会影响其他机器人放射源搜索的决策。为了解决这一问题,算法引入了
9、测量信息检验环节。即引入参数 来度量粒子的分布差异,当机器人 和机器人 的粒子分布差异越大时 越小。参数 用不同机器人粒子分布之间的 散度来定义:()()()()()()()式中:均值 ,;协方差矩阵(,),;,(,)。根据式()可得到认知差异后的测量信息融合粒子权重:()()()()(),()式中:()表示采用通信范围内邻居机器人 的测量值来计算机器人 粒子的似然函数,从而实现单个机器人对邻居集合内机器人信息的利用。为提高机器人粒子的局部搜索能力,使在 时刻按照时刻粒子的均值、方差固定的正态分布进行状态转移,则:()(,),()当集合内机器人完成信息交互后,每个机器人对接收的信息进行一致性操
10、作,并将用于下个时刻的局部粒子滤波,从而完成放射源参数估计。具体而言,机器人 下一时刻迭代过程中进行一致性处理的初始粒子 计算如下:()(),()式中:为机器人 按照权重对当前时刻执行完局部粒子滤波的粒子升序排序;为将邻居()的粒子按降序排序;本文仅对机器人 升序排序后 个较小权重的粒子进行操作,;表 示邻居 ()的个数。人工势场与信息熵结合的搜寻策略使用移动机器人搜寻放射源是一个渐进的过程,则机器人 放射源搜寻过程可看作是部分可观察马尔可夫决策过程,即:机器人 根据传感器获得 时刻的剂量率,多个机器人基于信息融合算法可在 时刻估算出放射源的参数;根据估计获得的参数以及机器人分布信息计算每个机
11、器人各自备选动作的奖励函数,获得动作奖励值;每个机器人在各自的动作集合里根据奖励值选择下一步动作;该过程直到放射源被搜寻到为止。本文所提出的策略将信息熵和人工势场有机结合,信息熵能够指导机器人在搜索过程中进行探索以获得更多有用信息;人工势场可以让机器人对已估计的参数进行利用,将其假设为一个引力场,根据信息不确定程度对机器人施加不同大小的引力,从而引导机器人向目标点运动。因为考虑了通信范围受限情况和分布式寻源系统,因此机器人利用自身阶段性估计结果构建的引力场也将对通信范围内的其他机器人施加力的作用。本文简化机器人运动模型,假设机器人运动的集合为 ,表示机器人运动的步长,其基于分布式估计情况来调整
12、更合理的行进速度和区域中探测次数,不仅保第 期霍建文,等:分布式参数估计的多机器人放射源搜索策略证未知参数估计的准确性还将保证放射源搜索的快速性,具体由如下函数确定:()()()式中:表示机器人移动的最大步长,根据区域大小设置为常数;当源项估计的不确定性减小时,()函数可执行加大步长,更快移动到源估计的位置;,表示自身和邻居机器人粒子滤波算法中计算获得的估计方差。由于 时刻传感器的测量值 取决于 时刻的位置以及选择的行为动作 。在每个时间步长内,机器人应向预期计数率最大的方向移动。因此,本文借助信息熵来描述行为动作 的奖励 :(),)()式中:;表示执行备选动作后可能获得的测量值,范围为 ;,
13、表示若执行某一动作 并且获得测量值 后计算获得的信息熵。机器人 搜索策略的动作奖励函数的具体形式如下:()式中 为源参数估计对机器人 的引力,具体函数如下:()()()式中:为执行动作 后机器人将到达的位置;表示机器人 当前时刻源参数估计的不确定性程度,其中使用信息熵 的最大值和最小值进行归一化;实现探索与利用之间的平衡,当熵增大时机器人更多进行探索,当熵减小时机器人更多进行利用,则:()()()实验分析与讨论本小节将对提出的分布式参数估计的多机器人放射源搜索算法进行验证和分析。算法在 和 处理器上进行仿真实验。假设如下:()二维障碍物场景:区域大小为 ,障碍物个数为 个;()在每一次搜寻过程
14、中,遗失放射源以及障碍物的位置是固定的;()伽马放射源模型中的参数设为:,;()环境本底辐射 为每秒钟内计数 个;()障碍物厚度 ,机器人个数 ;()搜索成功的判断条件为所有机器人与真实源之间的距离小于 ,源估计值与真实值的距离小于 。个机器人起点设为:(,),(,),(,),(,);放射源参数设置为:(,),实验结果如图 所示。在图 ()中 条彩色实线表示寻源机器人的轨迹;深绿色长方块代表区域中存在的障碍物,对射线具有衰减作用;红色圆圈代表遗失的伽马放射源,在周围进行辐射剂量当量的可视化;放射源周围的不同颜色圆点代表了不同机器人粒子滤波算法中的粒子。可以看到所有粒子都围绕在放射源周围,表明
15、个机器人实现对源参数的一致性准确估计。图()中为搜索过程中 个机器人辐射测量值。图 分布式放射源搜索实验结果图 西南科技大学学报第 卷为验证本文寻源算法在不同条件下运行效果,重设多机器人的初始位置为(,),(,),(,),(,),重设放射源参数为:(,)。实验结果如图 、图 所示。由图 可知,本文所提出的算法能够适应的障碍物环境具有一定的泛化能力。图 为采用了本文所提分布式源项估计算法与共享测量值源项估计方法进行对比的结果图。由图 ()可知,当粒子数设为 时本文所提算法的放射源搜索成功率为 ,而共享测量值方法的搜索成功率仅 。共享测量值方法是通过增加单个机器人同一个时刻的测量值来提高搜索成功率
16、,而对寻源过程中各个机器人粒子滤波算法所渐进估计的后验参数进行融合。随着粒子数的增多,本文算法寻源成功率逐步增加。但从图 ()可知,当粒子数超过 后,由于计算量增大导致放射源平均搜索时间增加。图 分布式放射源搜索实验结果图 图 性能指标对比图 由图 可知,多个机器人进行粒子滤波算法中后验参数的融合有利于提高搜索性能,为了进一步体现本文所提分布式估计算法优势,与文献 使用认知差异原理对其他机器人的测量信息进行选择性融合算法进行对比,其源项参数估计误差如图 所示。由图 可知,本文所设计的算法具有更高的源项参数估计精度,主要原因为:文献 将各个机器人共享的所有粒子进行升序排列和降序排列,并按照预先设
17、置的融合粒子数 ,用机器人的 个高概率粒子来替换另一个机器人的 个低概率粒子,从而各个机器人得到了粒子信息融合后的粒子权重,该方法是基于高概率粒子具有更多未知放射源信息以及低概率粒子包含无效信息的假设,此假设在总体上看是成立的,但是在寻源前期,进行较少探测、获取较少未知放射源信息的情况下,此假设会导致一些潜在的有效粒子被错误剔除,由此损失源项参数估计的精度。本文所提算法将当前机器人的低第 期霍建文,等:分布式参数估计的多机器人放射源搜索策略概率粒子与处于通信范围内的其他机器人的高概率粒子进行一致性处理,仅进行融合而非直接替换,减少低权重粒子对放射源参数估计的影响而非完全消除其影响,合理提高了机
18、器人的粒子多样性,最终获得了如图 所示的更高的源项参数估计精度。此外,本文所提算法考虑了通信范围有限和障碍物屏蔽影响的情况,而文献 两种情况均未考虑。为了进一步验证本文所提分布式源项估计算法的有效性,在同等搜索成功率与搜索时间情况下对不同算法的粒子数、区域大小、信息交互种类及有无障碍物信息进行比较,结果如表 所示。由表 可知,在无障碍物时需要达到相同搜索成功率和同等搜索时间,文献 提出的算法设置粒子数与搜索区域优于 ,由此可见共享测量值与粒子信息有助提高搜索性能。在同等搜索区域大小时,融合信息方式不同导致所需粒子数量不同,且文献 未考虑有障碍物情况。图 源项参数估计误差对比图 表 同等搜索成功
19、率与搜索时间情况下不同算法性能对比表 算法粒子数量区域大小障碍物信息信息交互种类文献 无无文献 无探测值、粒子本文方法 有探测值、粒子为验证本文算法在搜索策略上的优势,在设置粒子数为 、搜索区域为 、搜索步长由公式()确定、放射源估计算法采用本文所提方法的情况下,开展了部分可观测马尔可夫决策过程 、信息熵 、自由能 、本文所提搜索策略的源项搜索实验,其搜索成功率和平均搜索时间如表所示。由表 分析可得,本文所提策略中探测与利用阶段相互平衡,使得平均搜索时间更短、效率更高。表 不同搜索策略的性能对比 项目文献 文献 文献 本文方法成功率 搜索时间 结论本文提出了一种分布式参数估计的多机器人放射源搜
20、索算法,所有机器人能够获得通信范围内邻居的测量值、后验信息,采用高斯密度函数近似后验概率分布,用信息一致性理论将多机器人交互的后验信息进行融合,有效解决单机器人测量不准及运算量大等问题。为保证完成寻源任务的快速性,降低电离辐射对机器人器件的损害,本文将信息熵与人工势场算法结合,提出了变步长的多机器人移动策略,从而提高放射源自主搜寻效率。实验结果表明,本文算法能够以更高的搜索成功率、更短的平均搜索时间完成放射源搜索任务,并且整个实验过程中考虑了障碍物屏蔽作用的影响,展现了本文所提分布式寻源算法在复杂环境中完成任务的能力。未来,将在分布式估计的基础上进一步研究分布式决策的多机器人放射源搜寻策略,实
21、现具有全局最优决策的放射源搜寻,并开展真实实验研究。参考文献 孟令飞,刘沧,杨飞莹,等 基于梯度上升算法的丢失放射源搜寻方法 核安全,():霍建文 面向多旋翼飞行器的 谱仪关键技术研究 四川绵阳:西南科技大学,郑旭 南京“”源辐射事故患者感染防治的探讨 江苏苏州:苏州大学,西南科技大学学报第 卷书书书 ,:,:,:,():,:,():,():,():,:,(),:,():,:,():,:,():王明生,肖宇峰,刘冉,等 基于自适应 采样的放射源定位算法 测控技术,():刘浩杰,肖宇峰,张华,等基于改进粒子滤波的未知放射源定位方法 原子能科学技术,():张秤,肖宇峰,刘浩杰,等基于粒子滤波和人工势场法的放射源搜寻方法 原子核物理评论 ,():,():,:张天宝,范佳敏,杜仕刚,等基于领航者模型的移动结点编队寻源方法 原子能科学技术,():,:,():,:第 期霍建文,等:分布式参数估计的多机器人放射源搜索策略