1、2023,59(16)与传统的轮式机器人或履带式机器人不同,蛇形仿生机器人凭借细长的仿生结构以及超冗余自由度,具备特有的灵活性和环境适应性,能更好地通过狭窄的通道以及崎岖的路面,因此常用于地震灾害救援、核辐射管道检测、矿道勘探等传统移动机器人难以胜任的作业环境1-3。由于蛇形机器人广阔的应用前景,自20世纪70年代起4,蛇形机器人的设计与研发就备受国内外学者关注。自适应结构设计和自主控制方法成为蛇形机器人领域内两个主要的研究热点5-7。结构方面,日本东京工业大学Hirose教授团队研发的ACM系列是蛇形机器人的典型机型。最初的ACM-III为被动轮结构,只能进行平面运动;升级为正交结构的ACM
2、-R3能够完成侧移、翻滚等简单的三向运动;ACM-R5 通过正交齿轮箱驱万向结构蛇形机器人的设计及控制策略研究李亚鑫,逯云飞,何梓玮,周政辉西南石油大学 电气信息学院,成都 610500摘要:为了解决蛇形机器人结构复杂、灵活性不足的问题,设计了一款十字轴式万向关节的蛇形机器人。该蛇形机器人由6个模块单元组成,每个模块上均带有被动轮,通过电机驱动滚珠丝杆上的滑块移动,使连杆带动万向关节偏转,以实现蜿蜒运动。不仅如此,万向节限位机构的多自由度,保证了蛇形机器人运动的灵活性。同时针对蛇形机器人建模复杂的难题,研究提出了一种基于深度强化学习的控制策略。通过MuJoCo物理引擎搭建出用于学习的交互环境,
3、并采用近端策略优化算法(proximal policy optimization,PPO)训练出最优运动策略以指导机器人动作。使用所设计的机器人模型进行学习训练,仿真实验数据表明,采用PPO算法训练出的运动策略能够在不同摩擦系数的环境下完成直行前进的任务,机器人也具备对于不同的地形环境的适应性。最后通过实物实验验证了这一方案的可行性和稳定性。关键词:蛇形机器人;万向结构;强化学习;近端策略优化算法(PPO)文献标志码:A中图分类号:TP242doi:10.3778/j.issn.1002-8331.2302-0250Research on Design and Control Strategy
4、 of Universal Joint Snake-Like RobotLI Yaxin,LU Yunfei,HE Ziwei,ZHOU ZhenghuiSchool of Electrical Engineering and Information,Southwest Petroleum University,Chengdu 610500,ChinaAbstract:In order to solve the problems of complex structure and insufficient flexibility of the snake-like robot,a snake-l
5、ike robot structure with cross shaft universal joint is proposed.The snake-like robot is composed of 6 modules,each mod-ule is equipped with a passive wheel,and the motor drives the slider on the ball screw to move,so that the connecting roddrives the universal joint to deflect,so as to realize the
6、meandering movement and ensure the flexibility of the robot smovement.At the same time,a control scheme based on deep reinforcement learning is presented for the complex prob-lem of snake robot modeling.The MuJoCo physics engine is used to build an interactive environment for learning,and theproxima
7、l policy optimization(PPO)algorithm is adopted to train the optimal motion strategy to guide the action.Afterusing the proposed model for learning and training,the simulation experimental data show that the motion strategy trainedby the PPO algorithm can complete the straight forward motion in the e
8、nvironment of different friction coefficients,whichshowing that it has a certain adaptability for different terrain environments.Finally,the feasibility and stability of thisscheme are verified by prototype physical test experiments.Key words:snake-like robot;universal structure;reinforcement learni
9、ng;proximal policy optimization(PPO)基金项目:国家自然科学基金青年基金(51905457,61907036);成都市科技局科技计划项目(2022-HM07-00046-SN,2022-HM03-00044-SN)。作者简介:李亚鑫(1987),男,工学博士,副教授,研究方向为水下仿生机器人、仿生机器人控制技术,E-mail:;逯云飞(1997),男,硕士研究生,研究方向为蛇形机器人;何梓玮(1999),男,硕士研究生,研究方向为蛇形机器人、系统辨识;周政辉(1998),男,硕士研究生,研究方向为仿生机器人。收稿日期:2023-02-20修回日期:2023-0
10、5-22文章编号:1002-8331(2023)16-0143-07Computer Engineering and Applications计算机工程与应用143Computer Engineering and Applications计算机工程与应用2023,59(16)动,加装鳍面及被动轮,能够实现水陆两栖运动8。ACM系列蛇形机器人通过对结构的不断升级,运动形式也愈发丰富。蛇形机器人的运动步态多以蜿蜒运动为主,而美国卡内基梅隆大学研制的蛇形机器人Uncle-SAM由模块化的正交关节组成,采用螺旋步态向前爬行,具有较强的翻越能力,可以实现绕柱体攀爬运动9。国内对蛇形机器人的研制稍晚于国外
11、,但通过各个团队的努力,也取得了许多成果。天津大学戴建生教授团队利用折纸原理设计了一款基于3-RSR并联机构的蛇形机器人,该机器人能够在草地、砂石等复杂环境通过伸缩运动实现前进或转弯10。但由于该机器人体积较大,可重构能力不足,在灵活性方面有待提高。中科院沈阳自动化研究所研制了一款主动关节履带式蛇形机器人,机器人本体由三个模块组成,首、尾模块通过单履带驱动,中间模块装有电源及控制系统,与首尾模块通过正交连杆连接,具有较好的越障能力及转向性能,并且通过加装注射装置,可用于废墟环境下的伤员救治。但由于关节数量较少且模块体积较大,其三维运动能力仍然受限。控制方面,由于蛇形机器人超冗余的自由度,基于运
12、动学或动力学模型设计控制参数会非常复杂11,目前主要是基于步态方程设计控制器,如北京理工大学的团队通过对蛇形机器人在攀爬过程中的平衡原理分析,设计出一种基于Serpentine曲线的转弯控制方法12。也有学者根据蛇形机器人运动具有的节律特性,提出采用中枢模式发生器(central pattern generator,CPG)来进行步态控制,如东南大学的乔贵方等人提出一种包含节律层和模式层的双层CPG控制方法,能够有效地控制机器人多模式运动13。综上所述,蛇形机器人的结构设计以及推进方式决定了蛇形机器人的运动灵活性以及不同环境下的适应能力。针对这一挑战,本文提出了一种全向连接的关节结构,通过搭载
13、丝杆传动的推进方式以驱动机器人关节全向转动,保证了蛇形机器人的灵活性。同时,为了提高蛇形机器人的适应性,本文采用深度强化学习(deepreinforcement learning,DRL)方法作为蛇形机器人控制器的控制算法,通过在仿真环境下的探索,学习出高效的蛇形运动步态,避免了传统基于运动学模型控制方法的复杂性。1蛇形机器人的设计1.1机械设计生物蛇的骨骼系统主要由无数的椎骨连接而成,彼此相连的椎骨形成的铰链式结构可以旋转一定的角度,这些结构同时作用给予蛇类运动极佳的运动灵活性。本文提出的蛇形机器人结构采用仿生的结构设计思想,整体机械结构如图1所示。蛇形机器人本体由6个模块组成,包含1个头部
14、模块、1个尾部模块以及4个连接模块,机身由质量轻、韧性强的高性能尼龙材料3D打印而成(3D打印机型号:HP Jet Fusion 3D 4200),全长约为900 mm,质量约为2.3 kg。生物蛇能够实现蜿蜒运动的关键在于蛇腹部皮肤与地面的各向异性摩擦特性,为了模拟生物蛇的效果,本文提出一种类似全向轮的轮式结构作为蛇形机器人的被动轮。经过实验,被动轮的滚珠选用 95A 硬度的TPU材料打印而成,通过模仿蛇腹部的皮肤以提供足够实现蜿蜒运动的摩擦力。结构方面,多关节、高冗余、高柔性的特点使得蛇形机器人极具身体灵活性与环境适应性,这也是蛇形机器人的优势所在。但现阶段的蛇形机器人大多采用平行连接、正
15、交连接等连接方式,采用这类连接方式的蛇形机器人三维运动能力不足,大大降低了蛇形机器人对环境的适应性。虽然也有部分学者尝试采用万向连接结构,但目前采用此类连接方式的学者在关节连接处大多数仍使用齿轮系连接,这使得蛇形机器人的运动效率低下,降低了蛇形机器人的灵活性。除此之外,还有一些学者尝试采用其他连接方式来改变现状,如气动波纹管连接、折纸机构并联连接等,但这些蛇形机器人体积较大,运动效率低下,难以满足蛇形机器人的工作场景,实用性不足。因此,在设计蛇形机器人的结构时,要考虑到蛇形机器人的结构特点,充分发挥蛇形机器人的优势,在提高蛇形机器人灵活性的同时满足小体积、高集成化的要求,同时还要兼顾蛇形机器人
16、运动的效率,以满足实用性。如图2所示,为了使蛇形机器人具备更好的空间灵活性以加强对环境的适应能力,机器人模块之间采用十字轴万向节式的关节连接。该关节由两个相同的十字轴万向节对称连接而成,因为万向关节偏转时需要承受较大的负荷,所以为了确保其具备较高的结构强度,关节均采用高强度的铝合金CNC加工而成。万向节上装有呈现正交排布的球形连杆,该连杆与驱动杆连接,通过驱动杆的伸缩移动,带动万向关节偏转,进而使蛇形机器人摆动。这种万向关节与正交连接相比,优点在于一个关节即可实现俯仰与偏航方向的角度偏转,大幅度减少了关节数量及机械冗余度,提高了蛇形机器人的灵活性。推进系统则采用滚珠丝杆的传动方式,这种传动结构
17、能高效地将扭力转化为尾部模块连接模块头部模块150 mm900 mm图1蛇形机器人整体结构Fig.1Overall structure of snake-like robot1442023,59(16)推力,精度高,传动平稳,便于精确地控制关节角度的偏转。滚珠丝杆上的滑块通过驱动杆与万向节上的球形连杆连接,从而带动关节偏转。考虑到蛇形机器人的体积以及对扭矩的需求,选用型号为 Maxon DC Motor139885的直流减速电机,满足小体积的同时能够提供较大的扭力。电机的正转或反转带动滚珠丝杆正旋或反旋,同时滚珠丝杆上的滑块向前或向后滑动,滑块上的驱动连杆牵引十字轴万向节左右偏转,进而蛇形机器
18、人的关节转动使得模块外层的被动轮与地面摩擦以产生推进力,实现蜿蜒仿生运动。1.2电气电路设计为了实现对蛇形机器人的运动控制,同时兼顾蛇形机器人的灵活性和小体积优势,从而更好地完成狭窄环境的探测任务,本文对蛇形机器人的控制电路进行集成化和模块化设计,电气电路设计如图3所示。由于后续会使用强化学习控制策略,而Raspberry Pi系列微控制器具备较强的算力,能与计算机视觉适配以处理物体检测的任务,又由于蛇形机器人体积的限制,选用小体积的Raspberry Pi Zero W为主控板,通过微型电机驱动板Dual Motor Driver TB6612控制每个模块内部的俯仰电机组与偏航电机组,进而控
19、制蛇形机器人关节发生偏转完成运动。蛇形机器人的6个模块中每个模块内部都装有一个Raspberry Pi Zero W控制板,头部模块装有2个偏航电机,尾部模块装有2个俯仰电机,4个身体模块内部都有2个俯仰电机与2个偏航电机,以具备三维运动的能力。6个主控板均采用Socket的通信方式与上位机PC端通信,完成信息交互。主控板与电机驱动板由12 V直流电源供电,以满足多组电机的高续航需求。2控制策略由于蛇形机器人高冗余的特点,自身具备多个自由度,加上蛇形机器人所处的环境复杂多样,致使其姿态灵活多变,这些因素使得蛇形机器人的运动学与动力学参数高度非线性。因此,建立蛇形机器人的运动学模型或动力学模型变
20、得非常困难,想要通过动力学或运动学建模的方式控制蛇形机器人变得非常棘手。为了充分发挥蛇形机器人灵活的身体结构优势,表现出对环境良好的适应性,本文采用深度强化学习的控制方案,将蛇形机器人的控制问题看作一个智能体与环境进行交互,并通过一系列动作来获取最大奖励的问题。在机器人仿真物理引擎MuJoCo中构建与现实相似的虚拟环境,用于本文所设计的蛇形机器人与仿真环境交互,从而获取所需要的数据样本。在算法方面,本文采用训练较为稳定的近端策略优化算法(proximal policy optimization,PPO)14,经过参数化的深度神经网络,进一步得到最优策略,用于蛇形机器人的控制系统。2.1交互环境
21、由于使用实体机器人进行随机环境下的动作训练周期长,变数大,并且会导致机体因大量动作而磨损,需要较为逼真的仿真环境来代替实体机器人进行随机环境下的前期探索。为了创建这一准确、高效、可观测的机器人交互环境,本文选择MuJoCo机器人仿真物理引擎。使用三维设计软件Solidworks中建立好的蛇形机器人模型作为与环境交互的主体,转换为MuJoCo可识别的xml格式模型文件。模型文件中的标签定义了蛇形机器人的外观和物理属性,其中形状、尺寸、质量均按照实物参数设定,初始头坐标位置为坐标原点。文件中的标签描述了机器人关节的运动学和动力学属性,包括关节运动的位置和角度偏转范围,蛇形机器人实物中单个关节的偏转
22、范围为-41,41,因此对蛇形机器人模型的关节角偏转限制为-41,41。同时为了接近现实环境,达到更好的仿真效果,参照现实中的不同地面环境设置了一组摩擦系数,用于蛇形机器人学习出更具适应性的运动策略。所创建的交互环境能够实现可视化显示,效果如图4所示。滚珠滑块十字轴万向节滚珠丝杆电机驱动连杆被动轮图2蛇形机器人关节结构Fig.2Joint structure of snake-like robotSocket通信主控板RaspberryPi Zero W电机驱动板直流电机主控板RaspberryPi Zero W电机驱动板直流电机主控板RaspberryPi Zero W电机驱动板直流电机PW
23、M信号图3电气电路图Fig.3Electrical circuit diagram图4蛇形机器人可视化训练环境Fig.4Visualization training environment of snake-like robot李亚鑫,等:万向结构蛇形机器人的设计及控制策略研究145Computer Engineering and Applications计算机工程与应用2023,59(16)2.2基于PPO算法的控制方案在搭建好训练所需要的交互环境后,需要针对蛇形机器人的训练目标选择合适的强化学习算法,以达到最终想要实现的控制效果。强化学习中智能体与环境的交互过程可以简单描述为一个智能体在状
24、态St处,执行策略()st所推荐的动作at后,立即获得奖励r()st,at并到达新的状态st+1的过程。智能体通过不断与环境交互,形成一条状态和动作轨迹,最终使得所获得的累计奖励最大化。由于蛇形机器人的运动形成的是一个高维且连续的动作空间,而DRL算法中AC(Actor-Critic)架构的算法常常用于解决连续动作空间问题15,其中PPO算法训练较为稳定且易于部署,因此本文选择AC架构的PPO算法作为用于训练的DRL算法。本文采用 PyTorch 框架下的 PPO 算法,其算法结构如图 5所示,包含两个 Actor神经网络(Actor-new和Actor-old),一个Critic神经网络。首
25、先,agent使用Actor-new中的现有策略与环境交互后获得一个batch的数据;其次,Actor网络与Critic网络开始对这一个batch的数据进行学习。接着,当采集完 batch的数据后,使用Critic网络得到价值函数V()s,与 batch中存储的奖励计算后可得到优势函数At,进一步通过得到的价值损失函数LVF对Critic网络中的参数进行优化。最后,将batch数据中T个state值用于Actor网络学习,通过计算得到新旧两个策略的比率rt(),并进一步得到策略损失函数LCLIP,用于更新Actor网络中的策略。以上即为PPO算法的整体流程,其中优势函数At、价值损失函数LVF
26、以及策略损失函数LCLIP的计算规则如下:At=-V()st+rt+rt+1+T-tV()sT(1)LVF()=()V()st-Vtargt2(2)LCLIP()=min()rt()At,clip()rt(),1-,1+At(3)rt()=()at|stold()at|st(4)式(1)中0,1,为折扣因子,用于改变不同时刻奖励rt的权重;式(2)中价值损失函数LVF是对价值函数V()s的平方误差计算,Vtargt为t时刻的目标价值函数;式(3)中为一项超参数,取0.2;rt()为t时刻新旧策略的比率。在提前规定好蛇形机器人的状态参数后,通过调整PPO算法中的各项参数,并且根据蛇形机器人的蜿蜒
27、步态设定好奖励函数,最终经过大量训练后使智能体逼近最优运动策略轨迹,即可得到一条用于执行前进任务的最终轨迹。整体控制方案如图6所示,主要由蛇形机器人系统层和强化学习决策层两部分构成。其中,强化学习决策层主要为基于DRL的PPO算法控制器,蛇形机器人系统层包括蛇形机器人各个关节的角度参数以及自身在所处环境中的状态信息,包括位置关系以及行动路径等。首先,在算法训练过程中,蛇形机器人基于当前的状态st生成所有可选择的动作空间,并基于提前设计好的奖励函数R,选择能够获得最大奖励值的行为与环境互动,输出动作at。其次,通过动作映射关系将决策层输出的动作值映射为角度变换参数,输入蛇形机器人系统层,蛇形机器
28、人通过驱动电机模块适量旋转,使得关节偏转到对应决策层所描述的角度变换值。蛇形机器人通过各关节的偏转而向目标位置移动d距离,从而蛇形机器人到达新的状态st+1。最后,蛇形机器人系统层将下一时刻的状态值st+1和奖励R输出到强化学习决策层,并开始新一轮的训练,直至到达目标位置。2.3PPO算法的要素设计为了训练出最优的控制策略,强化学习算法中参数的选取尤为重要。对于蛇形机器人的步态控制,本文的状态空间包括蛇形机器人各个模块的质心坐标、各个关节的角度以及头部模块的速度。动作空间主要为用于驱动蛇形机器人前进的各个关节角,相关参数的设计细节如下:(1)状态s的选取本文为实现直线前行的控制目标,选取每个观
29、测状态s=()x,y,z,,其中x以水平向右为正方向,y以水平向上为正方向,z以垂直xoy平面竖直向上为正方向,蛇形机器人系统层关节偏转基于DRL的PPO算法控制器强化学习决策层蛇形机器人关节电机模块动作映射st+1dstatR1,23,45,67,89,10图6蛇形机器人控制框图Fig.6Control diagram of snake-like robotActor-newT时间内s集合Ss0,s1,stbatchst,at,rt,st+1Actor-old优势函数At价值损失函数LVF策略损失函数LCLIPratioCriticenvrt()=(at|st)/old(at|st)oldV
30、(s)/图5PPO算法结构图Fig.5Structure diagram of PPO algorithm1462023,59(16)()x,y,z表示每个关节的位置变化,表示每个关节的角度变化,为了使最终的训练结果与机器人的关节角变化范围相匹配,限制-41,+41。初始状态定义为s=()8,0,0,0,即蛇形机器人初始位于x=8的水平位置,训练目标为沿x反方向直线前进。(2)动作a的选取蛇形机器人的运动由各个关节的角度变化叠加而实现,这些动作往往是高维且连续的,本文选取6个蛇形机器人模块间的5个关节角为动作空间,每个关节又由前后两个万向节连结而成。为符合机器人的实际设计,角度的动作变化-41
31、,+41,通过关节角的一系列变化,实现机器人的直线前进。(3)奖励函数r的设计奖励函数的设计是DRL控制器的关键,如何根据训练目标设计出能够迅速收敛的奖励函数尤为重要。本文的奖励函数定义为:r=k1r1+k2r2(5)其中:r1=-()xt-xt-1(6)r2=0,d0.1r,d0.1(7)式中,r1为当前时刻的水平坐标与上一时刻水平坐标差值的相反数,由于本文设定的初始水平位置为8,当机器人沿水平方向向左移动时获得的奖励值为正数,当沿着目标方向反向运动时,则该值为负数,受到惩罚。r2中的d为机器人头部模块与目标点的欧氏距离,表示为d=()xt-X2+()yt-Y2,其中目标点()X,Y=()0
32、,0,奖励值r取10,当机器人与目标点距离小于0.1时获得此奖励,否则此奖励为0。k1和k2为衡量两项奖励的权重系数。通过上述奖励函数设计,可使得最终训练结果收敛,进而得到最优运动策略。3实验为了验证本文所设计的万向结构蛇形机器人的性能以及机器人使用PPO算法学习运动策略的能力,本文分别进行了仿真实验与实物实验。首先通过仿真实验验证所训练出的策略用于运动控制的性能,再通过改变仿真环境下地面的摩擦系数以及地形环境,来模拟蛇形机器人在不同路面及管道环境下的运动能力。由于仿真环境中的参数以及蛇形机器人的模型参数都与实际参数相近,本文最后通过实物实验进一步去验证蛇形机器人的运动能力。3.1仿真实验在仿
33、真实验中,智能体通过策略指导执行相应的动作,得到一个奖励后进入新的状态。不断重复上述行为直至收敛,可以得到一条累计奖励最大的运动轨迹,该策略即为最优策略或近似最优策略。蛇形机器人依据最终收敛后的最优策略指导动作的选择,从而完成直线前进的任务。仿真实验中所用的物理引擎为 MuJoCo机器人仿真引擎,交互环境为图4所示环境,使用PPO算法训练过程中的相关参数见表 1,总训练回合数为6 000次。图7为经过6 000回合训练后每100回合所获取的平均累计奖励曲线,曲线由递增趋势直至最终收敛,表明PPO算法通过迭代得到了最优解。根据训练出的最优策略指导蛇形机器人动作,最终移动轨迹如图 8 所示,训练任
34、务为从右往左沿直线前进。每张图片的拍摄间隔2 s,由图8展示的行驶轨迹可看出,蛇形机器人能够以较小的误差完成直线行驶的任务,并且呈现出较好的蜿蜒步态。为了使蛇形机器人能够适应不同的地形环境,本文针对现实中不同路面以及管道环境进行了训练。以现实路面摩擦系数的具体值为参照,分别设置了摩擦系数参数学习率衰减因子裁剪参数更新频率每回合最大步长总回合数数值0.000 30.9950.22 0001 5006 000表1PPO算法相关参数Table 1Related parameters of PPO algorithm1 0002 0003 0004 0005 0006 000回合数80604020累计
35、奖励(每100回合)0图7直线运动奖励函数曲线Fig.7Reward function curve for rectilinear motion(a)t=0 s(b)t=2 s(c)t=4 s(d)t=6 s(e)t=8 s(f)t=10 s图8仿真环境位移轨迹图Fig.8Displacement trajectory diagrams insimulation environment李亚鑫,等:万向结构蛇形机器人的设计及控制策略研究147Computer Engineering and Applications计算机工程与应用2023,59(16)为0.41、0.60以及0.84的地面环境,
36、用于模拟现实中的雨天沥青路面、干燥沥青路面以及水泥路面等常见的地面环境,并以摩擦系数为1的地形环境作为参照,比较不同摩擦系数对蛇形机器人运动性能的影响。训练结果如表2所示,表中数据表明,蛇形机器人的运动速度并非由摩擦力增大而变快,这也与北京科技大学团队的研究成果相契合,即蜿蜒运动的推进摩擦力由被动轮与地面接触位置的法向和切向摩擦系数决定16,当处于最佳摩擦系数比附近时,蛇形机器人获得较大的前进速度。管道环境设计为半径0.6 m的下半圆弧地形,用于模拟现实环境中蛇形机器人工作在类似油气管道的特种环境。图9为蛇形机器人在管道环境下的奖励函数曲线,可见蛇形机器人在管道环境下的训练能够快速收敛并获得最
37、大奖励。图10展示了经过训练后蛇形机器人在管道环境中不同时刻的运动状态,呈现出良好的蜿蜒运动步态,其坐标变化如图11所示。蛇形机器人在管道中以0.625 m/s的速度运动到目标位置,其速度较平面地形更快,因为在管道环境中,被动轮接触面的摩擦系数比更大,从而获得更大的推力向前运动。以上仿真实验结果表明,蛇形机器人能够在不同摩擦系数的地面实现蜿蜒运动步态,并且在管道中的蜿蜒步态运动效率更高,这也与蛇形机器人的特种作业环境相契合。3.2实物实验由于直接使用实体机器人进行训练工作量巨大,并且大量重复性动作会使机器人机体磨损,因此实物实验依据仿真训练收敛后的数据完成。通过将PPO算法训练出的关节动作序列
38、按照相应顺序输入给蛇形机器人,机器人通过周期性蜿蜒步态完成直线行驶任务,机体实物如图12所示。图13为蛇形机器人直线运动测试,从左到右依次为0时刻、直行20 s时刻以及直行40 s时刻的运动状态。由测试结果可看出,采用PPO算法训练出的控制策略进行直线运动时沿X方向的偏差较小,并且展现出较好的蜿蜒姿态。直行速度为0.032 5 m/s,与仿真环境有较大差异,这是因为现实环境与仿真交互环路面雨天沥青路面干燥沥青路面水泥路面理想环境摩擦系数0.410.600.841.00位移时间/s42424242距离/m7.011.06.58.0速度/(m/s)0.1670.2620.1550.190表2不同摩
39、擦系数路面的训练结果Table 2Training results of pavements withdifferent friction coefficients1 0002 0003 0004 0005 0006 000回合数600500400300200100累计奖励(每100回合)0图9管道运动奖励函数曲线Fig.9Reward function curve for motion in pipeline(a)t=0 s(b)t=1.6 s(c)t=3.2 s(d)t=4.8 s(e)t=6.4 s(f)t=8.0 s图10管道环境位移轨迹图Fig.10Displacement traj
40、ectory diagram inpipeline environment2004006008001 000训练步数65432101蛇形机器人位移/m0X方向Y方向Z方向图11管道运动坐标变化图Fig.11Coordinate change plot of motion in pipeline图12蛇形机器人样机Fig.12Snake-like robot prototypet=0 sx=0 mt=20.0 sx=0.62 mt=40.0 sx=1.30 mXYOXYOXYO图13蛇形机器人直行测试Fig.13Snake-like robot straight motion test14820
41、23,59(16)境始终无法完全一致,如现实中电机的转动存在一定的滞后,而仿真环境中并不考虑这类问题。4结束语在现有蛇形机器人的结构基础上,本文提出一种万向连接的关节结构,提高了蛇形机器人的运动灵活性,同时也减少了机器人的关节数量。针对蛇形机器人的控制难题,提出一种深度强化学习控制方案,即通过PPO算法训练出一条最优运动策略,通过这一策略指导蛇形机器人运动。通过仿真与实物实验验证了这一控制方案的可行性与结构设计的合理性。为了进一步实现更佳的运动效果,例如适应不同地形下的运动以及其他运动姿态的可行性,后续计划进一步完善机器人的结构,并且加装相应的传感器,通过实物训练完成更多复合任务。参考文献:1
42、 董炳艳,张自强,徐兰军,等.智能应急救援装备研究现状与发展趋势J.机械工程学报,2020,56(11):1-25.DONG B Y,ZHANG Z Q,XU L J,et al.Research statusand development trend of intelligent emergency rescueequipmentJ.Journal of Mechanical Engineering,2020,56(11):1-25.2 LIU J D,TONG Y C,LIU J G.Review of snake robotsin constrained environmentsJ.Ro
43、botics and AutonomousSystems,2021,141:103785.3 张军豪,陈英龙,杨双喜,等.蛇形机器人:仿生机理、结构驱动和建模控制J.机械工程学报,2022,58(7):75-92.ZHANG J H,CHEN Y L,YANG S X,et al.Snake robotics:bionic mechanism,structure,actuation,modeling and con-trolJ.Journal of Mechanical Engineering,2022,58(7):75-92.4 HIROSE S.Biologically inspired
44、robots:snake-like locomo-tors and manipulatorsM.Oxford:Oxford University Press,1993:220.5 栾宪超,常健,王聪,等.主动关节履带式蛇形救援机器人结构参数多目标优化设计J.机器人,2022,44(3):267-280.LUAN X C,CHANG J,WANG C,et al.Multi-objectiveoptimization design of structural parameters for a crawlertype snake-like rescue robot with active join
45、tJ.Robot,2022,44(3):267-280.6 KOMURA H,YAMADA H,HIROSE S.Development ofsnake-like robot ACM-R8 with large and mono-tread wheelJ.Advanced Robotics,2015,29(17):1081-1094.7 JIA Y Y,MA S G.A coach-based Bayesian reinforcementlearning method for snake robot controlJ.IEEE Roboticsand Automation Letters,20
46、21,6(2):2319-2326.8 苏中,张双彪,李兴城.蛇形机器人的研究与发展综述J.中国机械工程,2015,26(3):414-425.SU Z,ZHANG S B,LI X C.Present situation and devel-opment tendency of snake-like robotsJ.China Mechani-cal Engineering,2015,26(3):414-425.9 WRIGHT C,BUCHAN A,BROWN B,et al.Design andarchitecture of the unified modular snake robot
47、C/2012IEEE International Conference on Robotics and Automa-tion,Saint Paul,2012:4347-4354.10 魏巍,庄哲明,唐昭,等.基于3-RSR并联机构的蛇形机器人本体构型设计与运动性能研究J.机械工程学报,2021,57(23):21-33.WEI W,ZHUANG Z M,TANG S,et al.Body configu-ration design and kinematic performance research ofsnake-like robot based on 3-RSR parallel mec
48、hanismJ.Journal of Mechanical Engineering,2021,57(23):21-33.11 方勇纯,朱威,郭宪.基于路径积分强化学习方法的蛇形机器人目标导向运动J.模式识别与人工智能,2019,32(1):1-9.FANG Y C,ZHU W,GUO X.Target-directed locomo-tion of a snake-like robot based on path integral rein-forcement learningJ.Pattern Recognition and ArtificialIntelligence,2019,32(1)
49、:1-9.12 WANG C,PENG Y B,LI D F,et al.Turning strategy ofsnake-like robot based on serpenoid curve under cloudassisted smart conditionsJ.Cluster Computing,2019(22):13041-13053.13 乔贵方,韦中,张颖,等.基于双层级CPG的3维蛇形机器人运动控制方法J.机器人,2019,41(6):779-787.QIAO G F,WEI Z,ZHANG Y,et al.Double-layered CPGbased motion con
50、trol method of the 3D snake-like robotJ.Robot,2019,41(6):779-787.14 SCHULMAN J,WOLSKI F,DHARIWAL P,et al.Proxi-mal policy optimization algorithmsJ.arXiv:1707.06347.15 郭宪,方勇纯.仿生机器人运动步态控制:强化学习方法综述J.智能系统学报,2020,15(1):152-159.GUO X,FANG Y C.Locomotion gait control for bionic:a review of reinforcement le