收藏 分销(赏)

结合先验知识与深度强化学习的机械臂抓取研究.pdf

上传人:自信****多点 文档编号:645710 上传时间:2024-01-23 格式:PDF 页数:10 大小:1.82MB
下载 相关 举报
结合先验知识与深度强化学习的机械臂抓取研究.pdf_第1页
第1页 / 共10页
结合先验知识与深度强化学习的机械臂抓取研究.pdf_第2页
第2页 / 共10页
结合先验知识与深度强化学习的机械臂抓取研究.pdf_第3页
第3页 / 共10页
亲,该文档总共10页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、西 安 工 程 大 学 学 报J o u r n a l o f X ia n P o l y t e c h n i c U n i v e r s i t y 第3 7卷第4期(总1 8 2期)2 0 2 3年8月V o l.3 7,N o.4(S u m.N o.1 8 2)引文格式:缪刘洋,朱其新,丁正凯,等.结合先验知识与深度强化学习的机械臂抓取研究J.西安工程大学学报,2 0 2 3,3 7(4):9 2-1 0 1.M I AO L i u y a n g,Z HU Q i x i n,D I N G Z h e n g k a i,e t a l.R o b o t i c a

2、 r m g r a s p i n g s t u d y c o m b i n i n g p r i o r k n o w l e d g e a n d d e e p r e i n f o r c e m e n t l e a r n i n gJ.J o u r n a l o f X ia n P o l y t e c h n i c U n i v e r s i t y,2 0 2 3,3 7(4):9 2-1 0 1.收稿日期:2 0 2 3-0 4-2 6 修回日期:2 0 2 3-0 6-2 7 基金项目:国家自然科学基金(5 1 8 7 5 3 8 0;6

3、2 0 6 3 0 1 0);泰州市科技计划项目(T G 2 0 2 1 1 7)第一作者:缪刘洋(1 9 9 5),男,硕士研究生。通信作者:朱其新(1 9 7 1),男,教授,博士,研究方向为伺服控制、控制理论及应用。E-m a i l:b o b 2 1 c n 1 6 3.c o m结合先验知识与深度强化学习的机械臂抓取研究缪刘洋1,朱其新2,丁正凯3,王 旭1(1.苏州科技大学 电子与信息工程学院,江苏 苏州 2 1 5 0 0 9;2.苏州科技大学 机械工程学院/建筑智慧节能江苏省重点实验室/苏州市共融机器人技术重点实验室,江苏 苏州 2 1 5 0 0 9;3.苏州科技大学 电子

4、与信息工程学院/建筑智慧节能江苏省重点实验室,江苏 苏州 2 1 5 0 0 9)摘要 在应用深度强化学习(d e e p r e i n f o r c e m e n t l e a r n i n g,D R L)实现机械臂自主行为决策过程中,高维连续的状态-动作空间易引起数据采样效率低及经验样本质量低,最终导致奖赏函数收敛速度慢、学习时间长。针对此问题,提出一种引入先验知识的D R L模型。该模型与机械臂逆运动学相结合,在D R L采样阶段引入先验知识指导智能体(A g e n t)采样,解决学习过程中的数据采样效率低、经验样本质量低的问题;同时通过网络参数迁移的方式验证引入先验知识的

5、D R L模型在面对新任务时仍具有较强的泛化能力;最后,利用P y t h o n和C o p p e l i a S i m仿真平台进行联合仿真实验。结果表明:引入先验知识的D R L模型比原始模型的学习效率提升了1 3.8 9%、1 2.8 2%,完成任务的成功率提高了1 6.9 2%、1 3.2 5%;在新任务中,学习率提升了2 3.0 8%、2 3.3 3%,成功率提高了1 0.7%、1 1.5 7%。关键词 机械臂;先验知识;深度强化学习;网络迁移开放科学(资源服务)标识码(O S I D)中图分类号:T P 2 4 2.6;T P 3 9 9 文献标志码:AD O I:1 0.1

6、3 3 3 8/j.i s s n.1 6 7 4-6 4 9 x.2 0 2 3.0 4.0 1 2R o b o t i c a r m g r a s p i n g s t u d y c o m b i n i n g p r i o r k n o w l e d g e a n d d e e p r e i n f o r c e m e n t l e a r n i n gM I A O L i u y a n g1,ZHU Q i x i n2,D I NG Z h e n g k a i3,WANG X u1(1.S c h o o l o f E l e c t r

7、o n i c a n d I n f o r m a t i o n E n g i n e e r i n g,S u z h o u U n i v e r s i t y o f S c i e n c e a n d T e c h n o l o g y,S u z h o u 2 1 5 0 0 9,J i a n g s u,C h i n a;2.S c h o o l o f M e c h a n i c a l E n g i n e e r i n g/J i a n g s u P r o v i n c e K e y L a b o r a t o r y o

8、f I n t e l l i g e n t B u i l d i n g E n e r g y E f f i c i e n c y/S u z h o u K e y L a b o r a t o r y o f C o e x i s t i n g-C o o p e r a t i v e-C o g n i t i v e R o b o t T e c h n o l o g y,S u z h o u U n i v e r s i t y o f S c i e n c e a n d T e c h n o l o g y,S u z h o u 2 1 5 0

9、0 9,J i a n g s u,C h i n a;3.S c h o o l o f E l e c t r o n i c a n d I n f o r m a t i o n E n g i n e e r i n g/J i a n g s u P r o v i n c e K e y L a b o r a t o r y o f I n t e l l i g e n t B u i l d i n g E n e r g y E f f i c i e n c y,S u z h o u 2 1 5 0 0 9,J i a n g s u,C h i n a)A b s

10、t r a c t I n t h e p r o c e s s o f a p p l y i n g d e e p r e i n f o r c e m e n t l e a r n i n g(D R L)t o r e a l i z e a u t o n o m o u s b e h a v i o r a l d e c i s i o n-m a k i n g o f r o b o t i c a r m s,t h e h i g h-d i m e n s i o n a l c o n t i n u o u s s t a t e-a c t i o n

11、s p a c e i s p r o n e t o l o w d a t a s a m p l i n g e f f i c i e n c y a n d l o w q u a l i t y o f e m p i r i c a l s a m p l e s,w h i c h u l t i m a t e l y l e a d s t o s l o w c o n v e r g e n c e o f t h e r e w a r d f u n c t i o n a n d l o n g l e a r n i n g t i m e.T o a d d

12、r e s s t h i s p r o b l e m,a D R L m o d e l t h a t i n t r o d u c e s p r i o r k n o w l e d g e w a s p r o p o s e d.T h e m o d e l w a s c o m b i n e d w i t h t h e i n v e r s e k i n e m a t i c s o f t h e r o b o t i c a r m,a n d p r i o r k n o w l e d g e w a s i n t r o d u c e

13、d t o g u i d e t h e a g e n t d u r i n g t h e s a m p l i n g p h a s e o f D R L,a d d r e s s i n g t h e i s-s u e s o f l o w d a t a s a m p l i n g e f f i c i e n c y a n d p o o r q u a l i t y o f e x p e r i e n c e s a m p l e s d u r i n g t h e l e a r n i n g p r o c e s s.F u r t

14、h e r m o r e,t h e i n t r o d u c e d p r i o r k n o w l e d g e D R L m o d e l s s t r o n g g e n e r a l i z a t i o n c a p a b i l i t i e s w e r e v e r i f i e d w h e n f a c i n g n e w t a s k s t h r o u g h n e t w o r k p a r a m e t e r t r a n s f e r.L a s t l y,j o i n t s i m

15、u l a t i o n e x p e r i m e n t s w e r e c o n d u c t e d u s i n g P y t h o n a n d t h e C o p p e l i a S i m p l a t f o r m.T h e r e s u l t s s h o w t h a t t h e D R L m o d e l w i t h t h e i n t r o d u c t i o n o f p r i o r k n o w l e d g e i m p r o v e s t h e l e a r n i n g

16、e f f i c i e n c y b y 1 3.8 9%a n d 1 2.8 2%,a n d t h e s u c c e s s r a t e o f c o m p l e t i n g t h e t a s k i n c r e a s e s b y 1 6.9 2%a n d 1 3.2 5%t h a n t h e o r i g i n a l m o d e l;i n t h e n e w t a s k,t h e l e a r n i n g r a t e i m p r o v e s b y 2 3.0 8%a n d 2 3.3 3%,

17、a n d t h e s u c c e s s r a t e i m p r o v e s b y 1 0.7%a n d 1 1.5 7%.K e y w o r d s r o b o t i c a r m s;p r i o r k n o w l e d g e;d e e p r e i n f o r c e m e n t l e a r n i n g;n e t w o r k m i g r a t i o n0 引 言 在机器人领域中,机械臂的应用最为广泛1,是自动化应用中不可或缺的一部分,特别是在搬运、分拣、装配、医疗等工作场景中扮演着重要的角色。机械臂不仅提

18、高了作业安全和产品质量,而且降低了生产成本与工作强度2。然而,机械臂通常面向特定的生产线,按照设定程序完成重复且技术含量低的工作3。在复杂的非标准环境下,如何保证机械臂准确高效地完成特定工作依然存在巨大的挑战,虽然国内外学者已经提出了使用智能算法对机械臂进行路径规划4-5,但是传统的控制方法在面对陌生环境时仍然存在一定缺陷,例如缺乏自适应能力等6。2 0世纪五六十年代人工智能兴起,为机械臂的控制策略提供了新思路7。不同于传统的固定命令控制方法8,强化学习与机械臂技术相结合,使机械臂借助强化学 习的试错 机制与 环 境 交 互 获 取 信息9,从而具有强大的学习能力,极大地提高了机械臂对陌生环境

19、和新任务的适应能力。强化学习主要用来解决决策问题1 0,通过最大化累计奖赏方式找到最优策略1 1。但在机械臂行为决策能力的研究中还存在机械臂数据特征提取困难、任务空间大等问题,D R L为此提供了良好的解决方案。D R L是深度学 习(d e e p l e a r n i n g,D L)和 强 化 学 习(r e i n-f o r c e m e n t l e a r n i n g,R L)的交叉领域,不仅具有D L的线性拟合和特征提取能力1 2,还具有R L的决策能力,且在机械臂控制领域已有大量的研究与应用。文献1 3 设计了一种具有卷积神经网络(c o n v o l u-t i

20、 o n a l n e u r a l n e t w o r k s,C NN)的深度Q网络(d e e p Q-n e t w o r k,D QN),以图片作为输入学习策略,机械臂在自身环境与位置未知的情况下,可将小球推入球网。文献1 4 使用深度确定性策略梯度(d e e p d e t e r m i n i s t i c p o l i c y g r a d i e n t,D D P G)训练机械臂到达三维空间内的目标点,同时设计了多种奖赏函数对机械臂进行训练,验证了合理的奖赏函数可以加快算法的收敛。文献1 5 使用D D P G训练机械臂实现推、抓、扔小球等任务,文中使用

21、事后经验回放(h i n d s i g h t e x p e r i e n c e r e p l a y,HE R)算法与D D P G相结合的方式来处理学习过程中奖赏稀疏的问题。实验结果表明,使用HE R可以提高简单实验的成功率,但在复杂任务中HE R的能力有所下降。文献1 6 提出一种位姿最佳算法以降低稀疏奖赏对机械臂训练的影响。文献1 7 对D D P G做出2点改39第4期 缪刘洋,等:结合先验知识与深度强化学习的机械臂抓取研究进以加快学习速度和提高性能:一是使用非对称输入,其中A c t o r网络使用通过C NN网络处理图像数据输入,而C r i t i c网络使用仿真环境

22、反馈的状态(例如物体的位置、机械臂的关节角度等)作为输入;二是通过增加一组状态预测网络与C NN网络并行一起输入进A c t o r网络。上述内容通过D R L方法实现了机械臂的自主规划与学习,能够在未知环境下完成任务;但是部分研究通过减少机械臂的关节数量来降低训练难度。因此,在机械臂使用D R L的学习过程中仍存在数据采样效率低、经验样本质量低、高维连续的状态-动作空间等问题,进而导致D R L的奖赏函数收敛速度慢、学习效率低,直接影响机械臂的训练效果。目前机械臂与强化学习的结合主要集中于路径自主规划、目标物体抓取等方面。现有研究的抓取目标多为球体,机械臂末端仅需保证夹爪与物体的中心点重合即

23、可,无须考虑抓取时的姿态。而在抓取的研究中,多数仅针对同一位姿物体分析机械臂的任务完成情况,未考虑训练完成后D R L算法在新任务中的泛化能力。针对上述问题,本文以D D P G和S o f t m a x深度双确定性策略梯度(简称S D 3)1 8为原始模型,在原始模型中引入先验知识,并将模型与机械臂逆运动学相结合对机械臂自主抓取的行为决策进行训练,以奖赏函数的收敛速度和任务的成功率为指标对原始及引入先验知识的4种模型性能进行比较分析。同时,将训练所得的网络参数进行迁移,分析比较引入先验知识前后算法的泛化能力。为符合实际,本文使用长方体作为机械臂自主抓取对象,同时要求夹爪以特定的姿态执行抓取

24、动作。1 相关知识1.1 强化学习(R L)R L是机器学习的范式和方法论之一,用于描述和解决智能体(A g e n t)在与环境交互过程中通过奖赏最大化的方式以达成策略优化或实现特定目标的问题1 9。R L问题可以转化为马尔可夫决策过程(m a r k o v d e c i s i o n p r o c e s s,MD P)。通 常MD P由(S,A,P,R,)五元组构成,其中S为状态空间,A为动作空间,P为状态转移概率矩阵,R为奖赏函数,为折扣因子。A g e n t在给定状态s(sS)下选取一个动作a(aA)的函数称为策略。策略为A g e n t在状态s下选取动作a的概率:(a|

25、s)=PAt=a|St=s。A g e n t执行每一步动作得到的奖赏:Gt=k=0 Rt+k+1。A g e n t通过最大化Gt寻找最优策略*。R L算法可依据有无模型进行分类。其中有模型算法需要对环境进行建模,但模型往往无法充分考虑到现实环境中的各种因素总是存在误差,导致在现实应用中达不到仿真训练的效果2 0,且无法适应动态环境;而无模型R L算法无须对环境进行精确建模,从而避免上述问题。此外,R L算法还可以按照基于值函数和基于策略进行分类。基于值函数的R L计算量大、存在震荡不收敛的现象2 1,在高维连续动作空间中的交互过程难以学习最优策略。而策略函数可以针对连续动作空间直接产生动作

26、值,很好地解决连续动作空间问题。针对上述问题,本文选择无模型D R L方法进行机械臂自主抓取训练。1.2 深度确定性策略梯度(D D P G)文献2 2 基于A c t o r-C r i t i c(A-C)和D QN的理念架构提出D D P G算法解决连续空间问题。D D P G是一种基于策略的D R L算法,策略可以描述为一个包含参数的函数:(s,a)=Pa|s,。对应策略目标函数为:J()=EG。策略目标函数可以通过梯度上升或下降的方法实现A g e n t与环境互动过程中的累计奖赏最大化。文献2 3 提出策略目标函数的随机策略梯度:J()=E l n(s,a)Q(s,a)(1)式中:

27、(s,a)为策略函数;Q(s,a)为状态价值函数。D D P G包含了A c t o r和C r i t i c网络,A c t o r由在线A c t o r网络(s|)和目标A c t o r网络(s|)组成,C r i t i c由在线C r i t i c网络Q(s,a|Q)和目标C r i t i c网络Q(s,a|Q)组成。其中A c t o r负责与环境互动和生成动作,C r i t i c负责评价A c t o r并指导后续动作。D D P G中具有经验回放机制,在A g e n t学习过程中通过批量采样经验样本来更新网络参数。其中在线A c t o r网络根据在线C r i

28、t i c网络输出的Q值进行更新。随机策略梯度存在计算量大等问题,文献2 4 提出了确定性策略梯度,使用确定性策略梯度(d e t e r-m i n i s t i c p o l i c y g r a d i e n t,D P G)进行网络更新,更新梯度为J=1NiaQ(s,a|Q)|s=si,a=i(s|)|s=si(2)49 西安工程大学学报 第3 7卷其中Q(s,a|Q)|s=si,a=i为在线C r i t i c网络在s=si,a=i状态下输出的Q值,(s|)|s=si为在线A c t o r网络在s=si状态下输出的动作。在线C r i t i c网络则利用最小化在线C r

29、 i t i c网络的目标与输出的Q值误差进行更新。定义误差为损失函数:L=1Ni(yi-Q(si,ai|Q)2(3)式中:yi=ri+1+Q(si+1,(si+1|)|Q);Q(si+1,(si+1|)|Q)为目标C r i t i c网络输出的Q值。更新梯度为QL=1Ni(yi-Q(s,a|Q)|s=si,a=i)QQ(s,a|Q)|s=si,a=i(4)而目标A c t o r网络和目标C r i t i c网络通过滑动平均方式进行更新,方式如下:Q Q+(1-)Q +(1-)(5)式中:Q、Q、分别为在线A c t o r、目标A c t o r、在线C r i t i c和目标C r

30、 i t i c网络参数;(0,1)为学习率。1.3 S o f t m a x深度双确定性策略梯度S D 3算法在双延迟D D P G(简称T D 3)基础上使用了双重A c t o r网络和C r i t i c网络,同时引入了S o f t m a x函数来更新值函数,有效地改善高估和低估偏差对性能的影响2 5。学习过程中,从2组目标C r i t i c网络选取较小的Q 值并通过S o f t m a x函数更新在线C r i t i c网络参数。其中连续动作空间的S o f t m a x通过对Q 值采样进行无偏估计:s o f t m a x(Q(s,a)=Eape x p(Q(s

31、,a)Q(s,a)p(s)Eape x p(Q(s,a)p(a)(6)式中:为S o f t m a x算子参数;Q(s,a)为目标C r i t i c网络输出的Q值;p(a)为概率密度函数;a=(s)+为动作策略,其中为随机噪声来防止过拟合并降低方差,以提高目标Q值估计准确性。2 算法改进及实施本节将深入研究算法改进和实施的关键步骤。首先着眼于算法改进来提高算法的性能,随后转向算法实施,详细说明如何将改进后的算法应用在机械臂自主行为决策中。2.1 算法改进在机械臂自主行为决策过程中,原始D R L模型难以处理高维连续的状态-动作空间引起的数据采样效率低及经验样本质量低等问题,本文对算法的改

32、进具体如下。2.1.1 先验知识D R L与机械臂结合的本质是D R L指导机械臂自主探索和学习行为策略。诸多研究表明,机械臂使用D R L方法解决行为决策问题时,面临的最大问题为机械臂高维连续的动作空间导致数据采样效率低和经验样本质量低。该问题直接导致训练数据不足,使得D R L无法发挥在特征提取和拟合方面的强大能力2 6,最终导致前期学习效率低和训练时间过长。如果通过增加经验池和采样大小来提高前期学习效率,则将导致算力成本增加以及单步学习时间增长。针对上述问题,本文在D R L算法中引入先验知识,即通过专家指导的方式以达到加快奖赏函数收敛速度和减少训练时长的目的。本文主要在采样阶段引入先验

33、知识,先验知识的本质为专家经验。在原始模型中,使用完全随机的方式进行采样,收集的经验样本随机性强。虽然该方式可以完全发挥A-g e n t的探索能力,但是直接导致样本质量不够好,无法采集到十分有效的样本,导致数据采样效率低,A g e n t难以在有限的样本中学到好的效果,如此情况下,想要得到良好的训练效果,则需要庞大的样本数量,浪费大量的算力及时间成本。在引入先验知识后,本文在一定概率下使用专家经验指导代替完全随机进行采样。引入先验知识的D R L模型如图1所示。图 1 引入先验知识的D R L模型F i g.1 D R L m o d e l w i t h t h e i n t r o

34、 d u c t i o n o f p r i o r k n o w l e d g e59第4期 缪刘洋,等:结合先验知识与深度强化学习的机械臂抓取研究图1中,(s,a)表示当前状态及当前动作,(s,a,r,s)表示当前状态、当前动作、奖赏和下一状态。在采样阶段,A g e n t以一定概率选择通过先验知识或随机方式作为动作输出,经验池溢出后,由A c t o r网络输出动作。采样前期,以随机采样为主并以低概率伴随实施专家指导采样,随着采样数量增加逐步提高概率直至完成采样工作。在该方式下,前期大量的随机采样在保证A g e n t的探索能力同时避免其陷入局部最优;后期的专家指导采样确保经

35、验样本质量的同时保证数据的采样效率。本文假设被抓物体相对于参考坐标系的位姿信息T已知,并将T作为先验知识用于指导A g e n t采样。具体实施如下:在随机采样阶段,以概率P进行采样。剩余1-P则通过T对机械臂的末端运动方向以及R G 2夹爪的横滚角、俯仰角、偏航角(r o l l、p i t c h、y a w,简称R P Y)旋转方向进行指导,运动和旋转的幅度在动作空间A中随机选取。为避免先验知识限制A g e n t的探索能力和采样数据的多样性,同时保证先验知识对A g e n t的有效指导,设定Pi+1=0.9 9Pi,P0=0.9,其中i为回合数。2.1.2 状态-动作空间优化为降低

36、状态空间和动作空间的空间复杂度,减少计算量,降低神经网络的拟合难度,本文将D R L与机械臂逆运动学相结合。在该方式下,A g e n t无须同时观察机械臂的关节信息并进独立控制;只需观察和控制夹爪的位姿,降低状态与动作空间的维度。A g e n t在输出动作时,仅需要根据当前状态输出夹爪的位姿,以机械臂逆向运动学(i n v e r s e k i n e-m a t i c s,I K)的方式,将夹爪的位姿转换为关节角度。本文使用六自由度机械臂作为实验对象,其雅克比矩阵存在不可逆的情况,使用伪逆进行求解时在奇异点处难以求解。因此本文使用阻尼最小二乘法进行I K求解,在奇异点处仍能稳定求解。

37、2.2 算法实施本节主要介绍引入先验知识的D R L模型与机械臂结合实现自主行为决策的具体实施方法。2.2.1 MD P建模使用D R L解决机械臂的自主抓取问题,首先需要将问题建模为MD P。状态空间、动作空间和奖赏函数的定义如下所示。1)状态空间S。本文设定A g e n t在机械臂每步动作上观测的状态向量st为px,py,pz,。其中,px,py,pz 为夹爪的夹持点相对于参考坐标系的空间位置信息,为夹爪相对于参考坐标系的R P Y角信息。2)动作空间A。A g e n t根据观察到的状态输出动 作 向 量at=dx,dy,dz,d,d,d,其 中,dx,dy,dz 为R G 2夹持点相

38、对于基坐标系在 x,y,z3个方向上位 移的偏移值,d,d,d为R G 2的R P Y角相对于基坐标系在 x,y,z3个方向上转动的偏移角度,转动顺序为xyz。限定夹持点在3个方向上每次动作范围为-2 0 0 mm,2 0 0 mm,夹爪的R P Y角转动范围为-2 0,2 0 。3)奖赏函数R。R L的基本思想就是通过最大化奖赏寻找最优策略,奖赏函数对训练速度和学习结果有着非常重要的作用。在机械臂的自主行为决策训练过程中,易出现奖赏稀疏问题,该问题会直接影响奖赏函数的收敛和机械臂的训练效果。合理的奖赏函数,在一定程度上可以解决奖赏稀疏的问题。因此本文在机械臂每进行一个动作后给予一个适当的立即

39、奖赏,具体奖励函数包含6个部分。a)若机械臂或夹爪与被抓物体、地面、本身发生碰撞,则给予r1=-1 0 0的负奖励。b)若A g e n t给定的动作超出机械臂的运动范围,则给予r2=-1 0 0的负奖励。c)若机械臂正确完成抓取任务,则给予r3=2 0 0的正奖励。d)若夹爪夹持点与上一步相比,靠近被抓物体则给予正奖励,相反则给予负奖励。奖赏函数r4=l n(dt-dt+1-1),其中dt为第t步夹爪夹持点与被抓物体中心的距离,dt+1为第t+1步时的距离。e)为让A g e n t每个回合使用较少的步数完成目标,每个回合内A g e n t每执行一次动作给予-1的负奖励,限定每回合最大步数

40、为5 0步,超过则立即终止该回合,并给予r5=-5 0的负奖励。f)抓取时,夹爪在目标物体一定范围内时,根据R P Y角的偏差给予一定的负奖赏。奖赏函数r6=-e|RT-R|-e|PT-P|-e|YT-Y|+3,其中Rt、Pt、Yt分别为第t步夹爪的R P Y角,R、P、Y为目标物体的R P Y角。综上,奖赏函数为R=r1+r2+r3+r4+r5+r6-1。2.2.2 网络结构神经网络在D R L中用来拟合值函数和特征提取,实现端到端的学习。为保证2种算法对比的有效性,S D 3采用与D D P G一致的网络结构与激活函69 西安工程大学学报 第3 7卷数。A c t o r和C r i t

41、i c网络结构如图2所示。(a)A c t o r网络结构(b)C r i t i c网络结构图2 A c t o r与C r i t i c网络结构F i g.2 A c t o r a n d C r i t i c n e t w o r k s t r u c t u r e图2中,2种网络均由2层全连接层组成,A c t o r的激活函数采用了R e l u和T a n h,而C r i t i c的激活函数则为R e l u。所有在线网络和目标网络结构完全一致。A c t o r网络第1层有1 2 8个神经元,第2层有6 4个神经元。A c t o r网络由状态向量st经过全连接输

42、入第1层神经元,再经过R e l u函数输入到第2层神经元,最后通过T a n h函数输出动作a。C r i t i c网络第1层由2组数量为1 2 8的神经元组成,第2层由6 4个神经元组成。C r i t i c网络由状态向量st和动作向量at经过全连接输入第1层的一组神经元,然后,将第1层的2组神经元进行拼接,再经过R e l u函数输入到第2层神经元,最后输出Q值。2.2.3 超参数超参数在D R L的学习过程中也起着至关重要的作用,合理的参数设置可以加快学习速度同时避免A g e n t陷入局部最优。为确保对比实验的有效性,S D 3与D D P G相同类型参数设置同样的参数值,通过

43、对各参数不断地测试与调整,最终奖赏折扣因子、软更新学习率、A c t o r网络学习率、C r i t i c网络学习 率、经验池 大小、采样大 小分别设置 为0.9、0.0 0 5、0.0 0 1、0.0 0 1、5 0 0 0 0、1 0 2 4;S D 3算法的Q值采样数量k设置为5 0。2.2.4 算法流程D D P G和S D 3算法流程主要分为采样和学习两个阶段。整体算法流程具体如图3所示。图 3 算法实施流程F i g.3 A l g o r i t h m i m p l e m e n t a t i o n p r o c e s s图3中,在 采 样 阶 段:首 先 初

44、始 化A c t o r和C r i t i c网络参数,获取初始状态;然后根据概率,从先验知识或随机方式选择一种输出动作,并获取下一状态;最后计算即时奖励并存储经验。学习阶段:A c t o r网络根据状态输出动作,同时获取下一状态;然后计算计时奖励并存储经验;最后从经验池随机选取样本更新A c t o r和C r i t i c网络参数。3 仿真实验与结果分析本文 使 用C o p p e l i a S i m软 件 进 行 仿 真 实 验。C o p p e l i a S i m是一款专业的机器人仿真软件,具有强大的动力学和运动学仿真能力,支持多种物理引擎仿真,同时还支持C、M a

45、t l a b、P y t h o n等多种编程语言远程连接。本文在C o p p e l i a S i m中搭建机械臂模型,物理引擎为B u l l t e。使用P y t h o n编写D R L机械臂控制程序,A c t o r和C r i t i c神经网络基于P y-t o r c h框架搭建,通过远程应用程序编程接口实现P y t h o n与C o p p e l i a S i m通信连接,完成D R L训练C o p p e l i a S i m中机械臂的自主抓取任务。3.1 仿真实验本文以一款型号为“UR 5”的六自由度协作机械臂作为仿真实验对象,机械臂末端执行器为R

46、G 2夹爪,UR 5的基坐标系作为参考坐标系,UR 5+R G 2的D-H参数如表1所示。表 1 UR 5+R G 2 D-H参数表T a b.1 D-H p a r a m e t e r t a b l e o f UR 5+R G 2编号i/()di/mmai-1/mmi-1/()1 0 7 5 0 9 02 9 0 04 2 5 03 0 03 9 2 04 9 0 1 1 0 0 9 05-9 0 9 5 0-9 06 0 2 6 2.2 5 0 079第4期 缪刘洋,等:结合先验知识与深度强化学习的机械臂抓取研究 表1中i为关节转角,di为连杆偏距,ai-1为连杆长度,i-1为连杆

47、转角。为符合实际工程应用情况,将抓取对象设置为1 5 0 mm5 0 mm3 0 mm的长方体。本文使用2种位姿的长方体进行实验,一种用于自主抓取训练,一种用于迁移网络参数后检验模型的泛化能力。其中,用于训练的长方体对于参考坐标系的中心坐标为0 mm,8 0 0 mm,1 5 mm,参考坐标系的R P Y角为0,0,9 0 。检验泛化能力的长方体中心坐标为1 0 mm,7 5 0 mm,6 0 mm,R P Y角 为 4 5,0,9 0 。实验流程:首先,训练机械臂对平放在地面的长方体抓取;然后,使用本次训练的神经网络参数对不同位姿的同一长方体进行抓取,检验2种算法的泛化能力;最后,从2次实验

48、的奖赏函数收敛情况和抓取成功率对2种算法进行比较。3.2 结果分析奖赏函数收敛情况是评价D R L算法有效性的重要指标之一。机械臂自主抓取本质上来说是一种行为决策问题,仅从奖赏函数的收敛状况进行分析评价不具有客观性。为符合实际应用场景,本文从奖赏函数、抓取成功率以及迁移训练所得网络参数对不同位姿的同一物体抓取情况进行对比分析。抓取成功判断指标:夹爪的夹持点与被抓物体的中心点重合(位置误差1 c m),夹爪与物体的R P Y角一致,且横滚角、俯仰角、偏航角的误差均小于0.5。3.2.1 先验知识与原始模型比较分析D D P G、S D 3算法引入先验知识前后4种模型的训练结果如图4所示,图4(a

49、)为4种模型奖赏图,图4(b)为4种模型抓取成功率。(a)训练奖赏(b)训练抓取成功率图 4 D D P G、S D 3算法引入先验知识前后4种模型训练结果F i g.4 T r a i n i n g r e s u l t s o f f o u r m o d e l s b e f o r e a n d a f t e r i n t r o d u c i n g p r i o r k n o w l e d g e i n t o D D P G a n d S D 3 a l g o r i t h m s从图4可以看出,所有模型在起始学习阶段获得的奖赏和成功率都很低,但随着

50、训练回合数的增加均逐步提高并收敛。根据本文奖赏函数设定,机械臂成功完成抓取任务A g e n t就会获得很大奖赏,相反任务失败或训练步数超过限制奖赏则会很低。比较各模型,引入先验知识的S D 3模型和D D P G模型奖赏收敛速度较快,分别在1 5 5 0和1 7 0 0回合时趋于稳定,而S D 3和D D P G原始模型分别在1 8 0 0和1 9 5 0回合左右逐步稳定,比原始模型的学习效率提升了1 3.8 9%、1 2.8 2%。在抓取成功率上,引入先验知识的S D 3模型和D D P G模型在2 0 0 0回合的成功率达到2 7.9 1%、2 2.3 5%,相比原始模型成功率分别提高了

展开阅读全文
部分上传会员的收益排行 01、路***(¥15400+),02、曲****(¥15300+),
03、wei****016(¥13200+),04、大***流(¥12600+),
05、Fis****915(¥4200+),06、h****i(¥4100+),
07、Q**(¥3400+),08、自******点(¥2400+),
09、h*****x(¥1400+),10、c****e(¥1100+),
11、be*****ha(¥800+),12、13********8(¥800+)。
相似文档                                   自信AI助手自信AI助手
百度文库年卡

猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服