收藏 分销(赏)

基于改进DQN算法的茶叶采摘机械手路径规划.pdf

上传人:自信****多点 文档编号:2266274 上传时间:2024-05-24 格式:PDF 页数:8 大小:3.21MB
下载 相关 举报
基于改进DQN算法的茶叶采摘机械手路径规划.pdf_第1页
第1页 / 共8页
基于改进DQN算法的茶叶采摘机械手路径规划.pdf_第2页
第2页 / 共8页
基于改进DQN算法的茶叶采摘机械手路径规划.pdf_第3页
第3页 / 共8页
亲,该文档总共8页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、1 9 8 中国农机化学报2 0 2 3年D O I:1 0.1 3 7 3 3/j.j c a m.i s s n.2 0 9 55 5 5 3.2 0 2 3.0 8.0 2 7李航,廖映华,黄波.基于改进D QN算法的茶叶采摘机械手路径规划J.中国农机化学报,2 0 2 3,4 4(8):1 9 8-2 0 5L i H a n g,L i a o Y i n g h u a,H u a n g B o.R e s e a r c h o n p a t h p l a n n i n g o f t e a p i c k i n g m a n i p u l a t o r b a

2、 s e d o n i m p r o v e d D QN J.J o u r n a l o f C h i n e s e A g r i c u l t u r a l M e c h a n i z a t i o n,2 0 2 3,4 4(8):1 9 8-2 0 5基于改进D Q N算法的茶叶采摘机械手路径规划*李航,廖映华,黄波(四川轻化工大学,四川宜宾,6 4 4 0 0 0)摘要:为解决名优茶叶采摘过程中老叶、茎梗等干扰物导致采摘路径较长、效率低、采摘品质低等问题,提出一种基于目标识别的改进型深度强化学习方法。图像目标经过预处理后,利用H I S颜色模型获取不同深度的目

3、标对象,通过参数通道的设置获取嫩芽的采摘位置,分析采摘对象的外形特征,利用速度、角速度、距离误差等作为奖励函数的导向因素,实现对深度强化学习的改进。通过建立目标函数、目标网络以及经验回收实现规划路径的强化训练,从而完成采摘过程的路径规划设计。利用G a z e b o仿真平台对采摘路径进行强化学习训练,模拟障碍物实现采摘路径的优化,完成规划算法的验证,并得到随着训练次数的增加,改进型深度强化学习方法对采摘路径优化有效,定位切割精度控制在0.0 0 5m范围内,路径优化效率提高3.6%。关键词:茶叶采摘;图像处理;改进D QN;路径规划;G a z e b o仿真;采摘机械中图分类号:S 2 4

4、 文献标识码:A 文章编号:2 0 9 55 5 5 3(2 0 2 3)0 8 0 1 9 80 8收稿日期:2 0 2 2年2月2 7日 修回日期:2 0 2 2年6月8日*基金项目:四川省科技厅重点研发项目(2 0 2 1 Y F G 0 0 5 6、2 0 2 1 Y F G 0 0 5 0 0)第一作者:李航,男,1 9 9 3年生,四川达州人,硕士;研究方向为移动机器人的路径规划、定位导航及机电一体化控制等。E-m a i l:l i h a n g s u s e.e d u.c n通讯作者:廖映华,男,1 9 7 6年生,四川宜宾人,博士,教授;研究方向为智能化设备开发以及智能

5、移动机器人路径规划等。E-m a i l:8 2 7 4 1 0 0 0 5 q q.c o mR e s e a r c h o n p a t h p l a n n i n g o f t e a p i c k i n g m a n i p u l a t o r b a s e d o n i m p r o v e d D Q NL i H a n g,L i a o Y i n g h u a,H u a n g B o(S i c h u a n U n i v e r s i t y o f S c i e n c e a n d E n g i n e e r i n g

6、,Y i b i n,6 4 4 0 0 0,C h i n a)A b s t r a c t:I n o r d e r t o s o l v e t h e p r o b l e m s o f l o n g p i c k i n g p a t h s,l o w e f f i c i e n c y a n d l o w p i c k i n g q u a l i t y c a u s e d b y o l d l e a v e s,s t e m s a n d o t h e r i n t e r f e r e n c e s i n t h e p i

7、 c k i n g p r o c e s s o f f a m o u s t e a l e a v e s,a n i m p r o v e d d e e p r e i n f o r c e m e n t l e a r n i n g m e t h o d b a s e d o n t a r g e t r e c o g n i t i o n i s p r o p o s e d.A f t e r t h e i m a g e t a r g e t i s p r e-p r o c e s s e d,t h e H I S c o l o r m o

8、 d e l i s u s e d t o o b t a i n t a r g e t o b j e c t s o f d i f f e r e n t d e p t h s,t h e p i c k i n g p o s i t i o n o f t h e s h o o t i s o b t a i n e d t h r o u g h t h e s e t t i n g o f p a r a m e t e r c h a n n e l s,t h e s h a p e c h a r a c t e r i s t i c s o f t h e p

9、 i c k i n g o b j e c t a r e a n a l y z e d,a n d t h e s p e e d,a n g u l a r v e l o c i t y,a n d d i s t a n c e e r r o r a r e u s e d a s t h e g u i d i n g f a c t o r s o f t h e r e w a r d f u n c t i o n t o r e a l i z e t h e i m p r o v e m e n t o f d e e p r e i n f o r c e m e

10、 n t l e a r n i n g.T h e p a t h p l a n n i n g d e s i g n o f t h e p i c k i n g p r o c e s s i s a c c o m p l i s h e d b y e s t a b l i s h i n g o b j e c t i v e f u n c t i o n s,o b j e c t i v e n e t w o r k s,a n d e m p i r i c a l r e c o v e r y t o a c h i e v e i n t e n s i v

11、 e t r a i n i n g o f t h e p l a n n e d p a t h s.G a z e b o s i m u l a t i o n p l a t f o r m i s u s e d t o c a r r y o u t r e i n f o r c e m e n t l e a r n i n g t r a i n i n g o f p i c k i n g p a t h,s i m u l a t e o b s t a c l e s t o a c h i e v e t h e o p t i m i z a t i o n o

12、 f p i c k i n g p a t h,c o m p l e t e t h e v e r i f i c a t i o n o f t h e p l a n n i n g a l g o r i t h m,a n d g e t w i t h t h e i n c r e a s e o f t r a i n i n g t i m e s,t h e i m p r o v e d d e e p r e i n f o r c e m e n t l e a r n i n g m e t h o d i s e f f e c t i v e f o r p

13、 i c k i n g p a t h o p t i m i z a t i o n,t h e l o c a l i z a t i o n c u t t i n g a c c u r a c y i s c o n t r o l l e d w i t h i n 0.0 0 5m,a n d t h e e f f i c i e n c y o f p a t h o p t i m i z a t i o n i s i m p r o v e d b y 3.6%.K e y w o r d s:t e a p i c k i n g;i m a g e p r o c

14、 e s s i n g;i m p r o v e d D QN;p a t h p l a n n i n g;G a z e b o s i m u l a t i o n;p i c k i n g m a c h i n e r y0 引言目前,国内外市场对于名优茶的需求量较大,并且随着中国经济不断向外拓展,茶叶市场增长速度快1。名优茶采摘时效性、采摘完整率和采摘品质是保证名优茶产量的关键因素2。为提高名优茶的产量和质量,茶叶采摘技术的研究逐渐增加。采摘技术主要包括人工采摘、半机械采摘、智能采摘三种方式,其中人第4 4卷 第8期2 0 2 3年8月中国农机化学报J o u r n a

15、 l o f C h i n e s e A g r i c u l t u r a l M e c h a n i z a t i o nV o l.4 4 N o.8A u g.2 0 2 3第8期李航 等:基于改进D QN算法的茶叶采摘机械手路径规划1 9 9 工采摘的效率低、成本高,但采摘精度高;机械采摘产量大,效率较高,但嫩芽的完成率较低,优质茶产量小;智能采摘具有效率高、成本低、采摘精度高、设备价格贵的特点。智能采摘过程中采摘路径易受阻挡干扰,导致嫩芽采摘完整率低,采摘切割不准确等问题,需要设计一种智能终端采摘设备,利用图像处理和运动控制技术,解决因运动路径规划而影响名优茶的采摘效

16、率低的问题。孙肖肖等3提出在深度学习的基础上利用目标检测算法YO L O,根据大、小尺度检测并结合超绿特征及O S TU算法实现目标图像的分割,使得目标对象特征更加明显,便于智能终端的采摘;汤一平等4提出基于机器视觉设计的智能采茶机,利用机器视觉识别嫩茶同时自动调整采茶机割刀平台高度,使得割刀面与茶陇蓬面有较好的吻合,通过自动调整切割台的高度可以解决采茶机老嫩茶叶一刀切的问题;汪琳等5提出通过提高机械手的运动跟踪精度,减小机械手各关节之间的运动误差,从而提高茶叶采摘的运动定位精度,采用自适应鲁棒P D控制策略,实现各关节的精确控制且迅速达到期望路径,但对于如何识别嫩芽目标还需要解决。姜宏涛等6

17、提出在传统分水岭算法的基础上,引入BM 3 D去噪和灰度拉伸法分割图像,利用S UR F算法对目标对象进行特征点数据进行采集,然后去除误匹配点,最小外接矩形法与双目测距原理方法基础上完成采摘点的三维空间定位,最后利用机械手完成定位运动,但该方法对于机械手的运动路径缺少优化。袁加红等7提出基于R G B颜色空间及组合因子对图像进行灰度处理,利用维纳滤波和梯度增强技术进行滤波去噪,通过大律法和迭代法分割图像获取二值图像,最后通过质心法对目标进行定位。毛腾跃等8提出一种便携式真空吸附采茶机,通过网格划分模型,利用G AM B I T软件得到网格质量信息定义扭曲率的百分比以及边界类型和区域模型,最后分

18、析对比得到真空度和吸入功率,验证采茶机的可靠性和可行性。针对目前名优茶采摘过程中易受阻碍物干扰,导致采摘完整率低等问题,利用图像识别技术将叶梗、叶茎等阻碍物进行判断,获得名优茶嫩芽的切割点在三维空间中的空间位置坐标。然后通过对茶树面进行分析判别处理得到嫩芽分布集中区域,利用本文运动路径规划算法得到采摘运动路径,根据改进型D QN算法将采摘路径进行强化训练,优化采摘运动路径。1 名优茶嫩芽特征1.1 茶叶形态标定茶叶类型较多,由于我国地域的气候环境复杂,茶叶种植方式较多,所以茶叶的形态特征各异,其中名优茶作为茶叶中的优品,其形态可将茶叶分为单芽、单芽单叶、单芽双叶、单芽三叶9。茶叶采摘需要根据茶

19、叶特征进行采摘技术的开发,由于优质嫩芽的采摘是根据识别嫩芽叶梗的位置,然后通过切割叶梗而获得嫩芽,嫩芽叶梗切割位置如图1所示。图1 优质嫩芽切割位置及形态分析F i g.1 Q u a l i t y s h o o t c u t t i n g p o s i t i o n a n d m o r p h o l o g i c a l a n a l y s i s为获取嫩芽的切割位,需要对嫩芽的几何特征进行采集标注,用于嫩芽信息的提取,根据嫩芽在茶树上的生长特性可知,优质茶叶的采摘时间只有短暂的半个月,所以采摘最优时间段的优质茶叶形态如图1所示,为便于茶叶成熟度和嫩芽形态的识别,通过

20、对优质茶叶形态进行数字化识别,定义其中嫩芽规范的参数,图1中a1表示嫩芽的开合宽度,d1表示嫩芽的生长高度,d2表示嫩芽的最大外围宽度。1.2 嫩芽图像处理嫩芽图像特征的识别容易受到外界环境的干扰,其中光照对于特征的提取影响最大,由于茶叶采摘周期短,为解决在长时段光照强度不均匀条件下提取嫩芽图像特征的问题,利用相机获取茶叶采摘范围内图像,对特征图像进行灰度处理,调整灰度阈值寻找嫩芽区域,通过特征点的提取获得采摘区域,根据对采摘区域进行滤波、去噪等预处理,得到如图2所示的处理效果图。图2 嫩芽图像预处理F i g.2 S p r o u t i m a g e p r e p r o c e s

21、 s i n g图像预处理可以得到灰度图,为获取嫩芽在图像实际空间中的坐标位置,需要进一步处理得到嫩芽切2 0 0 中国农机化学报2 0 2 3年割位的坐标位置图,由此引入H S I颜色模型,调整色调、饱和度和亮度可以通过图像体现出不同空间位置的深浅度,如图3所示。由于嫩芽的颜色与老叶、茎梗明显不同,所以调整色调获取嫩芽的图像,利用R通道的参数设置得到基于嫩芽的颜色图像,如图4所示为处理后的嫩芽图像特征。图3 嫩芽H S I空间图F i g.3 S p r o u t H S I s p a t i a l m a p图4 嫩芽图像特征F i g.4 S p r o u t i m a g e

22、 f e a t u r e s2 采摘机械手模型分析名优茶的采摘形式较多,采摘形式主要包括人工采摘、半自动采摘、全自动采摘等方式,其中依靠全自动采摘设备的智能采摘方式效率较高,但是在实际运用过程中也存在采摘精度、嫩芽识别误差大等问题,为了解决采摘路径受到障碍阻挡的问题,利用机械手来提高采摘效率,并对机械手进行模型分析。2.1 机械手运动学模型分析根据茶树的外形特点,并结合名优茶的采摘要求,利用三自由度的机械手进行嫩芽的采摘,由于高度、环境、稳定性、位移距离等方面的要求,三自由度的机械手更加适合嫩芽的采摘1 0。如图5所示为三自由度机械手的结构简化模型,主要包括两个机械手臂、一个旋转机械切割爪

23、,通过联动控制可以实现切割爪的抓取,其中根据每个自由度旋转点建立了局部坐标系分别为Xa-Ya-Za、Xb-Yb-Zb、Xc-Yc-Zc、Xd-Yd-Zd,便于空间坐标系运动点的表示。机械手基座在空间运动坐标表示则是基于全局坐标系X-Y-Z。坐标系Xa-Ya-Za通过控制Za轴旋转可使得手臂在Xa-Ya平面旋转运动,旋转Ob-Xb轴,可实现Ob-Oc手臂在Zb-Yb平面运动,再旋转Oc-Xc使得Oc-Od在Yc-Zc平面运动,最后通过对Od-Zd轴的运动控制即可得到切割爪在Xd-Od-Yd平面上做旋转运动。图5 机械手简化模型图F i g.5 M a n i p u l a t o r s i

24、m p l i f i e d m o d e l d i a g r a m三自由度机械手的运动控制需要符合采摘机械手的运动特点,同时由于机械手的运动空间范围有限,所以对机械手的运动极限空间进行分析,根据如图6所示为机械手运动空间的极限范围,机械切割手爪的旋转直径为 D,虚线轮廓的运动表示为机械手的活动空间,所以采摘过程需要满足机械手运动空间覆盖嫩芽的采摘范围。图6 机械手运动空间范围F i g.6 R o b o t m o v e m e n t s p a c e r a n g e2.2 空间坐标转换机械手联动控制主要是基于图像识别的嫩芽采摘点,从而带动机械手的联动控制,利用已知坐标

25、点的变换带动多坐标系的位置变化。全局坐标系中令嫩芽采摘位置点的空间坐标位置为x,y,z ,机械手的固定基座在全局坐标系的空间坐标为A xa,ya,za ,已知O A-O B轴的距离为La b,O B-O C轴的距离为Lb c,第8期李航 等:基于改进D QN算法的茶叶采摘机械手路径规划2 0 1 O C-O D轴的距离为Lc d,采摘切割点到O D原点的距离为L,所以采摘点在末端坐标系Xd-Yd-Zd中坐标值为N xd,yd,-L 。全局坐标系需要对于局部坐标系进行空间转换,所以D 坐标系通过C 、B 、A 坐标系的转换实现采摘点坐标在全局坐标中的位置确定,通过式(1)可得坐标系的连续转换关系

26、。DON=DCNCBNBANAON(1)机械手 的 固 定 基 座 在 全 局 坐 标 中 的 位 置 坐 标AON=xayaza T。坐标系之间的转换,主要分为平移转换、旋转、复合旋转等方式,其中O A坐标系转换到O B坐标系为的方式为平移转换,如式(2)所示。BAN=CBxNCByNCBzN1000 c o s-s i n0 s i nc o s +00za (2)坐标系O B到坐标系O C之间的转换关系为Y轴方向的位置变化,即可得到O B坐标系在O C坐标系中的坐标转换,如式(3)所示。CBN=DCxNDCyNDCzN+0Lb c0 (3)D坐标系与C坐标系之间的转换过程不仅需要平移,还

27、需要按照Oc-Xc轴旋转才能实现坐标转换,其中R表示为旋转矩阵,通过转换可转换坐标,如式(4)所示。DCN=xdyd-L 1000 c o s-s i n0 s i nc o s +00Lc d (4)最后通过坐标系的计算转换可以得到,采摘切割点在全局坐标系中空间坐标位置点。2.3 运动学分析机械手运动控制主要是通过控制关节电机的运动,多自由度机械手则需要联动控制每个电机的运动位移和速 度,并需要 对机械手进 行运动学分 析,如式(5)所示的转换矩阵计算公式可以得到相邻转动关节的转换矩阵,其中i=1,2,3,4分别表示不同关节,s表示正弦函数,c表示余弦函数,di表示机械臂的长度,i表示绕Zi

28、轴从Xi-1旋转到Xi的角度,i表示绕Xi轴,从Zi-1旋转到Zi的角度1 1。i-1iT=c i-s i0dis ic ic ic i-s i-s idis is ic is ic ic idi0001 (5)利用转换矩阵的乘积可以计算机械手的运动学方程,通过转换矩阵可以得到坐标系D 的位姿相对于全局坐标系中位姿如式(6)所示,其中c2 3表示第二个关节旋转角度与第三个关节旋转角度的余弦值乘积,而s2 3则表示第二个关节旋转角度与第三个关节旋转角度的正弦值乘积,c2、c1表示关节1和关节2的旋转角度余弦值,s1、s2表示关节1和关节2的旋转角度正弦值,Lb c、Lc d分别表示不同坐标系的原

29、点距离。DoN x=c1Lb cc2+Lc dc2 3-Lc ds2 3-Lb cs1DoN y=s1Lb cc2+Lc dc2 3-Lc ds2 3+Lb cc1DoN z=-Lc ds2 3-Lb cs2-Lc dc2 3 (6)3 改进D Q N路径规划多自由度机械手的运动路径设计是基于图像识别技术判断影响嫩芽采摘阻挡物的位置,根据规划的采摘路径,利用机械手的运动控制技术,实现采摘过程。在此过程中需要利用路径规划算法实现对空间轨迹的规划,结合控制技术实现采摘。3.1 D Q N规划算法名优茶采摘环境复杂,受到各种外部环境干扰大,基于人工采摘的思维模式,能够准确判断嫩芽的位置,而图像处理和

30、运动控制技术比较与人工,精度方面在技术上存在差距,但效率方面则远超过人工。目前深度强化学习(D e e p Q-l e a r i n g,简称D Q N)不仅结合深度学习在环境信息的感知能力而且还对强化学习的决策能力进行融合,生产了一种类似于人类思维方式的学习能力,根据识别对象的特征提出决策策略1 2。D Q N学习算法用于环境复杂、干扰因素多的茶叶采摘技术具有很大的优势,如图7所示为强化学习算法模型。图7 强化学习算法模型F i g.7 R e i n f o r c e m e n t l e a r n i n g a l g o r i t h m m o d e lD QN主要是通

31、过引入经验回收提高采集样本的关联 性 和 利 用 率,通 过 固 定 目 标 值Q降 低 不 平 稳性1 3。D QN算法的实现主要分为三个步骤分别为建立目标函数、目标网络和引入经验回收1 4。1)建立目标函数。D QN目标函数利用Q-l e a r i n g构建得到,利用式(7)可得更新后的动作值和状态值。Q(s,a)Q(s,a)+r+m a xQ(s,a)-Q(s,a)(7)式中:(s,a)当前的状态和动作值;2 0 2 中国农机化学报2 0 2 3年(s,a)下一步的状态和动作值;Q 更新后的状态值。当运动到s状态时则可以得到奖励值r,然后对其进行评估计算。对于目标状态动作值函数y可以

32、利用贝尔曼方程表示,如式(8)所示。y=r+m a xQ(s,a,)(8)式中:神经网络结构的权值参数;衰减系数。由此损失函数的均方差损失函数L()表达式如式(9)所示。L()=E(y-Q(s,a,)2(9)2)建立目标网络。D QN利用目标网络和预测网络评估当前状态-动态值函数,目标网络基于神经网络得到目标值Q,利用当前目标值Q估计下一时刻的目标值Q,预测网络则可以使用随机梯度下降法,不断更新网络参数,实现端到端的学习控制,梯度下降法的表达式如式(1 0)所示。L()=E(y-Q(s,a,)Q(s,a,)(1 0)3)经验回放。经验回收主要是解决样本的关联性和效率利用问题。机器人和环境交互时

33、,可获得样本数据,把样本数据存储到建立的经验池中,从经验池中随机抽取小部分数据用于训练样本,再将训练样本送入神经网络中训练。经验回收主要通过利用样本来提高学习效率。3.2 D Q N算法改进智能体通过D QN算法可以实现自身对环境的认知强化,通过训练可以达到理想的轨迹规划1 5。D QN在运动控制过程中,通过智能体和环境的交互利用奖励值函数,实现采摘过程的训练,得到优化的采摘路径。运动过程中从当前状态值到下个状态值分配的奖励值不同,则会影响训练的收敛速度和程度,茶叶采摘过程需要满足嫩芽实时性、准确性的采摘要求,故以准确识别采摘位置为目标,设计具有明确导向性的奖励值函数,通过强化学习得到最优动作

34、策略,在训练过程中碰到阻挡物时即返回起始点,往复训练不断探索最优采摘路径。改进后的D QN算法模型如图8所示,根据改进的控制算法实现对采摘路径的规划。改进的奖励函数是根据切割点到采摘点的空间位置距离、运动的速度、角速度来实现奖惩机制的导向,同时由于强化学习在学习开始阶段可能出现全是负面学习,导致学习进度较慢,也会出现全是积极学习,导致学习过程不全面,所以奖励值函数从中间难度点开始学习,能够更加全面地掌握学习过程,所以改进后的奖励值函数表达式如式(1 1)所示。r=1NNi=1l o gr(v,w)R(v,w,e)-R(v,w,e)(1 1)其中R(v,w,e)表示当前速度v、角速度w和距离误差

35、e值状态变化函数,R(v,w,e)表示预测速度v、角速度和距离误差值e状态变化函数,N表示学习次数,通过状态的变化可以得到具有明显导向性的奖励函数,趋近于目标状态时,奖励值就大,利用对数函数可以较高的趋向性,不同情况得到的奖励值不同,越趋近于目标状态,奖励值越大,反之越远或遇到障碍物则惩罚值越大。图8 改进D Q N设计模型F i g.8 I m p r o v e d D QN d e s i g n m o d e l4 试验仿真茶 叶 采 摘 机 械 手 的 试 验 仿 真 主 要 基 于R O S(R o b o t O p e r a t i o n S y s t e m)系统中的

36、G a z e b o平台,并搭建采摘机械手的运动模型,利用算法结构调整控制参数,实现采摘机械手运动路径规划。4.1 茶树外形分析采摘机械手在进行茶叶采摘过程中需要根据茶树的外形特征进行环境适应判断,由于嫩芽的生长区域在茶树的顶端,所以茶树的外形特征对于采摘机械手的采摘路径设计有较大影响,根据常见茶树特征分析,茶树的基本外形特征如图9所示,茶叶采摘区域的高度为h,有效高度范围主要集中在H1和H2之间,茶树宽度在B1内。图9 茶树外形特征F i g.9 F e a t u r e s o f t e a t r e e第8期李航 等:基于改进D QN算法的茶叶采摘机械手路径规划2 0 3 4.2

37、 试验设计主要在仿真环境中利用本文算法对茶叶采摘过程进行采摘路径规划的强化训练,通过S o l i d W o r k s设计出茶叶采摘机械手模型,其中三维模型及仿真平台如图1 0所示。图1 0 采摘机械手试验仿真平台F i g.1 0 E x p e r i m e n t a l s i m u l a t i o n p l a t f o r m f o r p i c k i n g r o b o t s试验仿真平台的搭建主要模拟实际茶叶采摘环境,采摘机械手移动平台的运动效率是根据茶树的种植布局环境和地势特征决定,同时根据茶叶采摘的效率和速度进行实时调整。采摘机械手进行强化训练,随

38、着训练次数的增加可以得到优化的路径,当训练得到最优运动路径则训练结束。根据D QN算法的原理可知,训练过程主要利用具有导向性的奖励函数实现对采摘路径的探索,为保证强化训练的效率,需对训练参数进行设置如表1所示。表1 训练参数设置T a b.1 T r a i n i n g p a r a m e t e r s e t t i n g s参数数值学习率0.0 0 1折扣系数0.9 9最大训练次数/次6 0 0 0探索系数1更新频率3 0 0 通过训练参数的设置可在G a z e b o平台上经过强化训练,采摘机械手末端采摘爪从初始位置到采摘点的运动过程,采摘机械手的采摘运动路径的渐变过程如图

39、1 1所示。为避免采摘老叶和茎梗,并为提高采摘效率,采摘路径通过强化训练得到的优化的采摘运动路径,主要利用导向性的奖励函数,根据速度、角速度、切点的距离误差的导向可以高效地实现嫩芽采摘路径的规划。如图1 2所示为训练强化后的运动路径图,主要以采摘机械手末端上的采摘机械爪为参考点,利用机械臂的旋转,可以准确到达采摘区域,最后旋转末端采摘手爪实现老叶和茎梗的躲避,控制切割爪的运动实现切割功能,由此产生的采摘运动路径即为强化训练后的优化路径。(a)机械臂4 5 状态(b)机械臂9 0 状态(c)机械臂1 2 0 状态(d)机械臂1 3 5 状态(e)机械臂1 6 5 状态(f)机械臂1 8 0 状态

40、图1 1 采摘机械手运动过程F i g.1 1 M o v e m e n t p r o c e s s o f p i c k i n g m a n i p u l a t o r图1 2 运行路径轨迹F i g.1 2 R u n n i n g p a t h t r a c k4.3 试验分析4.3.1 奖励函数值分析根据仿真试验得到采摘机械手经过强化训练可规划出采摘路径,评价训练过程中的优化效果可通过奖励函数值进行判断,通过对比改进D QN算法和传统D QN算法可以得训练次数与采摘机械手运动规划奖励值的变化关系如图1 3所示。根据奖励值的变化趋势可知,由于本文的奖励函数为了避免开

41、始阶段的出现全是负面奖励和积极奖励,从中位开始,开始阶段的奖励值较大,随着训练次数的增加不断奖励值不断趋近于平稳,由于在末端需要避免障碍物的阻挡所以在3 0 0 05 0 0 0次的时候遇到末端障碍物时则会出现奖2 0 4 中国农机化学报2 0 2 3年励值降低幅度较大的情况,3 0 0 0次之前路径探索奖励值从高奖励值降低,当达到目标点时则出现增加并逐渐达到稳定的奖励值。图1 3 奖励值变化图F i g.1 3 R e w a r d v a l u e c h a n g e g r a p h4.3.2 路径定位精度分析根据分析仿真结果可知,采摘机械手末端切割爪的运动路径,随着强化训练次

42、数不断增加,可不断迭代规划出运动路径,为验证运动路径的可靠性,可通过采摘机械手末端切割点与茶叶采摘点之间的距离变化关系,判断本文算法的有效性,如图1 4所示为位置误差变化曲线关系。图1 4 训练次数与采摘点距离变化关系F i g.1 4 R e l a t i o n s h i p b e t w e e n t h e n u m b e r o f t r a i n i n g a n d t h e d i s t a n c e b e t w e e n t h e p i c k i n g p o i n t s本文主要对比分析训练在1 0 0 05 0 0 0次的位置误差变

43、化关系,随着训练次数的增加,位置误差变化速度越快,训练次数1 0 0 0次在预测时间13.5s的时间变化较慢,而在预测时间3.58.0s的预测时间变化较快。然而训练次数1 0 0 0次的稳定预测时间为8.3 s,训练次数5 0 0 0次的趋向稳定的变化时间为7.9 s。训练结果显示训练次数在5 0 0 0次时切割点位置精度误差稳定在0.0 0 5m范围内。4.3.3 损失函数值变化分析试验仿真结果显示损失函数的收敛性和波动性可以判断本文算法的有效性,试验对比关系如图1 5所示,本文对比分析改进型D QN算法和传统D QN算法,可得改进D QN算法的损失函数在训练1 0 0 0次之前的波动性较大

44、,但在1 0 0 02 0 0 0次之间的波动性逐渐降低,2 0 0 0次后则趋近于稳定;传统D QN算法的波动性在2 0 0 0次之前都没有趋近于稳定,但是2 0 0 0次后逐渐趋于稳定收敛,通过对比也可知,改进型的收敛速度更快。图1 5 损失函数的对比效果F i g.1 5 C o n t r a s t i v e e f f e c t o f l o s s f u n c t i o n5 结论茶叶采摘机械手易受到老叶、茎梗等阻挡干扰导致采摘效率低,采摘路径长以及茶叶品质低,利用基于改进D QN算法实现采摘路径的规划,同时保证机械手末端切割装置的定位精度,利用图像识别技术对茶叶切割

45、位置的识别以及空间位置进行确定,采用改进型D QN算法进行强化训练,实现采摘路径的高效规划。本文通过模拟仿真试验得到运行状态数据,利用速度、角速度、距离误差作为路径规划中的导向引导参数,用于改变运动规划过程,实现规划效率的提高,由此可得如下结论。1)改进型D Q N算法能够提高机械手末端切割装置的定位精度,通过强化训练迭代次数的增加定位精度会随着训练次数的改变发生变化,验证试验得到训练次数较少的情况下,误差稳定控制时间较长,同时控制定位精 盾 不 高,而 训 练 试 验 结 果 分 析 在 训 练 次 数 为5 0 0 0次时,定位精度能够稳定控制在0.0 0 5m范围内。2)机械手的采摘路径

46、规划通过改进的D Q N算法优化采摘路径,利用奖励值对比分析改进型D Q N平稳变化,分析可知在3 0 0 0 4 5 0 0次时改进算法的效果较为明显;损失函数值在训练2 0 0 0次前的变化幅度较大,改进算法收敛后的数据值较低,说明采摘路径的有效性更高;验证改进型D Q N算法对采摘路径优化有效。第8期李航 等:基于改进D QN算法的茶叶采摘机械手路径规划2 0 5 参 考 文 献1 王文明,肖宏儒,宋志禹,等.茶叶生产全程机械化技术研究现 状 与 展 望 J.中 国 农 机 化 学 报,2 0 2 0,4 1(5):2 2 6-2 3 6.W a n g W e n m i n g,X

47、i a o H o n g r u,S o n g Z h i y u,e t a l.R e s e a r c h s t a t u s a n d p r o s p e c t s o f t e a p r o d u c t i o n m e c h a n i z a t i o n t e c h n o l o g y J.J o u r n a l o f C h i n e s e A g r i c u l t u r a l M e c h a n i z a t i o n,2 0 2 0,4 1(5):2 2 6-2 3 6.2 尹俊方,孙虎,冉秋艺.基于“人

48、机环境”系统的智能名优 采 茶 机 设 计 研 究 J.包 装 工 程,2 0 2 1,4 2(1 2):1 8 3-1 9 0.Y i n J u n f a n g,S u n H u,R a n Q i u y i.D e s i g n a n d r e s e a r c h o f i n t e l l i g e n t f a m o u s a n d e x c e l l e n t t e a p i c k i n g m a c h i n e b a s e d o n“H u m a n-M a c h i n e-E n v i r o n m e n t

49、”s y s t e m J.P a c k a g i n g E n g i n e e r i n g,2 0 2 1,4 2(1 2):1 8 3-1 9 0.3 孙肖肖,牟少敏,许永玉,等.基于深度学习的复杂背景下茶叶嫩芽 检 测 算 法 J.河 北 大 学 学 报(自 然 科 学 版),2 0 1 9,3 9(2):2 1 1-2 1 6.S u n X i a o x i a o,M u S h a o m i n,X u Y o n g y u,e t a l.D e t e c t i o n a l g o r i t h m o f t e a t e n d e r b

50、 u d s u n d e r c o m p l e x b a c k g r o u n d b a s e d o n d e e p l e a r n i n g J.J o u r n a l o f H e b e i U n i v e r s i t y(N a t u r a l S c i e n c e E d i t i o n),2 0 1 9,3 9(2):2 1 1-2 1 6.4 汤一平,韩旺明,胡安国.基于机器视觉的乘用式智能采茶机设 计 与 试 验 J.农 业 机 械 学 报,2 0 1 6,4 7(7):1 5-2 0.T a n g Y i p i

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服