ImageVerifierCode 换一换
格式:PDF , 页数:10 ,大小:2.74MB ,
资源ID:2447082      下载积分:10 金币
验证码下载
登录下载
邮箱/手机:
验证码: 获取验证码
温馨提示:
支付成功后,系统会自动生成账号(用户名为邮箱或者手机号,密码是验证码),方便下次登录下载和查询订单;
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/2447082.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  
声明  |  会员权益     获赠5币     写作写作

1、填表:    下载求助     留言反馈    退款申请
2、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
3、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
4、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
5、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
6、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
7、本文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。

注意事项

本文(基于强化学习的成品油船装载方案自主生成技术研究.pdf)为本站上传会员【自信****多点】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4008-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

基于强化学习的成品油船装载方案自主生成技术研究.pdf

1、期刊网址:www.ship-引用格式:尼洪涛,周清基,柴松,等.基于强化学习的成品油船装载方案自主生成技术研究J.中国舰船研究,2024,19(增刊 1):115124.NI H T,ZHOU Q J,CHAI S,et al.Reinforcement learning-based autonomous generation technology for product oiltanker loading schemesJ.Chinese Journal of Ship Research,2024,19(Supp 1):115124(in Chinese).基于强化学习的成品油船装载方案自主

2、生成技术研究尼洪涛1,周清基*2,柴松3,齐鸣41 苏州城市学院 计算科学与人工智能学院,江苏 苏州 2151042 天津大学 海洋科学与技术学院,天津 3000723 苏州载诺信息科技有限公司,江苏 苏州 2150084 上海中船船舶设计技术国家工程研究中心有限公司,上海 201114摘 要:目的目的旨在基于强化学习方法研究液货舱装载方案自主生成技术。方法方法以实际运营的成品油船载货量作为输入,以货舱及压载舱的装载率为目标,基于 Unity ML-Agents 构建智能体与环境,通过 PyTorch框架对智能体进行训练,提出一种综合考虑装载时间与纵倾变化幅度的奖励函数计算方法,并以算例分析来

3、验证所提方法的有效性。结果结果结果显示,所训练的智能体能够学习良好的策略,并实现液货舱装载方案的自主生成。结论结论研究结果表明,将强化学习用于解决多目标条件下的液货舱装载方案自主生成是合理可行的。关键词:自动化装卸;液货舱;机器学习;方案优化中图分类号:U674.13文献标志码:ADOI:10.19693/j.issn.1673-3185.03474 Reinforcement learning-based autonomous generation technology forproduct oil tanker loading schemesNI Hongtao1,ZHOU Qingji*

4、2,CHAI Song3,QI Ming41 Computing Science and Artificial Intelligence College,Suzhou City University,Suzhou 215104,China2 School of Marine Science and Technology,Tianjin University,Tianjin 300072,China3 Suzhou Zainuo Information Technology Co.,Ltd.,Suzhou 215008,China4 Shanghai Zhongchuan SDT-NERC Co

5、.,Ltd.,Shanghai 201114,ChinaAbstract:ObjectiveThis paper focuses on using reinforcement learning-based automatic generation tech-nology to generate loading and unloading schemes for the liquid cargo tanks of oil tankers.MethodsUs-ing the cargo capacity of an actual operating oil tanker as the input

6、and the loading rates of the cargo tank andballast water tank as the targets,an intelligent agent and environment are built based on Unity ML-Agents.Theagent is trained using the PyTorch framework,and a reward function calculation method that comprehensivelyconsiders the loading time and changes in

7、the trim amplitude is proposed.Finally,example analysis is carriedout to validate the feasibility of the proposed method.ResultsThe results show that the trained agent canlearn effective strategies for achieving the autonomous generation of liquid cargo tank loading schemes.ConclusionsThis study pro

8、ves that it is reasonable and feasible to apply reinforcement learning to solvethe problem of the autonomous generation of liquid cargo tank loading schemes under multi-objective condi-tions.Key words:automatic loading and unloading;liquid cargo tank;machine learning;scheme optimization收稿日期:20230726

9、 修回日期:20231113基金项目:天津市交通运输科技发展计划资助项目(G2022-48)作者简介:尼洪涛,男,1982 年生,硕士,高级工程师。研究方向:企业级应用开发,人工智能。E-mail:周清基,男,1986 年生,博士,副教授。研究方向:海事航运数据分析和安全。E-mail:柴松,男,1985 年生,博士,工程师。研究方向:人工智能,船舶数字化智能设计*通信作者:周清基 第 19 卷 增刊 1中 国 舰 船 研 究Vol.19 Supp 12024 年 1 月Chinese Journal of Ship ResearchJan.2024 0 引言2019 年 5 月,交通运输部联

10、合中央网信办、国家发改委、教育部、科学技术部、工业和信息化部、财政部共同发布了智能航运发展指导意见,提出了我国智能航运发展的战略目标和任务。随着智能船舶与智能航运的不断发展,以及人工智能、机器学习等技术的不断革新,智能技术已广泛应用于船舶系统和管理等领域1。近年来,研究学者们通过引入强化学习技术,提出了一系列智能化、无人化的算法。这些方法通过学习和优化,可以用于船舶路径规划、船舶避障等方面,从而实现自主船舶的自主导航2;也可以用于集装箱码头操作和货物自动化装卸等方面3-4,例如基于 Q-Learning 算法的针对无人水面舰船的路径规划方法,通过考虑多个目标,包括时间、距离、安全等,实现路径规

11、划的多目标优化5;基于强化学习的船体腐蚀优化清洗路径的方法,通过考虑多个因素,包括清洗效率、清洗时间、清洗成本等,实现自主船舶船壳腐蚀清洗系统的优化控制6;基于多智能体深度强化学习的船舶避碰方法,通过对船舶动态特征的建模和多智能体的协同控制,实现船舶自主避碰7;基于多智能体强化学习技术的多船舶避碰方法,能够遵循国际海上避碰规则,并通过学习和协同控制,实现多船舶自主避碰8;采用权重搜索遗传算法(weightcoefficient searching genetic algorithm)制定液货船装卸计划9;使用深度强化学习算法实现海上物流中滚装货物的自动化装卸作业,通过训练一个智能体自主管理滚装

12、货物,并在避免与障碍物碰撞的同时执行装卸操作10。Unity ML-Agents(ma-chine learning agents)工具可用来辅助训练和评估智能体,通过配备障碍物检测传感器,设置奖励函数从环境中实时获取反馈。通过对智能体的性能评估表明,其可成功学习所有所需操作,包括车道跟随、障碍物规避和滚装货物放置11,现有研究展示了通过强化学习的智能自主系统来提高海上运输性能和服务质量的潜力,同时也展示了使用 Unity ML-Agents 辅助训练的便捷性与可靠性。液货船作为一种运输大规模液体货物的海上交通工具,其装卸过程因货物本身的危险性等因素,传统的液货船装卸方式存在诸多不足,如人力成

13、本高、装卸效率低、安全隐患大等。作为智能船舶与无人航运研究的一个方向,液货船自动化装卸不仅需考虑船体稳定性、货物重量和船舶结构等多种因素,还需考虑到安全性和可靠性等方面的问题。在自动化装卸过程中,自主生成货舱装载方案是整个过程的重要一环,其会影响自动装卸的执行效率和安全性。目前,在这些方面应用强化学习的研究比较有限。同时,如何将影响装卸过程的诸多因素与相关知识引入到强化学习的环境模型中也是一个挑战。本文将以一艘运营中的成品油船作为研究对象,以载货量为输入、以决定货舱及压载舱的装载率为目标,应用 Unity ML-Agents 进行智能体与环境的构建,基于 PyTorch12框架对智能体进行训练

14、。为了能够让智能体具备优化装载方案的能力,本文根据优化目标,提出一种适用于该任务的奖励函数计算方法。1 模拟环境 1.1 原理O(T)对于智能体将执行的一个任务空间,这个任务空间中的每个任务都需要在满足包括舱容、可用舱等限制条件下,将一定重量的液体货物分配到可以使用的货舱中。智能体所需学习的策略目标是得到一个优化后的策略,即:S A R+(1)式中:代表网络参数;S 表示状态空间;A 表示动作空间。智能体在上述策略下基于有限经验从不同初始状态完成任务。在时刻 t,任务 T 的环境状态 s可表示为st ST(s)(2)atatRt智能体的训练模型将会根据策略预测出一组行动的概率分布,其中的动作记

15、为。接下来,智能体会通过执行动作与环境进行交互并根据奖励函数得到即时奖励。随后,智能体将感知下一个状态:st+1 S(st+1|st,at)(3)LT通过迭代的方式,网络模型可以不断优化损失函数,该函数是对由初始状态到有限范围H 的策略所遵循的轨迹 的映射。=(s0,a0,R0,.,sH,aH,RH)(4)轨迹的损失实际上等价于负的累计奖励,其表达式表示如下:LT()=Ht=0Rt(5)116中 国 舰 船 研 究第 19 卷整个策略的训练过程如下述算法所示。算法:策略学习的伪代码O(T)输入:训练任务,最大迭代次数集合 K,观察的轨迹数 N,训练模型的超参数输出:策略随机生成初始参数whil

16、e未达到最大迭代次数doKi,Oi(T)(K,O(T)for属于dok KiwhiledoT Oi(T)抽取一批任务for所有Tdo根据策略,抽取N条轨迹计算关于 的损失函数的梯度end根据计算出的梯度更新endendend 1.2 系统系统由一个智能体和一个动态环境组成,环境包括货舱、压载舱以及船体,如图 1 所示。其中,货舱与压载舱装载率是动态的且随时间变化。智能体是学习和生成装载方案的算法,它将在环境中学习如何分配货舱与压载舱的装载率,并同时满足以下限制条件:可以进行装载操作的货舱及压载水舱,在训练过程中是部分随机的;智能体的首要目标,是将不超过船舶最大载货量的液体货物,装入可以进行装载

17、操作的货舱之中;智能体应确保装载过程中船舶强度和稳性不超过限制范围;智能体应学会用尽可能短的时间,完成货物的装载。环境智能体策略网络价值网络奖励观察动作图 1系统原理示意图Fig.1 System schematic diagram本文使用 Unity 来创建环境和模拟训练过程。Unity 可以实现逼真的视觉效果和物理效果,同时降低构建环境的复杂性。Unity 提供的可视化功能,既可以在训练过程中用于帮助评估系统的可信度,也可以在训练完成后直观地展现模型的训练效果。智能体的实际训练过程,由 Unity ML-Agents辅助完成。它可以使用 PyTorch 框架控制强化学习的过程,并通过一个底

18、层 Python 接口与 Unity中的模拟环境进行交互并控制学习环境。1.3 ML-AgentsUnity ML-Agents 是一个开放源代码工具包,其可以帮助开发人员在 Unity 中训练和评估智能体的机器学习模型。该工具包可以支持各种强化学习算法,包括深度强化学习方法,例如深度Q 网络13(deep Q-network,DQN)、近端策略优化14(proximal policy optimization,PPO)及 SAC 算法15(soft actor-critic,SAC)等。利用 Unity ML-Agents 可以方便地使用 Unity引擎所提供的工具,从而为各种不同类型的智能

19、体与环境创建模型,并可以在分析过程中实时观察智能体的行为与反馈。2 模型实现与仿真根据智能体学习的策略、限制条件并考虑模型训练效率,考虑环境主要包括船体(含重量分布)、液货舱和压载水舱。船体部分可用来在训练或推理过程中实时反馈由装载导致的船体姿态变化,其尺寸、空船重量和重心应与实船一致。本文分析对象为一艘实际运营的 9 000 t 成品油船,船长 117.60 m、型宽 19.00 m、型深 10.00 m,其布置情况如图 2 所示。该船空船重 3 406.3 t,空船重心参数及数值见表 1。图 2成品油船总布置图Fig.2 General plan of product oil tanker

20、增刊 1尼洪涛等:基于强化学习的成品油船装载方案自主生成技术研究117 表 1 空船重心Table 1 Values for the gravity center of light ship参数数值重心距舯/m44.999重心高/m8.017重心距中/m0 在构建环境时,需要建模的液货舱与压载舱会按照实际位置建模,对应舱室参数如表 2 所示。限于篇幅,本文仅以液货舱 RCAR1P 为例展示部分舱容信息,如表 3 所示。表 2 舱室参数Table 2 Tank parameters舱室编号体积/m3重心距舯/m重心高/m重心距中/mRCAR1P548.2493.6486.1242.713RCAR

21、1S542.5993.6476.1272.738RCAR2P765.2282.6145.9383.870RCAR2S768.2982.6175.9373.848RCAR3P1 028.4570.1445.8484.101RCAR3S1 025.3270.1275.8484.101RCAR4P1 247.7454.7745.8214.146RCAR4S1 249.1354.7745.8214.146RCAR5P1 213.9038.0475.9004.045RCAR5S1 210.2038.0475.9004.045RWBT1P318.5895.0524.5954.901RWBT1S328.78

22、95.0524.4674.743RWBT2P258.1583.2593.3996.606RWBT2S268.0683.2543.2986.363RWBT3P304.7170.6082.9836.731RWBT3S317.2770.6042.8926.468RWBT4P352.4155.1002.9616.682RWBT4S367.3555.1002.8686.412RWBT5P246.9041.0292.9846.733RWBT5S256.8241.0322.8946.473RWBT6P228.1130.2463.2756.526RWBT6S237.3830.3183.1466.301 2.1

23、 动作(Action)根据油船实际运营过程,同时为使模型得到一定程度的简化,以空载工况为起始状态对智能体进行训练。智能体将对共计 22 个舱分别独立进行装载操作,并将采用连续动作模式,每次动作将增加或减少与之对应的某个舱的装载率。2.2 奖励(Reward)作为环境对智能体所采取动作的反馈,具体的奖励机制如下:Wt1)对于任务成功,当前货舱总载货量 W 大于等于目标货物重量,奖励值为+1,结束当前回合(Episode)。2)对于任务失败,装载过程中超出稳性或强度限制,奖励值为1,结束当前回合。VtrimRtrimC1Ltrim3)每一步采取动作后,根据船体纵倾值相对其限制范围边界的偏离程度,根

24、据式(6)可以计算出纵倾奖励,增加在这一步的奖励当中。式中,为纵倾奖励修正系数,根据多次测试,取 0.000 5,为纵倾限值,取船长的 1.5%,即 1.764。Rtrim=C1(Ltrim|Vtrim|)/Ltrim(6)Rtime4)每一步采取动作后,根据当前货舱总载货量 W与本回合装载实际经过的时间 t,根据式(7)可得到时间奖励,增加在这一步的奖励中。Rtime=C2W/t(7)C2式中,为时间奖励修正系数,根据多次测试的结果,取为 0.9。综上,在每一步采取动作后,智能体所得到的 表 3 RCAR1P 部分舱容表Table 3 Summary of partial tank capa

25、cities of RCAR1P装载率/%体积/m3重心距舯/m 重心高/m 重心距中/m 惯性矩/m40.00.0094.1711.3010.5873.930.63.2693.1991.3521.54743.541.26.8493.1971.4041.61349.251.910.6393.2151.4561.66456.272.714.6293.2351.5091.71263.873.418.8293.2561.5631.76072.084.223.2293.2761.6171.80880.935.127.8293.2951.6721.85690.0210.859.4793.4092.012

26、2.136143.8720.3111.2393.4892.4962.340152.1829.9164.0893.5232.9652.432160.8639.8218.0493.5433.4322.493169.9149.8273.0993.5583.8992.541179.3560.1329.2593.5714.3692.582190.0070.6387.1993.5854.8452.624208.3680.4440.5693.6015.2762.665226.0490.3494.9193.6205.7072.702217.9397.7535.3893.6386.0242.722207.659

27、8.8541.7093.6426.0732.722120.9799.7546.4993.6466.1112.71742.29100.0548.2493.6486.1242.71321.11118中 国 舰 船 研 究第 19 卷奖励应为R=Rtime+Rtrim+1,任务成功Rtime+Rtrim1,任务失败Rtime+Rtrim,任务中(8)2.3 观察(Observation)RtrimRtime训练过程中,收集的观察量包括:液货舱与压载舱的装载率;液货舱需要装载的目标货物重量;纵倾奖励值;时间奖励值。2.4 回合终止(Episode terminal)训练中每个回合在满足下述条件之一时,

28、即会终止:液货舱已装货物总重量大于等于当前任务装载重量;船体稳性或强度超出限制范围;达到一个轮次可以模拟的最大步数,一般用于在训练进入无意义的迭代时提前终止当前回合,本文研究设为 10 000。2.5 模型训练配置经过对多次训练及其结果的比较,最终采用如表 4 所示的模型训练配置和主要超参数。表 4 模型配置与超参数Table 4 Model configuration parameters and hyper-parameters参数数值batch_size2 048buffer_size20 480learning_rate0.001learning_rate_schedulelinear

29、beta0.001 5epsilon0.18lambd0.90num_epoch5hidden_units256num_layers3gamma0.99strength1.0time_horizon256max_steps1.5107注:参数的具体描述和取值范围,可参见https:/unity-technologies.github.io/ml-agents/Training-Configuration-File/3 结果分析与讨论图 3 所示为智能体通过估计预测在短期内获得的奖励,即智能体在学习期间得到的所有状态下的平均估计值。在成功训练的过程中,该值在整个学习过程中会随着时间的推移而持续增

30、加,直至稳定在某个值附近。图 4 所描述的是学习率的线性演变过程。1.0000.9950.9900.985平均估计值0.9800.9750246迭代步数8101214106图 3累计奖励平均估计值曲线Fig.3 Average cumulative reward curve for estimation 910475学习率310246迭代步数8101214106图 4学习率Fig.4 Learning rate 为了评估智能体的学习进度,可以采用熵、价值损失、策略损失等指标予以评价。其中,熵可以衡量模型决策的随机性和不确定性,如图 5所示。熵反映了预期的信息内容,并量化了动作结果中出现的意外。

31、在训练过程中,其值呈现下降趋势,但是在 4 百万步和 8 百万步附近有明显的增大然后继续下降,可以看出,智能体因为采取了与之前不同的尝试,使得熵在短期内增加。87熵值650246迭代步数8101214106图 5熵Fig.5 Entropy 价值损失指标可以帮助评估智能体学习的状态空间,通过其可计算每次迭代的价值函数的平均损失,从而反映模型预测各状态值的能力。如图 6 所示,该价值损失在训练中先增加,在学习收敛后减少。这表明智能体准确地学习了状态空增刊 1尼洪涛等:基于强化学习的成品油船装载方案自主生成技术研究119间,且整体变化趋势与图 2 中累计奖励的变化趋势相吻合,价值损失的突变通常出现

32、在累计奖励的低点。另外,价值损失在 4 百万步和 8 百万步之后的突然增加,也表明智能体在进行新的尝试,并在智能体学习了新的经验后开始降低。1410310损失值620246迭代步数8101214106图 6价值损失曲线Fig.6 Value loss curve 策略损失是策略损失函数的平均值,如图 7所示。它能够反映策略的执行、发展和进化过程。结果表明,它在训练过程中振荡,并且当智能体选择最佳动作序列时,成功的事件会使策略振荡的幅度减小。上述结果表明,本研究所训练的智能体已经能够学习良好的策略。使用适当的模型超参数,策略学习可以收敛到一个解决方案,在此解决方案中,智能体学习如何完成任务。收敛

33、还确保了某种稳定性,并允许智能体利用其自身知识或经验,而不是无限制地探索环境或选择随机行动。利用训练好的模型,根据输入的目标载货重量可以由智能体自主生成分步的装载方案。算例 1:目标载货重量 5 180 t,所有液货舱均可装载。图 8 和图 9 所示为得到的分步装载方案。从图 8 可以看出,智能体在装载的前中期按照相同比率对各液货舱进行装载,且出现了重合的现象。在结束阶段,装载率才开始出现差异。从图 9 可以看出,对于压载水舱,智能体会进行较为频繁的调整,从而使纵倾满足优化目标。图 10 和图 11 所示为算例 1 装载方案最终阶段的稳性和强度曲线,该方案稳性与强度均满足要求。算例 2:目标载

34、货重量 3 950 t,液货舱 RCAR1P,RCAR1S 不装载。图 12 和图 13 所示为得到的分步装载方案。从图 12 中可以看出,虽然智能体采取了与算例 1 相似的策略,但是在两个液货舱不可用的情况下,不同液货舱的装载率在更早的时候开始出现差异。从图 13 可以看出,与算例 1 相似,智能 熵值0.015 50.016 50.017 50.018 50246迭代步数8101214 106图 7策略损失曲线Fig.7 Policy loss curve 101020装载率/%3040506070803 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33

35、35 37序号39 41 43 45 47 49 51 53 55 57 59 61 63 65 67 69 71 73 75RCAR1PRCAR1SRCAR2PRCAR2SRCAR3PRCAR3SRCAR4PRCAR4SRCAR5PRCAR5S图 8算例 1 货舱装载方案Fig.8 Cargo tank loading scheme of Example 1120中 国 舰 船 研 究第 19 卷 101.02.0装载率/%3.04.05.06.07.08.03 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37序号39 41 43 45 47 4

36、9 51 53 55 57 59 61 63 65 67 69 71 73 75RWBT1PRWBT1SRWBT2PRWBT2SRWBT3PRWBT3SRWBT4PRWBT4SRWBT5PRWBT5SRWBT6PRWBT6S图 9算例 1 压载水舱装载方案Fig.9 Ballast water tank loading scheme of Example 1 3.002.502.001.501.00复原力臂/m0.5000.501.006050403020100102030405060横倾角/()AB(01,1w2)(2,1w2)(c,1w2)GM=2.064 m图 10算例 1 稳性曲线Fi

37、g.10 Stability curve for Example 1 1 4001 2001 0008006004002000剪力/t弯矩/(tm)2004006008001 0001 2001 400#0#20#40#60#80#100#120#140#160111098765432101234567891011104剪力肋位弯矩剪力极限弯矩极限图 11算例 1 强度曲线Fig.11 Strength curves for Example 1增刊 1尼洪涛等:基于强化学习的成品油船装载方案自主生成技术研究121体会根据已经学习的策略对压载水舱的装载进行较为频繁的调整。图 14 和图 15 所

38、示为算例 2 装载方案最终阶段的稳性曲线和强度曲线,该方案稳性与强度均满足要求。表 5 统计了上述两个算例最终得到的装载重量及与目标重量的相对误差。从表中可知,在两个算例中智能体生成的方案与输入目标之间仍然存在一定的误差。表 6 统计了装载方案中,相邻两个步骤所对应的船舶纵倾值变化。从表中可以看出,通过将纵倾变化引入到奖励函数当中,智能体会采取尽可能减少纵倾变化幅度的方式来生成装载方案。通过对训练过程和算例结果的分析表明,智能体经过训练已经学习到了装载策略,并能够采用此策略来自主分配和调整货舱及压载舱的装载率以实现目标装货量的要求,而且能够保证在整个装载过程中使船舶满足稳性和强度的要求。4 结

39、语本文以一艘运营中的成品油船为研究对象,以载货量作为输入、以决定货舱及压载舱的装载率作为目标,应用 Unity ML-Agents 构建进行智能体与环境,基于 PyTorch 框架训练智能体。针对 101020装载率/%3040506070803579 11 13 15 17 19 21 23 25 27 29 31 33 35 37序号39 41 43 45 47 49 51 53 55 57 59 61 63 65 67 69RCAR1PRCAR1SRCAR2PRCAR2SRCAR3PRCAR3SRCAR4PRCAR4SRCAR5PRCAR5S图 12算例 2 货舱装载方案Fig.12 C

40、argo tank loading scheme for Example 2 101.02.0装载率/%3.04.05.06.03579 11 13 15 17 19 21 23 25 27 29 31 33 35 37序号39 41 43 45 47 49 51 53 55 57 59 61 63 65 67 69RWBT1PRWBT1SRWBT2PRWBT2SRWBT3PRWBT3SRWBT4PRWBT4SRWBT5PRWBT5SRWBT6PRWBT6S图 13算例 2 压载水舱装载方案Fig.13 Ballast water tank loading scheme for Example

41、 2122中 国 舰 船 研 究第 19 卷优化目标要求,提出了一种适用于优化装载方案能力的奖励函数的计算方法。结果表明,将强化学习算法用于解决更复杂环境和工况下的装载方案生成问题是极具希望的方法,所作研究不仅能够满足船体稳性与强度作为策略学习的首要目标,同时通过引入一种新的奖励函数计算方法,还将减少装载时间以及装载过程中的纵倾变化幅度也纳入到策略学习的目标中。通过对训练过程以及算例结果的分析表明,经过训练后的智能体已经具备了根据目标载货量自主生成合理装载方案的能力。目前,所提方法自动生成的方案依然存在误差,该误差来自于研究所使用的装载计算工具和强化学习算法的计算过程,下一步工作将通过改进算法

42、以减小误差。此外,在实际装卸过程中,船体管路设计、泵的能力等也是实现从自主生成装载方案到自主完成装卸过程中必须考虑的重要限制条件,因此探索包括所有装卸约束的多目标 表 5 两个算例得到的实际装载重量Table 5 Statistics of actual loaded weight for the two examples算例目标重量/t实际重量/t相对误差/%15 1805 238.9461.12523 9503 955.7780.146 表 6 两个算例得到的相邻步骤间的纵倾差值Table 6 Difference of trim value between adjacent steps

43、for thetwo examples算例步骤数差值平均值差值标准差1760.0370.0022690.0150.007 4.003.503.002.502.001.501.00复原力臂/m0.5000.501.001.506050403020100102030405060横倾角/()AB(01,1w2)(2,1w2)(c,1w2)GM=2.537 m图 14算例 2 稳性曲线Fig.14 Stability curve for Example 2 1 4001 2001 0008006004002000剪力/t弯矩/(tm)2004006008001 0001 2001 400#0#20#4

44、0#60#80#100#120#140#160111098765432101234567891011104剪力弯矩剪力极限弯矩极限肋位图 15算例 2 强度曲线Fig.15 Strength curves for Example 2增刊 1尼洪涛等:基于强化学习的成品油船装载方案自主生成技术研究123优化策略也将是未来需要进一步研究的首要任务之一。参考文献:张华,孟昭燃,齐鸣.化学品船智能货物管理技术及最新应用 J.中国船检,2022(9):6165.ZHANG H,MENG Z R,QI M.Smart cargo manage-ment technology for chemical ta

45、nkers and its latest ap-plicationsJ.China Ship Survey,2022(9):6165 (inChinese).1CHUN D H,ROH M I,LEE H W,et al.Deep rein-forcement learning-based collision avoidance for anautonomous shipJ.Ocean Engineering,2021,234:109216.2DRUNGILAS D,KURMIS M,SENULIS A,et al.Deepreinforcement learning based optimi

46、zation of automatedguided vehicle time and energy consumption in a con-tainer terminalJ.Alexandria Engineering Journal,2023,67:397407.3YAN N N,LIU G Z,XI Z.H A multi-agent system forcontainer terminal managementC/Proceedings of the7th World Congress on Intelligent Control and Automa-tion.Chongqing,C

47、hina:IEEE,2008.4YANG C P,ZHAO Y Q,CAI X,et al.Path planningalgorithm for unmanned surface vessel based on mul-tiobjective reinforcement learningJ.Computational In-telligence and Neuroscience,2023(8):114.5LE A V,KYAW P T,VEERAJAGADHESWAR P,etal.Reinforcement learning-based optimal complete water-blas

48、ting for autonomous ship hull corrosion cleaningsystemJ.Ocean Engineering,2021,220:108477.6CHEN C,MA F,XU X B,et al.A novel ship collisionavoidance awareness approach for cooperating ships us-ing multi-agent deep reinforcement learningJ.Journalof Marine Science and Engineering,2021,9(10):1056.7WEI G

49、,KUO W.COLREGs-compliant multi-ship colli-8sion avoidance based on multi-agent reinforcementlearning techniqueJ.Journal of Marine Science andEngineering,2022,10(10):1431.齐鸣,林嘉昊,孙淼,等.权重搜索遗传算法在液货船装卸计划生成中的应用 J.中国舰船研究,2022,17(增刊1):2836.QI M,LIN J H,SUN M,et al.Application of weightcoefficient searching

50、genetic algorithm in the plan gen-eration of cargo loading and unloading for liquid cargocarrierJ.Chinese Journal of Ship Research,2022,17(Supp 1):2836(in Chinese).9OUCHEIKH R,LFSTRM T,AHLBERG E,et al.Rolling cargo management using a deep reinforcementlearning approachJ.Logistics,2021,5(1):10.10JULI

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服