智能临机规划技术要点研究_包战.pdf

资源描述

1、第 44 卷第 1 期国防科技 Vol.44,No.1 2023 年 2 月 NATIONAL DEFENSE TECHNOLOGY Feb.2023 收稿日期 2022-11-07 修回日期 2022-12-13 采用日期 2022-12-16*通信作者张驭龙，E-mail: 作者简介包战，男，硕士，正高级工程师，研究方向为联合作战规划；张驭龙，男，博士，工程师，研究方向为信息系统与智能博弈技术；朱松岩，男，博士，正高级工程师，研究方向为军事运筹与作战规划；王春光，男，博士，工程师，研究方向为作战规划与智能算法；刘忠，男，教授，博士生导师，研究方向为人工智能、作战运筹与规划。智能

2、临机规划技术要点研究包战1，张驭龙1*，朱松岩1，王春光1，刘忠2（1.31002部队，北京 100000；2.国防科技大学系统工程学院，湖南长沙 410073）摘要本文从临机规划当前面临的难点问题出发，提出临机规划的智能发展需求，初步描述了临机规划问题，根据“快算”“盲评”“会变”三项能力要求，指出智能临机规划技术研究的关键特征是智能体设计与应用两个阶段的人机耦合，并明确了构建典型场景下可分层调度的任务框架、从军事专家到智能体的知识传导路径、兼容人工算法调用与机器自主学习的分层深度强化学习算法框架三点核心技术要求，基于当下智能博弈技术进展，提出了深度嵌入指挥员临机规划决策“OOD

3、A”回路各环节的智能临机规划技术设想。最后，从智能临机规划技术实现角度出发，提出了研究的总体目标、重点研究问题以及研究路线建议，并展望了未来智能临机规划技术的应用前景。关键词作战规划；临机规划；人工智能中图分类号 E917 文献标志码 A 文章编号 1671-4547(2023)01-0112-07 DOI：10.13943/j.issn 1671-4547.2023.01.16 引言以深度学习为标志的智能博弈技术向军事应用转化已成为当前各军事强国角力的新赛道。基于自主化智能系统平台实施作战指挥初步呈现出“人员定决心、机器算方案，人员出算法、机器用算力，人员在后台、机器在前沿”的特点，未

4、来智能化作战必将是人与武器高度一体化下的产物，其中至为关键的智能指挥决策也必将迈向人机融合，即在筹划流程上体现为人机交互的作业方式，在指令流转上体现为决策人定的责权设计，在实现机理上体现为人机之间的数据互通、信息互享、知识互用。同时，人机融合式作战决策也为作战规划的智能化发展指引了可行方向，以便找准智能博弈技术在作战规划中的落点，从而明确技术问题、指出研究重点，并最终提出实现作战规划智能化的初步思路。1 临机规划难题分析当前作战规划研究中，智能临机规划为全新命题。应从作战规划现实需要出发，介绍智能技术定位临机规划的合理性，讲明临机规划智能化发展的总体需求，明确提出智能临机规划问题。1.1 临

5、机规划的智能化发展需求按照不同的筹划时机，作战规划可以划分为“两个阶段，三种规划”1，即战前的预先规划与临战规划和战时的临机规划。三种作战规划与支撑手段如图1所示。不同规划的生成包战，等：智能临机规划技术要点研究 113 图1 三种作战规划与支撑手段时机不同，依托的规划手段也不同。其中，预先规划应对的战略形势相对稳定、作业时间最为充裕，当下适用的规划手段也最多，兵棋推演、运筹计算、仿真实验、研讨会商等均适用于预先规划；临战规划作业时间相对紧迫，但运筹计算与研讨会商方法仍相对可行；临机规划直面态势瞬息万变的战场，相关成果直接影响战局发展，简单的作战计算方法难以有效支撑指挥员决策，成为当前作

6、战规划亟需解决的瓶颈问题。临机规划瓶颈的成因可以归结为传统规划手段更适应静态分析问题（如路径规划、弹目匹配等）、更依赖人工设计（如专家评价等）、更强调分析最优解（如A*等传统规划方法），难以有效应对动态环境复杂约束下的规划问题。当下以深度强化学习为代表的智能博弈技术在围棋、即时战略游戏等动态博弈场景下取得的成果，为开展临机规划智能化研究提供了启示。1.2 临机规划问题的初步描述在以上分析的基础上，综合当前作战规划的主流观点2-4，可初步提炼出智能临机规划问题的含义，即在作战实施过程中，智能规划系统根据指挥员作战目标，基于整个战场的空间、时间、资源、能力、任务和配属协同关系等约束条件，针对战场

7、实时态势滚动生成任务或行动决策建议，辅助指挥员与参谋人员生成或优化方案计划。深入把握智能临机规划问题的内涵，首先应明确实施智能临机规划的主体是指挥员与参谋团队，必须以人为核心来设计智能临机规划的实施流程与成果形式，并能融入当前的指挥控制架构；其次，应理解智能临机规划的作业方式必然符合人机融合要求，其中“融合”主要指指挥员与智能系统需在数据、信息、知识三个层面上进行深度交互；最后，应把握智能临机规划的研究方向是面向实战化应用，突出智能规划技术在计算时限短、情况变化快、无效信息多、资源约束强等应用场景下的优势，进而准确掌握智能临机规划的技术需要。2 智能临机规划技术的核心要求在明确智能临机规划问

8、题的基础上，还需要从实践应用角度分析智能临机规划核心能力、关键特征，结合深度强化学习等智能博弈技术的最新成果5-13，分析运用智能技术开展临机规划需要重点研究的问题。2.1 智能临机规划技术的能力要求利用智能技术突破临机规划瓶颈，核心在于形成三个能力：一是“快算”，即基于深度神经网络等技术快速计算的优势生成近似最优解，在复杂态势中迅速找到可行的决策；二是“盲评”，即基于深度神经网络预测优势实现态势的理解与经验直觉式评估，以便在具有战争迷雾的不完全信息条件下进行规划运算；三是“会变”，即基于深度强化学习按步实施离散化运算的特点，不以静态最优解为目标，追求动态复杂对抗环境下全过程的最优化。114

9、国防科技 2023 年第 1 期（总第 338 期）2.2 智能临机规划技术的关键特征智能临机规划的核心特征是在流程设计上必须注重智能体设计训练与应用实战两个阶段的人机耦合。首先是在基于深度学习方法框架生成智能体的设计训练阶段，应采用人机耦合的方式提升智能体的规划能力，打通指挥员与智能体之间的知识循环。一方面，从指挥员角度出发，利用历史作战或演习数据和分析计算模型将知识经验“传授”给智能体，使其接近或达到军事专家水平；另一方面，从智能体角度出发，在专家水平基础上通过自博弈方法进一步提升性能，超越军事专家能力，并通过案例展示、数据分析等方法启发军事专家，提炼全新知识，从而进一步完善优化智能体

10、的设计训练。其次是在基于已训练智能体开展临机规划的应用实战阶段，应采用人机耦合方式生成可行的任务调整指令，打通指挥员同智能体之间的数据、信息循环。在决策环节，指挥员确定己方作战目标以及初始态势下的力量配属，并将相关信息要素下达至智能体；在计划环节，智能体根据指挥员决心与当前态势生成方案计划调整建议，并上报指挥员请示批准；在评估环节，指挥员依据当前态势方案进行全面评估，并下达方案计划调整指令。2.3 智能临机规划技术的核心要求从“快算、盲评、会变”的能力要求与人机耦合的流程设计要求出发，可以总结得出开展智能临机规划技术研究的核心要求。一是构建典型场景下可分层调度的任务框架。基于现有想定与案例，

11、综合不同类型实体需要抽取任务信息，形成满足典型作战样式的元任务集，按照指挥员与智能体交互需要，清晰定义任务模板与信息要素，为人工设计任务模块研制、自主学习的任务执行网络训练提供基础。同时，任务模块也应作为分层智能体之间流转信息的规范化标准，使智能体内部始终以易于理解、准确授权的要求设计任务交互指令，方便指挥员在智能体指挥期间进行检查与干预，确保指挥员牢牢把握力量配属调用权与行动实时干预权。二是构建从军事专家到智能体的知识传导路径。应重点研究当前人类军事专家三种结构化的知识嵌入层次化任务网络调度的方法，即将军事专家基于运筹规划算法的特定战法、基于经验的逻辑判定、基于系统认知的评估指标体系三类知识

12、进行建模，经由人工设计任务模块和自主学习的任务执行网络嵌入到任务调度智能体之中，提升智能体训练效力。三是构建兼容人工算法调用与机器自主学习的分层深度强化学习算法框架。按照任务调度与执行功能设计两层智能算法框架，上层为任务调度网络，依据全局性态势对任务编组下达任务指令，明确任务要求；下层既可以为人工设计任务执行模块，依据上层网络任务指令直接产生动作序列，也可以为自主学习任务执行网络，依据充足的态势信息及上层网络任务指令，在每个时刻上产生动作指令。3 智能临机规划技术的应用设想基于以上分析，本文依照指挥员在实施临机规划决策过程中的“OODA”活动，从指挥员、智能临机规划系统、指挥信息系统三者之间

13、的相互关系出发，初步提出智能临机规划技术的应用设想，如图2所示，主要分为四个阶段。3.1 指挥信息系统生成态势综合信息指挥信息系统汇集战场实时对抗过程中陆海空天电各域敌我方态势感知数据，经态势综合功能模块处理后，形成相对完整准确的战场态势综合信息，并将有关数据同步推送至指挥员与智能临机规划系统，辅助指挥员在临机规划过程完成对战场态势的观察。3.2 智能临机规划系统生成态势研判报告智能临机规划系统在接收到指挥信息系统推送的态势综合信息数据后，首先进行态势研判，主要分为两步。第一步，“态”的分析。系统态势分析功能模块基于专家标定数据训练智能学习算法，结合基于传统规则算法的实时态势分析模型计算结

14、果，生成当下的态势分析结论，完成对敌方活动单元的任务识别等静态分析工作。第二步，“势”的认知。系统态势预测功能模块基于历史对抗数据、仿真对抗数据训练智能学习算法，结合当下态势综合信息、态势分析结包战，等：智能临机规划技术要点研究 115 图2 智能临机规划技术的应用设想论以及基于传统规则算法的实时态势分析模型计算结果，生成当下的态势预测结论，完成对敌方活动单元的意图识别、行为预测以及整体战场态势评估等动态分析工作，并将有关信息及成果发送至系统规划生成模块。系统综合态势分析与预测结论，生成态势研判报告并上报指挥员，辅助指挥员在临机规划过程中完成基于当前态势下的判断。3.3 智能临机规划系统生

15、成临机规划建议智能临机规划系统在完成态势分析和研判后，进入临机规划阶段，主要分为临机规划生成与评估两个部分。临机规划的生成，指系统规划生成功能模块基于历史对抗数据、仿真对抗数据训练智能学习算法，依据态势分析与预测结论、专家临机规划知识，生成多个态势综合信息下的临机规划初步方案供系统评估。临机规划的评估，指系统规划评估功能模块基于历史对抗数据、仿真对抗数据训练智能学习算法，对临机规划初步方案进行评估，优选得出执行方案，生成临机规划建议。系统将选定的临机规划建议方案推送至指挥员，辅助指挥员在临机规划过程中完成基于态势认知的决策。3.4 指挥员依托指挥信息系统实施临机规划指挥员针对智能临机规划系

16、统生成的临机规划建议方案进行调整修正，形成最终临机规划执行方案，依托指挥信息系统下达临机规划任务指令，进入基于临机规划决策的行动环节，完成一次“OODA”回路的闭环。4 智能临机规划技术的研究建议 4.1 研究总体目标在深入分析人机耦合智能临机规划需求的基础上，可以依托当下层次强化学习方法框架并加以改进，使其能够调用专家知识与方法（算法）、通过任务（行动）指令实施智能临机规划。这一研究具体需达到以下四点目标：一是实现特定场景下，智能体不再针对单一作战单元实施原始动作的控制，而是针对任务编组实施基于任务的指挥与控制；二是人的结构化知识经验模型，如基于传统规划方法、作战评估指标体系、经验逻辑判断

17、式等，可以通过人工设计的任务调用模块、内生反馈等方式融入智能体应用，从而实现专家知识向智能规划系统的融入；三是上层任务调度网络可以同时兼容适配下层人工设计的任116 国防科技 2023 年第 1 期（总第 338 期）务执行模块与自主学习的任务执行网络，并能动态适应任务执行模块的更新与任务执行网络的优化；四是任务执行网络依托现有监督学习方法，借助任务执行模块进行预训练，最终在上层任务调度网络指导下达到并超越任务执行模块水平。4.2 研究重点问题在上述目标指引下，结合智能临机规划的技术需求与当前层次强化学习研究现状，可确立研究的重点问题。4.2.1 基于典型作战场景的任务框架设计基于典型作战

18、场景，从经典任务战法实现与作战经验中抽取动作组合，形成最基本的、能组合复用的任务模型元任务，确定任务预期效果、任务类型、任务输入参数等信息，最终形成元任务集与一套任务信息标准，使其既满足上层自主学习的智能任务调度网络的需要，又满足下层开发人员基于规划算法与经验逻辑设计的任务执行模块的需要。4.2.2 基于实体属性架构的高维态势信息处理当下仿真博弈智能体的相关研究多基于空间网格信息，通过固定化的横纵切分，实现了空间离散化处理，并可以按空间进行切割。军事仿真对抗平台数据基于实体属性架构，不同场景下实体数目不等长，而且属性特征数目明显增多，因此需要重点研究实体属性架构的高维态势信息压缩处理方法，以

19、满足上层智能任务调度网络的训练要求。4.2.3 嵌入任务执行模块的智能任务调度算法研究在构建典型作战场景的任务框架、人工设计元任务执行模块的基础上，应进一步探索智能体自主调用任务执行模块、学习使用相关先验知识的方法。因此，需要研究可嵌入人工设计任务执行模块的智能任务调度算法框架。其中，上层的任务调度网络能够依据当前态势信息决策调用相关模块、输出目标参数等信息，在较粗的时间粒度上指导下层任务执行模块；下层任务执行模块在较粗的时间粒度上依据上层任务目标及人工设定的执行策略产生动作，在判定满足所设终止条件后结束任务。4.2.4 嵌入智能任务执行网络的双层智能任务调度算法研究由于嵌入任务执行模块的

20、智能任务调度算法直接使用了人工设计的任务执行模块，并未使用智能算法直接生成最基本的原始动作，因此无法求解问题最优解。为解决此问题，必须将下层任务执行模块也替换为智能任务执行网络，开展嵌入智能任务执行网络的双层智能任务调度算法研究。在保证上层任务调度网络不变的前提下，依据上层任务目标在各时刻输出动作，并依据环境反馈值与目标值更新网络策略，最终在判定满足所设终止条件后结束任务。4.2.5 融合人工设计任务执行模块与智能任务执行网络的任务调度算法实现人工设计任务执行模块的优势是可以直接使用军事专家的先验知识，缺点是有限的模块设计限制了最优解的生成；智能任务执行网络的优点是理论上可以实现最优解，缺点

21、是算法训练初期成本高，在高维状态空间与动作空间内无法保证找到最优解。因此，需要研究可将二者融合使用的方法，发挥两者优点，使得训练初期人工设计任务执行模块可以引导智能任务执行网络算法快速收敛，训练后期依托智能任务执行网络自主博弈训练，超越人类专家设计的任务执行模块水平，并得出更优决策结果。4.3 研究路线建议按照由浅入深、由易及难的基本原则，结合当前层次强化学习与智能博弈技术的发展现状14-16，可初步设计人机耦合智能临机规划的研究路线与适用方法。第一，实现典型场景元任务集设计与对应任务执行模块开发。选择典型作战场景如空地攻防对抗等，基于想定设计与实际博弈经验，按实体任务编队类别设计元任务及相

22、关信息要素，结合军事专家人员的结构化知识设计任务执行模块。第二，实现任务执行模块调度的博弈智能体。可借鉴改进Option-Critic网络架构，实现可嵌入人工设计的单编组任务执行模块的层次强化学习算法。其中，任务调度网络负责依据自身策略选择需要启用的任务执行模块，并下达任务目标信息；任务执行模块负责依据任务目标信息产生动作序列；选项评估网络依据当前状包战，等：智能临机规划技术要点研究 117 态、任务目标与反馈信息，判定下一时刻是否结束任务。第三，实现双层任务网络的博弈智能体。基本思路是将单编组任务执行模块改为自主学习的任务执行网络，充分发挥强化学习自我探索的优势，在理论上满足求解最优解的要

23、求。其中，任务调度网络作用不变，选定需要启动的任务执行网络，并下达任务目标；任务执行网络由上层任务调度网络启用，并接收局部态势信息与上层任务调度网络设计的目标信息，产生动作序列；选项评估网络依据当前状态、任务目标与反馈信息，不仅需要判定下一时刻是否结束任务，还需要为任务调度网络提供内生反馈，从而加快算法训练进程。第四，实现融合人工设计任务执行模块与智能任务执行网络的博弈智能体。主要思路是以人工设计的任务执行模块为先验知识，针对任务执行网络开展预训练，主要分为两个阶段。一是学习模仿阶段，任务执行网络以任务执行模块产生的动作为参照进行模仿学习，引导任务执行网络达到任务执行模块水平；二是自博弈超越阶

24、段，在完成基于任务执行模块预训练的基础上，依托双层任务网络的博弈智能体设计方法进行自博弈训练，达到超越基于人工设计的任务执行模块水平的目标。5 结语开展智能临机规划技术研究具有较强的实际应用价值。从近期成果应用角度看17-24，在依托现有端到端博弈技术实现专家水平博弈智能体的前提下，可以辅助规划人员进行仿真模拟系统的教学培训与基本战法的验证；从中期成果应用角度看，在实现面向任务级指挥的专家水平博弈智能体、明晰人机融合规划原理机制的前提下，可以直接生成高水平的任务辅助决策建议；从远期成果应用角度看，在自主化作战平台达到实战应用水平的前提下，可以嵌入层次化任务指挥系统，支撑多类型作战平台混合编组

25、的自主作战。相信随着智能化进程的不断推进，智能技术必将为突破临机规划难题作出应有贡献。参考文献 1 胡晓峰,荣明.关于联合作战规划系统的几个问题J.指挥与控制学报,2017,3(4):273-280.2 谢苏明,毛万峰,李杏.关于作战筹划与作战任务规划J.指挥与控制学报,2017,3(4):281-285.3 王阔,曹占广.基于预案的作战组织筹划方法与流程C/北京:2014第二届中国指挥控制大会论文集(上),2014:61-64.4 尹强,叶雄兵.作战筹划方法研究J.国防科技,2016,37(1):95-99.5 SILVER D,SCHRITTWIESER J,SIMONYAN K,et a

26、l.Mastering the game of go without human knowledgeJ.Nature,2017,550(7676):354-359.6 VINYALS O,BABUSCHKIN I,CZARNECKI W M,et al.Grandmaster level in StarCraft II using Multi-agent reinforcement learningJ.Nature,2019,575(7782):350-354.7 VEZHNEVETS A S,OSINDERO S,SCHAUL T,et al.FeUdal networks for hier

27、archical reinforcement learningC.Sydney:International Conference on Machine Learning(ICML),2017.8 BACON P L,HARB J,PRECUP D.The Option-Critic architectureC.Phoenix:National Conference on Artificial Intelligence(AAAI),2016.9 BERNER C,BROCKMAN G,CHAN B,et al.Dota 2 with large scale deep reinforcement

28、learning J.arXiv.1912.06680,2019.10 HAN L,XIONG J,SUN P,et al.TStarBot-X:An open-sourced and comprehensive study for efficient league training in StarCraft II full gameJ.arXiv.2011.13729,2020.11 陈希亮,张永亮.基于深度强化学习的陆军分队战术决策问题研究J.军事运筹与系统工程,2017,31(3):20-27.12 张驭龙,范长俊,冯旸赫,等.任务级兵棋智能决策技术框架设计与关键问题分析J/OL.指挥与

29、控制学报:1-82022-12-08.http:/ 章乐贵,陈希亮,曹雷,等.智能蓝军作战行为模型构建技术研究J.国防科技,2022,43(1):7.14 曹雷,孙彧,陈希亮,等.联合作战任务智能规划关键技术及其应用思考J.国防科技,2020,41(3):8.15 梁星星,马扬,冯旸赫,等.基于预测编码的样118 国防科技 2023 年第 1 期（总第 338 期）本自适应行动策略规划J.软件学报,2022(4):33.16 张驭龙,黄金才,冯旸赫.军事博弈智能规划技术发展要点刍议J.中国指挥与控制学会通讯,2020,5(3):56-58.17 SILVER D,HUBERT T,SCHRIT

30、TWIESER J,et al.A General reinforcement learning algorithm that Masters Chess,Shogi,and go through Self-play J.Science,2018,362(6419):1140-1144.18 SCHRITTWIESER J,ANTONOGLOU I,HUBERT T,et al.Mastering Atari,Go,Chess and Shogi by planning with a learned ModelJ.Nature,2020,588(7839):604-609.19 SILVER

31、D,HUANG A,MADDISON C J,et al.Mastering the Game of Go with Deep Neural Networks and Tree searchJ.Nature,2016,529(7587):484-489.20 施伟,冯旸赫,程光权,等.基于深度强化学习的多机协同空战方法研究J.自动化学报,2021,47(7):1610-1623.21 梁星星,冯旸赫,马扬,等.多Agent深度强化学习综述J.自动化学报,2020,46(12):2537-2557.22 崔文华,李东,唐宇波,等.基于深度强化学习的兵棋推演决策方法框架J.国防科技,2020,41

32、(2):113-121.23 陈希亮,曹雷,沈驰.基于深度逆向强化学习的行动序列规划问题研究J.国防科技,2019,40(4):55-61.24 陈晓轩,黄魁华,梁星星,等.战术先验知识启发的多智能体双层强化学习J.指挥与控制学报,2022,8(1):72-79.Research on key points of intelligent contingency planning technology BAO Zhan1,ZHANG Yulong1,ZHU Songyan1,WANG Chunguang1,LIU Zhong2(1.Unit 31002,Beijing 100000,China;

33、2.College of System Engineering,National University of Defense Technology,Changsha 410073,China)Abstract:Grounded in the current problems in contingency planning,this paper puts forward the requirements for its intelligent development and preliminarily describes the issue of contingency planning.Bas

34、ed on the three capability requirements of rapid calculation,assessing with incomplete information,and appropriately adjusting to change,this paper highlights that the critical feature of intelligent contingency planning technology is humanmachine coupling in both the design and deployment of intell

35、igent agents.It then clarifies three core technical requirementsthe task framework for constructing hierarchical scheduling in typical scenarios,the knowledge transfer path from military experts to intelligent agents,and a deep reinforcement learning algorithm framework for hierarchical task schedul

36、ing compatible with artificial model invocation and autonomous learning.Based on the current development of intelligent game technology,intelligent contingency planning technology that is deeply embedded in each link of the observe-orient-decide-act loop in commanders contingency planning and decisi

37、on-making is proposed.Finally,the paper analyzes the overall objective,key research issues,and recommended research routes from the perspective of the implementation of intelligent contingency planning technology,and sheds light on its application prospects in the future.Key words:operational planning;contingency planning;artificial intelligence （责任编辑：周宁琳）

展开阅读全文