基于图神经网络GraphVAE的兵棋态势预测方法.pdf

资源描述

1、第卷第期年月指挥控制与仿真文章编号：（）基于图神经网络的兵棋态势预测方法余晓晗，王启迪，于坤（中国人民解放军陆军工程大学指挥控制工程学院，江苏南京）摘要：在战场上敌我双方作战的过程中，准确地预测敌方的兵力部署将有利于我方的作战。基于兵棋推演的态势数据，通过训练图神经网络，提出了预测敌方未知算子位置的方法。首先，在对数据进行预处理后，实现了态势到图结构数据的转化，构造了兵棋态势的图结构数据集，用于图神经网络的训练。其次，根据兵棋态势及其数据的特点改造了模型，实现了兵棋态势图结构数据的补全。最后设计了基于补全后的图结构数据，计算敌方算子位置的方法。通过实验证实了该方法的有效性

2、和可行性。关键词：态势预测；图结构数据；图神经网络；兵棋态势中图分类号：文献标志码：，（，）：，：；收稿日期：修回日期：作者简介：余晓晗（），男，副教授，博士，硕士生导师，研究方向为人工智能。王启迪（），女，硕士研究生。战场态势是对战场上作战双方的当前状态和作战形式的描绘，是指挥员整体把握战场信息，实施作战指挥决策的前提和依据。在我方难以“无死角”地感知战场全局态势的情况下，如果能够利用战场上已知的局部数据信息预测出敌方兵力分布，将会有利于我方辨别敌方意图，把握取得制胜的关键。面对海量、复杂的战场数据，如何处理已知数据并进行数据补全以准确地预测敌方算子位置是对抗的关键问题所在。在军事智能化的背

3、景下，兵棋推演成为战争模拟和战术设计的重要辅助。本文以“庙算杯”分队级人机对抗测试赛提供的庙算陆地指挥官兵棋推演平台态势数据为基础，对地图上敌方算子兵力分布及位置坐标进行预测，以应对战争迷雾下我方不知道未观察到的敌方算子位置及其他部分信息的情况。但是，如果直接利用平台提供的态势数据进行敌方算子位置的预测会十分困难，一方面，每一帧态势图的算子位置信息在一定的时间内变化不明显，甚至没有变化，导致多帧态势数据存在大量重复，造成数据的冗余；另一方面，算子位置仅占据整个地图位置数据的一小部分，且分布不集中，导致数据十分稀疏，难以提取，再者敌我双方算子之间的关系信息十分丰富，难以表示。因此，本文尝试将态势

4、数据预处理为图结构数据，这样既解决了态势数据重复性、稀疏性的问题，又能够很好地表示算子与算子之间的复杂关系。预测敌方算子位置另一关键问题是如何在已知我方态势信息和与敌方的部分关联关系信息的情况下补全图结构中的算子关系信息。图神经网络（，）作为深度学习中处理非结构化图数据的热门技术，能够以图结构数据为输入，实现准确的预测。受变分自编码器（，）的启发，等人将图神经网络和变分自编码器进行结合，提出了模型，通过编码器对已知的图结构进行编码，学习到原图结构的向量表示分布，在分布中采样得到图的向量表示，然后通过解码器生成概率图，实现了图结构的重建生成和信息补全。本文使用该模型补全图结构

5、中的算子关系信息，再将补全的图结构进行敌方算子位置的预测，主要工作框架如图。余晓晗，等：基于图神经网络的兵棋态势预测方法第卷图主要工作框架因此，本文的主要工作包括：）对兵棋推演中的态势数据进行预处理，在预处理的基础上，将态势图转化成图结构数据，算子作为图中的节点，算子之间的关联关系作为图中的边属性。）把图结构数据应用到图神经网络模型上进行数据信息的补全，重建并生成补全算子关系信息后的图。）根据补全后的图结构，预测出敌方算子在地图上的位置坐标范围。数据处理态势图是对敌我双方在兵力部署和行动等方面状态的描述，作为动态图，其数据信息会随时间步而更新变化，因此要预测敌方算子的兵力分布，首先需

6、要将其看成一帧帧的静态图来分析态势图的数据。然而在这些一帧帧的静态图里，有些态势数据在前后帧中并没有变化，这导致数据信息有大量的重复和冗余，因此需要对态势信息进行数据预处理。另外，算子在地图上的位置分布十分稀疏，数据难以提取，并且算子之间复杂的关联关系隐藏在状态信息中，关系表示不显著。对此，本文提出将预处理后的态势数据转化成图结构数据解决这些问题。在本节中，主要介绍如何对数据进行预处理以及图结构的构建。数据预处理本文使用“庙算杯”分队级人机对抗测试赛提供的陆战兵棋推演平台的数据，该数据主要包含态势数据、地图数据以及想定文件数据等。态势数据是兵棋推演中与时间步长有关的所有盘面信息，包括算子信息、

7、裁决信息、夺控点信息、对局分数信息等。地图数据包含基础地图数据、通行代价数据和通视数据。想定文件是环境初始化时的必要文件，内部包含一个想定的所有初始条件，想定文件直接决定一场推演的初始态势。在该测试赛提供的对抗数据中，共有局比赛的态势数据，每一局有个盘面信息，每一个盘面信息中，算子在地图上的位置部署等作战状态构成一张态势图。该比赛使用的地图类型是目前兵棋推演中最常见的正六边形栅格地图，为水网稻田地形，栅格中的地形类型共有种。棋子（即算子）共分为步兵、车辆、飞机、工事四大类，一个算子代表一个排的聚合兵力，例如一个坦克排可以由辆坦克构成。经分析发现，利用原始的态势数据预测敌方算子的位置难度

8、很大，原因如下：）在态势图中，初始想定和最终算子态势位置的变化在地图上并不明显，所有算子仅在地图的中心部分向主次要夺控点移动变化，且一定时间内，帧与帧之间的态势图上算子位置甚至没有改变，造成了数据大量的重复和冗余，如图所示，在比赛的第一局中算子从初始到第步的位置并没有变化。）由于该赛事的测试目标是通过和高水平人类对第期指挥控制与仿真图态势变化图手对抗，测试评估智能体在临机环境下的决策应变能力，导演席在推演部署阶段可改变夺控点位置、初始兵力位置和初始兵力数量，在推演进行中可随时增援兵力或增设路障，这加剧了估计态势的难度。针对上述问题，本文对态势图进行了以下的数据预处理：）为了避免态势

9、图的重复，在帧态势图中，删除算子信息和前一时刻态势图的算子信息相同的态势图，也就是如果当前时刻与前一时刻相比，算子位置发生移动，则保留该时间步态势图，最终将局中的每一局帧态势图处理成张左右的态势图。）在局测试赛中，有一部分在步之后，红蓝双方均新增炮兵和坦克，考虑新增的炮兵在整个比赛进程中坐标位置没有变化且不影响其他算子的信息变化，直接去掉炮兵这一算子类型。新增坦克由于会对其他算子的坐标位置产生影响，将其在态势图中保留。接下来，进一步把预处理后的态势数据转换成图结构。图结构数据构建在未知敌方算子信息的情况下，通过敌我双方算子之间的关系更有利于判断敌方的兵力分布，然而兵棋态势图上仅呈现

10、出各个算子孤立的状态信息，算子之间复杂的关联关系隐藏在状态信息中，没有直接表示出来。因此，本文考虑把态势图转化为图结构来描述态势图中算子特征及算子之间的重要关系。参考图神经网络中的模型使用的图结构形式，设（，）是一个用节点特征矩阵、边属性矩阵和图性质组成的图，其中，表示节点集合，表示边关系集合，表示图的性质列表，且、分别表示节点数、节点属性数和边属性数。下面基于预处理完毕的态势数据构建图。）节点特征矩阵的构建在图结构中，特征矩阵由节点和节点的相关属性构成矩阵的行和列。特征矩阵的列采用编码的形式，如果节点的属性有个值，那么就用一个维的向量表示这个属性，且每个向量中的特征只有一个不为

11、，其余全是。本文使用对抗双方的算子作为图的节点，为了标识算子，选取态势数据中的算子类型表示节点的属性。根据该测试赛的数据可知，红蓝双方共有个算子，包含坦克、战车、人员等种属性类型，由于在作战过程中，算子会被敌方摧毁，可将摧毁余晓晗，等：基于图神经网络的兵棋态势预测方法第卷的算子设置为一类特征，因此共设置为种类型，分别为坦克、战车、人员、无人战车、巡飞弹、被摧毁。最终，一个图中的节点信息由的特征矩阵表示。比如算子的类型为坦克，则用的形式表示为（，），也就是用一个维的数组去表示算子的特征，且数组中的每一行有且只有一个是。）边属性矩阵的构建边属性矩阵表示节点两两之间的边关系，采用三维

12、张量的形式构建边属性向量，在第三个维度上存储算子与算子之间多种关系的属性值，这样既能够表示节点与其他节点之间是否有边关系，又可以标识边关系的属性值。算子之间的关联关系信息是预测敌方算子位置坐标的关键，因此本文选取与位置相关联的边信息进行处理，使用算子之间的距离、两个算子能否通视以及两个算子的最快到达时间作为算子的关系，在图中表示为边的属性。属性值的第一列为算子两两之间的曼哈顿距离，利用态势数据提供的算子信息中的算子当前坐标来计算。第二列为算子之间的通视情况，由兵棋规则可知，两个算子之间能够观察的前提条件是可以通视，以六角格为单位，通过六角格中心点到另一个六角格中心点之间连线判断是否通视。在通视

13、的条件下，根据算子属性里的观察距离（此算子可以观察到各个类型算子的最大观察距离）计算出观察者可以观察到的被观察者的最大距离。最终计算的观察距离如果不小于两点之间的曼哈顿距离，则被判断为算子可以观察到算子，否则不能观察到，能否观察通过、来表示。第三列为算子之间的最快到达时间，算子到算子的最快到达时间是在算法的基础上计算出到的最优路径所需要的时间。地图数据中的通行代价数据存储了不同模式下到邻域坐标的通行代价，通行代价定义为当前通行模式下最大机动速度当前速度，利用算法计算出算子到算子的最优通行代价，也就是到的最快到达时间。由于兵棋对抗具有战争迷雾，在训练数据中，针对红方不可

14、见的蓝方算子，其边信息全部设置为。标签则为具有红蓝双方完整边信息的图结构。最后将计算好的距离、通视和时间三个边属性进行归一化，由于数据比较集中，归一化均采用最大最小标准化（）将数据映射到，之间，并将三个属性进行合并，转化成图结构中形式的边属性矩阵，来表示算子两两之间的边关系，如图所示。）图性质的构建表示一个图，除了节点和边以外，还需要态势图的图边关系矩阵性质来描述整个图结构的属性以便在图神经网络中作为图输入的标签。对于兵棋数据来说，图的性质就是能够标识态势图特征的属性，因此选取态势数据中的对战时间即当前时间步来标识每个图的区别，夺控点信息中红蓝双方夺控主要夺控点、次要夺控点情况作为另一

15、图属性，从而控制最终生成的图中节点位置趋向夺控点，把三个属性进行合并来表示一个图的性质，得到一个图属性列表。例如一个图为第步的态势图，主要夺控点被红方占据，次要夺控点未被占领，则表示为，其中表示红方阵营，表示蓝方阵营，表示该夺控点未被红蓝双方占领。模型介绍模型是一种图自编码器的模型，它将变分自编码器（，）迁移到了图领域，年由等人提出。这一模型在的框架内，通过让解码器直接生成预定义大小的概率图，将图的向量表示转化为概率图来避免图这种离散化、无序化结构生成的困难。本文参考模型的主要结构，对模型编码器、解码器和损失部分进行修改来适用于兵棋态势图数据集。其主要框架如图所示，设（，）是由

16、节点特征矩阵、边属性矩阵组成的图，用已知节点数为的图通过编码器学习到图向量表示的分布，在分布中采样得到图的向量表示，然后进行解码重新构建图，并生成节点数最多为的概率图（，），该过程还嵌入了图属性标签以便控制采样。其中编码器由变分后验概率（）定义，解码器由生成分布（，）定义，是包含图关键信息特征的隐变量，、是学习参数。通过编码器的最后一层输出特征来表示高斯分布（）的均值和方差，从而在分布中使第期指挥控制与仿真用重参数化技巧进行采样（），（）（，）得到图的向量表示。在生成的概率图中，节点和边属性是连续属性变量，节点属性矩阵表示节点属性分类的概率，边属性矩阵表示边属性分类的概

17、率。图模型在编码器部分，本文使用门控图神经网络（，）模型来进行图中节点和边的信息传递，并得到兵棋数据集中图（，）的图向量表示。是一种基于门控循环单元（，）的信息传递模型，通过向邻居发送信息和接收邻居信息来更新节点的表示，利用门控循环单元来控制节点更新的次数。其优点在于它可以保留在迭代过程中节点的关键隐藏信息，还可以选择性记忆邻居节点和边之间的信息。整个过程为，图中的节点特征矩阵和边属性矩阵输入编码器，首先经过两个全连接层分别输出节点和边的初始化表示，利用初始化信息获得节点和邻居节点通过边信息相互作用的结果，而后进入模型中的消息传递阶段，利用对节点的状态进行更新，得到节点的最终状

18、态表示。最后将初始节点表示和最终节点状态表示的拼接输入神经网络并与最终节点的状态表示相乘，输出整个图的向量表示。在具体的训练中，结合兵棋态势图结构数据集的特点，本文设置编码器中输出节点和边初始化信息的两个全连接层的输出维度为，在信息传递过程中，门控单元的循环次数即图中节点的更新次数设置为，的输出维度为，再利用两个全连接层（输出维度为）输出整个图结构的表示，最后嵌入图的属性并经过两个全连接层（输出维度均为）得到图的向量表示并输出（，）。在解码器中，使用了一个简单的多层感知机（，）输出生成的概率图（，），最后通过两个并行的全连接层输出节点和边的图张量矩阵，由于兵棋数据集的节点属性为形式的分类数据

19、，边属性为连续数据，可通过函数计算节点的分类概率，利用函数输出返回概率最大的节点类别，函数计算边的个属性数值。模型损失由分布误差和重构误差两部分组成，如式（）：（，；）（）（）（）（）（）分布误差表示编码器学习到的隐变量的概率分布与标准高斯分布间的差异，该项误差一般采用散度衡量。重构损失表示生成的概率图与原图之间的差异，本文采用均方误差来表示重构损失。在比较生成图与原图的差异的过程中，本文使用四部分加权求和得到重构损失，分别是节点特征矩阵的误差、边属性矩阵的误差、邻居节点的特征误差以及邻居的邻居节点的特征误差。利用节点特征矩阵和边属性矩阵的损失使生成的图中算子属性和算子之间的关联

20、关系属性接近原图。同时为了保证算子关系的稳定性，将与算子有边关系的算子，以及有阶边关系的算子与原图的特征误差也考虑进去，在图结构中为节点的邻居特征以及邻居的邻居特征。实验部分数据处理结果及实验参数设置本文对兵棋推演中的态势数据进行处理，并将其转化为图结构数据集，用于预测敌方算子的兵力分布。在局测试赛的态势数据中，将个态势盘面信息处理成个态势图，每个图代表相应时间步的态势，然后转化成图结构，一个图代表一张态势图的算子信息及算子之间的位置关系，图中节点表示态势中的算子，边表示算子两两之间的关联关系。每个图中最多有个节点，节点采用形式的特征矩阵存储，共有个特征值表示算子的种类型，边

21、通过三维矩阵存储距离、能否通视、最快到达时间个边属性关系，另外每个图有个图属性（当前步长、当前局的红蓝方夺控情况）表示图的性质。在图结构（，）（其中，）中，设置、和，并随机选取数据集的作为训练集，作为测试集。具体数据集信息如表所示。本文模型通过实现，将上述数据集用于模型补全态势信息并重建图结构生成概率图。训练的批量大小为，在模型参数的优化上，使用优化器，并设置学习率为，余晓晗，等：基于图神经网络的兵棋态势预测方法第卷正则化项为。表数据集信息统计数据集图数量节点数边数训练集测试集实验结果本文通过损失来评估该模型适用于态势图结构数据集的效果，实验结果如图所示，横坐

22、标为训练迭代的次数，纵坐标为损失值，曲线分别代表散度和重构损失即节点损失、边损失、邻居损失和节点邻居的邻居损失。图训练损失结果表实验结果结果训练结果测试结果由图训练阶段损失曲线可以看出，个损失最终都达到收敛，边损失的收敛速度最快，节点损失的收敛效果最佳。对该模型进行测试，根据表可知，模型具有很好的拟合能力。这表明将模型应用于态势图结构数据集生成新的态势图是有效的，但对于生成的态势图是否真实这一问题，需要进一步实验证明。预测算子位置结果及分析本文将态势图转化为图结构，通过模型补全了图结构的节点以及节点关系信息并生成了概率图，然后利用生成的概率图来预测敌方算子的位置

23、。在给定红方算子信息的情况下，根据图中的边关系距离、能否通视以及最快到达时间估计蓝方算子在地图上的坐标范围。首先，假设要预测的蓝方算子在地图上的任一坐标点，计算所有坐标点与红方算子的距离，然后，根据概率图中边属性矩阵的距离属性，得到红方算子与要预测的蓝方算子之间的距离，通过距离比较预测出蓝方算子最有可能所在的坐标位置。由于整个地图范围太大且算子在整个作战过程中仅在中心部分移动，选定地图上算子主要移动的位置范围，横坐标在到之间，纵坐标在到之间，给定红方所有算子的位置坐标，计算当前时间步长的每一个红方算子与所有坐标点的距离，并将该值按上文中的方式归一化到，之间，将每一个坐标点和红方算子

24、之间的距离与真实距离进行比较得到一个概率值，表示要预测的蓝方算子在该位置上的可能性。利用边关系能否通视预测时同理，假设蓝方算子在地图上任意坐标位置点上，求得每个坐标点蓝方算子存在的可能性，但计算通视情况时需要红方算子的属性类型，因此利用概率图中的算子属性矩阵得到红方算子的类型，来计算每一个红方算子和地图上任一坐标点的通视情况，若通视情况与真实通视情况相同，则设置蓝方算子在该坐标点的概率为，不同则为，最终得到每个坐标点上蓝方算子存在的概率，其他边关系同理。最后，将每个坐标点上的距离概率、通视概率和时间概率相乘得到最终的概率情况，并通过热力图呈现要预测的蓝方算子最可能存在的位置坐标范围。本文随机

25、选取第一局中的第步预测蓝方算子的位置坐标，纵坐标代表地图上的行，横坐标代表地图上的列，具体结果如图所示。图蓝方算子位置预测情况第期指挥控制与仿真由结果可知，蓝方算子在以（，）坐标位置点周围且最有可能在（，）坐标点上，根据态势图数据信息发现，预测结果与实际位置一致，说明预测结果准确。因此，正常情况下能够较为准确地获得蓝方算子的位置，但在一些极端情况中，如图所示，由于其他蓝方算子已被摧毁，并且红方算子及未被摧毁的蓝方算子与要预测的该算子均不可通视，无法获取与之相关联的边信息，红方算子和蓝方算子不能通过边的联系相互连通，则无法利用图结构中的边信息进行蓝方算子位置的预测。排除上述极端情况

26、，对蓝方算子不同类型的位置预测准确率进行了统计。分别以蓝方算子实际位置在预测概率值最高的前、个六角格内作为准确率的衡量，其统计结果如图所示。蓝方重型坦克、重型战车的实际位置在的准确率大概在到之间，的准确率在到之间，的准确率在到之间。而蓝方步兵小队的实际位置在的准确率在左右，的准确率在左右，的准确率在到之间。可以看出，随着预测概率范围的扩大，准确率越高。蓝方坦克、战车算子的预测准确率较高，是因为它们作为战场上重要的火力来源，常出现在红方算子的观察区域内，较容易获取算子信息，而步兵算子运动速度缓慢且容易隐蔽，因此准确率较低。图算子不连通的极端情况图蓝方不同算子类型的

27、预测准确率结束语战场态势估计是作战过程中辨别敌方意图和实施下一步作战计划的必要手段，由于战场数据海量、复杂、难以处理且获取敌方信息不全面，本文提出对兵棋推演平台的态势数据进行处理，将态势图转化成图结构数据，参考图神经网络中的模型，对该模型进行修改，应用到处理好的态势图结构数据集，补全态势信息并重建生成态势图，为了判断生成的态势图的真实性以及信息补全情况，随机选取部分态势，在给定红方算子信息的条件下，预测蓝方算子的坐标位置范围。通过实验结果发现，本文提出的方法能够比较准确地预测出敌方算子的所在位置。本文提出的方法在敌我双方能够通视的情况下，算子预测位置较为准确，但在图的极端情况下预测难度较大，不能具体确定敌方算子位置。因此，在下一步工作中，将引入时间维度，将前几个时刻的算子关系考虑进去，来实现更精准的预测。余晓晗，等：基于图神经网络的兵棋态势预测方法第卷参考文献：李昌玺，于军，徐颖，等联合作战条件下战场态势感知体系构建问题研究中国电子科学研究院学报，（）：，（）：彭亚飞，杨凡德战场态势认知综述兵工自动化，（）：，（）：，王桂起，刘辉，朱宁兵棋技术综述兵工自动化，（）：，（）：，智能系统与工程研究中心庙算陆地指挥官兵棋推演平台（）：（）：，（）：，：，：，：，：，（）：（责任编辑：许韦韦）

展开阅读全文