基于卷积神经网络的“拱猪”博弈算法.pdf

资源描述

1、DOI:10.11992/tis.202203030网络出版地址:https:/ 信息工程学院,北京 100081）摘要：“拱猪”又称“华牌”，是一款极具特点的牌类游戏，属于非完备信息博弈，由亮牌和出牌 2 个阶段组成，整个游戏过程具有极强的反转性。为了研究“拱猪”计算机博弈算法，本文提出了一种基于深度学习的“拱猪”博弈算法，包含亮牌和出牌 2 个神经网络，分别用于亮牌和出牌阶段。亮牌和出牌网络均采用卷积神经网络（convolutional neural network，CNN）来构建，根据功能特点分别设计为不同的网络结构。采用 11 000 局人类高级玩家的真实牌谱按比例生成训练数据和测试

2、数据，对 2 个 CNN 网络进行了训练、测试和分析。结果表明，亮牌和出牌网络分别达到了 88.4%和 71.4%的准确率。对亮牌和出牌的一些具体例子进行的分析表明，本文算法能够产生合理的亮牌和出牌策略。关键词：人工智能；非完备信息博弈；深度学习；卷积神经网络；拱猪；华牌；亮牌；出牌中图分类号：TP183；G892 文献标志码：A 文章编号：16734785(2023)04077508中文引用格式：吴立成,吴启飞,钟宏鸣,等.基于卷积神经网络的“拱猪”博弈算法 J.智能系统学报,2023,18(4):775782.英文引用格式：WU Licheng,WU Qifei,ZHONG Hongmin

3、g,et al.Algorithm for“Hearts”game based on convolutional neural net-workJ.CAAI transactions on intelligent systems,2023,18(4):775782.Algorithm for“Hearts”game based onconvolutional neural networkWU Licheng，WU Qifei，ZHONG Hongming，WANG Shiyao，LI Xiali(School of Information Engineering,Minzu Universit

4、y of China,Beijing 100081,China)Abstract:“Hearts”,also known as“Chinese card game”,is a very characteristic poker game,which belongs to incom-plete information games.It consists of two stages of card showdown and card playing,and there is strong reversalitythroughout the game.In order to study the c

5、omputer game algorithm of“Hearts”,this paper proposes a“Hearts”gamealgorithm based on deep learning,which includes two neural networks,namely,card showdown and card playing,whichare used in card showdown and card playing stage respectively.Both the card showdown network and card playing net-work are

6、 constructed by convolutional neural network(CNN),which are designed into different network structures ac-cording to their functional characteristics.Two CNN networks are trained,tested,and analyzed by using the real cardplaying patterns of 11,000 human advanced players to generate training data and

7、 test data proportionally.The resultsshow that the accuracy of card showdown and card playing network reaches 88.4%and 71.4%respectively.The analys-is of some specific examples of card showdown and card playing shows that the algorithm is able to produce reasonablecard showdown and card playing stra

8、tegies.Keywords:artificial intelligence;game of incomplete information;deep learning;convolutional neural network;Hearts;Chinese card game;card-showing;card-playing 非完备信息博弈是指参与者无法从游戏对局中获得所有的局面信息，因此对其博弈算法研究具有一定的难度，目前已备受关注，成为热门研究之一。德州扑克1-3、“斗地主”4-5等，尤其是德州扑克的国内外相关研究成果较多。2013 年，王轩等6-10在信息表示、函数优化、博弈树搜索、对

9、手建模和风险模型分析等方面取得的成果显著，并在 2013 年世界计算机扑克大赛（annual com-puter poker competition,ACPC）2 人限注项目竞赛中，取得了第 4 名的好成绩11。2015 年，Bowl-ing 等12提出改进型虚拟遗憾最小化（counterfac-tual regret minimization,CFR）CFR+算法，在 2 人限注项目中取得了重大进展，首次成功地破解了该收稿日期：20220317.网络出版日期：20230327.基金项目：国家自然科学基金项目（61773416，61873291）.通信作者：李霞丽.E-mail：xiaer_.

10、第 18 卷第 4 期智能系统学报Vol.18 No.42023 年 7 月CAAI Transactions on Intelligent SystemsJul.2023智能系统学报编辑部版权所有项目所存在的制胜策略，但仍然无法解决超大规模的博弈问题。2018 年，Brown 等13采用有限深度优先的方法进行搜索，所构建的智能体打败了先前版本的人工智能（artificial intelligence,AI）程序。2019 年，Noam14-15使用自博弈的方法来训练智能体，这与训练 AlphaGo Zero、AlphaZero 的方法类似，所构建的智能体 Pluribus3在六人无限注德州扑

11、克项目中打败了人类高手。2020 年，张小川等16设计了基于上限置信区间算法的决策模型回报函数来进行决策更新，并提出一种动态结合深度 Q 网络和 Sarsa 的算法来提高模型的学习效率，所构建的智能体在 2019 年全国大学生计算机博弈竞赛中表现优异，获得了一等奖。2021年，彭丽蓉等17采用 AC 自动机（aho-corasick,AC）算法，引入专家知识来预训练网络参数，所构建的智能体与其他版本的德州扑克智能体进行了对弈，结果表明每局的平均收益都在 1 个大盲注以上。2022 年，张蒙等18针对对手建模，设计了一种包含智能体离线训练和在线博弈 2 个阶段的集成框架，该框架在面对动态对手策略

12、时，智能体的水平较之前方法有所提升。Zhou 等19通过考虑其他玩家手牌的可能范围来降低策略的可利用性，所构建的 DecisionHoldem 智能体公开战胜了最强的单挑无限德州扑克智能体 Slumbot 以及Deepstack 的高级复制智能体 Openstack。还有一些文献研究了“斗地主”非完备信息博弈问题。2018 年，Li 等20将深度学习的方法运用到“斗地主”扑克牌中，完成了对玩家单个牌张的预测。2019 年，You 等21提出组合 Q 学习（com-binational Q-learning,CQL）算法，解决了多种组合出牌方式的困难。Jiang 等22针对解决其他玩家出牌方式和

13、策略无法知晓的问题，将使用人类玩家真实的对弈牌局信息训练好的网络模型提供给其他玩家进行决策。彭啟文等4提出基于规则的手牌拆分算法，并采用蒙特卡洛（Monte-Carlo，MC）方法来选择收益最大的节点作为最佳决策，该方法能够较好地实现“斗地主”自我博弈。2020 年，彭啟文等23又将蒙特卡洛搜索树方法和卷积神经网络算法相结合来研究“斗地主”的出牌策略，由该算法所构建的智能体在与其他目前已存在的“斗地主”策略的智能体对弈中，能够在胜率上取得较为明显的优势。同年，徐方婧等5使用自我博弈收集得到的牌局信息来学习“斗地主”策略，采用基于权重的方式来克服训练数据分布不均匀的问题，该模型在与真人对弈中，取

14、得了较高的胜率5。2021 年，Zha 等24提出了一种深度蒙特卡洛（deep Monte-Carlo，DMC）方法，即利用深度神经网络、动作编码和并行行为体对传统的蒙特卡洛方法进行改进，所构建的智能体 DouZero 在BotZone 平台上战胜了所有的“斗地主”AI。2022 年，郭荣城等25运用 Alpha-Beta 剪枝算法来解决“斗地主”残局问题，所构建的智能体在“欢乐斗地主”小程序的双人明牌残局对弈模式下，进行了多次模拟测试，取得了全胜战绩。Yang 等26采用了一种完美训练不完美执行框架，智能体可利用全局信息来指导策略训练，实验证明，其构建的智能体 PerfectDou 击败了所

15、有的“斗地主”AI，其性能达到最优。“拱猪”是一款在全世界华人圈内十分受欢迎的纸牌类游戏，属于非完备信息博弈。目前关于“拱猪”的研究还未见相关文献。虽然德州扑克AI 已经可以战胜人类专业选手，“斗地主”AI 也逐渐接近人类高手水平，但它们对算力的要求较高，没有足够强大的硬件资源是无法实现的，除此之外，它们所采用的博弈算法也无法直接应用于“拱猪”。因此本文提出了一种基于卷积神经网络的“拱猪”博弈算法，将牌谱中人类高级玩家的亮牌和出牌动作视为正确的标注，通过有监督学习的方式，从真实对战数据中学习到人类玩家在亮牌和出牌时所采取策略。1 游戏规则、牌的表示及算法流程 1.1 游戏规则“拱猪”参与者人数

16、为 4 人，去除大小王的52 张牌分为“分牌”和“无分牌”2 类，有分值的牌张谓分牌，其余则为无分牌。所有分牌及其相对应的分值、可以进行亮牌动作的牌张以及所有分牌的分值在亮牌动作前后的变化情况参见中国华牌竞赛规则27。游戏开始时每人一张轮流发牌，然后按亮牌、出牌的顺序分阶段进行。亮牌阶段，即开始出牌前，玩家可以选择将手中的黑桃 Q、方块 J、梅花 10 和红桃 A 亮出来，或者不亮。除了玩家手里仅有一张该花色的牌张之外，其余情况下，亮牌阶段中被亮出的牌张在该花色的第 1 轮出牌中不允许打出。在出牌阶段，首轮一般是由初始手牌中含有梅花 2 的玩家先出，并且每次只允许出一张牌。下家根据当前手牌情况

17、，选择一张与本轮次首位出牌玩家花色相同的牌张进行出牌，若没有，则可以选择垫一张不同于其花色的牌张，在 4 个玩家都依次出完牌后，本轮次的所有分牌都将会由牌张最大的玩家收集得到，垫不同于首家花色的牌张视为最小，同一花色牌张的大小关系为：776智能系统学报第 18 卷 A 为最大，2 为最小。首轮结束后，每一轮都会按照以上一轮牌张最大的玩家先出的规则依次进行出牌，直至游戏结束。游戏结束时计算分数，每位玩家需先各自计算出原始分数，再计算每位玩家的最终分数，具体算法为：某玩家最后得分等于该玩家原始分数的 3 倍减去其他 3 个玩家原始分数之和。如果最终得分为正，则为赢家；如果得分为 0 或负，则为输家

18、。这样算得的 4 家得分之和将正好为 0。1.2 牌的表示本文用 152 的数组表示 52 张牌，花色在数组中的排列顺序为：黑桃、红桃、方块、梅花；不同花色相对应的 13 张牌在数组中存储的位置也不同，按照 A，2，3，K 的顺序依次排列。例如黑桃 Q对应数组的下标为 11，红桃 J 对应数组的下标为23。全部牌张在数组中的对应下标如表 1 所示。表 1 各个花色牌张对应数组下标Table 1 Corresponding array subscript of each suit card 花色数组下标黑桃(S)012红桃(H)1325方块(D)2638梅花(C)3951 1.3 算法流程框架“

19、拱猪”共分为亮牌和出牌 2 个阶段，每个阶段设计不同的卷积神经网络（convolutional neuralnetwork，CNN）结构来构建模型。“拱猪”算法流程框架如图 1 所示。游戏开始发牌亮牌 CNN 拟合是否亮牌出牌 CNN 拟合是否结束游戏结束基础分值变化基础分值不变NNYY 图 1 “拱猪”算法流程框架Fig.1 “Hearts”algorithm process framework 2 亮牌算法 2.1 亮牌类别表示“拱猪”共有 4 张可以亮的牌，本文用一个14 的数组 x0，x1，x2，x3，依次表示梅花 10、方块J、黑桃 Q 和红桃 A 的亮牌情况。若某张牌被玩家亮牌了，

20、则将其对应的数组元素设置为 1，否则设置为 0。“拱猪”共有 16 种亮牌类别，可以用序号 015 表示，类别序号的计算方法为Kind=x023+x122+x221+x320(1)如数组 1，0，0，0 表示只有梅花 10 进行了亮牌，其亮牌类别序号为 8。2.2 亮牌网络设计 2.2.1 数据集每局牌中 4 位玩家都可分别决定自己的亮牌类型，因此 11 000 局人类高级玩家真实牌谱共可得到 44 000 条亮牌实验数据。本实验将亮牌数据划分为训练集和测试集，划分比例为 41。2.2.2 网络输入与输出每位玩家只能根据自己的初始手牌进行亮牌决策，因此亮牌阶段的输入信息为单个玩家的13 张初始

21、手牌。本文将玩家初始手牌信息用152 的数组表示，数组的相应元素为 1 表示有此牌，为 0 则表示无。因此，每个初始手牌的数组中有 13 个 1，其他为 0。为了便于进行卷积操作，将152 的数组顺次转化成 413 的矩阵，即 CNN 的输入信息为 413 的矩阵。亮牌神经网络的输出层由 16 个神经元依次对应输出 16 种亮牌类别的概率，最终可选出概率最大的类别进行亮牌。多种类别的概率同为最大时，随机选择一种。2.2.3 网络结构亮牌网络共 14 层。第 1 层为输入层，输入信息为 413 的矩阵；12 卷积层的卷积核个数为32，卷积层后为 1 个 ReLU 层，经由第 1 个大小为22 的

22、 Max-pooling 层作用后，变换为 26 的矩阵；34 卷积层的卷积核个数为 64，卷积层后为1 个 ReLU 层；56 卷积层的卷积核个数为 128，卷积层后为 1 个 ReLU 层，再经由第 2 个大小为 22 的 Max-pooling 层作用后，变换为 13 的矩阵，Max-pooling 层后为 1 个 Dropout 层，随机丢弃值设置为 0.2。12 卷积层的卷积核大小为 33，36 卷积层的卷积核大小为 22，所有卷积核步长均为 1，所有 padding 均采用 same 模式。最后 1 层为全连接层，采用 Softmax 函数进行亮牌动作分第 4 期吴立成，等：基于卷

23、积神经网络的“拱猪”博弈算法777 类，根据每个亮牌动作的概率来进行亮牌决策。亮牌模块的 CNN 网络模型结构如图 2 所示。输入层ReshapeConvReLU Max-pooling Dropout全连接层输出层8001Softmax 图 2 亮牌 CNN 模型网络结构Fig.2 CNN mode network structure of card-showing 2.2.4 评价指标和损失函数准确率计算则以网络的输出是否与牌谱中人类玩家亮牌相一致为标准，准确率越高表明模型越能很好地学习到人类玩家的亮牌决策。亮牌共有 16 种动作，属于多分类问题，因此亮牌模型选择采用多分类损失函数。亮牌共

24、有 16 种动作，属于多分类问题，因此亮牌模型选择采用多分类损失函数。亮牌模型共需要 16 个输出向量值，每个类别的输出向量值经过 Softmax 函数转化后，其值可表示为模型对该类别的预测概率，且满足亮牌模型输出的 16 个预测概率值的和等于 1，Softmax 函数为Softmax(z)i=eziN1j=0ezj,i=0,1,N1(2)式中：zi为各个类别原始输出向量值；N 为标签的类别数，对于亮牌分类问题其值为 16。采用如下交叉熵损失函数：log(P(y)(3)式中：y 为真实标签，亮牌类别分别对应着 z0，z1，zN。将式（2）代入式（3）中，得到：log Softmax(z)i=(

25、zilogN1j=0ezj)(4)如果实际的对应类别输出值为 z11，则损失函数为log Softmax(z)11=(z11logN1j=0ezj)(5)2.3 亮牌实验与分析 2.3.1 训练效果经过 40 次的调参训练，训练轮数 epoch 设置为 50，准确率和损失值都处于收敛状态；优化器选择 Adam，即动态地调整学习率；输出为 16 种亮牌决策，即损失函数选择的是多分类损失函数；调用 ReduceLROnPlateau 函数优化学习率；单轮批量 batch_size 设置为 128，一次输入 32 局人类高级玩家牌谱的初始手牌信息，满足不能过大或过小的原则。其超参数设置如表 2 所示

26、。表 2 亮牌超参数设置Table 2 Card-showing hyperparameter settings 参数名数值训练轮数50单轮批量128损失函数多分类损失函数衰减因子0.5最小学习率0优化器Adam 亮牌模型的训练效果如图 3 所示。由图 3 可知，亮牌训练集上的准确率处于逐步上升的状态，在 epoch 值为 50 时，其准确率达到最高值91.8%；亮牌测试集上的准确率则逐步达到平稳状态，在 epoch 值为 30 时，其准确率达到最高值 88.4%。010203040500.820.800.780.760.840.860.880.900.92epoch准确率训练测试(50,0.

27、918)(30,0.884)图 3 亮牌训练效果Fig.3 Training effect of showing cards 2.3.2 示例分析保存模型，将测试集数据输入模型中，比较模型输出的亮牌结果与原数据的类别标注是否一致，模型亮牌结果与原数据标注类别如图 4 所示。(b)玩家初始手牌示例 1标注数据：0,0,0,0预测结果：5，即 0,1,0,1(a)玩家初始手牌示例 2标注数据：0,0,0,0预测结果：3，即 0,0,1,1 图 4 亮牌结果Fig.4 Examples of show result 778智能系统学报第 18 卷示例 1 玩家 4 种花色牌张皆有，红桃牌张数略多于

28、其他花色且有红桃 A，另外可以亮的牌张还有黑桃 Q 和方块 J，属于初始手牌局面较为复杂的情况。红桃牌张虽较多且有大数值牌，但是也有红桃 5 和红桃 2 小数值牌，收“全红”的难度很大，除此之外，方块牌张较少，方块 J 有着很大的机率被其他玩家“圈羊”。模型预测输出的亮牌结果是 5，即选择将方块 J 和红桃 A 都亮出，这与原始数据标注的结果是不一致的。分析可知，模型预测结果没有人类玩家真实对局标注的结果好。示例 2 玩家黑桃和红桃牌张占绝大多数，有黑桃 Q 且小数值黑桃牌张较多，有红桃 A 且大数值红桃较多，属于初始手牌局面较为简单的情况。在其他玩家出梅花或方块花色牌张时，可以将黑桃 Q 和

29、红桃 A 迅速打出，使其他玩家得到更多的负分。模型预测输出的亮牌结果是 3，即选择将黑桃 Q 和红桃 A 都亮出，这与原始数据标注的结果是不一致的。分析可知，模型预测结果要比人类玩家真实对局标注的结果好。由以上预测错误示例的分析可知，CNN 模型有些预测结果要比人类玩家的亮牌策略要好，但是在对牌面信息较复杂的初始手牌时，CNN 模型的预测结果还不是很理想。3 出牌算法 3.1 出牌类别表示“拱猪”共有 52 张牌且每次只能出一张牌，因此玩家出牌可有 52 种类别，可用 152 的数组表示，形式为 x0，x1，x51，相应元素为 1 表示出此牌，为 0 则不出。牌张和数组下标的对应关系见表 1。

30、出牌类别可以用所出牌的对应数组下标来表示。例如出黑桃 Q，就将黑桃 Q 对应的数组下标作为类别序号，即 11。3.2 出牌网络设计 3.2.1 数据集每次出牌都可以是一个样本数据，但本实验采用的“拱猪”牌谱在所有分牌都已出完的情况下，就直接结束牌局，因此 11 000 局人类高级玩家真实牌谱共可得到 497 020 条实验数据。本实验将出牌数据划分为训练集和测试集，划分比例为 41。3.2.2 网络输入与输出本文将当前轮次玩家的手牌、当前轮次还在其他玩家手里的牌、各个玩家的牌局亮牌信息、当前轮次其他 3 个玩家的出牌、其他 12 轮各个玩家的出牌和当前轮次各个玩家已经收集得到的牌，分别用 15

31、2 的数组表示，其中，未知轮次的玩家出牌信息均以 0 填充，即输入信息为 6152 的矩阵。输入信息矩阵的具体含义描述如表 3 所示。表 3 出牌 CNN 输入结构Table 3 Play CNN input structure 行数含义1当前轮次玩家的手牌2当前轮次还在其他玩家手里的牌36各个玩家的牌局亮牌信息79当前轮次其他3个玩家的出牌1057其他12轮各个玩家的出牌5861当前轮次各个玩家已经收集得到的牌出牌神经网络的输出层由 52 个神经元依次对应输出 52 张牌的出牌概率，选概率最大的牌出。多张牌的概率同为最大时，随机选择一张。3.2.3 网络结构出牌模块的网络结构共有 46 层

32、。第 1 层为输入层，输入信息为 6152 的矩阵；14 卷积层的卷积核个数为 32，经由第 1 个大小为 22 的 Max-pooling 层作用后，变换为 3026 的矩阵；58 卷积层的卷积核个数为 64，再经由第 2 个大小为22 的 Max-pooling 层作用后，变换为 1513 的矩阵；912 卷积层的卷积核个数为 128，然后经由第 3 个大小为 22 的 Max-pooling 层作用后，变换为 76 的矩阵；1316 卷积层的卷积核个数为256，最后经由第 4 个 22 的 Max-pooling 层作用后，变为 33 的矩阵。每个卷积层后都接 1 个ReLU 层，每个

33、Max-pooling 层后为 1 个批归一化（batch normalization，BN）层和 1 个 Dropout 层，随机丢弃值设置为 0.25。112 卷积层卷积核大小均为 55，1316 卷积层的卷积核大小均为 22，所有卷积核步长均为 1，所有 padding 均采用 same模式。最后 1 层为全连接层，采用 Softmax 函数进行出牌动作分类，根据每个出牌动作的概率来进行出牌决策。出牌 CNN 网络结构如图 5 所示。输入层ConvReLUMax-poolingBNDropout全连接层输出层11001Softmax 图 5 出牌 CNN 模型网络结构Fig.5 CNN

34、mode network structure of card-playing 第 4 期吴立成，等：基于卷积神经网络的“拱猪”博弈算法779 3.2.4 评价指标和损失函数准确率计算以网络的输出是否与牌谱中人类玩家出牌相一致为标准，准确率越高表明模型越能很好地学习到人类玩家的出牌决策。出牌共有 52 种动作，属于多分类问题，即出牌模型仍选择采用多分类损失函数，公式参见2.2.4 节，其中由于出牌有 52 种类别，N 值为 52。3.3 出牌实验与分析 3.3.1 训练效果经过 60 次的调参训练，确定训练轮数 epoch为 50，准确率和损失值都处于收敛状态；优化器选择 Adam，即动态地调整

35、学习率；输出为 52 种亮牌决策，损失函数选择的是多分类损失函数；调用 ReduceLROnPlateau 函数优化学习率；单轮批量 batch_size 设置为 440，即单轮批量输入为 2 个轮次的出牌信息。其超参数设置如表 4 所示。表 4 出牌超参数设置Table 4 Card-playing hyperparameter settings 参数名数值训练轮数50单轮批量440损失函数多分类损失函数缩放因子0.5最小学习率0优化器Adam 出牌模型训练效果如图 6 所示。由图 6 可知，出牌训练集上的准确率处于逐步上升的状态，在 epoch 值为 50 时，其准确率达到最高值 85.6

36、%；出牌测试集上的准确率则逐步达到平稳状态，在epoch 值为 23 时，其准确率达到最高值 71.4%。010203040500.40.30.20.10.50.60.70.80.9epoch准确率训练测试(50,0.856)(23,0.714)图 6 出牌训练结果Fig.6 Training of paluing cards 3.3.2 示例分析保存模型，将测试集数据输入模型中，比较模型输出的出牌结果与原数据的类别标注是否一致，模型出牌结果与原数据标注类别如图 7 所示。(a)AI 预测出牌示例 1玩家 B(AI)玩家 A玩家 D玩家 C未出标注数据：13，即红桃 A预测结果：32，即方块

37、7预测结果：24，即红桃 Q(b)AI 预测出牌示例 2玩家 C玩家 B玩家 A玩家 D(AI)标注数据：22，即红桃 10 图 7 出牌结果示例Fig.7 Examples of play result AI 预测出牌示例 1 中，玩家 B 为 AI 玩家，玩家A、C 和 D 均为人类玩家。此轮次的玩家出牌顺序为 DABC，属于较为复杂的牌局状态。人类玩家 D 和 A 依次打出梅花 Q 和梅花 8。因为玩家B 没有任何梅花花色的牌张，在已经得到红桃 K 和梅花 10 的情况下，为了避免得到更多的负分，应该选择将红桃 A 打出。AI 预测出牌为方块 7，这与原始数据标注的结果不一致。分析可知，

38、模型预测结果没有人类玩家真实对局标注的结果好。AI 预测出牌示例 2 中，玩家 D 为 AI 玩家，玩家 A、B 和 C 均为人类玩家。此轮次的玩家出牌顺序为 ABCD，属于较为简单的牌局状态。人类玩家 A、B 和 C 依次打出红桃 6、红桃K 和红桃 2。因为玩家 D 手中还有红桃 4、红桃10 和红桃 Q，在玩家 B 已经出红桃 K 的情况下，为了避免得到更多的负分，玩家 D 应该将负分值较大的红桃 Q 打出。AI 预测出牌为红桃 Q，这与原始数据标注的结果不一致。分析可知，模型预测结果要比人类玩家真实对局标注的结果好。综上分析，CNN 模型在“拱猪”出牌上的运用是具有可行性的，“拱猪”A

39、I 具有基本的出牌策略，有些预测结果要比人类玩家的亮牌策略好，但是在一些较为复杂的牌局状态下，AI 还没有很好地学习到人类玩家的出牌策略特征，存在着出牌策略不合适的问题。4 结束语本文提出了一种基于卷积神经网络的“拱猪”博弈算法，采用 11 000 局人类高级玩家的真实牌谱，分别对其亮牌和出牌的动作进行标注，通过780智能系统学报第 18 卷有监督的方式去学习人类高级玩家的亮牌和出牌策略，实验证明该模型在“拱猪”博弈算法研究上取得了不错的效果，“拱猪”AI 具有一定的亮牌和出牌能力，但该模型在面对复杂的初始牌型和牌局状态时，预测结果不是很理想，下一步研究将会分析初始手牌的复杂性并改进 CNN

40、网络结构，或者使用强化学习的方法，增加训练数据量，AI通过自对弈的方式去学习亮牌和出牌策略，解决在面对初始手牌和牌局状态较为复杂时，CNN 模型预测效果不好的难题。参考文献：BLAIR A,SAFFIDINE A.AI surpasses humans at six-player pokerJ.Science,2019,365(6456):864865.1MORAVK M,SCHMID M,BURCH N,et al.Deep-stack:expert-level artificial intelligence in heads-up no-limit pokerJ.Science,2017

41、,356(6337):508513.2BROWN N,SANDHOLM T.Superhuman AI for heads-up no-limit poker:Libratus beats top professionalsJ.Science,2018,359(6374):418424.3彭啟文,王以松,于小民,等.基于手牌拆分的“斗地主”蒙特卡洛树搜索 J.南京师大学报(自然科学版),2019,42(3):107114.PENG Qiwen,WANG Yisong,YU Xiaomin,et al.MonteCarlo tree search for“Doudizhu”based on ha

42、nd split-tingJ.Journal of Nanjing Normal University(naturalscience edition),2019,42(3):107114.4徐方婧,魏鲲鹏,王以松,等.基于卷积神经网络的“斗地主”策略 J.计算机与现代化,2020(11):2832.XU Fangjing,WEI Kunpeng,WANG Yisong,et al.“Doudizhu”strategy based on convolutional neural net-worksJ.Computer and modernization,2020(11):2832.5马骁,王轩,

43、王晓龙.一类非完备信息博弈的信息模型 J.计算机研究与发展,2010,47(12):21002109.MA Xiao,WANG Xuan,WANG Xiaolong.Informationmodel for a class of incomplete information gamesJ.Com-puter research and development,2010,47(12):21002109.6王轩,许朝阳.时序差分在非完备信息博弈中的应用 C/中国机器博弈学术研讨会.重庆：重庆工学院学报,2007:1622.WANG Xuan,XU Chaoyang.The application o

44、f tempor-al difference in incomplete information games C/ChinaMachine Game Academic Symposium.Chongqing:Journal of Chongqing Institute of Technology,2007:1622.7ZHANG Jiajia,WANG Xuan,YANG Ling,et al.Analys-is of UCT algorithm policies in imperfect informationgameC/2012 IEEE 2nd International Confere

45、nce onCloud Computing and Intelligence Systems.Piscataway:IEEE,2013:132137.8ZHANG Jiajia.Building opponent model in imperfect in-formation board gamesJ.TELKOMNIKA Indonesianjournal of electrical engineering,2014,12(3):19751986.9ZHANG Jiajia,WANG Xuan.Using modified UCT al-gorithm basing on risk esti

46、mation methods in imperfectinformation gamesJ.International journal of multime-dia and ubiquitous engineering,2014,9(10):2332.10GINSBERG M L.GIB:imperfect information in a com-putationally challenging gameJ.Journal of artificial in-telligence research,2001,14:303358.11BOWLING M,BURCH N,JOHANSON M,et

47、 al.Com-puter science.Heads-up limit holdem poker is solvedJ.Science,2015,347(6218):145149.12BROWN N,SANDHOLM T,AMOS B.Depth-limitedsolving for imperfect-information gamesC/Proceedingsof the 32nd International Conference on Neural Informa-tion Processing Systems.New York:ACM,2018:76747685.13SILVER D

48、,SCHRITTWIESER J,SIMONYAN K,et al.Mastering the game of go without human knowledgeJ.Nature,2017,550(7676):354359.14SILVER D,HUBERT T,SCHRITTWIESER J,et al.Ageneral reinforcement learning algorithm that masterschess,shogi,and go through self-playJ.Science,2018,362(6419):11401144.15李轶.德州扑克计算机博弈智能决策模型研

49、究 D.重庆:重庆理工大学,2020.LI Yi.Research on intelligent decision model of texasHoldem computer gameD.Chongqing:Chongqing Uni-versity of Technology Graduation Thesis,2020.16李轶,彭丽蓉,杜松,等.一种德州扑克博弈的决策模型 J.软件导刊,2021,20(5):1619.LI Yi,PENG Lirong,DU Song,et al.A decision modelfor texas Holdem gameJ.Software guide,

50、2021,20(5):1619.17张蒙,李凯,吴哲,等.一种针对德州扑克 AI 的对手建模与策略集成框架 J.自动化学报,2022,48(4):10041017.ZHANG Meng,LI Kai,WU Zhe,et al.An opponentmodeling and strategy integration framework for TexasHoldem AIJ.Chinese journal of automation,2022,48(4):10041017.18ZHOU Qibin,BAI Dongdong,ZHANG Junge,et al.De-19第 4 期吴立成，等：基于

展开阅读全文