随机微分博弈模型中的库存管理问题：马尔可夫链近似和最优策略.pdf

资源描述

1、Advances in Applied Mathematics 应用数学进展应用数学进展,2024,13(4),1827-1841 Published Online April 2024 in Hans.https:/www.hanspub.org/journal/aam https:/doi.org/10.12677/aam.2024.134172 文章引用文章引用:欧君恒,卢相刚.随机微分博弈模型中的库存管理问题:马尔可夫链近似和最优策略J.应用数学进展,2024,13(4):1827-1841.DOI:10.12677/aam.2024.134172 随机微分博弈模型中的库存管理问题随机

2、微分博弈模型中的库存管理问题：马尔可夫链近似和最优策略马尔可夫链近似和最优策略欧君恒欧君恒，卢相刚卢相刚广东工业大学数学与统计学院，广东广州收稿日期：2024年3月28日；录用日期：2024年4月23日；发布日期：2024年4月30日摘摘要要本文本文研究了在随机参考价格影响下，研究了在随机参考价格影响下，两个两个垄断厂商垄断厂商竞争下竞争下的生产和定价策略。的生产和定价策略。设定的设定的库存管理系统包括库存管理系统包括随机参考价格和随机需求。在随机参考价格和随机需求。在随机微分博弈模型的随机微分博弈模型的框架下研究了库存管理问题，框架下研究了库存管理问题，我们给出该背景下支付我们

3、给出该背景下支付函数的定义函数的定义。为了得到最优生产和定价，。为了得到最优生产和定价，我们我们采用动态规划原理采用动态规划原理的方法的方法，博弈的上下值满足一个耦合的博弈的上下值满足一个耦合的非线性积分微分非线性积分微分Hamilton-Jacobi-Isaacs(HJI)方程组方程组。本文还证明了该对策问题鞍点的存在性，本文还证明了该对策问题鞍点的存在性，由于很由于很难得到封闭形式的解，我们采用马尔可夫链近似难得到封闭形式的解，我们采用马尔可夫链近似来近似值函数和最优控制来近似值函数和最优控制，并给出了收敛性分析。最后，并给出了收敛性分析。最后，我们进行了数值实验我们进行了数值实验，并且，

4、并且根据实验结果，提出了相应的管理建议。根据实验结果，提出了相应的管理建议。关键词关键词库存控制，随机需求与参考价格，马尔可夫链近似，随机微分对策库存控制，随机需求与参考价格，马尔可夫链近似，随机微分对策 Inventory Management Problems in Stochastic Differential Game Models:Markov Chain Approximation and Optimal Policies Junheng Ou,Xianggang Lu School of Mathematics and Statistics,Guangdong Universi

5、ty of Technology,Guangzhou Guangdong Received:Mar.28th,2024;accepted:Apr.23rd,2024;published:Apr.30th,2024 Abstract This paper investigates the production and pricing strategies employed by two monopolies in a 欧君恒，卢相刚 DOI:10.12677/aam.2024.134172 1828 应用数学进展 competitive environment,considering the i

6、nfluence of random reference prices.The inventory man-agement system incorporates both random reference prices and random demand.The problem of inventory management is examined within the framework of a stochastic differential game model,with the payment function defined accordingly.To obtain optima

7、l production and pricing decisions,dynamic programming principles are utilized,and coupled nonlinear integral differential Hamil-ton-Jacobi-Isaacs(HJI)equations that govern the upper and lower values of the game are established.Furthermore,the existence of saddle points for this game problem is prov

8、en.Due to challenges in ob-taining closed-form solutions,Markov chain approximation is employed to approximate functions and optimal controls while providing convergence analysis.Finally,numerical experiments are con-ducted to validate our findings,leading to corresponding managerial recommendations

9、.Keywords Inventory Control,Stochastic Demand and Reference Price,Markov Chain Approximation,Stochastic Differential Game Copyright 2024 by author(s)and Hans Publishers Inc.This work is licensed under the Creative Commons Attribution International License(CC BY 4.0).http:/creativecommons.org/license

10、s/by/4.0/1.引言引言库存管理在供应链中起着至关重要的作用，直接塑造了公司的运营效率和财务业绩。随着市场竞争的日益激烈，有效地管理和优化库存已成为企业获得竞争优势不可或缺的因素。自从 Whitin 发表了关于库存问题的稳定需求曲线模型以来，众多学者一直致力于探索如何更有效地降低公司的管理成本，以实现利润最大化1。Bertsimas 和 De Boer 研究了一个周期性的多产品定价和库存控制问题，考虑了生产和定价收入的影响作为影响因素，进一步深入研究了库存控制的利润模型，得出了更符合实际的结果2。Chen 等人将这个问题扩展到动态定价和动态生产环境中的库存控制，考虑了可变条件对最大化预

11、期长期利润的影响3。值得注意的是，在上述研究中，参考价格效应作为影响消费者购买意愿的关键因素并未得到足够的重视，这在研究动态定价和生产问题时显然是不合理的。Greenleaf 强调了参考价格效应对公司盈利能力的重要影响4。这种现象表现为，如果销售价格低于参考价格，买家会感觉利润并增加购买欲望；相反，如果销售价格高于参考价格，买家会感觉亏损，导致购买欲望下降。Hu 等人从长期角度关注动态销售定价的整体收入，考虑消费者囤积行为，但没有探讨库存方面5。Chen 等人进一步考虑了库存的影响，系统地将参考价格效应引入动态库存控制问题6。通过一种新的转移方法，得到了一个凹形的长期期望收益函数，解释了最优基

12、本库存水平和目标参考价格对当前参考价格的依赖性。Chen 等人假设参考价格是一个固定值；然而，将参考价格的可变性视为随机和客户感知的波动似乎更现实6。因此，在此基础上，我们引入了随机参考价格的概念。参考价格受顾客的主观感受影响，受商品平均价格、折扣、品牌效应等因素影响，具有明显的记忆性。Chen 等人认识到参考价格的随机性和无限连续时间演化下的最优定价，推导出明确表达的最优定价策略7。受此启发，Cao 和 Duan 首次将随机参考价格引入库存问题，分析了基于不确定需求和参考价格的随机最优库存控制8。最优定价与库存水平负相关，与参考价格水平正相关。制造商利用参考价格效应，根据客户记忆参数确定价格

13、，调整库存水平以控制运营成本，同时确保正常出货水平被视为最佳控制。在上述研究中，研究人员经常假设制造业处于垄断地位；然而，在现实中，涉及两家或两家以上公Open AccessOpen Access欧君恒，卢相刚 DOI:10.12677/aam.2024.134172 1829 应用数学进展司的竞争是普遍存在的。寻求更低的经营风险和占领更多的市场份额已成为企业的重点。公司必须考虑降低其运营风险，同时最大限度地减少竞争对手风险的影响。Pang 和 Fukushima 提出了一个多领导者和追随者的竞争市场模型，其中不存在合作，建立了风险变化下的奖惩机制9。Elliott 和 Siu 考虑了在零和

14、博弈背景下进行风险预测的必要性，通过有限马尔可夫链预测市场变化下的消费者选择变化10。Adida和 Perakis 将上述研究应用于更现实的情景，设想两个公司在市场上竞争，寻求获得对方的市场份额以获得垄断优势11。一家公司的决策影响另一家公司的市场决策，遵循纳什均衡。随着时间的推移，两家公司都寻求通过动态定价和库存控制来提高竞争力，从而实现利润最大化。尽管研究人员试图尽可能真实地模拟该模型，但他们没有考虑参考价格对消费者购买意愿的重大影响。考虑到参考价格和消费者购买意愿之间的密切相关性，理解公司产品的市场竞争力应该包括考虑消费者的看法。为了获得更真实的结果，将随机参考价格的影响纳入博弈模型是必

15、要的。这个模型福尔斯一个追逐逃避博弈，是一种定性微分博弈。Berkovitz 和 Dresher 使用变分方法显式求解了战争模型中的追逃博弈的最优解问题，提供了一种使用微分方程求解最优控制的方法12。Fleming 专注于有限连续时间微分对策的收敛性，进一步描述了在预定初始条件下的对策解13。Elliott和 Kalton 提出用微分方程组来求解零和动态对策，并分析了微分对策中值的存在性14。Jin 等人引入了两家保险公司之间利润再投资的博弈场景，使用状态转移模型来捕捉环境不确定性的变化15。它们之间的竞争，可以用微分方程来分析。考虑到 Hamilton-JacobiIsaacs(HJI)方程

16、组很难得到封闭解，利用马尔可夫链近似观察盈余变化，预测动态规划中鞍点的存在性。马尔可夫链方法在博弈模型中的应用，显著地强调了近似结果在决策预测中的关键作用。采用马尔可夫链近似有助于处理模型中的非均匀可分析分段函数所带来的挑战。最初，Pan 和 Basar 研究了状态跳跃下的不完美测量方案，提出了一种当系统函数呈现分段特征时使用离散时间马尔可夫链进行近似的方法16。Yin 等人继续了 Pan 和 Basar 的方法，通过研究奇异摄动马尔可夫链来解决离散时间中大规模复杂系统的控制优化问题，显着降低了系统的复杂性17。受 Jin 等人的启发，他们使用马尔可夫链近似来构造离散时间控制的马尔可夫链以获得

17、最优解，我们将马尔可夫链近似应用于解决企业中库存控制和产品运营的博弈问题15。建立了考虑参考价格影响的定价与库存控制模型。在该模型中，企业的初始品牌价值和利润收入不相等，市场需求不确定，消费者对两家企业产品的记忆参数不同，初始参考价格也不同。企业可以在连续的时间内随时调整自己的经营策略，寻求挤压竞争对手的市场份额，直到它们之间的利润差距扩大或缩小到一定值。这表明一家公司无法再挑战另一家公司的市场地位，该模式停止。本文的主要贡献如下：(1)本文首次利用马尔可夫链近似方法求解了两个公司在参考价格作用下的联合生产定价模型的随机最优控制问题。(2)进行了数值实验，我们对得到的结果给出分析和管理的见解。

18、其余的工作组织如下：在第 2 节中，我们提出了两个制造商公司竞争下的随机微分对策的一般形式和假设。在第 3 节中，我们讨论了马尔可夫链近似方法的数值算法。用近似马尔可夫链很好地逼近了博弈的上、下界，并给出了动态规划方程。在第 4 节中，我们讨论了近似格式的收敛性。证明了鞍点的存在性。最后，在第 5 节中，我们进行了数值实验，并给出了我们的结果。在此基础上，对数值模拟结果进行了合理的分析和讨论，并给予相应的管理意见。2.模型模型我们使用一个随机微分方程来表示公司 1 的参考价格：欧君恒，卢相刚 DOI:10.12677/aam.2024.134172 1830 应用数学进展 ()()()()(

19、)()()()()()()111111dRtp tRtdtRt dYt=+(1)平方根扩散项()()()11Rt表示随机参考价格的波动性。这里，()1为参考价格的波动性参数。参考价格的内存参数或调整速度用表示。制造公司 1 的累积消费者需求()()1Dt是一个随机过程，由：()()()()()()()()()1111,0dDtabp tRtp tdtdW tt=+(2)潜在需求的波动性参数用()1表示，维纳过程()()1Wt仍然与()()1Yt保持不相关。库存的连续时间动态受生产率和需求率之间的相互作用的控制，遵循一个随机微分方程：()()()()()111dXtut dtdDt=(3)考虑到

20、公式(2)，上述库存动态变为：()()()()()()()()()()()()()()1111111,0,0.dXtutabptRtptdtdW tXxt=+=(4)假设连续时间公司盈利过程包括价格()1p t、需求率()1D t、生产成本()()1C u t和库存成本()()()1H Xt，它满足随机微分方程：()()()()()()()()()()()11111dZtp t dDtC u tH Xtdt=+(5)考虑到(2)，制造公司 1 的剩余过程可以写为：()()()()()()()()()()()()()()()()()()()()()()()()()()()()1111111111

21、111111,0,0dZtp tabp tRtp tp tabp tRtp tC utH Xtdtp tdWtZzt=+=同样，与制造公司 1 竞争的制造公司 2 也出现了随后的盈余()()()()()()()()()()()()()()()()()()()()()()()()()()()()2222222222222222,0,0.dZtptabptRtptptabptRtptC utH XtdtptdWtZzt=+=在本研究中，我们将描述两家制造企业之间的竞争。这两家公司的表现是通过其盈余()()12ZZ的差值来衡量的。在不失一般性的前提下，我们假设()()12ZZ。盈余越大的公司努力扩大

22、盈余差距，而盈余越小的公司则努力减少盈余差距，使差距最小。因此，这两家公司之间的竞争形成了一个双人游戏，每个参与者都可以根据其生产和定价策略来响应其竞争对手的策略。设()()()12Z tZZ=。因此，两个盈余()Z t的差异由以下动态控制：()()()()()()()()()()()()()()()()()()()()()()()()()()()()1111121222121122,0,0.dZ tp tabp tRtp tC utH XtptabptRtptp tdWtptdWtZz t=+=(6)其中()()12zzz=。为了更好地研究公司 1 和公司 2 的需求过程之间的关系，我们假设

23、公司 1 和公司 2 的累积需求过程之间存在相关性。设为()()1W与()()2W、()1,1 之间的相关系数。通过这种方式，我们可以将()()2W重写如下：()()()()()()()21221dWtdWtt dWt=+(7)()()2W是一个标准的布朗运动，并且独立于()()1W。我们允许将盈余以价格投资于金融市场上的资产()M t，为资产的收益率，3为相应的波动率，()()3Wt为标准布朗运动。并且我们假设它满足以下形式：欧君恒，卢相刚 DOI:10.12677/aam.2024.134172 1831 应用数学进展 ()()()()33dM tdtdWtM t=+(8)因此，结合(7)

24、和(8)，我们可以将等式(6)改写如下：()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()111111222222122221122331dZ tZ tp abp tRtp tC u tH XtptabptRtptC utH Xtdtptp tdWtptdWtZ t dWt=+(9)为了简化过程，我们将在下面用 6 维的形式来表示它：()()()()()(),dL tf L ttdtL tdW=+()()()()()()()()()()()1212,L tZ tXtXtRtRt=，()12345,Tfff

25、fff=，()()()()()()()()22211223121122100000000000000000000000ptp tptZ tRtRt=()()()()()()()()()()()()12312,W tWtWtWtYtYt=，和1f，2f，3f，4f，5f具有以下形式 ()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()()11111112222221211123222141252()()fZ tp tabp tRtp tC utH XtptabptRptC

26、utH Xtfutabp tRtp tfutabptRtptfp tRtfptRt=+=+=+=()()()()()()12120,Llz xxrr=，对于所有t，()()inf0:,tZ ta b=表示退出游戏的时间，a，b是满足一个ab表示折扣系数。设11和21分别是所有生产策略的集合，假设它们是紧集。12和22分别是定价策略，它们也被假定为紧凑集。让()12,=，(),1,2kkkupk=，111112222122,=，以及 11122122=。欧君恒，卢相刚 DOI:10.12677/aam.2024.134172 1832 应用数学进展假设当剩余差异的大小变得过于重要时，游戏就会停

27、止。无论是在积极的还是消极的领域，巨大的差距意味着一家公司的市场主导地位的游戏和胜利。我们将收益函数建立为两个参与者在达到 5 个下阈值之前达到上阈值的盈余差的可能性。因此，在这个游戏中，公司 1 的目标是最大化概率，而公司 2 则寻求最小化相同的概率。用0表示折扣系数。让()12,=和(),12,1,2,iiiu pi=。对于任何可接受的控制，支付函数是 ()()()()()()0,|0,tzlZb LlEeK L ttdt=(10)如果1122,up up满足以下条件，则控制()12,=被认为是可接受的。(1)()()()()1122,utp tutpt对于任何0t 都为非负值；(2)对于

28、任何t，()(),Z ta b；(3)()()()()1122,utp tutpt是对至少包含(),0W sst的t是可适的；(4)(),l的左导数，()()()1,110,lim,tnABttmA BAB=要注意的是()()1,11ktmddtmddt=，自然可以定义()1,m 的松弛控制表示()1,，()()()1,11,htA BmAIAB =类似地，当1,2k=时，我们有()()()()2222,22,0,0,ttmA BImddt =用导数()()()(),1,2,tttmmm =来定义松弛控制()()()()12,mmm =。因此(),m 是()111221220

29、,的 Borel 集上的一个测度。基于18的方法和假设，我们开始定义上值、下值和鞍点。设k是k的可接受的普通控制。对于0，用()k表示分段常数控制()()()1,1,kkkup=上的区间()()()1122,1,1nnnn+，120,1,2,.,0,1,2,.,nn=其中()12,knn是n测度，并且(),kk 。我们设1A为1的 Borel 子集，()()11,表示由()()11,，0,1,2,.,0,1,2,.ij=所表示的分段常数控制集的条件概率类型：()()()()11211221211211212,|,;,PinjnA W s ss ssin sjnnnni nj为离散步长，边界点a

30、，b 为 h 的整数倍，ie为第 i 个坐标方向上的单位向量，1,2,3,4,5i=。近似受控马尔可夫链具有五维晶格的状态空间，in为整数，1,2,3,4,5i=。551hi iiLlhn e=设hG表示G上的有限差分网格，其中,Ga b=和()0,Ga b=。也就是说，如果5hlL，那么它存在非负欧君恒，卢相刚 DOI:10.12677/aam.2024.134172 1834 应用数学进展整数12345,n n n n n使得iiile hn=，定义5hhGLG=。现在，对于一些函数()hty，它是0h，我们假设马尔可夫链满足以下要求：()()()()()()()()()()()()()

31、111|cov|2|2hhhhhlnnnhhhhhlnnnhhhhlnnnEyfytyotyya ytyotyPyotya yyy+=+=+=设:,0hhnn=为控制动作的顺序。如果()1,2,hhhnnn=是001,hhhhnn 可适的，那么序列h可以被认为是允许的。由于我们考虑的是连续时间情况，控制离散时间马尔可夫链改写为 hhk=，hhk=，对于)1,hhnnttt+，其中()100:0,nhhhhhnkkkttt=，让:inf:hhnnG=。那么h从G的第一次是hhh=。让0hhlG=和0hhlG=是容许控制，将受控马尔可夫链的收益函数定义为()()()()11,|0,hhkhthhh

32、hhhhhhlkkkzklZb ZzEeKt=我们用()1,2,hhhnnn=表示随机变量，即链在 n 时刻的规则控制作用。设:,0hhnn=为控制动作的顺序。此外，设1,hk表示公司k为首发的控制集合，它由一系列可测函数()hnF决定，使得(),hhhk nniFin=2,hk表示播放k随后进行的普通控制的集合，该策略由一个可测函数()hnF的序列定义(),;,;hhhhhk nniij nFininjk=将ht定义为由()(),hhssst 通过将(15)和(16)代入(12)，并重新排列这些项，我们得到了动态规划的等价形式为()()()()()()()()()()()()()()()()

33、()()()()()()()()()()()()()()()()()11112222333344445121155522hhhhhhhhhhhhhhhhhhhhhhhhVlVlheVlVlVlheflflhhVlheVlVlVlheflflhhVlheVlVlVlheflflhhVlheVlVlVlheflflhhVlheVlVlVlheflflhhVlVlheheVlp+=+()()()()()1211212222122hhhhhehehVlheVlheVlheVlheph+欧君恒，卢相刚 DOI:10.12677/aam.2024.134172 1836 应用数学进展 ()()()()()

34、()()()()()()()()()()()()()13132222113322221122222211223232212332221212221221221212hhhhhhhhhhhhhhhVlVlheheVlhehephVlheVlheVlheVlhephVlheVxheVlppzhVlheVlheV lhVlheVlheVlhVr+()()()()()()()()()()()()44225522212122212,hhhhhhlheVlheVlhVlheVlheVlrhK xxrr+(17)简化(17)，并将结果与(14)进行比较，我们得到了一步转移概率的具体表达式如下：()()()(

35、)()()()()()()()()()()()()()()()()()()()222222221122311221112211122222222331121442222552111212/2,/2,/2,/2,/2,/2,hhhhhppzpphflpl lheQphfrpl lheQphfrpl lheQrhfrpl lheQrhfrpl lheQppl lhehepl lheheQ+=+=+=+=+=+=+=()()()()2221312/2,0,hhhppl lhehepl lheheQpl yallother l yG+=(18)()()()()()4122222222222222112

36、23121111221hiiQppzrrpphflh=+为了满足非负性，我们需要做出一些假设 ()()222222222112231221122112211100pppZpppp +(19)欧君恒，卢相刚 DOI:10.12677/aam.2024.134172 1837 应用数学进展基于之前的零售价格假设，零售价格 p 有一个上界p和一个下界p。然后，利用零售价格 p 的上界和下界进行简单的尺度计算，我们可以得到满足公式(19)的条件如下 ()()1112121122122121pp +(20)此外，动态规划方程组是对(14)的修正。对于hlG：()()()()1122supinf,|,h

37、hhyVlepx yVyK l=+(21)4.收敛性分析收敛性分析在本节中，我们给出了连续时间马尔可夫链,1,2,hnnn=的收敛性分析，使马尔可夫链可行地逼近连续时间过程()L t，包括我们定义的控制()h。设hhht=是()h的第一个退出时间hG，hn是,hhkkkn的最小-代数。当然，h是一个hn停止时间。在连续时间插值的情况下，我们可以改写(10)为 ()()()()0,hhkthhhhllEeKttdt=(22)定义0hl=并使用hnE表示基于时间n的信息的期望，即基于hn的期望。结合局部一致性，我们有 ()()()10110010,nhnkknnhhhhhkkkkkkknhhhh

38、hkknkllEElftM=+=+=+(23)定义()10nhhhhnkkkkME=我们试图表示类似于(2.10)中的扩散项的()hMt。定义()hW为 ()()()()()1100hhhnthhhkkkhkkEWtsdMs=(24)结合(23)和(24)，我们将(23)重写为 ()()()()()()()00,tthhhhhhtlfsdss dWst=+(25)其中()ht是一个可以忽略的误差，满足()0lim sup0hht TEt 对于任何0T，0b，使得()()21 bnnE LtLsk ts+。证明：证明：该证明与17类似，在此省略。定理定理 4.2 让近似链(),hnn 由转移概率

39、定义，()hn是,hnn，h是连续时间插值，h是ht停止时间的序列，则()()(),hhhhnW是紧的。证明：证明：使用一点紧化的证明，)0,。让T，我们有()()()2hhhhvhhhEWvWv+=+其中0h 一致收敛于hv，取limsup0h 和lim0，其紧密性为()hW。一个类似的论点产生了()hM的紧密性。序列()hm是紧凑的，因为它的范围空间是紧凑的。这些结果以及()c 和()的有界性暗示了()h的紧密性，则()()(),hhhhnW是紧的。定理定理 4.3 让()()(),hW是一个弱收敛序列，t是由()()(),L ssW sst生成的代数，那么()W 分别是一个标准的t-维纳

40、过程，是一个t停时，()是一个允许的控制，让索赔时间用nv表示，则(27)是成立的。证明：证明：该证明与15类似，在此省略。定理定理 4.4()()()(),hhVlVlVlVl+在上一节中分别定义的值函数。然后我们有 ()(),0limhhVlVl+=(28)()(),0limhhVlVl=(29)证明：证明：该证明请参考15，在此省略。引理引理 4.5 设1G和2G为紧致空间。假设一个连续函数()12,K l yGG满足凹凸条件，即对于所有2yG，(),fy是凸的，而对于所有1lG，(),K l 是凹的。然后 ()()1122inf sup,supinf,l Gl Gy Gy GK l y

41、K l y=(30)定理定理 4.6 对于hlS，一个在(18)中定义的马尔可夫链，如果满足(20)，则存在一个鞍点 ()(),hhVlVl+=(31)证明：证明：该证明请参考15，在此省略。定理定理 4.7 假设满足定理 4.6 中的条件，则鞍点存在为 ()()VlVl+=(32)证明证明：因为对于在(27)中定义的近似马尔可夫链，我们可以实现()(),0limhhVlVl=欧君恒，卢相刚 DOI:10.12677/aam.2024.134172 1839 应用数学进展 ()(),0limhhVlVl+=(33)通过在定理 4.6 中使用类似的方法。根据定理 4.7，我们得到存在一个鞍点 (

42、)()VlVl+=(34)5.数值结果数值结果在本节中，我们使用给定的数值格式和证明的收敛结果对模型进行了数值实验。数值实验中涉及的参数值见8 15 19和20。数值模拟示例数值模拟示例示例 5.1：让我们假设总生产成本为()()221111222255,33C uuuCuuu=+=+。我们假设总库存持有成本和总积压成本为()()22111122222,20.5HxxxHxxx=+=+。我们设置了参考价格2=的调整速度，参考价格的波动性参数120.1,0.2=。平均市场潜力为7a=，价格敏感性为0.3b=，资产的回报率为0.4=，参考价格效应的大小为0.5=。同时，我们假设波动率参数123

43、0.25,0.45,0.75=。最后，我们假设贴现因子0.1=。为了简单起见，我们考虑离散事件有两个状态的情况。也就是说，连续时间马尔可夫链有两个给定索赔额分布的状态。此外，我们假设索赔额分布是相同的，在每个政权。利用数值迭代方法，数值求解了最优控制问题。我们将支付函数作为两个参与者之间的盈余差在到达下障碍之前到达上障碍的概率。因此，在博弈中，公司 1 想要最大化概率，而公司 2 想要最小化相同的概率。(a)(b)Figure 1.Optimal retail price under some fixed parameters 图图 1.某些固定参数下的最优零售价格从图 1(a)(b)，我们

44、知道当其他参数保持不变，当公司 1 的库存水平与公司 2 一样，两家公司的定价策略是公司 1 设置价格高于公司 2，定价差异是最大之间的三个曲线。可能，公司 1 和公司 2 有相同的库存水平，也就是说，相同的库存过剩压力。这类似于我们生活中大品牌公司和小品牌公司之间的商业竞争。同时，在公司 1 的库存水平大于公司 2 的情况下，当公司 2 与公司 1 的利润差迅速达到下限时，公司 1 的定价低于公司 2。这是因为当两家公司的竞争相等时，公司 1 的库存压力很大，只能以利润小、营业额快的形式保持竞争力；当公司 2 与公司 1 具有相同的库存水平时，无论达到什么竞争水平，公司2 的价格总是低于公司

45、 1，以增加赢得竞争的可能性。欧君恒，卢相刚 DOI:10.12677/aam.2024.134172 1840 应用数学进展 (a)(b)Figure 2.Optimal production rate under some fixed parameters 图图 2.某些固定参数下的最优生产速率从图 2(a)(b)可以看出，当公司 1 的库存水平超过公司 2，两家公司之间的利润差迅速接近下界时，公司 1 的生产率下降。这是由于在平等竞争的情况下，公司 1 的高库存水平导致了货物的积累和成本的增加。因此，公司 1 采取了降低生产速度、减少库存的战略，通过降低成本来提高盈利能力。当公司 1的

46、库存水平超过公司 2，两家公司的利润差迅速接近上限时，最优策略表明公司 1 的生产力提高，公司 2的生产力下降，公司 1 的价格上升，公司 2 的价格下降。这意味着当公司 1 在高库存水平的条件下能够获得巨大的利润时，最优策略意味着利润小，快速周转对公司 2 不再可行，最好的利润策略是减少生产和定价，通过降低成本提高竞争胜率。在现实的环境中，一个类似于公司 2 的策略往往是失败的，这就足以基本上结束公司 1 的胜利。数值例子提供了动态策略和库存水平分析，为决策者在减少错误决策造成的重大损失的风险方面提供了实用的指导。虽然在扩散模型中包含跳跃过程在捕捉市场转变方面更为现实，但它也给开发有效的数值

47、算法带来了更大的复杂性和计算挑战。此外，在一个随机博弈框架内，公司可以根据对手的行动，灵活地调整其最优策略，以最大化他们成功的机会。6.结论结论本文研究的是基于随机参考价格的库存管理问题，在随机博弈的框架下，每个公司都可以根据自己的对手调整最优再保险策略。根据问题的背景条件给出支付函数和马尔可夫链逼近方法来解决随机博弈的最优控制问题。这两个保险公司之间的竞争看作是随机微分博弈。两个公司给出两公司的支付函数，各个公司都设法找到一个最佳策略，其中一个公司以最大化支付函数，而另一个公司试图最小化相同的支付函数。利用动态规划原理，我们证明了该背景的博弈模型的上限值和下限值满足一个耦合的非线性积分微分

48、 HJI 方程组。而因为 HJI 方程组非常难以求得封闭解，所以我们使用一个可行的数值方法去求解，即使用马尔可夫链近似方法来获得数值解。同时我们还证明了该对策问题鞍点的存在性，证明了逼近序列收敛于跳扩散过程，逼近序列分别收敛于对策上值和下值。最后的数值例子提供了动态策略和库存水平分析，为决策者在减少错误决策造成的重大损失的风险方面提供了实用的指导。另外，本文存在以下不足，只考虑了两家公司间的竞争关系，不适用于多公司博弈的情况。同时没有考虑跳跃的情形。若扩散模型中包含跳跃过程则在捕捉市场转变方面更为现实，但它也给开发有效的数值算法带来了更大的复杂性和计算挑战。欧君恒，卢相刚 DOI:10.126

49、77/aam.2024.134172 1841 应用数学进展参考文献参考文献 1 Whitin,T.M.(1955)Inventory Control and Price Theory.Management Science,2,61-68.https:/doi.org/10.1287/mnsc.2.1.61 2 Bertsimas,D.and De Boer,S.(2005)Special Issue Papers:Dynamic Pricing and Inventory Control for Multiple Prod-ucts.Journal of Revenue and Prici

50、ng Management,3,303-319.https:/doi.org/10.1057/palgrave.rpm.5170117 3 Chen,L.,Chen,Y.and Pang,Z.(2010)Dynamic Pricing and Inventory Control in a Make-to-Stock Queue with In-formation on the Production Status.IEEE Transactions on Automation Science and Engineering,8,361-373.https:/doi.org/10.1109/TAS

展开阅读全文