1、应用概率统计第 39 卷第 4 期2023 年 8 月Chinese Journal of Applied Probability and StatisticsAug.,2023,Vol.39,No.4,pp.577-588doi:10.3969/j.issn.1001-4268.2023.04.008基于半马氏的无限阶段指数效用最优模型温鲜霍海峰(广西科技大学理学院,柳州,545006)摘要:本文考虑半马氏决策过程的指数效用最优问题,其中状态和行动空间均为 Borel 集,报酬函数非负.最优准则是最大化系统无限阶段内获取总报酬指数效用的期望值.首先,建立标准正则性条件确保状态过程非爆炸,连续
2、紧条件确保最优策略存在.其次,基于这些条件,利用值迭代和嵌入链技术,证明了值函数是相应最优方程的唯一解以及最优策略的存在性.最后,通过实例展示了如何利用值迭代算法计算值函数和最优策略.关键词:半马氏决策过程;指数效用;值迭代;最优方程;最优策略中图分类号:O211.62英文引用格式:WEN X,HUO H F.The exponential utility optimality for infinite horizon semi-Markov decision processesJ.Chinese J Appl Probab Statist,2023,39(4):577588.(in Chin
3、ese)1引言众所周知,基于状态逗留时间服从任意概率分布的特征,半马氏决策过程是一类更广泛的随机最优控制模型,已经应用于金融1、通讯2、生产储存24等方面.目前,半马氏决策过程的研究主要集中于经典期望准则,例如有限阶段4,5,无限阶段1,68,平均准则7,9,10.这些准则主要关注系统在给定时间内获得总收益的期望值,是总收益的线性函数,但无法有效展示决策者对于收益风险的厌恶态度,因此有必要引入一些可以度量决策者风险厌恶度的准则,例如,风险灵敏准则(指数效用情形).风险灵敏准则(指数效用情形)自 Howard 和 Matheson11引入到马氏决策过程以来,已被许多学者关注和研究,例如,离散时间
4、情形6,12,13,连续时间情形1416,半马氏情形17,18.更具体的来说,Ch avez-Rodr guez 等17基于半马氏风险灵敏平均准则,在连续紧条件下建立了值函数满足的最优方程,以及最优平稳策略的存在性.近年来,Huang等18等利用凸分析和占有测度方法分别求解约束和无约束情形的有限阶段半马氏风险灵敏最优问题,建立了贝尔曼最优方程以及最优策略的存在性.区别于文献 17,18 关注最优国家自然科学基金项目(批准号:11961005)、广西科技基地与人才专项(批准号:桂科 AD21159005)、广西自然科学基金项目(批准号:2020GXNSFAA297196)和 2022 年度广西高
5、校中青年教师科研基础能力提升项目(批准号:KY2022KY0342)资助.通讯作者,E-mail:.本文 2021 年 9 月 3 日收到,2021 年 10 月 24 日收到修改稿.578应用概率统计第 39 卷策略和最优方程的存在条件,本文更加关注最优策略和值函数的计算部分.具体的来说,不同于有限阶段情形5,18需要考虑时间阶段,这里需要定义相应随机的和确定性历史、马氏、平稳策略,见定义 1,建立相应的概率空间、状态过程以及指数优化准则.其次,建立标准正则性条件确保状态过程非爆炸,建立连续紧条件确保策略存在.基于这些条件,不同于文献 14,15 的 Feyman-Kac 公式法,文献 16
6、 的简化法,以及文献 18 的凸分析和占有测度法,本文利用嵌入链和值迭代技术,证明了值函数是相应最优方程的解,以及指数效用最优策略的存在.这里需要特别指出仅利用状态过程非爆炸建立了新的结果(见定理10),进而证明值函数是最优方程的唯一解.最后,建立值迭代算法计算值函数以及最优策略,见定理 11,并通过具体实例计算展示了算法的可行性和有效性.本文主要内容安排如下:第 2 节介绍无限阶段半马氏指数效用模型和优化准则.第 3节介绍一些记号说明和预备知识,并展示主要结果:最优方程解的唯一性,最优策略的存在性和计算部分.最后一节通过例子解释说明主要结果和算法的可行性.2最优控制模型半马氏无限阶段指数效用
7、模型由下列基本元素组成:S,A,(A(x),x S),Q(u,y|x,a),r(x,a),(1)其中S,A分别表示Borel状态和行动空间,其分别拥有Borel 代数B(S)和B(A).A(x)B(A)表示系统状态为 x S 时所有可允许的行动集.K:=(x,a)|x S,a A(x)表示所有可允许的状态行动对集合.Q(,|x,a)表示给定 K 时定义于 R+S 的半马氏核,即当系统状态为 x,选取行动 a A(x)时,Q(u,D|x,a)表示系统状态 x 的逗留时间不超过 u R+与系统状态 x 转移进入集合 D 的联合概率分布,其中 u R+,D B(S),R+:=0,).定义于 K 的非
8、负可测函数 r(x,a)表示报酬率.无限阶段半马氏指数效用模型的演化过程如下:决策者在初始时刻 t0=0 依据系统的初始状态 x0 S,从决策集合 A(x0)中选择行动 a0.这个行动选择后,系统会在状态 x0停留至 t1时刻.此时,系统将会以概率 p(x1|x0,a0):=limuQ(u,x1|x0,a0)转移到状态x1 S,同时获得报酬 r(x0,a0)(t1 t0).在新的决策时刻 t1,依据系统的历史信息(x0,a0,x1),决策者会选择新的行动 a1 A(x1),系统也会以类似的方式进行演化,且会产生一系列的决策信息.记 hk:=(x0,a0,t1,x1,a1,tk,xk)表示系统在
9、决策时刻 tk的决策历史信息,其中 k+1:=tk+1 tk表示系统状态 xk的逗留时间,其服从任意给定的概率分布;ak表示 tk时刻决策者选择的行动.记所有历史信息 hk的集合为 Hk(k 0),即:H0:=S,Hk:=(S A (0,+)k S.为了准确描述最优问题,首先定义依赖于历史、马氏、平稳的随机和平稳策略.第 4 期温鲜,霍海峰:基于半马氏的无限阶段指数效用最优模型579定义 1序列 =k,k 0 称为依赖历史的随机策略,如果对于任意 k=0,1,2,hk Hk,随机核满足:k(A(xk)|hk)=1.记 表示所有依赖历史的随机策略集合.记 表示给定 x S 时,定义于 A 的所有
10、随机核 的集合,且 满足:(A(x)|x)=1.记 F 表示由 S 到 A(x)的所有 Borel 可测函数 f 的集合.对于任意 k 0,hk Hk,k,策略 =k 称为随机马氏策略,如果存在一系列随机核序列 k 满足:k(|hk)=k(|xk),且简记为 =k.随机马氏策略 =k 称为平稳的,如果所有 k都独立于 k.随机马氏策略 =k 称为确定的,如果对于任意 k 0,xk S,fk F,k(|xk)为集中于 fk(xk)A(xk)的 Dirac 测度,且简记为 =fk.确定性马氏策略 =fk 称为平稳的,如果所有 fk都独立于 k,为了方便,将此策略简记为 f.此外,所有随机马氏,随机
11、平稳,确定马氏,确定平稳策略的集合分别记为 RM,RS,DM,DS.显然,=RSRM 以及 F=DS DM.以模型(1)的元素为基础构造新概率空间.首先,定义样本空间如下:=(x0,a0,t1,x1,a1,tk,xk,ak,)|x0 S,a0 A(x0),tl(0,xl S,al A(xl),1 6 l 6 k,k 1.记 F 表示样本空间 的 Borel 代数.对于任意 :=(x0,a0,t1,x1,a1,tk,xk,ak,),在测度空间(,F)上分别定义随机决策时刻、状态、行动变量 Tk,Xk,Ak如下:Tk():=tk,Xk():=xk,Ak():=ak,T():=limkTk().为了
12、方便,通常省略.此外,定义状态过程 xt,t 0 和行动过程 At,t 0 如下:xt:=k0ITk6tT,At:=k0ITk6tT,其中 IB()表示定义于集合B的示性函数,a表示一个孤立行动.假设 T后过程 xt,t 0 的状态为吸收态 E.对于任意 以及初始状态 x S,依据 Ionescu Tulcea 定理(文献 3 命题 C.10)可知,存在唯一概率空间(Px,F)满足:Px(Ak|T0,X0,A0,Tk,Xk)=k(|T0,X0,A0,Tk,Xk),Px(Tk+1 Tk6 u,Xk+1 D|T0,X0,A0,Tk,Xk,Ak)=Q(u,D|Xk,Ak),(2)其中 u R+,B(
13、A),D B(S),k 0.记与概率测度 Px相对应的期望算子为 Ex.为了避免状态过程在有限时间内出现无限多次跳跃,建立下列非爆炸条件.条件 2对于任意 ,x S,Px(T=)=1.580应用概率统计第 39 卷为了方便验证条件 2,依据半马氏核,类似文献 4,5,18 经典期望准则,建立如下标准正则性条件.引理 3对于任意(x,a)K,如果存在一些常数,0 满足:Q(,S|x,a)6 1,则条件 2 成立.证明:类似文献 5 命题 2.1 证明可得.?任取 x S 以及 ,定义无限阶段指数效用准则如下:V(x):=Ex(e+0r(xt,At)dt),其中 0 为风险厌恶系数,说明决策者是风
14、险爱好者.定义 4如果策略 满足V(x)=supV(x),x S,(3)则称此策略为最优策略.相应地 V(x)=supV(x),x S 称为值函数.3主要结果记 Vm表示由 S 到区间 0,1 所有 Borel 可测函数的集合.任取 x S,V Vm,a A(x),定义算子 MV 以及 MV 如下:MaV(x):=S+0er(x,a)uV(y)Q(du,dy|x,a),MV(x):=A(x)(da|x)MaV(x),MV(x):=supaA(x)MaV(x).对于 ,类似定义算子(MnV,n 1),(M)nV,n 1)如下:Mn+1V=M(MnV),(M)n+1V=M(M)nV),n 1.既然
15、状态空间和行动空间为Borel集,为了保证最优策略存在,参考文献3,4,18,建立如下连续紧条件.特别地,状态空间可数,行动集合A(x),x S 有限时,条件5显然成立.条件 5任取 x S,a A(x),V Vm,A(x)为紧集,且S+0er(x,a)uV(y)Q(du,dy|x,a)在 K 上半连续且下紧.引理 6当条件 2 和 5 成立时,对于 U,V Vm,x S,a A(x),算子 Ma以及 M满足下列性质:(a)如果 U V,则 MaU(x)MaV(x)以及 MU(x)MV(x).第 4 期温鲜,霍海峰:基于半马氏的无限阶段指数效用最优模型581(b)对于任意确定 V Vm,x S
16、,存在策略 f F 满足 MV(x)=MfV(x).证明:(a)由算子 Ma和 M 定义直接可证结论(a).(b)对于任意 x S,由可测选择定理(文献 4 定理 B.6)可知,存在策略 f F 满足:MfV(x)=MV(x)=supaA(x)MaV(x).?既然状态过程 xt,t 0 非爆炸,报酬函数非负,由控制收敛定理可将 V(x)改写为如下:V(x)=Ex(e+0r(xt,At)dt)=Ex(em=0Tm+1Tmr(xt,At)dt)=limnEx(enm=0Tm+1Tmr(xt,At)dt):=limnVn(x).因此,可得单调非增序列 Vn(x),n=1,0,1,其中 V1(x):=
17、1,x S.命题 7对于任意 =0,1,x S,存在策略=0,1,RM满足:V(x)=V(x).证明:对于 =0,1,x S,既然 V(x)=Ex(em=0Tm+1Tmr(xt,At)dt),仅需证明:存在随机马氏策略=0,1,RM满足:Px(Xk D,Tn+1Tn u,Ak)=Px(Xk D,Tn+1 Tn u,Ak),其中 k=0,1,u R+,D B(S),B(A).依据式(2),仅需要证明 Px(Xk D,Ak)=Px(Xk D,Ak).类似文献 4 定理 5.5.1 证明,利用归纳法可证得.?命题 7 表明:最优问题(3)的最优策略只需在随机马氏策略集 RM内确定.为了建立值函数满足
18、的最优方程,首先建立下列引理.引理 8当条件 2 和 5 成立时,对于任意 x S,n 1,以及 =0,1,RM,下列结论成立:(a)Vn Vm以及 V Vm.(b)Vn+1(x)=M0V1n(x)和 V(x)=M0V1(x),其中1:=1,2,为策略 的1-shift 策略.特别地,对于 f F,Vfn+1(x)=MfVfn(x)以及 Vf(x)=MfVf(x).证明:(a)任取 x S,RM,当 n=1 时,既然 V1(x)=1 Vm,结论显然成立.假设当 n 6 k 时,结论成立.由概率测度式(2)以及条件期望的性质可得:Vk+1(x)=Ex(ek+1m=0Tm+1Tmr(xt,At)d
19、t)=ExEx(ek+1m=0Tm+1Tmr(xt,At)dt?T0,xT0,A0,T1,xT1)582应用概率统计第 39 卷=A(x)0(da|x)S+0Ex(eT10r(xt,At)dt+k+1m=1Tm+1Tmr(xt,At)dt?T0=0,xT0=x,A0=a,T1=u,xT1=y)Q(du,dy|x,a)=A(x)0(da|x)S+0er(x,a)uE1y(ekm=0Tm+1Tmr(xt,At)dt)Q(du,dy|x,a)=A(x)0(da|x)S+0er(x,a)uV1k(y)Q(du,dy|x,a):=M0V1k(x),结合归纳假设可知 Vn(x)可测,且 Vn Vm,n 1
20、.进一步,由可测函数序列的极限仍可测,则 limnVn=V Vm.(b)由结论(a)可知:任取 x S,n 1,Vn+1(x)=M0V1n(x).令 n ,由单调收敛定理可得:V(x)=M0V1(x).特别地,当 =f F 时,Vf(x)=MfVf(x).?注记 9任取 x S,f F,n 0,由引理 8 可得计算 Vf(x)的算法如下:Vf1(x):=1,Vfn+1(x)=MfVfn(x),Vf(x)=limnVfn(x).定理 10当条件 2 和 5 成立时,下列结论成立:(a)如果 U,V Vm,x S,f s,且 U(x)V(x)6 Mf(U V)(x),则 U(x)6 V(x).(b
21、)任取 f s,Vf Vm是方程 V=MfV 的唯一解.证明:(a)对于任意 U,V Vm,x S,f s,由归纳法证明下列结论:(Mf)n(U V)(x)6 Pfx(Tn 1.(4)当 n=1 时,既然 U,V Vm,由算子 M 的定义可得:Mf(U V)(x)=S+0er(x,f)u(U V)(y)Q(du,dy|x,f)6+0Q(du,S|x,f)=Pfx(T1).假设 n=k 时,式(4)成立.依据归纳假设和报酬率非负可得:(Mf)k+1(U V)(x)=S+0er(x,f)u(Mf)k(U V)(y)Q(du,dy|x,a)=S+0er(x,f)uPfy(Tk)Q(du,dy|x,a
22、)6S+0Pfy(Tk)Q(du,dy|x,f).(5)第 4 期温鲜,霍海峰:基于半马氏的无限阶段指数效用最优模型583另一方面,Pfx(Tk+1)=EfxEfx(ITk+1|X0,T1,XT1)=S+0Pfx(Tk+1|X0=x,T1=u,XT1=y)Q(du,dy|x,f)=S+0Pfy(Tk 1,U(x)V(x)6(Mf)nU(x)V(x)6 Pfx(Tn).令 n ,由条件 2 可得:U(x)V(x)6 Pfx(T 1,令 V1:=1,Vn+1:=MVn,则 limnVn=V Vm.(b)值函数 V为最优方程 V=MV的唯一解.(c)存在最优策略 f F 满足 V=MfV,V=Vf.
23、证明:(a)任取 x S,由引理 6(a)以及算子 M 的定义,0 6 Vn+1(x)6 Vn(x)6 1以及 Vn Vm,n 1.进一步,由单调收敛定理以及可测序列极限仍可测可得eV:=limnVn Vm.下面需要验证eV=V.首先,对于 x S 以及 =0,1,RM,由归纳法证明 Vn(x)Vn(x).任取 RM,显然 V1=V1=1.假设 n 6 k 时,结论成立.依据归纳假设,算子 M 的定义以及引理 8(b)可知:Vk+1(x)=MVk(x)MV1k(x)M0V1k(x)=Vk+1(x).令 n ,可得eV(x)=limnVn(x)V(x),RM.由 的任意性可得:eV(x)V(x)
24、.下面证明eV(x)6 V(x).任取 x S,n 1,记 An:=a A(x)|MaVn(x)MeV(x)以及 A:=a A(x)|MaeV(x)=MeV(x).依据连续 紧条件(条件 5)以及VneV 可得:An以及 A为非空紧集,且 An A.进一步,依据可测选择引理(文献 4定理 B.6)可得:对于任意 n 1,存在 an An满足 ManVn(x)=MVn(x).既然 An为紧集且 An A,可知:存在 a A以及 an 的子序列 ank 满足:ank a.由于VneV,由引理 8(a)可得:MankVnk(x)6 MankVn(x),nk n.令 k ,由条件 5 可得:eV(x)
25、6 MaVn(x).令 n ,结合 VneV 可得:eV(x)6 MaeV(x)6 MeV(x).进一步,结合引理 6(b)可知:存在一个平稳策略 f F 满足:eV(x)6 MeV(x)=MfeV(x).再由引理6(a)、引理8(b)以及注记9可得:eV(x)6(Mf)neV(x)6(Mf)nVf1(x)=Vfn1(x).令 n ,由注记 9 可知:eV(x)6 Vf(x)6 V(x),结论(a)得证.584应用概率统计第 39 卷(b)任取 x S,RM,由引理 8(b)可得:V(x)=M0V1(x)6 M0V(x)6MV(x).对于所有策略 RM,取上确界可得:V(x)6 MV(x).另
26、一方面,任取 x S 以及 a A(x),依据 Vn的定义可得:Vn+1(x)=MVn(x)MaVn(x).令 n ,由单调收敛定理可得:V(x)MaV(x),由 a A(x)得任意性可知:V(x)MV(x).即:V=MV得证.进一步,由引理 6(b)可知:存在一个平稳策略 f F 满足:V=MfV.此外,假设 U 也是方程 U=MU 的一个解,同理依据引理 6(b)可知:存在策略 f F 满足:U=MfU.因此 V U 6 Mf(V U),结合定理 10 可得:V6 U.同理可证:U V6 Mf(U V)以及 U 6 V,即:U=V,唯一性得证.(c)任取 x S,由引理 6(c)可知:存在
27、策略 f F 满足 V(x)=MfV(x).进一步,由引理 8 以及注记 9 可得:V=limn(Mf)nV6 limn(Mf)nVf1=limnVfn1=Vf,结论得证.?依据定理 11 可得计算值函数以及最优策略的值迭代算法如下:步骤 1:对于任意 x S,令 V1(x):=1.步骤 2:依据定理 11 可知,迭代计算值 Vn+1(x),n 0 如下:MaVn(x)=S+0er(x,f)uVn(y)Q(du,dy|x,a),Vn+1(x)=supaA(x)MaVn(x).步骤 3:当|Vn+1Vn|0 获得报酬,也可以选择存款方式 a12以报酬率 r(1,a12)0 获取报酬.此公司有大量
28、闲置资金时(记为状态 2),决策者可以选择金融理财方式 a21以报酬率 r(2,a21)0 获取报酬,也可以选择另一种金融理财方式方式 a22以报酬率 r(2,a22)0 获取报酬.当公司没有任何闲置资金(或公司破产)(记为状态 0),此时决策者不会选择任何投资方式(记为行动 a01),因此也不会获得报酬 r(0,a01)=0.假设决策系统的演化过程满足半马氏决策模型,即:当系统状态 x=1 时,决策者可以选择行动 a1n,n=1,2.此时,系统将会逗留在状态 1,其中逗留时间服从 0,u(1,a1n)的均第 4 期温鲜,霍海峰:基于半马氏的无限阶段指数效用最优模型585匀分布.系统随后以概率
29、 p(y|1,a1n)(n=1,2)转移到状态 y 0,2.此时,决策者将会选择新的行动 ayn,n=1,2.如果系统状态 y=2,系统将会停留一段时间再进行状态转移,其中停留时间服从参数为(2,a2n)(n=1,2)的指数分布.如果系统状态 y=0,系统将会永远停留在此状态.相应地半马氏决策模型的参数如下:状态空间 S=0,1,2,可允许的行动集 A(0)=a01,A(1)=a11,a12,A(2)=a21,a22,风险厌恶系数 =1.转移概率为p(0|0,a01)=1,p(0|1,a11)=0.4,p(2|1,a11)=0.6,p(0|1,a12)=0.3,p(2|1,a12)=0.7,p
30、(0|2,a21)=0.5,(6)p(1|2,a21)=0.5,p(0|2,a22)=0.3,p(1|2,a22)=0.7.此外,给定相应的分布参数如下:u(1,a11)=35,u(1,a12)=40,(2,a21)=0.13,(2,a22)=0.15,(7)报酬率如下:r(1,a11)=0.004,r(1,a12)=0.012,r(2,a21)=0.014,r(2,a22)=0.015.首先,由式(6)和式(7)可知,条件 2 显然成立.另一方面,既然状态空间和行动空间有限,条件 5 也成立.由式(6)和式(7)可知:状态 0 为吸收态,且 V(0)=1.依据定理 11,值函数和指数效用最优
31、策略的计算如下:步骤 1:令 V1(x):=1,x 1,2.步骤 2:对于 x 1,2,n 1,由定理 11(a)可得:Vn(1)=MVn1(1)=max0.6 135350e0.004udu+0.4 135350e0.004udu Vn1(2),0.3 140400e0.012udu+0.7 140400e0.012udu Vn1(2),Vn(2)=MVn1(2)=max0.50.13+0e0.144udu+0.50.13+0e0.144uduVn1(1),0.3 0.15+0e0.165udu+0.7 0.15+0e0.165udu Vn1(1).步骤 3:当|Vn Vn1|1012时,进
32、入步骤 4,将 Vn看作 V的近似值.否则,用 n+1替换 n,进入步骤 2.586应用概率统计第 39 卷步骤 4:绘制值 Max,mVn(x)以及值函数 Vn(x)(x 1,2;m=1,2)随步数 n 的变化,见图 1、图 2 以及图 3.051015202530MaVn*(1)0.650.70.750.80.850.90.951Ma11Vn*(1)Ma12Vn*(1)图 1值 MaVn(1)051015202530MaVn*(2)0.80.820.840.860.880.90.920.940.960.981Ma21Vn*(2)Ma22Vn*(2)图 2值 MaVn(2)由定理 11、图
33、1 以及图 2 可知:MV(1)=V(1)=Ma11V(1),MV(2)=V(2)=Ma22V(2).因此,当系统状态 x=1 时,选择行动 f(1)=a12优于行动 f(1)=a11,且值函数为V(1)=0.8377.当系统状态为 x=2 时,选择行动 f(2)=a21优于行动 f(2)=a22,且值函数为 V(2)=0.8295.第 4 期温鲜,霍海峰:基于半马氏的无限阶段指数效用最优模型587051015202530Vn*(x)0.820.840.860.880.90.920.940.960.981Vn*(1)Vn*(2)图 3值函数 Vn(x)参考文献1 BAUERLE N,RIEDE
34、R U.Markov Decision Processes with Applications to FinanceM.Berlin:Springer,2011.2 JANSSEN J,MANCA R.Semi-Markov Risk Models for Finance,Insurance and ReliabilityM.NewYork:Springer,2007.3 HERNANDEZ-LERMA O,LASSERRE J B.Discrete-Time Markov Control Processes:Basic Opti-mality CriteriaM.New York:Sprin
35、ger,1996.4 PUTERMAN M L.Markov Decision Processes:Discrete Stochastic Dynamic ProgrammingM.NewYork:Wiley,1994.5 HUANG Y H,GUO X P.Finite horizon semi-Markov decision processes with application to mainte-nance systemsJ.European J Oper Res,2011,212(1):131140.6 CAO X R.Semi-Markov decision problems and
36、 performance sensitivity analysisJ.IEEE TransAutomat Control,2003,48(5):758769.7 GUO X P,HERNANDEZ-LERMA O.Continuous-Time Markov Decision Processes:Theory andApplicationsM.Berlin:Springer,2009.8 LUQUE-VASQUEZ F,MINJAREZ-SOSA J A.Semi-Markov control processes with unknown holdingtimes distribution u
37、nder a discounted criterionJ.Math Methods Oper Res,2005,61(3):455468.9 JASKIEWICZ A.On the equivalence of two expected average cost criteria for semi-Markov controlprocessesJ.Math Oper Res,2004,29(2):326338.10 YUSHKEVICH A A.On semi-Markov controlled models with an average reward criterionJ.TheoryPr
38、obab Appl,1982,26(4):796803.11 HOWARD R A,MATHESON J E.Risk-sensitive Markov decision processesJ.Management Sci,1972,18(7):356369.12 CHUNG K J,SOBEL M J.Discounted MDPs:distribution functions and exponential utility maxi-mizationJ.SIAM J Control Optim,1987,25(1):4962.588应用概率统计第 39 卷13 JASKIEWICZ A.A
39、 note on negative dynamic programming for risk-sensitive controlJ.Oper ResLett,2008,36(5):531534.14 GUO X P,ZHANG J Y.Risk-sensitive continuous-time Markov decision processes with unboundedrates and Borel spacesJ.Discrete Event Dyn Syst,2019,29(4):445471.15 GUO X P,Liao Z W.Risk-sensitive discounted
40、 continuous-time Markov decision processes withunbounded ratesJ.SIAM J Control Optim,2019,57(6):38573883.16 ZHANG Y.Continuous-time Markov decision processes with exponential utilityJ.SIAM J ControlOptim,2017,55(4):26362660.17 CHAVEZ-RODRIGUEZ S,CAVAZOS-CADENA R,CRUZ-SUAREZ H.Controlled semi-Markovc
41、hains with risk-sensitive average cost criterionJ.J Optim Theory Appl,2016,170(2):670686.18 HUANG Y H,LIAN Z T,GUO X P.Risk-sensitive semi-Markov decision processes with generalutilities and multiple criteriaJ.Adv Appl Probab,2018,50(3):783804.The Exponential Utility Optimality for Infinite HorizonS
42、emi-Markov Decision ProcessesWEN XianHUO Haifeng(School of Science,Guangxi University of Science and Technology,Liuzhou,545006,China)Abstract:This paper concerns the exponential utility maximization problem for semi-Markov decisionprocess with Borel state and action spaces,and nonnegative rewards.Th
43、e optimal criterion is maximizethe expectation of exponential utility of the total rewards in infinite horizon.Under the regular andcompactness-continuity conditions,we establish the corresponding optimality equation,and prove the ex-istence of an exponential utility optimal stationary policy by an
44、invariant embedding technique.Moreover,we provide an iterative algorithm for calculating the value function as well as the optimal policies.Finally,we illustrate the computational aspects of an optimal policy with an example.Keywords:semi-Markov decision processes;exponential utility;value iteration algorithm;optimalityequation;optimal policy2020 Mathematics Subject Classification:90C40,60J20
©2010-2024 宁波自信网络信息技术有限公司 版权所有
客服电话:4008-655-100 投诉/维权电话:4009-655-100