ImageVerifierCode 换一换
格式:PDF , 页数:12 ,大小:290.23KB ,
资源ID:633621      下载积分:10 金币
验证码下载
登录下载
邮箱/手机:
验证码: 获取验证码
温馨提示:
支付成功后,系统会自动生成账号(用户名为邮箱或者手机号,密码是验证码),方便下次登录下载和查询订单;
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/633621.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  
声明  |  会员权益     获赠5币     写作写作

1、填表:    下载求助     留言反馈    退款申请
2、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
3、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
4、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
5、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
6、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
7、本文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。

注意事项

本文(基于半马氏的无限阶段指数效用最优模型.pdf)为本站上传会员【自信****多点】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4008-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

基于半马氏的无限阶段指数效用最优模型.pdf

1、应用概率统计第 39 卷第 4 期2023 年 8 月Chinese Journal of Applied Probability and StatisticsAug.,2023,Vol.39,No.4,pp.577-588doi:10.3969/j.issn.1001-4268.2023.04.008基于半马氏的无限阶段指数效用最优模型温鲜霍海峰(广西科技大学理学院,柳州,545006)摘要:本文考虑半马氏决策过程的指数效用最优问题,其中状态和行动空间均为 Borel 集,报酬函数非负.最优准则是最大化系统无限阶段内获取总报酬指数效用的期望值.首先,建立标准正则性条件确保状态过程非爆炸,连续

2、紧条件确保最优策略存在.其次,基于这些条件,利用值迭代和嵌入链技术,证明了值函数是相应最优方程的唯一解以及最优策略的存在性.最后,通过实例展示了如何利用值迭代算法计算值函数和最优策略.关键词:半马氏决策过程;指数效用;值迭代;最优方程;最优策略中图分类号:O211.62英文引用格式:WEN X,HUO H F.The exponential utility optimality for infinite horizon semi-Markov decision processesJ.Chinese J Appl Probab Statist,2023,39(4):577588.(in Chin

3、ese)1引言众所周知,基于状态逗留时间服从任意概率分布的特征,半马氏决策过程是一类更广泛的随机最优控制模型,已经应用于金融1、通讯2、生产储存24等方面.目前,半马氏决策过程的研究主要集中于经典期望准则,例如有限阶段4,5,无限阶段1,68,平均准则7,9,10.这些准则主要关注系统在给定时间内获得总收益的期望值,是总收益的线性函数,但无法有效展示决策者对于收益风险的厌恶态度,因此有必要引入一些可以度量决策者风险厌恶度的准则,例如,风险灵敏准则(指数效用情形).风险灵敏准则(指数效用情形)自 Howard 和 Matheson11引入到马氏决策过程以来,已被许多学者关注和研究,例如,离散时间

4、情形6,12,13,连续时间情形1416,半马氏情形17,18.更具体的来说,Ch avez-Rodr guez 等17基于半马氏风险灵敏平均准则,在连续紧条件下建立了值函数满足的最优方程,以及最优平稳策略的存在性.近年来,Huang等18等利用凸分析和占有测度方法分别求解约束和无约束情形的有限阶段半马氏风险灵敏最优问题,建立了贝尔曼最优方程以及最优策略的存在性.区别于文献 17,18 关注最优国家自然科学基金项目(批准号:11961005)、广西科技基地与人才专项(批准号:桂科 AD21159005)、广西自然科学基金项目(批准号:2020GXNSFAA297196)和 2022 年度广西高

5、校中青年教师科研基础能力提升项目(批准号:KY2022KY0342)资助.通讯作者,E-mail:.本文 2021 年 9 月 3 日收到,2021 年 10 月 24 日收到修改稿.578应用概率统计第 39 卷策略和最优方程的存在条件,本文更加关注最优策略和值函数的计算部分.具体的来说,不同于有限阶段情形5,18需要考虑时间阶段,这里需要定义相应随机的和确定性历史、马氏、平稳策略,见定义 1,建立相应的概率空间、状态过程以及指数优化准则.其次,建立标准正则性条件确保状态过程非爆炸,建立连续紧条件确保策略存在.基于这些条件,不同于文献 14,15 的 Feyman-Kac 公式法,文献 16

6、 的简化法,以及文献 18 的凸分析和占有测度法,本文利用嵌入链和值迭代技术,证明了值函数是相应最优方程的解,以及指数效用最优策略的存在.这里需要特别指出仅利用状态过程非爆炸建立了新的结果(见定理10),进而证明值函数是最优方程的唯一解.最后,建立值迭代算法计算值函数以及最优策略,见定理 11,并通过具体实例计算展示了算法的可行性和有效性.本文主要内容安排如下:第 2 节介绍无限阶段半马氏指数效用模型和优化准则.第 3节介绍一些记号说明和预备知识,并展示主要结果:最优方程解的唯一性,最优策略的存在性和计算部分.最后一节通过例子解释说明主要结果和算法的可行性.2最优控制模型半马氏无限阶段指数效用

7、模型由下列基本元素组成:S,A,(A(x),x S),Q(u,y|x,a),r(x,a),(1)其中S,A分别表示Borel状态和行动空间,其分别拥有Borel 代数B(S)和B(A).A(x)B(A)表示系统状态为 x S 时所有可允许的行动集.K:=(x,a)|x S,a A(x)表示所有可允许的状态行动对集合.Q(,|x,a)表示给定 K 时定义于 R+S 的半马氏核,即当系统状态为 x,选取行动 a A(x)时,Q(u,D|x,a)表示系统状态 x 的逗留时间不超过 u R+与系统状态 x 转移进入集合 D 的联合概率分布,其中 u R+,D B(S),R+:=0,).定义于 K 的非

8、负可测函数 r(x,a)表示报酬率.无限阶段半马氏指数效用模型的演化过程如下:决策者在初始时刻 t0=0 依据系统的初始状态 x0 S,从决策集合 A(x0)中选择行动 a0.这个行动选择后,系统会在状态 x0停留至 t1时刻.此时,系统将会以概率 p(x1|x0,a0):=limuQ(u,x1|x0,a0)转移到状态x1 S,同时获得报酬 r(x0,a0)(t1 t0).在新的决策时刻 t1,依据系统的历史信息(x0,a0,x1),决策者会选择新的行动 a1 A(x1),系统也会以类似的方式进行演化,且会产生一系列的决策信息.记 hk:=(x0,a0,t1,x1,a1,tk,xk)表示系统在

9、决策时刻 tk的决策历史信息,其中 k+1:=tk+1 tk表示系统状态 xk的逗留时间,其服从任意给定的概率分布;ak表示 tk时刻决策者选择的行动.记所有历史信息 hk的集合为 Hk(k 0),即:H0:=S,Hk:=(S A (0,+)k S.为了准确描述最优问题,首先定义依赖于历史、马氏、平稳的随机和平稳策略.第 4 期温鲜,霍海峰:基于半马氏的无限阶段指数效用最优模型579定义 1序列 =k,k 0 称为依赖历史的随机策略,如果对于任意 k=0,1,2,hk Hk,随机核满足:k(A(xk)|hk)=1.记 表示所有依赖历史的随机策略集合.记 表示给定 x S 时,定义于 A 的所有

10、随机核 的集合,且 满足:(A(x)|x)=1.记 F 表示由 S 到 A(x)的所有 Borel 可测函数 f 的集合.对于任意 k 0,hk Hk,k,策略 =k 称为随机马氏策略,如果存在一系列随机核序列 k 满足:k(|hk)=k(|xk),且简记为 =k.随机马氏策略 =k 称为平稳的,如果所有 k都独立于 k.随机马氏策略 =k 称为确定的,如果对于任意 k 0,xk S,fk F,k(|xk)为集中于 fk(xk)A(xk)的 Dirac 测度,且简记为 =fk.确定性马氏策略 =fk 称为平稳的,如果所有 fk都独立于 k,为了方便,将此策略简记为 f.此外,所有随机马氏,随机

11、平稳,确定马氏,确定平稳策略的集合分别记为 RM,RS,DM,DS.显然,=RSRM 以及 F=DS DM.以模型(1)的元素为基础构造新概率空间.首先,定义样本空间如下:=(x0,a0,t1,x1,a1,tk,xk,ak,)|x0 S,a0 A(x0),tl(0,xl S,al A(xl),1 6 l 6 k,k 1.记 F 表示样本空间 的 Borel 代数.对于任意 :=(x0,a0,t1,x1,a1,tk,xk,ak,),在测度空间(,F)上分别定义随机决策时刻、状态、行动变量 Tk,Xk,Ak如下:Tk():=tk,Xk():=xk,Ak():=ak,T():=limkTk().为了

12、方便,通常省略.此外,定义状态过程 xt,t 0 和行动过程 At,t 0 如下:xt:=k0ITk6tT,At:=k0ITk6tT,其中 IB()表示定义于集合B的示性函数,a表示一个孤立行动.假设 T后过程 xt,t 0 的状态为吸收态 E.对于任意 以及初始状态 x S,依据 Ionescu Tulcea 定理(文献 3 命题 C.10)可知,存在唯一概率空间(Px,F)满足:Px(Ak|T0,X0,A0,Tk,Xk)=k(|T0,X0,A0,Tk,Xk),Px(Tk+1 Tk6 u,Xk+1 D|T0,X0,A0,Tk,Xk,Ak)=Q(u,D|Xk,Ak),(2)其中 u R+,B(

13、A),D B(S),k 0.记与概率测度 Px相对应的期望算子为 Ex.为了避免状态过程在有限时间内出现无限多次跳跃,建立下列非爆炸条件.条件 2对于任意 ,x S,Px(T=)=1.580应用概率统计第 39 卷为了方便验证条件 2,依据半马氏核,类似文献 4,5,18 经典期望准则,建立如下标准正则性条件.引理 3对于任意(x,a)K,如果存在一些常数,0 满足:Q(,S|x,a)6 1,则条件 2 成立.证明:类似文献 5 命题 2.1 证明可得.?任取 x S 以及 ,定义无限阶段指数效用准则如下:V(x):=Ex(e+0r(xt,At)dt),其中 0 为风险厌恶系数,说明决策者是风

14、险爱好者.定义 4如果策略 满足V(x)=supV(x),x S,(3)则称此策略为最优策略.相应地 V(x)=supV(x),x S 称为值函数.3主要结果记 Vm表示由 S 到区间 0,1 所有 Borel 可测函数的集合.任取 x S,V Vm,a A(x),定义算子 MV 以及 MV 如下:MaV(x):=S+0er(x,a)uV(y)Q(du,dy|x,a),MV(x):=A(x)(da|x)MaV(x),MV(x):=supaA(x)MaV(x).对于 ,类似定义算子(MnV,n 1),(M)nV,n 1)如下:Mn+1V=M(MnV),(M)n+1V=M(M)nV),n 1.既然

15、状态空间和行动空间为Borel集,为了保证最优策略存在,参考文献3,4,18,建立如下连续紧条件.特别地,状态空间可数,行动集合A(x),x S 有限时,条件5显然成立.条件 5任取 x S,a A(x),V Vm,A(x)为紧集,且S+0er(x,a)uV(y)Q(du,dy|x,a)在 K 上半连续且下紧.引理 6当条件 2 和 5 成立时,对于 U,V Vm,x S,a A(x),算子 Ma以及 M满足下列性质:(a)如果 U V,则 MaU(x)MaV(x)以及 MU(x)MV(x).第 4 期温鲜,霍海峰:基于半马氏的无限阶段指数效用最优模型581(b)对于任意确定 V Vm,x S

16、,存在策略 f F 满足 MV(x)=MfV(x).证明:(a)由算子 Ma和 M 定义直接可证结论(a).(b)对于任意 x S,由可测选择定理(文献 4 定理 B.6)可知,存在策略 f F 满足:MfV(x)=MV(x)=supaA(x)MaV(x).?既然状态过程 xt,t 0 非爆炸,报酬函数非负,由控制收敛定理可将 V(x)改写为如下:V(x)=Ex(e+0r(xt,At)dt)=Ex(em=0Tm+1Tmr(xt,At)dt)=limnEx(enm=0Tm+1Tmr(xt,At)dt):=limnVn(x).因此,可得单调非增序列 Vn(x),n=1,0,1,其中 V1(x):=

17、1,x S.命题 7对于任意 =0,1,x S,存在策略=0,1,RM满足:V(x)=V(x).证明:对于 =0,1,x S,既然 V(x)=Ex(em=0Tm+1Tmr(xt,At)dt),仅需证明:存在随机马氏策略=0,1,RM满足:Px(Xk D,Tn+1Tn u,Ak)=Px(Xk D,Tn+1 Tn u,Ak),其中 k=0,1,u R+,D B(S),B(A).依据式(2),仅需要证明 Px(Xk D,Ak)=Px(Xk D,Ak).类似文献 4 定理 5.5.1 证明,利用归纳法可证得.?命题 7 表明:最优问题(3)的最优策略只需在随机马氏策略集 RM内确定.为了建立值函数满足

18、的最优方程,首先建立下列引理.引理 8当条件 2 和 5 成立时,对于任意 x S,n 1,以及 =0,1,RM,下列结论成立:(a)Vn Vm以及 V Vm.(b)Vn+1(x)=M0V1n(x)和 V(x)=M0V1(x),其中1:=1,2,为策略 的1-shift 策略.特别地,对于 f F,Vfn+1(x)=MfVfn(x)以及 Vf(x)=MfVf(x).证明:(a)任取 x S,RM,当 n=1 时,既然 V1(x)=1 Vm,结论显然成立.假设当 n 6 k 时,结论成立.由概率测度式(2)以及条件期望的性质可得:Vk+1(x)=Ex(ek+1m=0Tm+1Tmr(xt,At)d

19、t)=ExEx(ek+1m=0Tm+1Tmr(xt,At)dt?T0,xT0,A0,T1,xT1)582应用概率统计第 39 卷=A(x)0(da|x)S+0Ex(eT10r(xt,At)dt+k+1m=1Tm+1Tmr(xt,At)dt?T0=0,xT0=x,A0=a,T1=u,xT1=y)Q(du,dy|x,a)=A(x)0(da|x)S+0er(x,a)uE1y(ekm=0Tm+1Tmr(xt,At)dt)Q(du,dy|x,a)=A(x)0(da|x)S+0er(x,a)uV1k(y)Q(du,dy|x,a):=M0V1k(x),结合归纳假设可知 Vn(x)可测,且 Vn Vm,n 1

20、.进一步,由可测函数序列的极限仍可测,则 limnVn=V Vm.(b)由结论(a)可知:任取 x S,n 1,Vn+1(x)=M0V1n(x).令 n ,由单调收敛定理可得:V(x)=M0V1(x).特别地,当 =f F 时,Vf(x)=MfVf(x).?注记 9任取 x S,f F,n 0,由引理 8 可得计算 Vf(x)的算法如下:Vf1(x):=1,Vfn+1(x)=MfVfn(x),Vf(x)=limnVfn(x).定理 10当条件 2 和 5 成立时,下列结论成立:(a)如果 U,V Vm,x S,f s,且 U(x)V(x)6 Mf(U V)(x),则 U(x)6 V(x).(b

21、)任取 f s,Vf Vm是方程 V=MfV 的唯一解.证明:(a)对于任意 U,V Vm,x S,f s,由归纳法证明下列结论:(Mf)n(U V)(x)6 Pfx(Tn 1.(4)当 n=1 时,既然 U,V Vm,由算子 M 的定义可得:Mf(U V)(x)=S+0er(x,f)u(U V)(y)Q(du,dy|x,f)6+0Q(du,S|x,f)=Pfx(T1).假设 n=k 时,式(4)成立.依据归纳假设和报酬率非负可得:(Mf)k+1(U V)(x)=S+0er(x,f)u(Mf)k(U V)(y)Q(du,dy|x,a)=S+0er(x,f)uPfy(Tk)Q(du,dy|x,a

22、)6S+0Pfy(Tk)Q(du,dy|x,f).(5)第 4 期温鲜,霍海峰:基于半马氏的无限阶段指数效用最优模型583另一方面,Pfx(Tk+1)=EfxEfx(ITk+1|X0,T1,XT1)=S+0Pfx(Tk+1|X0=x,T1=u,XT1=y)Q(du,dy|x,f)=S+0Pfy(Tk 1,U(x)V(x)6(Mf)nU(x)V(x)6 Pfx(Tn).令 n ,由条件 2 可得:U(x)V(x)6 Pfx(T 1,令 V1:=1,Vn+1:=MVn,则 limnVn=V Vm.(b)值函数 V为最优方程 V=MV的唯一解.(c)存在最优策略 f F 满足 V=MfV,V=Vf.

23、证明:(a)任取 x S,由引理 6(a)以及算子 M 的定义,0 6 Vn+1(x)6 Vn(x)6 1以及 Vn Vm,n 1.进一步,由单调收敛定理以及可测序列极限仍可测可得eV:=limnVn Vm.下面需要验证eV=V.首先,对于 x S 以及 =0,1,RM,由归纳法证明 Vn(x)Vn(x).任取 RM,显然 V1=V1=1.假设 n 6 k 时,结论成立.依据归纳假设,算子 M 的定义以及引理 8(b)可知:Vk+1(x)=MVk(x)MV1k(x)M0V1k(x)=Vk+1(x).令 n ,可得eV(x)=limnVn(x)V(x),RM.由 的任意性可得:eV(x)V(x)

24、.下面证明eV(x)6 V(x).任取 x S,n 1,记 An:=a A(x)|MaVn(x)MeV(x)以及 A:=a A(x)|MaeV(x)=MeV(x).依据连续 紧条件(条件 5)以及VneV 可得:An以及 A为非空紧集,且 An A.进一步,依据可测选择引理(文献 4定理 B.6)可得:对于任意 n 1,存在 an An满足 ManVn(x)=MVn(x).既然 An为紧集且 An A,可知:存在 a A以及 an 的子序列 ank 满足:ank a.由于VneV,由引理 8(a)可得:MankVnk(x)6 MankVn(x),nk n.令 k ,由条件 5 可得:eV(x)

25、6 MaVn(x).令 n ,结合 VneV 可得:eV(x)6 MaeV(x)6 MeV(x).进一步,结合引理 6(b)可知:存在一个平稳策略 f F 满足:eV(x)6 MeV(x)=MfeV(x).再由引理6(a)、引理8(b)以及注记9可得:eV(x)6(Mf)neV(x)6(Mf)nVf1(x)=Vfn1(x).令 n ,由注记 9 可知:eV(x)6 Vf(x)6 V(x),结论(a)得证.584应用概率统计第 39 卷(b)任取 x S,RM,由引理 8(b)可得:V(x)=M0V1(x)6 M0V(x)6MV(x).对于所有策略 RM,取上确界可得:V(x)6 MV(x).另

26、一方面,任取 x S 以及 a A(x),依据 Vn的定义可得:Vn+1(x)=MVn(x)MaVn(x).令 n ,由单调收敛定理可得:V(x)MaV(x),由 a A(x)得任意性可知:V(x)MV(x).即:V=MV得证.进一步,由引理 6(b)可知:存在一个平稳策略 f F 满足:V=MfV.此外,假设 U 也是方程 U=MU 的一个解,同理依据引理 6(b)可知:存在策略 f F 满足:U=MfU.因此 V U 6 Mf(V U),结合定理 10 可得:V6 U.同理可证:U V6 Mf(U V)以及 U 6 V,即:U=V,唯一性得证.(c)任取 x S,由引理 6(c)可知:存在

27、策略 f F 满足 V(x)=MfV(x).进一步,由引理 8 以及注记 9 可得:V=limn(Mf)nV6 limn(Mf)nVf1=limnVfn1=Vf,结论得证.?依据定理 11 可得计算值函数以及最优策略的值迭代算法如下:步骤 1:对于任意 x S,令 V1(x):=1.步骤 2:依据定理 11 可知,迭代计算值 Vn+1(x),n 0 如下:MaVn(x)=S+0er(x,f)uVn(y)Q(du,dy|x,a),Vn+1(x)=supaA(x)MaVn(x).步骤 3:当|Vn+1Vn|0 获得报酬,也可以选择存款方式 a12以报酬率 r(1,a12)0 获取报酬.此公司有大量

28、闲置资金时(记为状态 2),决策者可以选择金融理财方式 a21以报酬率 r(2,a21)0 获取报酬,也可以选择另一种金融理财方式方式 a22以报酬率 r(2,a22)0 获取报酬.当公司没有任何闲置资金(或公司破产)(记为状态 0),此时决策者不会选择任何投资方式(记为行动 a01),因此也不会获得报酬 r(0,a01)=0.假设决策系统的演化过程满足半马氏决策模型,即:当系统状态 x=1 时,决策者可以选择行动 a1n,n=1,2.此时,系统将会逗留在状态 1,其中逗留时间服从 0,u(1,a1n)的均第 4 期温鲜,霍海峰:基于半马氏的无限阶段指数效用最优模型585匀分布.系统随后以概率

29、 p(y|1,a1n)(n=1,2)转移到状态 y 0,2.此时,决策者将会选择新的行动 ayn,n=1,2.如果系统状态 y=2,系统将会停留一段时间再进行状态转移,其中停留时间服从参数为(2,a2n)(n=1,2)的指数分布.如果系统状态 y=0,系统将会永远停留在此状态.相应地半马氏决策模型的参数如下:状态空间 S=0,1,2,可允许的行动集 A(0)=a01,A(1)=a11,a12,A(2)=a21,a22,风险厌恶系数 =1.转移概率为p(0|0,a01)=1,p(0|1,a11)=0.4,p(2|1,a11)=0.6,p(0|1,a12)=0.3,p(2|1,a12)=0.7,p

30、(0|2,a21)=0.5,(6)p(1|2,a21)=0.5,p(0|2,a22)=0.3,p(1|2,a22)=0.7.此外,给定相应的分布参数如下:u(1,a11)=35,u(1,a12)=40,(2,a21)=0.13,(2,a22)=0.15,(7)报酬率如下:r(1,a11)=0.004,r(1,a12)=0.012,r(2,a21)=0.014,r(2,a22)=0.015.首先,由式(6)和式(7)可知,条件 2 显然成立.另一方面,既然状态空间和行动空间有限,条件 5 也成立.由式(6)和式(7)可知:状态 0 为吸收态,且 V(0)=1.依据定理 11,值函数和指数效用最优

31、策略的计算如下:步骤 1:令 V1(x):=1,x 1,2.步骤 2:对于 x 1,2,n 1,由定理 11(a)可得:Vn(1)=MVn1(1)=max0.6 135350e0.004udu+0.4 135350e0.004udu Vn1(2),0.3 140400e0.012udu+0.7 140400e0.012udu Vn1(2),Vn(2)=MVn1(2)=max0.50.13+0e0.144udu+0.50.13+0e0.144uduVn1(1),0.3 0.15+0e0.165udu+0.7 0.15+0e0.165udu Vn1(1).步骤 3:当|Vn Vn1|1012时,进

32、入步骤 4,将 Vn看作 V的近似值.否则,用 n+1替换 n,进入步骤 2.586应用概率统计第 39 卷步骤 4:绘制值 Max,mVn(x)以及值函数 Vn(x)(x 1,2;m=1,2)随步数 n 的变化,见图 1、图 2 以及图 3.051015202530MaVn*(1)0.650.70.750.80.850.90.951Ma11Vn*(1)Ma12Vn*(1)图 1值 MaVn(1)051015202530MaVn*(2)0.80.820.840.860.880.90.920.940.960.981Ma21Vn*(2)Ma22Vn*(2)图 2值 MaVn(2)由定理 11、图

33、1 以及图 2 可知:MV(1)=V(1)=Ma11V(1),MV(2)=V(2)=Ma22V(2).因此,当系统状态 x=1 时,选择行动 f(1)=a12优于行动 f(1)=a11,且值函数为V(1)=0.8377.当系统状态为 x=2 时,选择行动 f(2)=a21优于行动 f(2)=a22,且值函数为 V(2)=0.8295.第 4 期温鲜,霍海峰:基于半马氏的无限阶段指数效用最优模型587051015202530Vn*(x)0.820.840.860.880.90.920.940.960.981Vn*(1)Vn*(2)图 3值函数 Vn(x)参考文献1 BAUERLE N,RIEDE

34、R U.Markov Decision Processes with Applications to FinanceM.Berlin:Springer,2011.2 JANSSEN J,MANCA R.Semi-Markov Risk Models for Finance,Insurance and ReliabilityM.NewYork:Springer,2007.3 HERNANDEZ-LERMA O,LASSERRE J B.Discrete-Time Markov Control Processes:Basic Opti-mality CriteriaM.New York:Sprin

35、ger,1996.4 PUTERMAN M L.Markov Decision Processes:Discrete Stochastic Dynamic ProgrammingM.NewYork:Wiley,1994.5 HUANG Y H,GUO X P.Finite horizon semi-Markov decision processes with application to mainte-nance systemsJ.European J Oper Res,2011,212(1):131140.6 CAO X R.Semi-Markov decision problems and

36、 performance sensitivity analysisJ.IEEE TransAutomat Control,2003,48(5):758769.7 GUO X P,HERNANDEZ-LERMA O.Continuous-Time Markov Decision Processes:Theory andApplicationsM.Berlin:Springer,2009.8 LUQUE-VASQUEZ F,MINJAREZ-SOSA J A.Semi-Markov control processes with unknown holdingtimes distribution u

37、nder a discounted criterionJ.Math Methods Oper Res,2005,61(3):455468.9 JASKIEWICZ A.On the equivalence of two expected average cost criteria for semi-Markov controlprocessesJ.Math Oper Res,2004,29(2):326338.10 YUSHKEVICH A A.On semi-Markov controlled models with an average reward criterionJ.TheoryPr

38、obab Appl,1982,26(4):796803.11 HOWARD R A,MATHESON J E.Risk-sensitive Markov decision processesJ.Management Sci,1972,18(7):356369.12 CHUNG K J,SOBEL M J.Discounted MDPs:distribution functions and exponential utility maxi-mizationJ.SIAM J Control Optim,1987,25(1):4962.588应用概率统计第 39 卷13 JASKIEWICZ A.A

39、 note on negative dynamic programming for risk-sensitive controlJ.Oper ResLett,2008,36(5):531534.14 GUO X P,ZHANG J Y.Risk-sensitive continuous-time Markov decision processes with unboundedrates and Borel spacesJ.Discrete Event Dyn Syst,2019,29(4):445471.15 GUO X P,Liao Z W.Risk-sensitive discounted

40、 continuous-time Markov decision processes withunbounded ratesJ.SIAM J Control Optim,2019,57(6):38573883.16 ZHANG Y.Continuous-time Markov decision processes with exponential utilityJ.SIAM J ControlOptim,2017,55(4):26362660.17 CHAVEZ-RODRIGUEZ S,CAVAZOS-CADENA R,CRUZ-SUAREZ H.Controlled semi-Markovc

41、hains with risk-sensitive average cost criterionJ.J Optim Theory Appl,2016,170(2):670686.18 HUANG Y H,LIAN Z T,GUO X P.Risk-sensitive semi-Markov decision processes with generalutilities and multiple criteriaJ.Adv Appl Probab,2018,50(3):783804.The Exponential Utility Optimality for Infinite HorizonS

42、emi-Markov Decision ProcessesWEN XianHUO Haifeng(School of Science,Guangxi University of Science and Technology,Liuzhou,545006,China)Abstract:This paper concerns the exponential utility maximization problem for semi-Markov decisionprocess with Borel state and action spaces,and nonnegative rewards.Th

43、e optimal criterion is maximizethe expectation of exponential utility of the total rewards in infinite horizon.Under the regular andcompactness-continuity conditions,we establish the corresponding optimality equation,and prove the ex-istence of an exponential utility optimal stationary policy by an

44、invariant embedding technique.Moreover,we provide an iterative algorithm for calculating the value function as well as the optimal policies.Finally,we illustrate the computational aspects of an optimal policy with an example.Keywords:semi-Markov decision processes;exponential utility;value iteration algorithm;optimalityequation;optimal policy2020 Mathematics Subject Classification:90C40,60J20

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服