考虑行为克隆的深度强化学习股票交易策略.pdf-资源下载-咨信网让知识获取变得高效

考虑行为克隆的深度强化学习股票交易策略.pdf

1、第3 3卷第1期 2 0 2 4年1月系统管理学报J o u r n a l o f S y s t e m s&M a n a g e m e n tV o l.3 3 N o.1J a n.2 0 2 4 文章编号:1 0 0 5-2 5 4 2(2 0 2 4)0 1-0 1 5 0-1 2收稿日期:2 0 2 2-1 1-2 8 修订日期:2 0 2 3-0 6-2 3 基金项目:国家自然科学基金资助项目(7 2 3 7 1 0 8 0);广东省基础与应用基础研究基金资助项目(2 0 2 3 A 1 5 1 5 0 1 2 8 4 0);广东省哲学社会科学规划项目(G D

2、 2 3 X G L 0 2 2)作者简介:杨兴雨(1 9 8 1-),男,教授,硕士生导师。研究方向为金融工程与在线金融决策。通信作者:张永(1 9 8 1-),女,教授,博士生导师。E-m a i l:z h a n g y g d u t.e d u.c n 考虑行为克隆的深度强化学习股票交易策略杨兴雨,陈亮威,郑萧腾,张永(广东工业大学管理学院,广州 5 1 0 5 2 0)【摘要】为提高股票投资的收益并降低风险,将模仿学习中的行为克隆思想引入深度强化学习框架中设计股票交易策略。在策略设计过程中,将对决D Q N深度强化学习算法和行为克隆进行结合,使智能体在自主探索的同时模仿事

3、先构造的投资专家的决策。选择不同行业的股票进行数值实验,说明了所设计的交易策略在年化收益率、夏普比率和卡玛比率等收益与风险指标上优于对比策略。研究结果表明:将模仿学习与深度强化学习相结合可以使智能体同时具有探索和模仿能力,从而提高模型的泛化能力和策略的适用性。关键词:股票交易策略;深度强化学习;模仿学习;行为克隆;对决深度Q学习网络中图分类号:F 8 3 0 文献标志码:A D O I:1 0.3 9 6 9/j.i s s n 1 0 0 5-2 5 4 2.2 0 2 4.0 1.0 1 1 S t o c k T r a d i n g S t r a t e g y v i a D e

4、 e p R e i n f o r c e m e n t L e a r n i n g w i t h B e h a v i o r C l o n i n g Y ANG X i n g y u,CHEN L i a n g w e i,ZHENG X i a o t e n g,ZHANG Y o n g(S c h o o l o f M a n a g e m e n t,G u a n g d o n g U n i v e r s i t y o f T e c h n o l o g y,G u a n g z h o u 5 1 0 5 2 0,C h i n a)【A

5、 b s t r a c t】I n o r d e r t o i m p r o v e t h e r e t u r n o f s t o c k i n v e s t m e n t a n d r e d u c e t h e r i s k,t h i s p a p e r i n t r o d u c e s t h e i d e a o f b e h a v i o r c l o n i n g i n i m i t a t i o n l e a r n i n g i n t o t h e d e e p r e i n f o r c e m e n

6、 t l e a r n i n g f r a m e w o r k t o d e s i g n a s t o c k t r a d i n g s t r a t e g y.I n t h e p r o c e s s o f s t r a t e g y d e s i g n,t h e d u e l i n g d e e p Q-l e a r n i n g(D QN)a l g o r i t h m a n d b e h a v i o r c l o n i n g a r e c o m b i n e d,w h i c h e n a b l e

7、s t h e a g e n t t o i m i t a t e t h e d e c i s i o n o f p r e-c o n s t r u c t e d i n v e s t m e n t e x p e r t w h i l e e x p l o r i n g a u t o n o m o u s l y.A n u m e r i c a l e x p e r i m e n t i s c o n d u c t e d o n s e l e c t e d s t o c k s f r o m d i f f e r e n t i n d

8、u s t r i e s,w h i c h i l l u s t r a t e s t h a t t h e d e s i g n e d t r a d i n g s t r a t e g y i s s u p e r i o r t o t h e c o m p a r i s o n s t r a t e g i e s i n t e r m s o f t h e r e t u r n a n d r i s k m e t r i c s s u c h a s t h e a n n u a l i z e d p e r c e n t a g e y

9、i e l d(A P Y),S h a r p e r a t i o(S R),a n d C a l m a r r a t i o(C R).T h e r e s e a r c h r e s u l t s h o w s t h a t c o m b i n i n g i m i t a t i o n l e a r n i n g a n d d e e p r e i n f o r c e m e n t l e a r n i n g e n a b l e s t h e a g e n t t o s i m u l t a n e o u s l y h a

10、 v e t h e a b i l i t i e s o f e x p l o r a t i o n a n d i m i t a t i o n,a n d t h u s i m p r o v e s t h e g e n e r a l i z a t i o n a b i l i t y o f t h e m o d e l a n d t h e a p p l i c a b i l i t y o f t h e s t r a t e g y.K e y w o r d s:s t o c k t r a d i n g s t r a t e g y;d e

11、 e p r e i n f o r c e m e n t l e a r n i n g;i m i t a t i o n l e a r n i n g;b e h a v i o r c l o n i n g;d u e l i n g d e e p Q-l e a r n i n g n e t w o r k(D QN)如何设计股票交易策略是金融领域中被广泛关注的重要问题。传统的交易策略利用股票的历史价格数据进行技术分析,寻找合适的投资机会,例如双推力策略1。然而,这类交易策略有一定的局限性。一方面,面对复杂的金融市场,策略的泛化能力较弱,不能很好地适应未来的价格变化;另一方

12、面,策略依赖人类专家对市场规律的准确分析与把握,而人类专家可处理的信息量有限且存在认知偏差。近年来,随着人工智能的迅速发展,深度强化学习越来越多地被用于设计股票交易策略。强化学习与人类学习类似,通过与环境的不断交互试错来积第1期杨兴雨,等:考虑行为克隆的深度强化学习股票交易策略1 5 1 累经验,从而实现对环境的感知,并做出与环境相适应的决策2,可应用于研究资产定价3等问题。深度学习通过多层网络和非线性变换对输入的信息进行特征提取,实现高维特征的表达,被广泛应用于研究资产定价4、股价预测5与信用风险管理6等问题。深度强化学习将两者结合,通过不断地感知环境,实现从状态空间到动作空间的映射转换,使

13、决策者同时具有深度感知能力和决策能力,并实现自适应的优化控制7。目前,深度强化学习广泛应用于金融投资决策8、商品定价9、游戏博弈1 0等领域,展现了其在解决序列决策问题方面的优势。利用深度强化学习,可以直接从大量金融数据中学习得到股票交易策略,即根据决策时的价格等信息,对股票头寸进行适应性调整。与传统的交易策略相比,基于深度强化学习的股票交易策略具有较强的泛化能力。该策略设计方法可以方便地调整网络层数与数据类型,具有良好的扩展性。对于利用深度强化学习设计的股票交易策略,智能体通过不断地探索金融市场环境,利用市场反馈的收益奖励,适应性地调整股票头寸。然而,在探索过程中智能体缺少探索方向的指引,学

14、习效率低,需要大量的探索才可能得到有效的股票交易策略。因此,本文借鉴模仿学习的思想,使智能体在保持自主探索能力的同时,将专家的投资决策作为探索的指引,即模仿专家的行为,从而提高智能体的决策质量与学习效率,使交易策略具有良好的盈利能力和抗风险能力。基于上述分析,本文研究考虑行为克隆的深度强化学习股票交易策略。首先,选取股票的价格数据与技术因子作为强化学习中环境的状态,用于模拟股票市场环境;其次,通过设计专家策略为智能体提供每个状态的投资建议;再次,令智能体不断探索股票市场环境,使用对决D QN(D u e l i n g D e e p Q-l e a r n i n g N e t w o r

15、 k,D D QN)算法优化智能体的决策,利用行为克隆的方法,使智能体在环境中探索的同时模仿专家的决策,从而构造出考虑行为克隆的对决D QN股票交易策略;最后,对交易策略进行数值分析,并检验策略的性能。本文的主要贡献如下:(1)将模仿学习中的行为克隆引入深度强化学习,让智能体在探索的同时克隆专家的决策,提高智能体的决策水平。(2)结合深度强化学习与模仿学习,设计同时具有探索能力和模仿能力的股票交易策略,使交易策略具有良好的盈利与抗风险能力。(3)利用多只股票对所设计的策略进行测试,实验结果表明,所设计的策略可以适应金融市场的变化,具有良好的泛化能力。1 文献综述利用深度强化学习算法设计股票交

16、易策略已成为量化投资领域的新趋势,受到众多学者的广泛关注,取得了丰富的研究成果。许多学者提出了以Q学习算法为框架的交易策略。C h a k o l e等1 1利用K-M e a n s聚类算法对股票状态进行离散化,并确定每个状态类别离散的交易动作集合,借助Q学习算法设计了一个单只股票交易策略。由于深度学习的发展,可以利用神经网络实现非离散的股票状态到投资动作的映射,使强化学习也适用于状态连续的决策问题。L i等1 2利用深度Q学习(D e e p Q-l e a r n i n g N e t w o r k,D QN)算法分别在股票上实现了交易策略,通过数值实验验证了将深度强化学习用于设计股

17、票交易策略的优势。许杰等1 3利用长短期记忆网络(L S TM)和卷积神经网络(C NN),提出了一个可在复杂的金融市场中实现自动交易的D QN股票交易算法。考虑到股票数据的噪声与非线性往往是影响交易策略性能的重要因素,Wu等1 4利用门控循环单元(G RU)提取股票在时间维度上的特征,结合D QN算法构造了G D QN模型,实现了单只股票的自适应交易。L u c a r e l l i等1 5设计了一个由单个全局智能体和多个局部智能体构成的深度Q学习投资组合管理框架,其中,每个局部智能体负责单个资产的交易,全局智能体管理每个局部智能体的奖励,且在加密货币市场对所设计策略进行了测试。L e e

18、等1 6基于多智能体D QN强化学习框架设计了一个分散化的投资组合策略。为了在动态的金融市场中实现稳定的决策,J e o n g等1 7利用深度神经网络提取股票价格数据的时序特征和挖掘交易信号,并结合D QN算法设计了具有良好鲁棒性的深度强化学习交易策略。在基于深度强化学习设计交易策略的过程中,上述研究只关注股票自身的信息,而在现实的投资决策过程中,往往还需要参考专家的决策建议。因此,本文考虑将模仿学习引入深度强化学习股票交易策略,使智能体在学习过程中模仿专家的决策,从而提高智能体的学习效率与决策质量。模仿学习使智能体通过模仿专家的决策过程学习策略。类似于强化学习,模仿学习也适用于决策问题,其

19、广泛应用于机器人控制1 8、自动驾驶1 9、游戏2 0等领域,例1 5 2 系统管理学报第3 3卷如A l p h a G o即通过克隆人类围棋选手的行为进行决策。然而,将模仿学习应用于金融领域的研究较少。L i u等2 1通过模仿学习使智能体在学习中尽可能地参考专家的投资决策,设计了一个高频的期货交易算法。随着深度强化学习算法的不断发展,不少更稳定的D QN改进算法被提出,例如对决D QN2 2。为了进一步丰富深度强化学习应用于股票交易的研究,本文将对决D QN作为基础模型,设计股票交易策略。同时,结合模仿学习的行为克隆方法,通过引入专家的决策信息,让智能体在探索环境的同时克隆专家

20、的决策,使其同时具有自主探索能力和模仿能力。将模仿学习引入强化学习,一方面可以利用专家信息作为智能体探索环境的指引,提高探索环境的效率与决策质量;另一方面保持智能体的自主探索能力,避免只依赖于行为克隆方法导致策略泛化能力弱的问题。2 相关概念与原理2.1 对决D Q N算法强化学习是通过与环境的不断交互试错,根据环境反馈的奖励,不断优化策略。智能体观测到环境的状态st,并根据策略做出动作at,然后从环境中得到奖励rt,同时观测到环境的下一个状态st+1。框架如图1所示。图1 强化学习框架F i g.1 T h e f r a m e w o r k o f t

21、h e r e i n f o r c e m e n t l e a r n i n g智能体在状态st下执行动作at,从环境中获得的折扣奖励记为ut,其期望称为动作价值函数或Q函数,记为Q(st,at),即Q(st,at)=EEutst,at=EErt+rt+1+T-trTst,at(1)式中,为折扣率,且(0,1)。动作价值函数可用于判断动作at的好坏。Q学习的目的是学习最优动作价值函数,使智能体做出最优决策,其更新公式为 Q(st,at)Q(st,at)+yi-Q(st,at)(2)式中:yt=rt+m a xaA(st+1)Q(st+1,a)为目标Q值;为学习率。Q学习记录每个离散状

22、态与动作及其对应的Q值,构成一张Q表。当智能体决策时,将在Q表中选取最大Q值对应的动作,即at=a r g m a xaA(st)Q(st,a)2 0 1 5年,M n i h等7基于深度神经网络和Q学习算法,使用Q网络代替Q表,实现连续状态到离散动作的映射,即at=a r g m a xaA(st)Q(st,a;Q)(其中Q为Q网络的参数),提出了D QN算法。同时,为充分利用智能体的探索经验,D QN引入经验回放机制2 3。在智能体每次与环境交互之后,将经验四元组(st,at,rt,st+1)存放在经验回放池P中。在训练过程中,D QN每次从P中随机抽取N个四元组,并将当前Q值与目标Q值之

23、间的均方误差作为损失函数,即L o s s(Q)=12NNi=1(qi-yi)2(3)式中:qi=Q(si,ai;Q)为当前Q值;yi=ri+m a xaA(s i)Q(s i,a;Q)为目标Q值;Q 为目标Q网络的参数。D QN使用目标Q网络计算目标Q值,且该网络每C步复制一次Q网络参数。最后,根据损失值L o s s(Q)对网络参数Q求梯度,并利用梯度下降法优化网络参数。然而,D QN算法存在高估Q值的问题2 4,对决D QN算法是解决这一问题的方法之一。该算法通过改进D QN中Q网络的结构,更准确地估计Q值。对于某个状态,动作价值与状态价值之差称为动作优势值,对决D QN设计了状态价值网

24、络和动作优势网络,分别计算智能体的状态价值V(s)以及各动作的优势值D(s,a),从而得到Q(s,a)。对决D QN还包括一个共享网络,其网络结构如图2所示。图2 对决D QN框架F i g.2 T h e f r a m e w o r k o f t h e d u e l i n g D QN2.2 行为克隆模仿学习是一种针对专家决策进行模仿的方法,其中最直接的模仿学习方法是行为克隆(B e h a v i o r C l o n i n g,B C),即对专家的决策行为进行第1期杨兴雨,等:考虑行为克隆的深度强化学习股票交易

25、策略1 5 3 克隆2 6。它以专家的决策动作为标签,使智能体在克隆专家决策的过程中得到一个接近专家决策水平的策略。行为克隆的决策流程如下:(1)构建一个专家训练集D,由M个“(状态,动作)”二元组组成,即D=(s1,ae1),(s2,ae2),(sM,aeM)(4)式中,aei为专家在第i个状态下的决策。(2)在监督学习的范式下,将智能体在N个状态下的决策与专家决策的差距,定义为行为克隆的损失,即L o s s()=12NNi=1(ai-aei)2(5)式中:为智能体策略网络参数;ai和aei分别为智能体的决策动作与专家动作。(3)计算损失值L o s s(),并利用梯度下降法优化策略网络参

26、数,从而使智能体具有接近专家决策水平的能力。3 考虑行为克隆的对决D Q N股票交易策略在强化学习中,智能体不断地在环境中进行探索,并根据环境反馈的奖励,优化自身的策略。然而,智能体通过探索的方式学习策略,存在学习效率低、策略收敛速度慢的问题2 7。若智能体在学习过程中将有关决策的先验知识作为指引,则有望提高其探索与学习的效率。因此,本文考虑利用机器学习中模仿学习的思想,赋予智能体模仿专家决策的能力,提高智能体的决策水平。具体地,本节结合对决D QN与行为克隆,设计一个克隆专家决策的深度强化学习股票交易策略。3.1 专家策略的构造理想的专家行为应与市场行情一致,即专家在每期决策时已知当期股

27、票价格的涨跌,并进行相应的买入或卖出操作。由于专家在每期期初调整资产头寸时已知当期股票价格的涨跌,故专家只持有现金或股票。专家决策规则如下:(1)若当期股票的收盘价高于开盘价,则专家买入股票。具体地,若专家当前持有现金,则全部买入股票;若专家当前持有股票,则继续持有。记对应的交易动作为1。(2)若当期股票的收盘价低于开盘价,则专家卖出股票。具体地,若专家当前持有股票,则卖出全部股票,转为持有现金;若专家当前持有现金,则继续持有。记对应的交易动作为-1。(3)若当期股票行情持平,即收盘价等于开盘价,则专家不进行任何交易操作,记对应的交易动作为0。综上可知,第t期的专家动作可表示为aet=1,pc

28、tpot0,pct=pot-1,其他 (6)式中,pot和pct分别为股票在第t期的开盘价和收盘价。通过上述方法构建专家训练集D。投资者难以预知未来股票的涨跌,而且该类型的专家策略只有在事后才能确定,因此,这类专家策略不能用于现实的股票交易。本文将该类型专家引入股票交易策略的训练过程中,为智能体提供一个模仿对象,使智能体进行自主探索的同时根据专家的决策进行模仿学习。3.2 股票策略的设计为实现基于深度强化学习框架的股票交易策略,下面首先介绍环境的状态、智能体的交易规则与动作以及环境中的奖励函数,然后利用深度强化学习对决D QN算法和行为克隆方法设计完整的股票交易策略。3.2.1 环境的状态

29、状态是对环境的一种描述,代表智能体从环境中所能获取的信息。利用股票价格数据与技术因子等指标模拟真实的金融环境,包括每日股票的开盘价(O p e n)、最高价(H i g h)、最低价(L o w)、收盘价(C l o s e)、相对强弱指数(R S I)、变动率指标(R O C)、顺势指标(C C I)、收盘价平滑异同移动平均线(MA C D)、指数平均数指标(E MA)和成交量平滑异同移动平均线(VMA C D)1 0个指标。智能体每次从环境中观察到的状态是股票在过去一个历史时间窗口内(本文的历史时间窗口大小是1 5个交易日)的各指标数据。状态s的样例如表1所示。3.2.2 智能体动作与奖励

30、函数在投资过程中,投资者只持有股票或现金,不会同时持有两者,在每期期初对资产头寸进行调整,因此,投资者的决策包含将持有的资金全部买入股票、将持有的股票全部卖出和不进行任何交易3种,分别记为1、-1与0。智能体的动作记为at,代表投资者的投资决策,其取值范围为1,-1,0,与专家动作一致。值得注意的是,相比于专家策略,智能体并不知道当期股票的涨跌,只能基于过去历史时间窗口内的数据进行投资决策。在强化学习中,通常选取Q值最大的动作作为1 5 4 系统管理学报第3 3卷表1 环境的状态s的样例T a b.1 T h e e x a m p l e o f t h e e n v i r

31、 o n m e n t s t a t e sC o d eD a t eO p e nC l o s eMA C DEMAVMA C D0 0 0 0 0 1.S Z2 0 1 1-0 3-0 15.7 6 85.8 0 10.0 0 85.6 7 88 6 0 3 5 1 0.4 5 10 0 0 0 0 1.S Z2 0 1 1-0 3-0 25.7 6 05.8 5 20.0 1 95.6 8 91 1 6 0 1 5 1 9.3 9 00 0 0 0 0 1.S Z2 0 1 1-0 3-0 35.8 5 95.9 3 10.0 3 55.7 0 42 4 6 7 7 8 5 6.

32、3 3 00 0 0 0 0 1.S Z2 0 1 1-0 3-0 45.9 4 96.0 3 20.0 5 45.7 2 62 4 1 6 3 2 5 9.6 6 00 0 0 0 0 1.S Z2 0 1 1-0 3-1 95.6 9 65.7 2 50.0 1 15.7 7 7-9 2 9 8 1 5 7.7 5 6智能体的动作,即a r g m a xaA(st)Q(st,a;Q)。然而,对于本文研究的股票交易问题,Q值最大的动作不一定能够被执行。具体地,若当前不持有现金,则买入动作不能被执行;若当前不持有股票,则卖出动作不能被执行。因此,下面分3种情形讨论智能体的动作。为方便叙述,记

33、第t期末股票的持有数量为mt,第t期末的现金数额为bt,交易费用率为c。情形1 a r g m a xaA(st)Q(st,a;Q)=1。若当前持有现金,即:bt0,mt=0,则智能体使用所有现金买入股票,买入数量为(1-c)bt/pct,故第t+1期末持有股票的数量为mt+1=(1-c)bt/pct,现金数额为bt+1=0;若当前持有股票,即:mt0,bt=0,则智能体继续持有股票,不进行任何交易,即at=0,故第t+1期末持有的股票数量为mt+1=mt,现金数额为bt+1=0。情形2 a r g m a xaA(st)Q(st,a;Q)=-1。若当前持有现金,即:bt0,mt=0,则智能体

34、继续持有现金,故第t+1期末持有的股票数量为mt+1=0,现金数额为bt+1=bt;若当前持有股票,即:mt0,bt=0,则智能体卖出全部股票,转为持有现金,所得现金数额为(1-c)pctmt,故第t+1期末持有的股票数量为mt+1=0,现金数额为bt+1=(1-c)pctmt。情形3 a r g m a xaA(st)Q(st,a;Q)=0。此时,智能体不进行任何交易,即at=0,故第t+1期末持有的股票数量为mt+1=mt,现金数额为bt+1=bt。综上可知,第t+1期末持有股票的数量与现金数额分别为:mt+1=m a xmt,(1-c)bt/pct,at=1mt,at=00,at=-1

35、(7)bt+1=0,at=1bt,at=0m a xbt,(1-c)pctmt,at=-1 (8)将第t+1期对数收益率作为环境对智能体的奖励,即rt+1=l nbt+1+pct+1mt+1bt+pctmt(9)3.2.3 股票交易策略股票投资是一个序列决策问题,可利用深度强化学习方法实现交易决策。相比于D QN算法,对决D QN算法能更准确地估计各投资动作带来的未来期望收益。因此,本文基于对决D QN算法设计股票交易策略。令智能体在金融环境中探索。具体地,在第t期智能体观察状态st,通过贪心策略选择投资动作at,从环境中获得相应的即期奖励rt,随后环境返回下一个状态st+1,得到一个经验四

36、元组(st,at,rt,st+1)。为了打破经验间相关性和重复利用经验,采用经验回放技巧,将智能体每次探索得到的经验放入经验回放池。当经验数量大于阈值L时,开始对Q网络进行训练。随机抽取经验回放池的N条经验(si,ai,ri,s i),计算这批经验四元组的实际Q值qi与目标Q值yi间的均方误差,即12NNi=1(qi-yi)2。对决D QN通过不断地与环境交互以优化策略,这种基于探索的学习方式存在效率不高、策略收敛速度慢的问题。为此,本文将对决D QN与行为克隆方法相结合,将专家的决策作为智能体模仿的对象,通过模仿专家来提高智能体的学习效率与决策质量。令智能体对被

37、抽取的历史状态si再次决策,对应的动作为a i,并与专家动作aei进行对比,然后计算智能体的模仿损失,即12NNi=1(a i-aei)2。此处不应采用状态si下的历史动作ai与专家动作aei对比,是因为过去的决策不能及时反映智能体模仿的效果。为使智能体同时具备探索环境和克隆专家决策的能力,本文将智能体的强化学习损失和模仿损失进行加权求和,作为智能体的最终损失。考虑到智能体的强化学习损失与模仿损失存在量纲不一致的问题,若直接联结智能体强化学习损失和模仿损失,则调节效果不明显。因此,本文利用第1期杨兴雨,等:考虑行为克隆的深度强化学习股票交易策略1 5 5 两个损失的极差解决该问题。具体地,智能

38、体强化学习损失和模仿学习损失的极差的定义为:Ra=m a x1iN(qi-yi)-m i n1iN(qi-yi)(1 0)Rb=m a x1iN(a i-aei)-m i n1iN(a i-aei)(1 1)利用极差分别对这两部分的损失进行归一化,再利用参数1、2加权处理后的损失,最终构造模型的损失函数。具体定义为L o s s()=112NR2aNi=1(qi-yi)2+212NR2bNi=1(a i-aei)2(1 2)式中:为Q网络的参数;1和2分别为探索损失与模仿损失的权重,用于调节智能体探索能力和模仿专家的程度,1+2=1,10,1。当1=0,2=1时,智能体仅具有克隆专家决策的能力

39、。随着1的不断增大和2的不断减小,智能体的探索能力逐渐增强,模仿能力逐渐减弱。当1=1,2=0时,智能体仅具有自主探索的能力。利用梯度下降法对Q网络参数进行更新,更新公式为-L o s s()(1 3)式中,为学习率。综上所述,本文设计了考虑行为克隆的对决D QN股票交易策略,称为B C D D QN(B e h a v i o r C l o n i n g D u e l i n g D e e p Q-l e a r n i n g N e t w o r k)。该策略的整体算法框架如图3所示。图3 股票交易策略B C D D QN的算法框架F i g.3 T h e a l

40、 g o r i t h m f r a m e w o r k o f t h e s t o c k t r a d i n g s t r a t e g y B C D D QN伪代码如算法1所示:算法1 深度强化学习股票交易策略B C D D QN的算法输入专家训练集D=(s1,ae1),(s2,ae2),(sM,aeM),目标Q网络更新步长C,每次抽取经验数量N,学习率,经验回放池中经验数量阈值L,参数1和2输出 Q网络参数1.初始化Q网络参数,目标Q网络参数,经验回放池P;2.在e p i s o d e=1,2,E内,进行如下循环计算:3.初始化环境,返回初始状态s1;4.在

41、t=1,2,T内,进行如下循环计算:5.根据当前Q网络Q(st,a;),a A(st),以贪心策略选择动作at;6.智能体执行动作at,并获得奖励rt,环境返回状态st+1;7.将四元组(st,at,rt,st+1)存入经验回放池P;8.若经验回放池P的经验数量大于L:9.随机从经验回放池P中取出N个四元组(si,ai,ri,s i);1 0.计算模型的损失:L o s s()=112NR2aNi=1(qi-yi)2+212NR2bNi=1(a i-aei)2;1 1.利用梯度下降法更新Q网络参数:-L o s s();1 2.每隔C步,更新目标Q网络参数=;1 3.重复步骤51 2,直至循环

42、结束;1 4.重复步骤31 3,直至循环结束。4 实验设计与结果分析为检验上节所设计的B C D D QN策略的性能,将在多只股票上对其进行训练与测试,同时与多个基准策略进行对比,并分析相关的实验结果。4.1 实验数据从银行、房地产、制造业与高新科技行业选取4只股票作为测试对象,分别是中国A股市场的平安银行、万科A、格力电器和紫光股份。为了更充分地说明策略的性能,额外选取银行业指数、家电行业指数与沪深 3 0 0 指数作为测试对象。描述环境状态的资产数据从东方财富网中获得,时间段是 2 0 1 1 年 3 月 1 日至 2 0 2 3 年 3月 1 日。其中,将2 0 1 1-0 3-0

43、12 0 2 0-0 2-0 7的交易数据作为训练集,将 2 0 2 0-0 2-1 02 0 2 3-0 3-0 1的交易数据作为测试集。由于策略在决策时需要使用过去 1 5 个交易日的数据,故测试数据中初始决策日实际为 2 0 2 0 年 3 月1 日。对于数据残缺值,采取过去历史时间窗口内的平均值进行代替。4.2 网络结构与参数在实验中,选取3个全连接神经网络作为B C D D QN策略的共享网络、状态价值网络与动作优势值网络。选取股票的1 0个指标在过去1 5个交易日的每日数据作为状态s,将其转换为一个1 5 0维的向量作为Q网络的输入,亦即共享网络的输入。

44、1 5 6 系统管理学报第3 3卷设置共享网络输出层的节点数为5 0,即状态价值网络与动作优势值网络输入层的节点数为5 0。后两者的输出层节点数分别为3和1。Q网络最终输出一个维度为3的向量,各分量分别为买入、持有和卖出3个动作的价值。设置智能体与环境交互的回合E=1 0 0,学习率=0.0 0 1,经验回放池中经验数量阈值L=1 5 0 0,每次抽取经验四元组的个数N=5 1 2,探索损失权重1与模仿损失权重2均为0.5。在训练过程中,Q网络参数每更新1 0次,目标Q网络参数更新一次。另外,除了交易成本灵敏度分析,取交易费用率为0.3%。4.3 对比策略本文将与买入并持有策略、基

45、于D QN的交易算法、基于对决D QN的交易算法、基于行为克隆的交易算法以及A股市场指数在测试集内的表现进行对比。各对比策略介绍如下:(1)买入并持有策略(B&H)。该策略在第1期使用全部现金买入股票,此后不进行任何买卖操作,其最终累计收益完全由市场决定。因此,通过观察B&H策略的走势,可以判断该股票在各阶段内是否发生了较大的价格变化。(2)基于D QN的交易策略。该算法适用于解决状态连续的序列决策问题,其决策动作是离散的。D QN算法可用于实现股票交易,在每一期选择对股票进行买入、持有或卖出的决策。(3)基于对决D QN的交易策略。与D QN算法类似,该算法同样适合于解决连续状态的序列决策问

46、题,其决策动作是离散的。相对于D QN算法,对决D QN对动作价值的估计更准确。(4)基于行为克隆的交易策略。该策略仅利用行为克隆的模仿学习方法。该算法中的智能体不与环境进行交互,而是在监督学习的范式下,以专家决策为标签,通过克隆专家的决策学习股票交易策略。(5)市场策略。利用A股指数在测试时间段内的表现与B C D D QN进行对比,从而判断B C D D QN盈利表现是否能够高于市场整体水平。在各策略训练完成后,将它们分别在不同股票上进行测试,记录每期的累计收益率,并选取年化收益率、夏普比率与卡玛比率作为评价策略性能的指标,计算公式分别为:A P Y=ySn-1(1 4)S R=(A P

47、Y-rf)/(1 5)C R=A P YMD D(1 6)式中:y为投资年限;n为投资期数;Sn为累计至n期的收益率;最大回撤MD D=m a x0tn(S-St)/Srf为无风险年化收益率;为日收益率的年化标准差。本文取rf=0.0 3。4.4 实验结果与分析本节对比各策略在累计收益率、夏普比率和卡玛比率等指标上的表现,以此分析损失函数中权重1、2和交易成本对本文策略B C D D QN的影响,并对B C D D QN策略进行超额收益检验。4.4.1 策略的收益表现为检验本文策略的盈利能力,分别使用上述所选标的资产对其进行测试,计算策略在各标的资产上的逐日累计收益率,并与其他策略进行对

48、比,如图4所示。由图4可以发现:对比基于行为克隆的交易算法,B C D D QN策略的逐日累计收益率更高。基于行为克隆的交易算法缺少自主探索能力,其每期的投资动作只是针对当期情况做出,而强化学习方法会考虑对未来期望收益的影响。通过观察B C D D QN策略在7只标的资产上的表现,可以发现:当市场上涨时,智能体往往能够持有股票赚取收益;反之,当市场下跌时,智能体往往能够卖出股票减少损失。这体现了B C D D QN策略具有充分应对股票价格变化的能力和较好的泛化能力。D QN与D D QN交易算法缺少模仿专家投资决策的能力,仅通过自主探索能力所学策略不能很好地适应未来复杂

49、且变化的金融市场,导致策略的收益表现不足。对比D QN和D D QN只有自主探索能力的交易算法,B C D D QN策略的逐日累计收益率也是最高的。B C D D QN策略通过行为克隆的方法模仿专家决策,充分利用专家的投资建议,从而智能体在各状态下能更准确地执行投资动作。因此,同时结合强化学习和模仿学习的股票交易策略有更好的收益表现,其逐日累计收益率明显高于其他对比策略。4.4.2 策略风险调整的收益表现衡量股票交易策略的性能既要考虑收益也要考虑风险,因此关注策略风险调整的收益表现。测试各策略并计算夏普比率和卡玛比率,结果如表2、3所示。由表2、3可知,B C D D QN策略的风险调整后的

50、收益均优于其他策略。基于行为克隆的策略仅模仿专家的决策,在学习过程中缺少收益等信息的指示,即智能体不知道决策可带来的奖励与动作价值,最终策略的收益表现不足。B C D D QN策略在模仿的同时保持了自主探索能力,不仅模仿专家的投资决策,而且还利用环境反馈的奖励信息调整策略,从而第1期杨兴雨,等:考虑行为克隆的深度强化学习股票交易策略1 5 7 图4 各策略在不同标的资产上的逐日累计收益率对比F i g.4 T h e c o m p a r i s o n o f d a i l y c u m u l a t i v e r e t u r n s o f t h e s t r a t e

邮箱/手机：
验证码：	获取验证码
温馨提示：	支付成功后，系统会自动生成账号（用户名为邮箱或者手机号，密码是验证码），方便下次登录下载和查询订单；
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？