收藏 分销(赏)

基于注意力机制的A3C量化交易策略.pdf

上传人:自信****多点 文档编号:640200 上传时间:2024-01-22 格式:PDF 页数:8 大小:983.92KB
下载 相关 举报
基于注意力机制的A3C量化交易策略.pdf_第1页
第1页 / 共8页
基于注意力机制的A3C量化交易策略.pdf_第2页
第2页 / 共8页
基于注意力机制的A3C量化交易策略.pdf_第3页
第3页 / 共8页
亲,该文档总共8页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、南通大学学报渊自然科学版冤允燥怎则灶葬造 燥枣 晕葬灶贼燥灶早 哉灶蚤增藻则泽蚤贼赠 渊晕葬贼怎则葬造 杂糟蚤藻灶糟藻 Edition冤灾燥造援 22晕燥援 2Jun援 圆园23第 22 卷 第 2 期圆园23 年 6 月收稿日期院 2022-11-28接受日期院 2023-03-15基金项目院 国家自然科学基金面上项目渊61773152冤第一作者简介院 符甲鑫渊1998要 冤袁 男袁 硕士研究生遥*通信联系人院 刘磊渊1983要 冤袁 男袁 教授袁 博士袁 博士生导师袁 主要研究方向为随机控制和强化学习遥 E-mail院liulei_doi院 10.12194/j.ntu.202211280

2、06引文格式院 符甲鑫袁 刘磊袁 钱成.基于注意力机制的 A3C 量化交易策略J.南通大学学报渊自然科学版冤袁 2023袁 22渊2冤院43-49.金融投资在当代经济中占据重要地位袁影响社会经济发展遥 在大数据时代背景下袁传统投资策略无法充分利用数据的有效信息袁并伴有投资者主观情绪的影响袁无法取得相对稳定的收益袁而量化投资是利用数学和统计学原理搭建策略模型袁深度挖掘市场规律信息袁消除主观情绪影响袁指导投资策基于注意力机制的 A3C 量化交易策略符甲鑫1袁 刘磊1*袁 钱成2渊1.河海大学 理学院袁 江苏 南京211100曰2.东南大学 数学学院袁 江苏 南京211189冤摘要院针对传统交易策略

3、无法有效长期消除市场噪声和非线性影响的问题袁提出一种基于注意力机制的异步优势动作评价渊squeeze-and-excitation asynchronous advantage actor-critic袁SE-A3C冤量化交易策略遥 以历史技术指标因子为环境状态袁利用卷积网络和注意力机制模块提取数据特征袁判断交易动作袁并采用异步训练的方式将多智能体与环境进行交互袁有效提升策略的自适应能力遥 采用该策略对沪深 300 和上证 50 股指期货进行交易袁结果表明院在测试阶段袁沪深 300 的收益率为 12.23%袁胜率为 58.82%袁最大回撤率为 2.47%曰上证 50 的收益率为 18.82%袁

4、胜率为57.56%袁最大回撤率为 1.05%遥关键词院深度强化学习曰异步优势动作评价曰注意力机制曰定量交易中图分类号院 TP18文献标志码院 A文章编号院 员远苑猿原圆猿源园渊圆园23冤园2原园园43原园7A3C quantitative trading strategy based on attentionFU Jiaxin1,LIU Lei1*,QIAN Cheng2(1.College of Science,Hohai University,Nanjing 211100,China;2.School of Mathematics,Southeast University,Nanjing

5、211189,China)Abstract:Aiming at the inability of traditional trading strategies to effectively eliminate market noise and non-lineareffects in the long term,an squeeze-and-excitation asynchronous advantage actor-critic(SE-A3C)quantitative tradingstrategy based on the attention mechanism is proposed.

6、Taking historical technical indicator factors as the environmen鄄tal state,using convolutional network and attention mechanism modules to extract data features,determine transactionactions,and use asynchronous training to interact with the environment by multi-agents,effectively improving theadaptive

7、 ability of strategies.This strategy trades CSI 300 and SSE 50 stock index futures.In the testing phase,theyield of CSI 300 is 12.23%,the winning rate is 58.82%,the maximum drawdown is 2.47%,and the yield of SSE 50 is18.82%,the winning rate is 57.56%,the maximum drawdown is 1.05%.Key words:deep rein

8、forcement learning;asynchronous advantage actor-critic(A3C);attention mechanism;quantita鄄tive trading南通大学学报渊自然科学版冤圆园23 年略1遥 由于金融数据的噪声和市场的动态性袁使得策略缺乏一定的适应能力袁无法及时作出有效改变遥随着人工智能的发展袁机器学习和深度学习在计算机视觉和自然语言处理等多个领域取得显著成效遥 在量化交易策略领域袁人工智能技术同样发挥着极其重要的作用2遥 在基于机器学习的交易策略中袁主要使用传统机器学习和深度学习方法袁利用因子特征或历史时刻价格对下一时刻价格进行预测袁从

9、而判断交易信号袁但无法直观将交易成本以及历史时刻的决策对当前决策的影响考虑在内袁具有较强的不确定性袁同时由于模型的局限性使得策略无法适应长时间的市场环境3-4遥 量化交易策略的目的是使策略模型自适应复杂的市场环境袁实现长期稳定的收益袁而强化学习主要通过试错的方式与环境进行交互袁依据环境奖励反馈进行学习并将历史经验保存袁不断优化模型的决策能力袁最大化累积奖励5袁与之相应遥深度强化学习结合深度学习特征表达能力和强化学习决策能力的优势袁挖掘环境状态信息判断交易信号袁选择相应动作与环境进行交互得到回报奖励袁基于预期回报评价动作价值袁从而进行学习和累积经验遥Lee 等6提出了基于 Q-trader 的股

10、票投资策略袁 通过联合优化预测结果及其对应的策略袁提出 4 个协同的 Q-learning 智能体与环境进行自适应交互袁在利润以及风险管理上均优于监督学习方法遥Carapu觭o 等7构建了一个基于 Q-learning 的外汇市场短期投资系统袁 在 Q-learning 的基础上设置含有 3 个隐藏层的神经网络智能体进行训练模拟遥司伟钰8提出了一种基于长短期记忆网络的单因子和多因子交易策略袁考虑单因子指标和多因子指标分别作为智能体状态输入袁分析策略在不同期货上的交易状况遥Zhang 等9提出了基于深度强化学习的连续期货交易策略袁在考虑离散和连续动作空间的基础上袁以市场波动率作为模型奖励函数袁实

11、现良好的收益遥Liu 等10提出基于深度强化学习的量化交易模拟器 FinRL袁实现了在多个时间粒度上采用不同的强化学习算法进行股票模拟实验遥 先前的工作主要为单智能体量化模型袁忽略了智能体动作空间探索的局限性遥 近年来袁分布式强化学习算法发展迅速袁其优势为在消耗更少算力的基础上袁更大限度探索动作多样性袁提升策略稳定性遥 Kaptur鄄owski 等11提出基于分布式强化学习的经验回放机制袁对参数滞后导致状态反复的策略进行改进袁使得Atari-57 游戏的性能显著提升遥 Hoffman 等12提出RL 算法工具 Acme袁支持在各种规模运行下简单代理袁智能体可以向上向下拓展袁同等性能下实现更高级

12、别并行化遥为构建更加稳定的交易策略以减少交易风险和不确定性影响袁本文采用异步优势动作评价渊asynchronous advantage actor-critic袁A3C冤算法搭建量化交易策略遥 A3C 算法采用分布式异步训练的方式袁在多线程中并行的智能体独立与市场环境交互产生不同的状态和动作袁避免数据具有相关性袁使输出的序列具有独立同分布特性袁可有效解决深度神经网络训练过程的不稳定性遥相对于单智能体经验回放方法袁该方法具有轻量型的特点袁训练参数大大减少袁不依赖于较强的算力设备袁且不需要额外内存空间袁减少内存空间使用遥由此提出基于注意力机制的 A3C 量化交易策略袁 该策略充分利用分布式强化学习

13、算法优势袁采用智能体分布式异步训练的方式袁对动作进行高效探索袁使生成的数据更加多样化袁提升策略稳定性袁解决了单智能体难以收敛的问题曰同时在神经网络中通过引入自注意力机制模块13袁自适应调整特征通道的响应值袁对不同通道的数据采用不同的权重袁集中关注重点特征信息袁提升网络的特征提取能力袁充分提取市场信息袁 提升策略收益和风险调控能力遥 基于注意力机制的 A3C 策略的市场风险处理机制主要体现在两个方面院一方面袁A3C 策略为分布式异步训练袁对金融环境的探究更加充分袁保证了策略的多样性袁从而达到风险分散的目的曰另一方面袁以股票的技术因子作为状态空间可以充分反映市场的信息袁使用注意力机制去挖掘蕴含的风

14、险因素袁可以有助于智能体规避市场风险遥1研究方法强化学习主要有两种代表算法院基于值函数的方法和基于策略梯度的方法遥 基于值函数的方法通过生成状态动作值函数 Q 值袁选择价值最大的动作与环境进行交互曰基于策略梯度的方法通过梯度更44窑窑新的方式更新策略参数袁 达到最大化目标函数的目的遥 两者的思想都源于马尔可夫决策过程14遥1.1马尔可夫决策过程强化学习是智能体与环境进行自适应交互学习的过程袁可认为是一个马尔可夫决策过程袁通常用元组 M=渊S袁A袁P袁R冤表示袁其中 S 为状态集袁A 为动作集袁P 为状态转移概率袁R 为奖励值遥 在马尔可夫决策过程中袁智能体根据当前时刻的状态st沂S 产生相应的

15、动作 at沂A袁反馈到环境获得奖励值 rt沂R袁 此时环境将依据状态转移概率 pt沂P 从st沂S 转移到下一时刻状态 st+1沂S袁如此循环往复袁最大化长期累积奖励院Gt=Rt+酌Rt+1+酌2Rt+2=移k=0肄酌kRt+k+1袁酌沂0袁1冤袁渊1冤式中 酌 为折现因子袁是对未来奖励的折现袁决定了未来时刻的收益对智能体当前决策的影响程度袁酌沂0袁1冤避免循环马尔可夫过程中的无限回报遥 下一时刻的状态 st+1只与当前时刻状态 st和动作 at有关袁与其他时刻无关遥值函数方法在 Q-learning15中主要通过构造 Q-table 寻找最优动作值函数 Q渊s袁a冤袁但当状态空间或者动作空间

16、较大时袁Q-learning 无法计算最优解16袁从而采用神经网络进行拟合逼近袁 即 Deep Q-Net鄄work渊DQN冤算法17遥在该算法中则是寻找最优 Q渊s袁a曰兹冤袁兹 为深度神经网络的参数袁通过最小化均方误差损失更新最优参数袁其中损失函数为L=E渊rt+酌maxaQ渊st+1袁a曰兹冤-Q渊st+1袁a曰兹冤冤2遥渊2冤在 DQN 算法中使用经验回放机制和两个神经网络渊预测网络和目标网络冤提升模型的稳定性遥1.2野行动者-评论家冶算法基于策略梯度的强化学习算法主要包括确定性策略梯度和随机性策略梯度遥 策略梯度方法通过对策略进行迭代计算袁更新策略参数值最大化累积回报袁从而得到最优的

17、策略遥其形式主要为设置一个目标函数袁采用梯度上升的方法更新参数袁使得目标函数最大遥 其目标函数为 L仔=-ER1:肄袁梯度为兹Es仔R1:肄=E兹log仔渊a s冤渊Q渊s袁a冤-V渊s冤冤遥渊3冤Actor-Critic渊AC冤为野行动者-评论家冶算法18袁是一种集值函数方法和策略梯度方法的强化学习算法遥 Actor 采用策略梯度方法对参数进行更新袁适用于连续动作空间袁但由于 Actor 要依据整个过程的回报值进行更新迭代袁学习效率较慢袁且由于累积多步回报使得方差变大袁因此袁使用基于值函数方法的 Critic 对策略评估袁 使用时间差分渊temporaldifference袁TD冤19实现单

18、步更新袁以偏差换方差的方式遥 Actor 基于概率分布选择动作袁Critic 基于 Actor生成的动作进行评价得分袁 将该得分反馈到 Actor网络对动作概率进行修改袁更新学习参数遥在保持策略梯度兹=E鬃t兹log仔渊a s冤渊4冤不变的情况下袁本文使用时间差分渊TD冤误差袁鬃t=rt+V仔渊st+1冤-V仔渊st冤袁Actor 网络值函数由参数的神经网络进行逼近袁其参数更新表达式为啄 饮 Gt-v渊St袁w冤袁渊5冤w 饮 w+茁啄wv渊St袁w冤袁渊6冤式中院Gt为累积奖励曰茁 为 Actor 网络的学习率遥Critic 网络的参数更新表达式为兹 饮 兹+琢啄兹log仔渊AtSt袁兹冤遥

19、渊7冤1.3A3C 算法A3C 算法20通过在多个环境中并行运算多个AC 智能体袁其生成的数据具有多样性袁打破了数据之间的相关性袁使得网络训练时所需要的数据具有独立同分布特性袁提升了网络在训练过程中的稳定性遥 相较于 DQN 中经验回放机制袁减少了经验存储在交互过程中的计算复杂程度遥模型采用 CPU 多核多线程的计算方式袁 每一个线程为独立的 AC 智能体遥对每个线程设置不同的环境袁不同智能体与不同的环境交互得到不同的序列袁每个序列独自训练更新各自的参数袁然后通过异步的方式更新到整个模型中袁进而在下一个训练过程中袁每个线程模型和整体模型都完成参数更新袁如此往复训练遥模型结构如图 1 所示遥2基

20、于注意力机制的 A3C 交易策略2.1智能体网络结构设置A3C 算法采用并行运算的方式在 CPU 上进行符甲鑫袁 等院基于注意力机制的 A3C 量化交易策略45窑窑南通大学学报渊自然科学版冤圆园23 年特征图院50 伊 50 伊 32全局平均池化院1 伊 1 伊 32卷积院1 伊 1 伊 8袁S院1袁K院1卷积院1 伊 1 伊 32袁S院1袁K院1Sigmoid院1 伊 1 伊 32输出特征图院50 伊 50 伊 32相乘加权图 3SE 模块Fig.3SE module图 1A3C 模型Fig.1A3C model全局模型线程模型 1线程模型 2线程模型 3更新同步交互训练交互训练交互训练多线

21、程计算袁因此袁本文使用浅层卷积神经网络从数据中提取有效特征信息袁并结合注意力机制模块提升网络的表达能力袁使 Actor 和 Critic 网络在更新参数时提升模型的稳定性和模型收益遥Actor 和 Critic 使用的网络均由两个卷积层尧1个 SE 模块和两个全连接层构成袁网络结构图如图 2所示遥 输入均为经过数据标准化的三维数据矩阵袁Actor 网络输出为随机动作数组袁Critic 网络输出为状态价值数组遥 网络将高维数据转化为低维数据袁其中 SE 模块的结构图如图 3 所示遥在 Actor 和 Critic 网络中袁第一层卷积层卷积核的高度和宽度均为 8袁卷积核的个数为 16袁滑动步长为

22、8曰第二层卷积层卷积核的高度和宽度均为 4袁卷积核的个数为 32袁滑动步长为 2曰SE 模块首先将输入的特征图进行全局池化袁连接 1 伊 1 两个卷积层降低通道数量袁进一步提取网络特征信息袁进而采用 Sigmoid 函数袁对不同的通道分配不同的权重值与输入特征图相乘袁突出特征图中具有价值的信息曰隐藏层激活函数为 relu 函数袁防止梯度消失曰优化器采用均方根支柱渊root mean square prop袁RM鄄SProp冤算法袁学习率采用指数衰减法袁初始值为 10-4袁衰减系数为 0.9曰此网络可以有效提取高维金融数据特征袁提升交易策略对复杂金融市场环境的自适应能力遥2.2智能体状态设计由于

23、金融数据中含有大量的噪声和非线性影响袁所以本文选用金融技术指标因子作为输入数据袁其均通过价格和交易量进行线性或者非线性变化袁从历史数据中挖掘相关信息遥本文选取 50 个常用的技术指标因子渊源自 TA-Lib冤作为特征袁具体为AD尧ADOSC尧ADX尧ADXR尧APO尧AROON Down尧AROONUp尧AROON OSC尧ATR14尧ATR6尧Boll_Up尧Boll_Mid尧Boll_Down尧BOP尧CCI5尧CCI10尧CCI20尧CCI88尧DEMA6尧DEMA12尧CMO_Close尧CMO_Open尧DEMA26尧DX尧EMA6尧EMA12尧EMA26尧KAMA尧MACD_DIF

24、尧MACD_DEA尧MACD_bar尧MEDPRICE尧MiNUS_DI尧MiNUS_DM尧MOM尧NATR尧OBV尧PLUS_DI尧PLUS_DM尧PPO尧ROC6尧ROC20尧VROC6尧VROC20尧ROCP6尧ROCP20尧VROCP2尧VROCP20尧RSI尧SAR遥 根据市场交易时间9:30要11:30 和 13:00要15:30袁 以 5 min 为间隔时间点袁 选取历史 5 d 的数据构造 50 伊 50 伊 5 三维数据作为状态信息遥Actor 网络结构Critic 网络结构图 2A3C 网络结构图Fig.2A3C network structure diagram状态院50

25、 伊 50 伊 5卷积院50 伊 50 伊 16袁S院4袁K院8卷积院50 伊 50 伊 32袁S院2袁K院4SE 模块全连接层院1 伊 256Output院1 伊 3全连接层院1 伊 1024状态院50 伊 50 伊 5卷积院50 伊 50 伊 16袁S院4袁K院8卷积院50 伊 50 伊 32袁S院2袁K院4SE 模块全连接层院1 伊 256Output院1 伊 1全连接层院1 伊 102446窑窑2.3智能体动作设计本文采用定量离散交易动作渊买空尧卖空和平仓冤袁交易本金为 300 万元袁每次交易固定量为 1手渊合约乘数为 300冤袁在智能体训练过程中袁如果出现亏损至 10 万元袁则停止本

26、轮训练袁重新下一轮训练遥a=0袁买空1袁卖空2袁平仓扇墒设设设设设缮设设设设设袁渊8冤式中院0 代表收盘价高于开盘价买空曰1 代表收盘价低于开盘价卖空曰2 代表平仓遥2.4智能体补偿调控奖励函数A3C 算法中 Actor 以策略梯度作为损失袁不适合采用收益率或者夏普比率等过小的奖励函数袁容易导致模型训练过程中梯度消失现象袁因此本文直接采用净收益作为奖励损失袁以维持动作有效回报且避免产生梯度消失现象遥 同时根据市场交易规则袁设置交易金额的万分之 0.23 作为交易手续费遥rewardt=m 伊 渊ptc-pto冤-m 伊 pto伊 0.23 伊 10-4袁 a=0m 伊 渊pto-ptc冤-m

27、伊 pto伊 0.23 伊 10-4袁 a=1mth伊 渊pto-pt-1c冤-mth伊 pto伊 0.23 伊 10-4袁 a=2袁mth 0mth伊 渊pto-pt-1c冤+mth伊 pto伊 0.23 伊 10-4袁 a=2袁mth 0扇墒设设设设设设设设设设缮设设设设设设设设设设袁渊9冤式中院m 为交易数量曰mth为 t 时刻的仓位持有数目曰ptc为 t 时刻的收盘价曰pto为 t 时刻的开盘价曰pt-1c为t-1 时刻的收盘价曰rewardt为 t 时刻的奖励值遥2.5智能体交易策略本文策略设置 Actor 和 Critic 的学习率为 10-4袁回合控制上限为 32遥在训练阶段采用

28、策略选取动作袁如果 0-1 随机数小于 0.95袁则以 Actor 网络输出概率选取动作袁否则随机选取袁用以增强模型的探索能力曰在测试阶段采用确定性策略袁以输出概率选取动作遥 具体的策略流程如表 1 所示遥在实际应用场景中袁基于注意力机制的 A3C 策略需要区分训练集与测试集袁避免引入未来信息遥在具体的决策过程中袁智能体观察状态信息即股票的技术因子并作出交易决策袁环境即金融市场会给予智能体奖励的反馈袁智能体的目的是希望长期奖励最大化遥 在训练过程中袁智能体根据奖励不断调整网络参数袁直至稳定可以回测曰在测试过程中袁智能体则根据训练好的网络模型去进行交易袁最终根据回测效果来评估策略的有效性遥3实验

29、与结果分析3.1实验数据本文选用沪深 300 指数尧上证 50 指数对期货进行模拟交易袁提取 2015-01-04要2019-12-31 分钟行情袁计算 50 个技术指标因子数据作为本实验使用数据袁 模型训练期为 2015-01-04要2018-12-28袁模型测试期为 2019-01-02要2019-12-31遥 图 4渊a冤为沪深 300 股指期货在 2015要2019 年开盘点数趋势变化袁图 4渊b冤为沪深 300 股指期货 2015要2019年开盘点数与收盘点数差异变化趋势曰图 5渊a冤为上算法 1量化交易策略渊以单个本地模型为例冤输入院市场环境St输出院最优策略 仔渊兹冤参数院Act

30、or 学习率 琢兹袁Critic 学习率 琢w袁控制回合上限参数K袁注意力机制卷积神经网络全局参数 兹 和 w袁本地参数 兹忆和 w忆同步全局参数院兹忆 饮 兹袁w忆 饮 w逐步按回合执行院用策略 仔渊兹忆冤生成轨迹 杂园袁粤园袁砸园噎杂栽-1袁粤栽-1袁砸栽-1袁杂栽袁直到回合结束或达到终止状态遥梯度初始化院若 杂栽为终止状态袁U=0曰否则 哉=v渊杂栽曰w冤曰初始化梯度 g兹饮 0袁gw饮 0曰异步计算梯度院t=T-1袁T-圆袁噎袁园曰计算目标 哉 饮 酌U+Rt曰策略梯度参数更新院g兹饮 g兹+U-v渊杂t曰w冤 窑 log仔渊AtSt曰兹冤曰价值函数参数更新院gw饮 gw+U-v渊杂t

31、曰w忆冤 窑 v渊St曰w忆冤曰同步更新全局参数院对全局策略参数更新院兹 饮 兹+琢兹窑 g兹对全局价值参数更新院w 饮 w+琢w窑 gw表 1基于注意力机制和 A3C 的量化交易策略Tab.1Quantitative trading strategy based onattention mechanism and A3C符甲鑫袁 等院基于注意力机制的 A3C 量化交易策略47窑窑南通大学学报渊自然科学版冤圆园23 年表 2交易策略对比结果表Tab.2Transaction strategy comparison effect table指数模型策略收益率/%胜率/%日夏普比率/%年夏普比率索

32、提诺比率最大回撤率/%沪深 300BAH4.1349.704.240.670.9216.85沪深 300A3C5.9455.897.891.251.712.80沪深 300上证 50BAH5.9349.505.360.851.2212.47上证 50A3C4.6252.526.591.051.584.00上证 50证 50 股指期货在 2015要2019 年开盘点数趋势变化袁图 5渊b冤为上证 50 股指期货 2015要2019 年开盘点数与收盘点数差异变化趋势遥3.2结果分析本文提出一种基于注意力机制和 A3C渊squeeze-and-excitation asynchronous adva

33、ntage actor-critic袁SE-A3C冤的量化交易策略遥 首先对技术指标因子进行归一化袁 然后选取历史 5 d 间隔 5 min 的数据作为环境状态袁通过使用异步训练和注意力机制的方式来提升策略的稳定性遥在相同的市场环境下袁设置 BAH渊buy and hold冤策略和强化学习 A3C 交易策略作为对照策略遥强化学习策略均经过 500 个 episode袁450 000 次迭代训练袁对 2015-01-04要2018-12-28 的两支期货训练数据进行训练袁在测试数据上进行智能交易遥策略的表现状况如表 2 所示袁强化学习策略A3C 与 SE-A3C 的最大回撤率都明显优于基础的BA

34、H 策略院在沪深 300 股指期货上袁BAH 最大回撤率为 16.85%袁A3C 减少到 2.80%袁SE-A3C 最少袁为2.47%曰在上证 50 股指期货上则表现更为明显袁BAH最大回撤率为 12.47%袁A3C 为 4.00%袁而 SE-A3C则下降到 1.05%遥 这表明 SE-A3C 在控制出现极端损失情况的概率上明显优于对照策略遥 策略收益率反映了策略的盈利能力袁BAH 策略与 A3C 策略在盈利能力上并无明显差异袁均低于 6.00%袁而SE-A3C 策略在两种沪指期货上 的 收益率均 超过12.00%袁表明 SE-A3C 策略在盈利方面明显优于对照策略遥 在策略胜率上袁SE-A3

35、C 策略也优于对照策略遥 尽管强化学习策略更侧重长期决策袁但高胜率的策略会给予投资者更多的信心遥 在策略的夏普比率上袁A3C 策略优于 BAH 策略但提升并不明显袁SE-A3C 策略则有显著提升遥综合上述分析袁SE-A3C渊b冤沪深 300 开盘点数与收盘点数差异变化趋势图 4沪深 300 股指 2015要2019 年行情Fig.4CSI300 index from 2015 to 201920152016201720182019年份3002001000-100-200-3005 0004 5004 0003 5003 0002 50020152016201720182019年份渊a冤沪深 3

36、00 开盘点数趋势变化2016201720182019年份3 6003 2002 8002 4002 000渊a冤上证 50 开盘点数趋势变化2016201720182019年份201520152001000-100-200渊b冤上证 50 开盘点数与收盘点数差异变化趋势图 5上证 50 股指 2015要2019 年行情Fig.5SSE50 index from 2015 to 201948窑窑策略具有更加优异的收益表现和风险调控能力遥基于注意力机制的 A3C 量化交易策略采用多智能体的交易策略袁添加注意力机制袁对卷积特征图通道之间的相关性进行建模袁进一步提升了网络的表达能力袁可更加有效地挖掘

37、市场信息尧探索交易信号袁减少市场噪声和非线性影响袁提升了算法对环境的自适应能力使收益更加稳定遥 由实验结果可知袁本文策略在期货交易中具有更加良好且稳定的收益遥4结束语分布式深度强化学习的期货交易在量化交易策略上是一个新的方向袁分布式强化学习采用智能体和环境独立交互的方式模拟袁选取最优的动作实现最大化回报袁在金融领域袁与量化交易策略相结合袁具有很强的实际应用价值遥本文提出基于 A3C 和注意力机制的量化交易策略袁其主要采用分布式强化学习 A3C 算法袁通过使用异步训练的方法袁本地模型将多个智能体渊AC冤分别与环境进行独立交互袁将更新后的参数传递给全局模型袁对信息进行综合更新袁使策略更好地适应市场

38、环境曰此外袁在卷积神经网络上添加注意力机制袁对相关性较强的信息设置较大的权重袁增强网络对金融技术指标因子数据的特征提取能力遥 相比于传统量化交易策略袁本文提出的策略可在较低的风险下袁有效提取市场交易信号袁获取更高的收益遥 缺点为该策略仅为定量交易策略袁缺乏一定的灵活性袁一个优秀的策略需要根据市场环境进行不定量交易袁利于获得更高的收益袁因此袁未来工作需要将该方法运用到不定量交易研究遥参考文献院 1 LIN C S袁 CHIU S H袁 LIN T Y.Empirical mode decompo鄄sition-based least squares support vector regressi

39、on for for鄄eign exchange rate forecastingJ.Economic Modelling袁2012袁 29渊6冤院2583-2590.2 AHMED S袁 ALSHATER M M袁 EL AMMARI A袁 et al.Ar鄄tificial intelligence and machine learning in finance院a bib鄄liometric reviewJ.Research in International Business andFinance袁 2022袁 61院101646.3 TSANTEKIDIS A袁 PASSALIS N袁

40、 TEFAS A袁 et al.Fore鄄casting stock prices from the limit order book using convo鄄lutional neural networksC/Proceedings of the 2017 IEEE19th Conference on Business Informatics 渊CBI冤袁 July 24-27袁 2017袁 Thessaloniki袁 Greece.New York院IEEE Xplore袁2017院7-12.4 T譈RKMEN A C袁 CEMGIL A T.An application of deepl

41、earning for trade signal prediction in financial marketsC/Proceedings of the 2015 23nd Signal Processing and Com鄄munications Applications Conference 渊SIU冤袁 May 16-19袁2015袁 Malatya袁 Turkey.New York院IEEE Xplore袁 2015院2521-2524.5 刘全袁 翟建伟袁 章宗长袁 等.深度强化学习综述J.计算机学报袁 2018袁 41渊1冤院1-27.LIU Q袁 ZHAI J W袁 ZHANG

42、Z Z袁 et al.A survey on deepreinforcement learningJ.Chinese Journal of Computers袁2018袁 41渊1冤院1-27.渊in Chinese冤 6 LEE J W袁 HONG E袁 PARK J.A Q-learning based ap鄄proach to design of intelligent stock trading agentsC/Pro鄄ceedings of the 2004 IEEE International EngineeringManagement Conference 渊IEEE Cat.N

43、o.04CH37574冤袁 Oc鄄tober 18-21袁 2004袁 Singapore.New York院IEEE Xplore袁2004院1289-1292.7 CARAPU覶O J袁 NEVES R袁 HORTA N.Reinforcementlearning applied to Forex tradingJ.Applied Soft Comput鄄ing袁 2018袁 73院783-794.8 司伟钰.基于深度强化学习的交易策略技术研究D.上海院上海交通大学袁 2018.SI W Y.Research on the trading strategy based on deeprei

44、nforcement learningD.Shanghai院Shanghai Jiao TongUniversity袁 2018.渊in Chinese冤 9 ZHANG Z H袁 ZOHREN S袁 ROBERTS S.Deep reinforce鄄ment learning for tradingJ.The Journal of Financial DataScience袁 2020袁 2渊2冤院25-40.10 LIU X Y袁 YANG H Y袁 CHEN Q袁 et al.FinRL院a deep re鄄inforcement learning library for automat

45、ed stock trading inquantitative financeEB/OL.渊2020-11-19冤2022-11-02.https院/arxiv.org/abs/2011.09607.11 KAPTUROWSKI S袁 OSTROVSKI G袁 QUAN J袁 et al.Re鄄current experience replay indistributed reinforcementlearningEB/OL.渊2018-12-21冤2022-11-02.https:/open鄄 HOFFMAN M W袁 SHAHRIARI B袁 ASLANIDES J袁 et al.渊下转第

46、 74 页冤符甲鑫袁 等院基于注意力机制的 A3C 量化交易策略49窑窑南通大学学报渊自然科学版冤圆园23 年Acme院a research framework for distributed reinforcementlearningEB/OL.渊2020-06-01冤2022-11-02.https院/arxiv.org/abs/2006.00979.13 HU J袁 SHEN L袁 SUN G.Squeeze-and-excitation networksC/Proceedings of the 2018 IEEE/CVF Conference onComputer Vision and

47、 Pattern Recognition袁 June 18-23袁2018袁 Salt Lake City袁 UT袁 USA.New York院IEEE Xplore袁2018院7132-7141.14 PUTERMAN M L.Markov decision processesM/HEYMAND P袁 SOBEL M J.Handbooks in operations research andmanagement science.Amsterdam院Elsevier袁 1990院331-434.15 WATKINS C J C H袁 DAYAN P.Q-learningJ.MachineLe

48、arning袁 1992袁 8渊3冤院279-292.16 梁天新袁 杨小平袁 王良袁 等.基于强化学习的金融交易系统研究与发展J.软件学报袁 2019袁 30渊3冤院845-864.LIANG T X袁 YANG X P袁 WANG L袁 et al.Review on fi鄄nancial trading system based on reinforcement learningJ.Journal of Software袁 2019袁 30渊3冤院845-864.渊in Chinese冤17 MNIH V袁 KAVUKCUOGLU K袁 SILVER D袁 et al.Playingat

49、ari with deep reinforcement learningEB/OL.渊2013-12-19冤2022-11-02.https院/arxiv.org/abs/1312.5602.18 SUTTON R S袁 MCALLESTER D袁 SINGH S袁 et al.Policygradient methods for reinforcement learning with functionapproximationC/Proceedings of the 12th InternationalConference on Neural Information Processing S

50、ystems袁November 29-December 4袁 1999袁 Denver袁 CO.New York院ACM袁 1999院1057-1063.19 SUTTON R S.Learning to predict by the methods of tem鄄poral differencesJ.Machine Learning袁 1988袁 3渊1冤院9-44.20 MNIH V袁 BADIA A P袁 MIRZA M袁 et al.Asynchronousmethods for deep reinforcement learningEB/OL.渊2016-02-04冤2022-11-

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服