基于时空注意力机制的双向长短期记忆神经网络的股指预测研究.pdf

资源描述

1、第卷第期运筹与管理，年月收稿日期：基金项目：国家自然科学基金资助项目（）作者简介：杨蓦（），女，满族，北京人，硕士研究生，研究方向：时间序列分析；王静（），通讯作者，女，陕西杨凌人，教授，博士生导师，研究方向：农村金融与投资学。基于时空注意力机制的双向长短期记忆神经网络的股指预测研究杨蓦，王静（西北农林科技大学经济管理学院，陕西杨陵）摘要：股票市场是一个高噪音的混沌系统，其外部属性之间的相关性问题以及在长期预测时外部影响对股价波动的加剧，导致对股票市场进行准确预测是一项富有挑战性的工作。为解决上述问题，本文利用基于注意力机制的双向长短期记忆神经网络（）对香港恒生指数

2、收盘价进行有效性的实证检验。其中，空间注意力机制用于捕捉输入指标之间的相关性并为其赋予区别权重，时间注意力机制用于描述数据的时间相关性以解决长期预测中的时间依赖问题并为时间步赋予区别权重，神经网络用于拟合数据并构建预测模型。本文还比较了四种基于注意力机制的神经网络方法和六种基线方法，实验结果表明，与当下流行的股票指数预测方法相比，基于双维度注意力机制的可以在短、中、长期预测中均实现更准确的股票指数收盘价预测。关键词：注意力机制；双向长短期记忆神经网络；股票指数预测；长期预测；时空关系中图分类号：；文章标识码：文章编号：（）：，（，）：，（），（），：；引言对股票市场的准确预测可以为投资者提供

3、投资参考，提高金融市场的运行效率。然而，股票市场是一个复杂的、非线性的、有噪声的、动态的系统，因此很难对其进行准确的预测。一方面，许多因素影响股票市场的价格，因此有必要解决外部属性之间的相关性问题。另一方面，股票市场的内部变化是不规则的，容易受到外部属性的影响。特别是在进行长期预测时，外部影响会加剧股价的波动，因此很难提取股价随时间变化的关系。然而，目前大多数方法只在股指的短期预测中取得良好的效果。在神经网络上分配注意力权重已经出现在各种任务中，如文本翻译、图像识别等。主要原因是注意力机制可以自适应地聚焦于特征的信息部分，减少不必要的特征，释放运行内存，从而提高拟合数据时的模型精度。相关工作传

4、统时间序列模型是最早被用于股票价格预测的一类模型，如等利用四家股票数据验证了模型的预测准确性。传统计量经济学模型刻画金融时间序列时假设具体的模型，但是高噪声、非线性的动态金融时间序列数据不能通过参数方程来描述，导致了传统时间序列模型的局限性。机器学习模型为股市建模和预测提供了一种新的方法。浅层机器学习模型可以从大量训练样本中学习统计规律。然而，在有限样本和计算单元的情况下，浅层学习结构对于复杂函数的表示能力是有限的。相反，深度学习可以通过构建隐藏层多、训练数据量大的模型，实现复杂函数逼近、提高预测的精度，如等使用递归神经网络（）预测六只股票回报率，并使用遗传算法为模

5、型生成最优权重，得到了准确的预测性能。和构建卷积神经网络，预测、纳斯达克等指数走势，发现的预测性能比基线算法有显著提高。等使用门控递归单元（）层捕捉长期信号相关性，在恒生指数、德国和三个股票指数数据集上评估模型，发现基于方法的预测准确率最高。提出的长短期记忆神经网络（）是近年来最流行的模型之一，因为它可以通过门结构缓解造成的梯度消失和爆炸。近年来，许多基于的研究兴起。和验证了在股指预测上相对于随机森林模型、等的更高精度。双向长短期记忆神经网络由两个相反方向的模型组成，在大范围时间序列数据学习

6、中具有显著优势。等发现额外的数据训练过程提供了比标准更好的预测效果。特征选择是指选择原始输入变量的子集，这些第期杨蓦，等：基于时空注意力机制的双向长短期记忆神经网络的股指预测研究输入变量通常是技术或基本指标。由于所选择的输入子集可以更好地表示数据集的原始特征，因此使用其构造模型可以提高准确性和效率。主成分分析（）是数据降维的有效方法之一。注意力机制逐渐被应用到时间序列预测中，因为这种方法可以学习动态的时空关系，并为属性赋予不同的权重。其中，空间注意力权重是指属性对预测结果的影响。等提出了空间注意力机制与相结合的混合模型，其中注意力机制对关键特征赋予更高的权重，从而获得了

7、较好的准确性。此外，由于培训不稳定和梯度消失问题，无法记住非常长期的相互依存关系。时间注意力机制可以缓解这一问题，该机制对神经网络模块的隐藏状态进行加权，以确保动态地、选择性地获得所有时间相关性。等提出了基于时间模式的注意力机制，不仅可以在同一时间步长内，而且可以在多个时间步长内学习变量之间的相互依赖关系。本文的主要贡献包括以下几个方面：首先，分析了基于注意力机制的时空关系，并将其应用于股指收盘价的多步预测。其次，利用对股指进行预测，探究在的基础上加入反向层对预测的效果。第三，提出了两种基于注意力机制的模型，可以学习数据的时空关系，提高模型的性能。理论框架长短期记忆神经网络长短

8、期记忆神经网络（）是一种特殊的循环神经网络，由和提出。它在传统的循环神经网络上添加了记忆存储（）和门结构（），（）用于记录神经元状态，门可以实现选择性地让信息通过，主要通过一个的神经层和一个逐点相乘的操作来实现的。通过三个类似于过滤器的门结构来实现信息的保护和控制：遗忘门（）决定从细胞状态中丢弃的信息、输入门（）决定有多少新的信息加入到中、输出门（）用过滤最终输出信息。通过门结构可以很好的表达输入中的长期依赖的信息，有效缓解了梯度消失和梯度爆炸的问题。双向长短期记忆神经网络在通常的时间序列处理中，往往会忽视未来的信息，双向长短期记忆神经网络（）在基础上使用两个单独的隐藏层在正

9、向和反向两个方向上处理序列数据，将两个隐藏层连接到同一输出层，将先前的信息和后来的信息都存储为时间序列数据的当前时间基础，因此理论上预测表现会比单向好。的隐藏层输出包括前向隐藏层的激活输出和后向隐藏层的激活输出。注意力机制无法捕捉到不同时点和不同输入特征对收盘价的不同贡献。注意力机制是一种模拟人脑注意力机制的模型，它可以通过计算注意力概率分布，突出某个关键性输入对于输出的影响作用，在计算能力有限的情况下，将计算资源分配给更重要的任务，对于传统的模型具有很好的优化作用。本文提出一种新颖的时空注意力机制，以捕获股票市场上的动态时空相关性，它包含两种注意力机制，即空间注意力机制和时间注意力机制。

10、空间注意力机制在空间维度上，不同的输入特征相互影响，并且相互影响是高度动态的，因此，本文使用空间注意力机制自适应地捕获空间维度上节点之间的动态相关性。该部分机制表示总和为的注意力权重的外部特征对收盘价的影响。对于每个时间步长，权重用于衡量一个节点应该在另一节点的状态上集中多少注意力以预测其状态计算未来的收盘价。时间注意力机制单元可以通过单元机制存储时间信息，并通过门机制控制时间信息的增加或减少，从而保持长期依赖性。但是，通过门机制的时间信息会导致单元在每个时间窗口中更改单元状态，与历史的输入相比，此最终状态倾向于保留有关最新输入的更多信息。在较短时序的预测中，该问题不会导致严重偏差。

11、但是，对于较长的预测范围，标准模型可能会低估较早状态的影响，时间注意力机制用于了解每个时间窗口中这些隐藏状态的影响。本文单位存储时间信息，并且注意力机制用于测量这些不同细胞状态对收盘价预测的重要性。时空注意力机制空间相关性通过空间注意力机制将注意力权重分配给原始属性来表示，时间关系通过时间注意力机制通过将注意力权重分配给空间注意力中的隐藏状态来表示，时空注意力机制同时结合了空间和时间相关性，使神经网络自动对有价值的信息给予更多关注。运筹与管理年第卷评估指标为了全面评估所提出模型用于股票指数收盘价预测的有效性，本文将使用如下几种评价指标测评所提出的模型。平均绝对百分比误差（）、均

12、方根误差（）和均值绝对误差（）用于定量评价模型的预测精度，和越小说明精度越高。为了进一步验证模型的有效性，对股指的涨跌趋势进行预测。本文使用预测分类准确率对预测结果进行评价。实证检验数据来源及描述为探究上述模型对于实际金融事件序列数据预测的适用性与有效性，本部分将基于注意力机制和神经网络的金融预测模型应用于香港恒生股票指数（）收盘价的预测，数据样本选取区间为年月日年月日。本文的响应变量为恒生指数的日收盘价，影响指标分为行情因子和技术因子，共个指标，见表。数据来源于锐思金融数据库。表香港恒生指数特征向量特征向量指标特征向量指标开盘价（）最高价（）最低价（）收盘价（）指数平

13、滑移动平均线（）成交量（）日乖离率（）成交金额（）日乖离率（）涨跌幅日乖离率（）日均线（）日均线（）日均线（）日均量日均量日均量相对强弱指数（）总样本区间及划分本文采用如下标准选取数据集：剔除日成交量为的初期数据，选取自日成交量数据存在至年月日的所有交易数据。为了观察预测方法对股指短期、中期、长期的预测效果，本文分别对日（次日），日，日，日，日的股指收盘价进行预测，其中，作为测试集，剩下数据中，为验证集，其余数据为训练集。数据归一化在使用模型对数据进行拟合之前，为了加快梯度下降速度、提高运算精度，本文先对数据进行归一化处理，对原始数据进行线性

14、处理，映射到，区间。参数设置本部分训练模型的运行环境如下：四核。本文基于语言环境，以为深度学习框架进行模型的训练及预测，版本为，版本为。首先，本文选取作为优化器。算法集合了以下两种随机梯度下降扩展式的优点，即：（）适应性梯度算法：为每一个参数保留一个学习率以提升在稀疏梯度上的性能。（）均方根传播：基于权重梯度最近量级的均值为每一个参数适应性地保留学习率，这意味着该算法在非稳态和非线性问题上有很有优秀的性能。此外，算法很容易实现，并且有较高的运算效率和较低的内存需求。模型中有如下参数需要设置，即窗口中的时间步数：由于本文需要对模型的短期、中期、长期预测效果进行评估，本文选择

15、，分别计算模型性能；每个注意力模块中的隐藏层个数，编码器中的隐藏层个数和解码器中的隐藏层个数：本文设置，其中当时在验证集上得到最佳性能以用于评估。本文构建的主体结构如下：一个全连接层，一个空间注意力机制，一个递归层，一个时间注意力机制，一个层。为了防止模型过拟合，在每个训练批次中，通过按照一定的概率随机使某些隐含层节点不工作。等发现，输入层为的率适用于各种任务，因此本文将率设置为。为剔除神经网络模型训练的随机性，本文对每个模型进行次训练，记录结果并取均值以评价模型性能。结果分析本节用于对比六种基线模型和四种添加了注意力机制的模型在短、中、长期预测

16、股票指数收盘价的表现。在基线模型中，支持向量回归机（），卷积神经网络（），门控循环单元网络（），标准长短期记忆神经网络（），双向长短期记忆神经网络（），结合主成分分析第期杨蓦，等：基于时空注意力机制的双向长短期记忆神经网络的股指预测研究的双向长短期记忆神经网络（），以及四个添加了注意力机制的模型：分别结合了空间注意力机制（）和时间注意力机制（）的双向长短期记忆神经网络，结合时空注意力机制的标准模型（），以及结合时空注意力机制的（）。在进行模型评估指标计算前，为了便于与原始数据进行比较，衡量模型性能，对预测结果进行反归一化

17、。表展示了十种模型在不同时间步长中的预测表现，本文选取和时的结果进行罗列。总体来看，浅层学习模型模型在所有时间步长中表现都欠佳；深度学习模型，表现均优于浅层学习模型；模型由于在基础上添加了一层反向结构，可以从历史数据中捕获空间特征和双向时间依赖性，精度高于，的精度也高于；此外，添加了注意力机制的模型总体上预测效果都要优于没有添加注意力机制的模型。表（）和（）模型预测效果比较（和）模型（）（）（）包含时间注意力机制（）不包含注意力机制图时训练集损失函数和验证集损失函数（）包含时间注意力机制（）不包含注意力机制图时训练集损失函数和验证集损失函数运筹与管理年第卷

18、图和图分别为和时训练集损失和验证集损失随迭代次数的变化趋势。在时，时间注意力机制的作用不是很明显，有时间注意力机制和没有的训练集损失和验证集损失都有逐渐降低趋势。但是当时间步长增加的时候，在时，如果没有时间注意力机制，运算时的验证集损失反而会随着迭代次数的增加而呈上升趋势，而有时间注意力机制的模型，即使时间步长增加，验证集损失也会随着迭代次数增加而呈下降趋势，且当迭代次数在以后逐渐稳定下降。说明在多步预测中，时间注意力机制可以捕捉数据之间的长期依赖性，因此随着运算迭代次数的增加，模型在训练集和验证集数据上的准确度才会逐渐增加。（）不同模型变化（）不同模型变化图时间步长改变时

19、有无注意力机制的模型性能比较图中（）和（）分别为，和的和随着时间步长增加的变化图。由于主成分分析方法作为比较有效的特征筛选方法，将其与空间注意力机制进行对比，可以评估本文特征筛选方法的有效性。注意力权重可视化不仅可以看到每个特征有多少注意力被关注和接收，还可以识别最重要的特征。对比和，发现使用空间注意力机制筛选特征在任何时间步长都比用主成分分析降维达到更低的预测误差，且当时，模型预测精度低于原始，原因可能是进行单步预测的时候，会使输入数据损失掉一部分有效信息，反而使原本模型的预测精度降低。而添加了空间注意力机制的模型，可以对输入特征进

20、行筛选和分析，更有效的提取输入指标的数据结构，并对重要变量进行更高的关注度，同时减少了在模型在训练非信息性特征时花费的不必要的计算时间从而降低了高计算成本以及过度拟合的风险，因此在进行预测时可以达到更高的准确率。由图可知，随着时间步长的增加，模型的预测精度均会降低，但是随着时间步长的增加，其预测误差增加幅度不大，且当时，预测误差相对于有所下降，说明添加了时间注意力模块的模型在预测长时间序列的时候有很大优势，而没有时间注意力机制的模型，当时间步长增加时，模型预测误差会有较大程度的升高，预测精度会大幅度降低，说明时间注意力机制的确可以保持序列的长期依赖性，在长期预测时表现更优。概而言之，基

21、于注意力的模型通过学习不同属性和不同序列之间的时空关系，可以在股票指数序列预测中实现更好的性能，从而为该神经网络提供了良好的解释性。图（）时所有模型的预测价格和真实价格比较图（）时所有模型的预测价格和真实价格比较第期杨蓦，等：基于时空注意力机制的双向长短期记忆神经网络的股指预测研究图（）和（）分别为和时的模型预测结果和真实收盘价的对比图。可以看出当时间步数变长时，所有模型的拟合误差都会增大。结论本文研究了基于注意力机制的方法在短、中、长期香港恒生股票指数收盘价预测中的有效性。所提出的模型在几乎所有时间步长的预测中均达到最佳结果。实验结果证明了以下结论：（）在其他条件相同的情况下，可以在任何时间步长达到比更优的准确率。（）基于注意力机制的模型在股票指数的短、中、长期预测中均优于所有基线方法，这是由于时空关系的清晰有效表示和学习能力所致。（）模型在股票指数预测中，准确率高于结合了模型，表明空间注意力机制可以更有效地提取数据关系。（）模型在股票指数的长期预测中更准确，这表明在长期预测中保持时间序列的长期依赖性很重要。参考文献：，（）：，（）：，：，：，（）：，（）：，：，：，：运筹与管理年第卷

展开阅读全文