赞
踩
在股票预测的相关研究中,以增加数据源的方式以达到提升预测效果是一个重要的研究方向。本文也基于这一逻辑,考虑增加数据源,使用股价相关基础数据、金融文本数据(含金融新闻和股吧评论),从变量角度,构建多类股票特征以提升股票短期趋势预测的准确性。从算法角度,本文充分结合了随机森林,XGBoost 和LSTM 算法各自的优越性,基于LSTM 算法,并使用随机森林算法,XGBoost 算法对LSTM 算法的预测结果进行进一步的修正,以提升预测效果。
随着互联网的发展,投资者能够更加自由和便利地在网络上发表自己的观点和看法。目前国内股市投资者中散户较多,而其并不具备专业的投资相关的知识体系,难以有效把控收益和风险,易产生不当投资行为。基于行为金融学的投资者情绪能够对股市有重要影响这一观点,对于中国股市和股民的实际情况来说,引入金融文本信息以对投资者情绪进行正确的度量进而提高股市趋势预测的准确度,帮助投资者有效规避风险,实现投资效益,充分发挥股市这一重要经济工具的积极作用,促进我国经济社会发展。
首先本文使用股票历史交易数据并选择LSTM 进行训练,LSTM 由于其自身记忆性特点可以用来作为研究股票预测问题的基础算法。其次提出增加金融文本数据相关的特征信息作为输入数据可以影响预测股价变化这一设想,从变量层面分为股价相关基础数据层面和金融文本数据层面,然后,对比分析只使用股价相关基础数据层面的变量和加入金融文本层面变量后在 LSTM, 随机森林,XGBoost 中的表现。实验结果显示加入了金融文本变量后,LSTM 回归预测的效果,随机森林和 XGBoost 分类预测的效果都
有提升,证明了增加金融文本数据变量可以提高股票预测结果这一设想。基于前者的结论,本文加入金融文本层面变量,结合 LSTM, 随机森林,XGBoost 各自的优势和特性,对原LSTM 的预测结果进行进一步的修正,在本文中称为LSTM 区间修正算法,结果发现,LSTM 区间修正算法的预测结果在 LSTM 预测结果的基础之上有了进一步的提升,最后,选用4 种算法,LSTM 区间修正算法,LSTM 算法,随机森林回归算法,XGBoost回归算法,分别用其预测结果进行投资选股行为,对比收益发现,本文提出的LSTM 区间修正算法收益最佳,LSTM 收益次之,随机森林和 XGBoost 收益较差。也不难发现。 LSTM 区间算法是在LSTM 的基础之上进行微调的结果,或仍可归为LSTM 的范畴,可以在一定程度上说明,LSTM 在进行金融时序数据分析,或进行金融数据预测时,确有一定的优越性,与已有的文献研究结果保持一致。
LSTM,全称为长短期记忆神经网络,在 1997 年被 Hochreiter 和 Schmidhuber 首次提出。LSTM 在处理时间序列数据信息方面有着较好的效果,能够有效克服 RNN 存在梯度爆炸或梯度消失等方面的缺陷,LSTM 神经网络采用控制门的机制,由记忆细胞、输入门、输出门、遗忘门组成。xt 表示t 时刻的输入,ht−1 表示t-1 时刻细胞的状态值,σ代表sigmod 激活函数,tanh 代表tanh 激活函数。在tanh 激活函数的作用下
自变量:以每只成份股t-50,t-49,...,t-1 共计50 个工作日的股价相关基础数据层面等12 个变量,使用 PCA 主成分分析方法,选取大于 1% 的变量,共 9 个主成分变量。
因变量:第 t 个工作日的股票价格数据
建模方法:LSTM 回归算法,共使用5 层神经网络,前4 层使用LSTM 神经网络层,神经元的数量均设立为 50 个,激活函数使用默认激活函数 tanh,dropout 参数均设置为0.2,最后一层及输出层设定为神经元个数为1 的全连接层,使用Adam 加速器,损失函数为均方误差 mse,batchsize 参数设定为 3。
回归评估指标:mse,mae
基于威尔科克森符号秩检验的原理,若模型 1 和模型 2 是没有显著性差异的,则两个模型在分别 50 只个股中均方误差(mse)差值的正秩的总和与负秩的总和会很接近,当差异大一定程度时,可以认为两个模型是有显著性差异的,从而进一步说明金融文本在LSTM 股价回归预测中的有效性。同理,若模型1 和模型2 是没有显著性差异的,则两个模型在分别50只个股中平均绝对误差(mae)差值的正秩的总和与负秩的总和会很接近,当差异大一定程度时,可以认为两个模型是有显著性差异的。于是,可以提出零假设和备择假设如下:
自变量:以每只成份股t-50,t-49,...,t-1 共计50 个工作日的股价相关基础数据层面和金融文本数据层面等 14 个变量,使用 PCA 主成分分析方法,选取大于 1% 的变量,共11 个主成分变量。
因变量:第 t 个工作日的股票价格数据
建模方法:LSTM 回归算法,使用 5 层神经网络,前 4 层使用 LSTM 神经网络层,神经元的数量均设立为 50 个,激活函数使用默认激活函数 tanh,dropout 参数均设置为0.2,最后一层及输出层设定为神经元个数为1 的全连接层,使用Adam 加速器,损失函数为均方误差 mse,batchsize 参数设定为 3。
回归评估指标:mse,mae
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。