当前位置:   article > 正文

摩根大通---深度强化学习在股票择时交易的应用_大摩的股票市场择时模型

大摩的股票市场择时模型

作者:chen_h
微信号 & QQ:862251340
微信公众号:coderpai


在八月一号,金融时报发布了一个关于摩根大通(JP Morgan Chase)优化交易程序的文章,如果你没有订阅金融时报,也可以访问 Business Insider 的文章。这个优化的目的是交易大型订单的时候,尽量减少对市场价格的影响。

这是一个非常复杂的系统,它是由下面的几部分组成:

这个系统算法的核心是 RL 算法,它根据市场的反映来学习最佳的择时交易动作(选择最优价格,交易持续时间和订单大小)。根据摩根大通做的技术报告,这个系统的强化学习算法同时用到了 Sarsa(On-Policy TD Control)和 Q-learning(Off-Policy Temporal Difference Control Algorithm)。技术报告,可以关注微信公众号 coderpai,后台回复 JPM 获得

Sarsa

Q-Learning

算法状态由价格序列,预期的价差成本,价格填充概率,订单大小以及交易时间长短,交易总量的百分比等等。奖励由立即奖励(差价)和最终奖励(交易结束)组,订单持续时间和市场惩罚(显然这些是负面的奖励机制)。

因为状态和动作空间太大了,不能被存储在表格中处理,所有动作被存储在深度神经网络的权重中。我们假设这个深度神经网络是通过随机梯度下降来进行权重更新的,如下:

摩根大通相信这是华尔街第一个实时交易 AI 应用程序。该系统的最新进展会在里斯本的 QuantMinds 会议上进行展示(2018年5月)。


原文来源:Medium

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/盐析白兔/article/detail/522509
推荐阅读
相关标签
  

闽ICP备14008679号