赞
踩
作者:chen_h
微信号 & QQ:862251340
微信公众号:coderpai
在八月一号,金融时报发布了一个关于摩根大通(JP Morgan Chase)优化交易程序的文章,如果你没有订阅金融时报,也可以访问 Business Insider 的文章。这个优化的目的是交易大型订单的时候,尽量减少对市场价格的影响。
这是一个非常复杂的系统,它是由下面的几部分组成:
这个系统算法的核心是 RL 算法,它根据市场的反映来学习最佳的择时交易动作(选择最优价格,交易持续时间和订单大小)。根据摩根大通做的技术报告,这个系统的强化学习算法同时用到了 Sarsa(On-Policy TD Control)和 Q-learning(Off-Policy Temporal Difference Control Algorithm)。技术报告,可以关注微信公众号 coderpai,后台回复 JPM 获得
算法状态由价格序列,预期的价差成本,价格填充概率,订单大小以及交易时间长短,交易总量的百分比等等。奖励由立即奖励(差价)和最终奖励(交易结束)组,订单持续时间和市场惩罚(显然这些是负面的奖励机制)。
因为状态和动作空间太大了,不能被存储在表格中处理,所有动作被存储在深度神经网络的权重中。我们假设这个深度神经网络是通过随机梯度下降来进行权重更新的,如下:
摩根大通相信这是华尔街第一个实时交易 AI 应用程序。该系统的最新进展会在里斯本的 QuantMinds 会议上进行展示(2018年5月)。
原文来源:Medium
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。