赞
踩
本文约4900字,建议阅读15分钟。
本文介绍了强化学习的基本原理,并通过代码实例来讲解如何找到最优策略。
附链接:
https://towardsdatascience.com/dont-ever-ignore-reinforcement-learning-again-4d026ee81371
最优策略能够最大化预期的值函数 V:
区分于短期收益,值函数 V(s) 是状态s下含折扣的预期长期收益,它表示智能体所处状态的好坏。对一个从该状态开始的智能体来说,这相当于预期的总收益。换言之,这就是在状态s下采取行动a这一步的总收益,被定义为 V(s)。
值函数取决于智能体选择行动所用的策略。学习最优策略需要使用所谓的Bellman方程。
让我们通过下面的例子来直观地了解一下Bellman方程。智能体能够执行行动1, 2, …, N,这会让它转移到未来的状态S1, S2, …, SN, 从而分别得到相应的收益 r1, r2, …, rN。对于未来各个状态来说,预期的长期收益是V1, V2, …, VN。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。