当前位置:   article > 正文

强化学习中,Q-Learning与Sarsa的差别有多大?_在线qlearning

在线qlearning

本文首发于:行者AI

我相信,从某种意义上讲,强化学习是人工智能的未来。 —— 强化学习之父,Richard Sutton

简单来说就是,智能体通过强化学习,可以知道自己在什么状态下,应该采取什么样的动作使得自身获得最大奖励。强化学习分为在线学习和离线学习,本文以Q-learning(离线)和Sarsa(在线)出发,浅谈两者异同。

1. 简述Q-learning

Q-Learning是强化学习算法中Value-based中的一种算法,Q即为Q(s,a)就是在某一时刻的s状态下(s∈S),采取动作a (a∈A)动作能够获得收益的期望,环境会根据agent的动作反馈相应的回报reward r,所以算法的主要思想就是将State与Action构建成一张Q-table来存储Q值,然后根据Q值来选取能够获得最大的收益的动作。

更简单的理解就是我们基于状态s利用 ε − g r e e d y \varepsilon-greedy εgreedy​​​法进行贪婪选择出动作a,然后执行动作a,得出下一状态s’以及reward r

Q ( s , a ) = Q ( s , a ) + α ∗ ( r + γ ∗ m a x ( Q ( s ′ , a ∗ ) ) − Q ( s , a ) ) Q(s,a) = Q(s,a) + α*(r+γ*{max}(Q(s',a^*))-Q(s,a)) Q(s,a)=Q(s,a)+α(r

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/不正经/article/detail/302151
推荐阅读
相关标签
  

闽ICP备14008679号