Q-learning算法_在q learning中,q值的计算公式

作者：我家小花儿 | 2024-08-21 17:30:30

踩

在q learning中,q值的计算公式

Q-learning算法

在Q-learning中，Q的意思是Q函数，即某个策略 $\pi$ 下的动作价值函数 $Q^\pi(s_t, a_t)$ , 他表示在状态 $s_t$ 下, 执行动作 $a_t$ 会带来的累计奖励 $G_t$ 的期望

\begin{aligned} Q^{π} (s_{t}, a_{t}) & = E [G_{t} | s_{t}, a_{t}] \\ = E [r_{t} + γ Q^{π} (s_{t + 1}, a_{t + 1}) | s_{t}, a_{t}] \end{aligned}

$\begin{split} Q^\pi(s_t, a_t) &= \mathbb{E}[G_t|s_t, a_t] \\ &=\mathbb{E}[r_t + \gamma Q^\pi(s_{t+1}, a_{t+1})|s_t, a_t] \end{split}$

Q^{π} (s_{t}, a_{t}) = E [G_{t} ∣ s_{t}, a_{t}] = E [r_{t} + γ Q^{π} (s_{t + 1}, a_{t + 1}) ∣ s_{t}, a_{t}]

给定策略下, 当前状态的Q函数值与

当前动作的奖励
下一状态的Q函数值

有关

因此, Q函数的计算可以通过动态规划算法来实现.

但由于计算t时刻的Q函数是,需要知道未来时刻的奖励,这样就
“不仅需要知道某一状态的所有可能出现的后续状态及对应的将离职,还要进行全宽度的回溯来更新该状态的价值”, 对于大规模问题,这样的做法几乎是不可能使用的, 因此Q-learning使用了浅层的时序差分采样学习.

也就是基于当前策略 $\pi$ 预测接下来发生的n步动作,并计算其奖励值, 以计算累计奖励.

在Q-learning中, 最优策略 $\pi^{*}$ 对应的最优Q函数满足
$Q^*(s_t,a_t) = \max_{\pi} Q^\pi(s_t, a_t) = \mathbb{E}{s_{t+1}}[r_t+\gamma\ \max_{a_{t+1}}Q^{\pi}(s_{t+1}, a_{t+1})|s_t, a_t]$
其中 $Q^*(s_t,a_t) = Q^{\pi^*}(s_t,a_t)$

Q-learning在学习过程中不断更新Q值, 但采用的是类似梯度下降的方式
$Q^*(s_t,a_t) \leftarrow Q^*(s_t,a_t)+ \alpha(r_t+\gamma\ \max_{a_{t+1}}Q^{*}(s_{t+1}, a_{t+1}- Q^*(s_t,a_t))$

这就是Q-learning用于更新价值(动作价值)的策略.

而对于具体选择动作的策略, Q-learning一般采用 $\epsilon$ -贪婪策略.

由于采取动作的策略( $\epsilon$ -贪婪策略)和更新价值的策略(渐进式更新)不同, 因此Q-learning是一种off-policy策略.

声明：本文内容由网友自发贡献，转载请注明出处：【wpsshop】