赞
踩
状态的随机性来自于状态转移函数。当状态 s 和动作 a 都被确定下来,下一个状态仍然有随机性。
**动作的随机性来自于随机决策。**
消除
π
\pi
π的影响,就是要选择最好的策略函数
π
\pi
π,记为
Q
∗
(
s
t
,
a
t
)
:
Q_*(st,at):
Q∗(st,at):
其中只依赖于 s t 和 a t ,而与策略 π 无关。
轨迹
区别回合(episodes)和epoch
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。