赞
踩
在策略梯度 RL 中,DNN 用于在步骤 3 中构建策略,其中 DNN 的输入是状态,输出是动作。图1是策略梯度RL的MDP图。通过采用 J(θ) 的梯度并更新 DNN 中的权重,相应地学习策略。在临床环境中,与其他 RL 算法相比,策略梯度 RL 并不“流行”。其根本原因可能在于它是一种基于策略的算法,需要基于新策略迭代收集数据。该算法是通过“反复试验”学习的。大多数临床应用无法承担收集实时临床数据的成本。例如,要了解脓毒症患者药物剂量的最佳临床决策,进行反复试验是不道德的,也将是耗时的。然而,策略梯度 RL 在其他领域仍然很流行,例如机器人控制和计算机棋盘游戏,这些领域的环境是一个可以承受试错的模拟器。
基于价值的强化学习在临床应用中很常见,我们将在第 3 节关于 DRL 的临床应用中看到更多例子。
Actor-critic RL 是一种 off-policy 算法,但替代版本也可以是一种 on-policy 算法。唯一的区别是在步骤 1 中,我们只收集一个轨迹并更新策略以从更新的策略生成新样本,而不是收集一批轨迹。同样,on-policy 不适合在实时临床应用中实施;因此,本文中讨论的应用之一(Wang 等人,2018 年)利用了 off-policy actor-critic RL 算法。
上面讨论的所有 RL 算法都是无模型 RL,在无模型 RL 中,我们假设我们不知道确切的转换函数 p ( s t + 1 ∣ s t , a t ) p(s_{t+1} | s_t, a_t) p(st+1∣st,at)。因此,鉴于当前状态和动作对,我们不知道真正的下一个状态是什么。无模型 RL 不会尝试明确学习转换函数,而是通过从环境中采样来绕过它。了解正确的转换功能或环境总是有帮助的。此外,在某些情况下,我们确实知道转换函数,例如我们自己设计规则的简单棋盘游戏。对于临床应用,大多数时候我们不确定确切的转换函数,但我们确实对环境的动力学有所了解。例如,临床医生一般都知道,给病人服用适当的药物剂量后,病人会逐渐从病态恢复到健康状态。即使我们不知道环境的全貌,我们仍然可以提出几个模型来估计真实的转换函数(环境)并从那里对其进行优化。它被称为基于模型的强化学习(Doya 等,2002)。我们可以使用多种模型来估计转移函数,例如高斯过程(GP)(Deisenroth 和 Rasmussen,2011;Rasmussen,2003)、DNN、高斯混合模型(GMM)(Chernova 和 Veloso,2007)等等。对于基于 DNN 模型的 RL,DNN 的输入是状态-动作对 ( s t , a t ) (s_t, a_t) (st,at),输出是 s t + 1 s_{t+1} st+1。 DNN 在第 2 步中为转移函数实现。与作为环境模型的 DNN 相比,GP 的数据效率非常高。 GP 可以使用很少的数据样本对下一个状态进行合理的预测。它在临床环境中很有用,因为大多数临床应用都存在数据不足问题。但是,GP 的局限性在于,当实际过渡函数不平滑时,它会遇到麻烦。此外,如果样本数量庞大且在高维空间中,GP 可能会很慢。它与 DNN 正好相反,其中 DNN 的样本数越大,一般预测越准确。因此,在输入状态为医学图像(非常高维)的临床上下文中,DNN 将比 GP 更适合基于模型的 RL。
拟合 Q 迭代
Double DQN
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。