百度NLP：强化学习之原理与应用_nlp强化学习

作者：Gausst松鼠会 | 2024-04-23 16:45:57

踩

nlp强化学习

强化学习之原理与应用

强化学习特别是深度强化学习近年来取得了令人瞩目的成就，除了应用于模拟器和游戏领域，在工业领域也正取得长足的进步。

百度是较早布局强化学习的公司之一。这篇文章系统地介绍强化学习算法基础知识，强化学习在百度的应用，以及百度近期发布的强化学习工具PARL。

强化学习算法

强化学习（RL）和其他学习方法的异同

首先，从宏观层面看，可以通过“三轴”图来看强化学习与其他学习方法的联系和区别：第一条轴deterministic -stochastic可以描述转移概率，决策过程和奖励值分布的随机性；第二条轴fixed dataset -interactive data，表示学习数据的来源方式；第三轴instant reward -delayed reward表示奖励值是立即返回还是有延迟的。我们熟知的有监督学习，针对的是静态的学习数据，以及近似可以看作无延迟的奖励；动态规划针对的则是确定性的环境，以及静态的数据；主动学习针对无延迟的奖励以及交互型的数据；多臂老虎机（multi-armed bandits）则同时处理带有奖励随机性和交互型的数据，但依旧是无延迟的奖励问题；只有强化学习处理三个方向（随机，有延时，交互）的问题。因此，强化学习能够解决很多有监督学习方法无法解决的问题。

强化学习（RL）的基本定义

强化学习的主要思想是基于机器人（agent）和环境（environment）的交互学习，其中agent通过action影响environment，environment返回reward和state，整个交互过程是一个马尔可夫决策过程。

举个例子如雅利达游戏：state指看到当前电游屏幕上的图像信息；agent或者人类专家面对state可以有相应的action，比如对应游戏手柄的操作；environment在下一帧会反馈新的state和reward，整个过程可以用马尔可夫决策过程来描述。在这个过程中的environment则主要包括两个机制：一个是transition代表环境转移的概率，另外一个是reward。

Markov Decision Process和Policy的定

可以通过更具体的类比来理解有监督和强化学习的REINFORCE算法的关联。假设在t时刻action以来表示. 在有监督的学习过程中需要人来示范动作, 通常我们希望机器去学习人的示范动作，在这里就代表示范的label。我们一般可以通过最小Negative Log-Likelihood (NLL)来使得我们的policy函数逼近人的示范。

从Supervised Learning到REINFORCE

除此之外，DQN、temporal difference等方法，则是基于一个值（critic）评价体系进行迭代，而非直接求解policy。这类方法存在显著问题是无法针对连续动作空间。本文不再展开介绍。

REINFORCE 和 CreditAssignment

从REINFORCE到Advantage Function的计

强化学习涉及的算法非常多，种类也非常广，包括：model-free算法，这类算法最为大家所熟知，而它又可以分为critic only，actor only和actor-critic；model based算法，通过对环境建模来进行规划，这类算法在训练过程中具有很高效率，但因为inference的时候需要做planning效率则较低，这类方法最近获得越来越多的关注；还有一些和不同算法结合在一起的组合RL方法，如Auxiliary Tasks, Hiearchical RL,DeepExploration，逆强化学习等。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/Gausst松鼠会/article/detail/474978