赞
踩
在机器学习领域,有一类重要的任务和人生选择很相似,即序贯决策(sequential)任务。决策和预测任务不一样,往往会有“后果”,因此决策者需要对未来负责,在未来的时间点做出进一步决策,实现序贯决策的机器学习方法就叫做强化学习(reinforcement learning)。
泛化来说,强化学习是机器通过与环境交互实现目标的一种计算方法。机器和环境的一轮交互是指,机器在环境的一个状态下做出动作决策,作用到环境中,环境发生相应的改变并且将奖励反馈和下一轮状态传回机器。这种交互迭代进行,机器的目标是最大化多轮交互过程获得累积奖励的期望。强化学习用智能体(agent)概念表示决策的机器。
在每轮交互中,智能体感知到环境目前所处的状态,作用到环境中;环境得到智能体的动作后,产生即时奖励并发生相应的状态转移;智能体则在下一轮交互中感知到新的环境状态。
智能体包括3种关键要素:感知、决策和奖励
强化学习的智能体是在动态环境的交互过程中完成序贯决策的。如果在环境这样一个自身演变的随机过程中加入外来的干扰因素,即智能体的动作,那么环境的下一刻状态的概率分布将由当前状态和智能体的的动作来共同决定,用最简单的数学公式表示为:
下一刻状态~P(·|当前状态,智能体的动作)
根据上式可知,智能体决策的动作作用到环境中,使得环境状态发生改变,而智能体接下来需要在新的状态下进一步给出决策。
因此,与面向决策任务的智能体进行交互的环境是一个动态随机过程,其未来状态的分布由当前状态和智能体决策的动作共同决定,并且每轮状态转移伴随两方面的随机性:
1. 智能体决策动作的随机性
2. 环境基于当前状态和智能体动作来采样下一刻状态的随机性
智能体和环境每次进行交互时,环境产生相应的奖励信号,往往是一个标量实数。该奖励信号表示当前状态或动作的好坏,可以理解为玩游戏过程中某操作得到的分数。整个交互过程每一轮获得的奖励信号可以进行累加,形成智能体的整体回报(return),即一把游戏最后的分数值。在强化学习中,我们将回报的期望定义为价值,也就是智能体学习的优化目标。
价值的计算过程比较复杂,需要对交互过程中每一轮智能体采取动作的概率分布和环境相应的状态转移概率分布做积分运算。
强化学习和有监督学习的目标是一致的,即在某个数据分布下优化一个分数值的期望;而强化学习和有监督学习的优化途径不同。
强化学习和有监督学习在数据层面有一定区别:
在强化学习中,数据在智能体与环境交互过程中得到。如果智能体不采取某策略,那么该动作对应数据永远无法被观测到,因此当前智能体的训练数据来自之前智能体的决策结果。智能体的策略不同,与环境交互产生的数据分布就不同。
在有监督学习中,从给定的数据分布采样得到训练数据集。有监督学习通过优化训练数据集设定的目标函数找到模型的最优参数。这里,训练数据集背后的数据分布保持恒定。
具体来说,强化学习存在关于数据分布的概念:占用度量(occupancy measure),用于衡量一个智能体决策与动态环境交互过程中,采样得到具体的状态动作对(state-action pair)的概率分布。
如果一个智能体的策略有所改变,它与环境交互得到的占用度量也会发生改变。
由占用度量的定义可知,强化学习本质的思维方式包括以下两点:
(1)强化学习的策略在训练中不断更新,对应的数据分布(占用度量)也会相应发生改变
(2)由于奖励建立在状态动作对之上,一个策略对应的价值其实就是一个占用度量下对应奖励的期望,寻找最优策略等同于寻找最优占用度量
接下来使用数学模型对有监督学习任务和强化学习进行区分。
对于有监督学习任务,目标是找到一个最优模型函数,使其在训练数据集上最小化一个给定的损失函数。在训练数据独立同分布的假设下,优化目标表示最小化模型在整个数据分布上的泛化误差,即:
对于强化学习任务,目标是最大化智能体策略在动态环境交互过程中的价值。策略的价值等价转换成奖励函数在策略的占用度量上的期望,即:
参考书籍:《动手学强化学习》
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。