赞
踩
不含有“目标”的机器学习问题通常被为无监督学习。
无监督学习回答下列问题:
优点:我们可以孤立地进行模式识别,而不必分心于其他问题。
缺点:解决的问题相当有限。
在强化学习问题中,智能体(agent)在一系列的时间步骤上与环境交互。 在每个特定时间点,智能体从环境接收一些观察(observation),并且必须选择一个动作(action),然后通过某种机制(有时称为执行器)将其传输回环境,最后智能体从环境中获得奖励(reward)。 此后新一轮循环开始,智能体接收后续观察,并选择后续操作,依此类推。 强化学习的过程在图中进行了说明。 请注意,强化学习的目标是产生一个好的策略(policy)。 强化学习智能体选择的“动作”受策略控制,即一个从环境观察映射到行动的功能。
强化学习框架的通用性十分强大。例如,我们可以将任何监督学习问题转化为强化学习问题。 当然,强化学习还可以解决许多监督学习无法解决的问题。
强化学习可能还必须处理部分可观测性问题。
强化学习智能体必须不断地做出选择:是应该利用当前最好的策略,还是探索新的策略空间(放弃一些短期回报来换取知识)。
当环境可被完全观察到时,强化学习问题被称为马尔可夫决策过程(markov decision process)。 当状态不依赖于之前的操作时,我们称该问题为上下文赌博机(contextual bandit problem)。 当没有状态,只有一组最初未知回报的可用动作时,这个问题就是经典的多臂赌博机(multi-armed bandit problem)。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。