赞
踩
首先,强化学习并不是某一种特定的算法,而是一类算法的统称。
解决序列决策问题的一类方法,通过寻求最优策略,获取最大回报。
强化学习就是智能体从环境到动作映射的学习,以使回报信号(激励信号)函数值最大。
引用下百度百科下强化学习的定义:强化学习(Reinforcement Learning, RL),又称增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题 。
强化学习的常见模型是标准的。按给定条件,强化学习可分为基于模式的强化学习(model-based RL)和无模式强化学习(model-free RL) ,以及主动强化学习(active RL)和被动(passive RL)。
强化学习是和监督学习,非监督学习并列的第三种机器学习方法。
机器学习下的几种方法的对比:
强化学习和监督学习、无监督学习最大的不同就是不需要大量的“数据喂养”,而是通过自己不停的尝试来学会某些技能。也就是说,强化学习是让计算机实现从一开始完全随机的进行操作,通过不断地尝试,从错误中学习,最后找到规律,学会了达到目的的方法。智能体(Agent)以“试错”的方式进行学习,通过与环境进行交互获得的奖赏指导行为,目标是使智能体获得最大的奖赏。
算法执行个体(Agent)来做决策,即选择一个合适的动作(Action)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。