赞
踩
强化学习(Reinforcement learning),与监督学习,无监督学习是类似的,是一种统称的学习方式。它主要利用智能体与环境进行交互,从而学习到能获得良好结果的策略。与有监督学习不同,强化学习的动作并没有明确的标注信息,只有来自环境的反馈的奖励信息,它通常具有一定的滞后性,用于反映动作的“好与坏”。
参考资料:
https://zh.wikipedia.org/wiki/%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0
4 个主要概念:环境状态(S)、动作(A)和奖惩(R), 转移函数(P)。
机器感知到的环境描述构成环境状态(S),机器采取的动 作构成了动作空间(A),潜在的转移函数(P)使环境从当前 的状态转移到另一个状态,在转移到另一个状态的同时,环境根据潜在的奖励函数(R)反馈给机器一个奖赏。(遵循马尔可夫 决策过程 MDP)。
环境状态(S):反映了环境的状态特征,在时间戳
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。