赞
踩
强化学习的原理,就是通过结果的反馈来对有效规则进行强化,并弱化无效或者较差的规则的一种学习原理。跟常规的监督学习不同之处在于,在学习器的训练前没有标记样本的结果,而需要通过尝试来得到各行为的结果,进而来对训练本身进行反馈。
任务与奖赏是强化学习的一个基础概念,就是基于一个状态下通过执行某个动作(任务)使得状态发生改变,通过对改变后的状态进行对比来决定当前任务的好坏,如果状态变得更好则对任务进行奖赏。
K摇臂赌博机是一种由K个摇臂的赌博机,玩家在放入游戏币后可以选择一个摇臂进行操作,而所有摇臂本身有不同的概率来赢得奖励,具体摇臂本身出的奖赏也只是一个概率值并非确定值
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。