当前位置:   article > 正文

机器学习基础 之 强化学习_强化学习,学习器

强化学习,学习器


转自: https://www.zhenxiangsimple.com/2019/04/12/tech-ml-qhxx


  强化学习的原理,就是通过结果的反馈来对有效规则进行强化,并弱化无效或者较差的规则的一种学习原理。跟常规的监督学习不同之处在于,在学习器的训练前没有标记样本的结果,而需要通过尝试来得到各行为的结果,进而来对训练本身进行反馈。

任务与奖赏

  任务与奖赏是强化学习的一个基础概念,就是基于一个状态下通过执行某个动作(任务)使得状态发生改变,通过对改变后的状态进行对比来决定当前任务的好坏,如果状态变得更好则对任务进行奖赏。

k-摇臂赌博机

  K摇臂赌博机是一种由K个摇臂的赌博机,玩家在放入游戏币后可以选择一个摇臂进行操作,而所有摇臂本身有不同的概率来赢得奖励,具体摇臂本身出的奖赏也只是一个概率值并非确定值

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/427416?site
推荐阅读
相关标签
  

闽ICP备14008679号