赞
踩
本篇仅记录学习笔记。
强化学习方法起源于动物心理学的相关原理,模仿人类和动物学习的试错机制,是一种通过与环境交互,学习状态到行为的映射关系,以获得最大累积期望汇报的方法。
强化学习、监督学习与非监督学习
机器学习实际上有三大分类:监督学习、非监督学习和强化学习。
根据是否建立环境动力学的模型划分为模型方法和无模型方法。
根据不同的估计方法可以把强化学习方法分为基于值函数的方法、基于策略的方法和行动者-评论家方法。
制作软件 : • GitMind 点击可全平台使用
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。