赞
踩
目录
强化学习研究综述_高阳
一、与其他机器学习对比
二、分类
三、最优搜索型强化学习算法
四、经验强化型强化学习算法
五、部分感知
六、函数估计
七、多Agent强化学习
八、符号学习和强化学习偏差
九、强化学习应用
非顺序型:动作获取环境奖赏,不影响后继动作和状态
顺序型:动作影响未来状态和未来奖赏
环境为马尔可夫型,顺序型强化学习:马尔可夫决策过程建模
T函数和R函数未知
采用技术:迭代技术调整当前状态和下一状态的值函数估值
TD算法(蒙特卡罗思想+动态规划思想)
①无需系统模型,从Agen