当前位置:   article > 正文

强化学习之Grid World的Monte Carlo算法解析【MiniWorld】SYSU_2023SpringRL_基于深度强化学习的网格世界路径规划算法

基于深度强化学习的网格世界路径规划算法

强化学习之Grid World的Monte Carlo算法解析【MiniWorld】SYSU_2023SpringRL

题目以及思路

环境在这篇博客强化学习原理及应用作业之动态规划算法【SYSU_2023SpringRL】里面介绍了,不再赘述。

看看提示:蒙特卡洛方式在每次 episode 结束后(即从每次 env.reset() 到一个回合结束,结束可能有两个原因,一是环境 step 后返回 done=True ,二是当前回合步数达到最大值 t>=env.max_step())更新遍历过的状态的 V 值。

Assignment1/mc.py 提供了一个示例模板,模板内容可根据需求使用和修改,但需要保证其是一个可运行的程序,运行结果需打印出最终收敛的 V 表 v ,以及使用 env.update_r(v) 后将 V 表的值同步至环境端后的渲染图形,输出格式不限制。

提示:MC 和 TD 方法需要运用探索和 Q 表

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/知新_RL/article/detail/650192
推荐阅读
相关标签
  

闽ICP备14008679号