赞
踩
环境在这篇博客强化学习原理及应用作业之动态规划算法【SYSU_2023SpringRL】里面介绍了,不再赘述。
看看提示:蒙特卡洛方式在每次 episode 结束后(即从每次 env.reset() 到一个回合结束,结束可能有两个原因,一是环境 step 后返回 done=True ,二是当前回合步数达到最大值 t>=env.max_step())更新遍历过的状态的 V 值。
Assignment1/mc.py 提供了一个示例模板,模板内容可根据需求使用和修改,但需要保证其是一个可运行的程序,运行结果需打印出最终收敛的 V 表 v ,以及使用 env.update_r(v) 后将 V 表的值同步至环境端后的渲染图形,输出格式不限制。
提示:MC 和 TD 方法需要运用探索和 Q 表
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。