赞
踩
Agent与环境交互,产生下一个状态、奖励和终止等信息,并将这些信息存储在回放缓冲区中。
从缓冲区采样,计算损耗并优化模型
动作空间:向左或者向右
cartpole-v0的奖励边界是200,cartpole-v1的奖励边界是500。