赞
踩
目录
一、介绍
二、关于此文章
三、强化学习框架
四、奖励类型
4.1 配方简单
4.2 折扣累积奖励
五、任务类型
5.1 情节任务
5.2 继续任务
六、策略和价值函数
6.1 政策
6.2 状态值函数
6.3 动作值函数
6.4 V 值和 Q 值的微妙性
七、贝尔曼方程
7.1 V-功能
7.2 Q函数
八、最优策略
8.1 贝尔曼最优方程
九、结论
R强化学习是机器学习中的一个特殊领域,与监督或无监督学习中使用的经典方法有很大不同。
最终目标包括开发一种所谓的代理,该代理将在环境中执行最佳操作。从一开始,智能体通常表现得很差,但随着时间的推移,它通过与环境的交互来调整其策略,从试错法中调整其策略。