当前位置:   article > 正文

强化学习笔记:目标、奖励、回报和回合_强化学习中的奖赏信号

强化学习中的奖赏信号

目录

1. 前言

2. 目标(Goals)和奖励(Rewards)

3 回报(return)与回合(episode)

4. 连续性任务与回合制任务的相对性

5. Unified Notation for Episodic and Continuing Tasks


1. 前言

        在上一篇我们介绍了强化学习问题的形式化(数学)框架:马尔科夫决策过程。本篇以及后续几篇继续讨论这个形式化(数学)框架下的关键要素和概念,如奖励和回报、策略、值函数、贝尔曼方程等等。

        注意,本文中有时候说time-step t,有时候说时刻t,表示相同的意思。

 

2. 目标(Goals)和奖励(Rewards)

        在强化学习中,智能体(学习者)的目标(purpose or goal)的形式化体现为奖励信号。在每一步,奖励信号是一个实数值信号

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/羊村懒王/article/detail/668193
推荐阅读
相关标签