羊村懒王

这个屌丝很懒，什么也没留下！

热门标签

热门文章

当前位置: article > 正文

强化学习笔记：目标、奖励、回报和回合_强化学习中的奖赏信号

作者：羊村懒王 | 2024-06-03 17:30:43

赞

踩

强化学习中的奖赏信号

目录

2. 目标(Goals)和奖励(Rewards)

3 回报(return)与回合(episode)

4. 连续性任务与回合制任务的相对性

5. Unified Notation for Episodic and Continuing Tasks

1. 前言

在上一篇我们介绍了强化学习问题的形式化(数学)框架：马尔科夫决策过程。本篇以及后续几篇继续讨论这个形式化(数学)框架下的关键要素和概念，如奖励和回报、策略、值函数、贝尔曼方程等等。

注意，本文中有时候说time-step t，有时候说时刻t，表示相同的意思。

2. 目标(Goals)和奖励(Rewards)

在强化学习中，智能体（学习者）的目标（purpose or goal）的形式化体现为奖励信号。在每一步，奖励信号是一个实数值信号

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/羊村懒王/article/detail/668193

推荐阅读

相关标签

Copyright © 2003-2013 www.wpsshop.cn 版权所有，并保留所有权利。

闽ICP备14008679号