赞
踩
目录
5. Unified Notation for Episodic and Continuing Tasks
在上一篇我们介绍了强化学习问题的形式化(数学)框架:马尔科夫决策过程。本篇以及后续几篇继续讨论这个形式化(数学)框架下的关键要素和概念,如奖励和回报、策略、值函数、贝尔曼方程等等。
注意,本文中有时候说time-step t,有时候说时刻t,表示相同的意思。
在强化学习中,智能体(学习者)的目标(purpose or goal)的形式化体现为奖励信号。在每一步,奖励信号是一个实数值信号
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。