【深度学习】强化学习（五）深度强化学习

作者：从前慢现在也慢 | 2024-04-27 07:28:25

踩

深度强化学习

文章目录

一、强化学习问题
- 1、交互的对象
- 2、强化学习的基本要素
- 3、策略（Policy）
- 4、马尔可夫决策过程
- 5、强化学习的目标函数
- 6、值函数
- 7、深度强化学习
- - 1. 背景与动机
  - 2. 关键要素
  - 3. 成功案例
  - 4. 挑战和未来展望
  - 5. 核心概念和方法总结

一、强化学习问题

强化学习的基本任务是通过智能体与环境的交互学习一个策略，使得智能体能够在不同的状态下做出最优的动作，以最大化累积奖励。这种学习过程涉及到智能体根据当前状态选择动作，环境根据智能体的动作转移状态，并提供即时奖励的循环过程。

1、交互的对象

在强化学习中，有两个可以进行交互的对象：智能体和环境

智能体（Agent）：能感知外部环境的状态（State）和获得的奖励（Reward），并做出决策（Action）。智能体的决策和学习功能使其能够根据状态选择不同的动作，学习通过获得的奖励来调整策略。
环境（Environment）：是智能体外部的所有事物，对智能体的动作做出响应，改变状态，并反馈相应的奖励。

2、强化学习的基本要素

强化学习涉及到智能体与环境的交互，其基本要素包括状态、动作、策略、状态转移概率和即时奖励。

状态（State）：对环境的描述，可能是离散或连续的。
动作（Action）：智能体的行为，也可以是离散或连续的。
策略（Policy）：智能体根据当前状态选择动作的概率分布。
状态转移概率（State Transition Probability）：在给定状态和动作的情况下，环境转移到下一个状态的概率。
即时奖励（Immediate Reward）：智能体在执行动作后，环境反馈的奖励。

3、策略（Policy）

策略（Policy）就是智能体如何根据环境状态
声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/495516

推荐阅读

相关标签