强化学习系列（三）：马尔科夫决策过程_什么是马尔科夫性

作者：空白诗007 | 2024-07-11 10:48:40

踩

什么是马尔科夫性

一、前言

第二章中我们提到了多臂老虎 ji问题，该问题只有一个state，需要选择一个action，不需要考虑在不同state下选择action的问题——（associative problem)，即不需要考虑状态间的转移，以及action对一系列state的影响。但是在第一章强化学习简介中，我们提到强化学习过程可以看做一系列的state、reward、action的组合。本章我们将要介绍马尔科夫决策过程（Markov Decision Processes)用于后续的强化学习研究中。

二、马尔科夫过程（Markov Processes）

2.1 马尔科夫性

首先，我们需要了解什么是马尔科夫性：

这里写图片描述
当我们处于状态 $S_t$ 时，下一时刻的状态 $S_{t+1}$ 可以由当前状态决定，而不需要考虑历史状态。

未来独立于过去，仅仅于现在有关

将从状态s 转移到状态 s’ 的转移概率简写为 $P_{ss'}$ ：
这里写图片描述
那么所有状态间的转移关系可以由状态转移矩阵表示：

2.2 马尔科夫过程

马尔科夫过程也称为马尔科夫链，由一些具有马尔科夫性的量随机组成的记忆链，这些量之间有转移概率。如具有马尔科夫性的state可以组成马尔科夫链 $S_1,S_2,...$ .其定义如下：
这里写图片描述

2.3 小例子：student Markov Chain

以学生上课为例子，假设一学期只有三节课，那么在class 1的状态下有0.5的概率前往class 2，另外0.5的概率会去看Facebook。看Facebook会停不下来，所以有0.1的概率回到class1，而有0.9的概率继续看。假如我们从 class1到了class2，上课觉得无聊有0.2的几率会睡觉，另外0.8的概率咬牙坚持到class3。到了class 3 后，想到上课快上完了，去泡个吧（0.4 go to pub)，然后喝断片了，忘了上课内容，会随机回到class1、class2、class3。从class 3有0.6的概率会通过考试，考试完了就肯定回去睡觉啦，在这里sleep是一个最终状态。
这里写图片描述

三、马尔科夫决策过程

介绍了马尔科夫链后，自然有个疑问什么是马尔科夫决策过程（MDP）？
首先，我们介绍Markov Reward Process（MRP），再从MRP演变到MDP。

3.1 Markov Reward Process

最开始说到马尔科夫链是由一些具有马尔科夫性的量随机组成的记忆链，那么MRP就是关于价值的马尔科夫链。
这里写图片描述
和上面的关于state的马尔科夫链相比，增加了reward $R$ 和discount $\gamma$ （红色标出），我们已经知道reward的定义，那么为什么会有discount $\gamma$ 呢？

3.1.1 Return

在强化学习中，我们关注的不仅仅是当前的reward，因为状态的转移可能对未来的收益都有影响，所以我们关注的是总体reward之和:
这里写图片描述

这个式子好像不是单纯的reward之和啊！果然，这是一个有心机的reward之和，他包含了我们好奇的 discount $\gamma$ 。为什么要有这个呢？

为了数学上使得reward之和收敛，此处选择了一个折扣因子 $0=<\gamma<=1$ .
可能我们的模型（转移概率）不够完备，选择 $\gamma$ 可以减小未来reward对return的影响
另外，当

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/空白诗007/article/detail/809842