赞
踩
具有客观规律,并随之而运动的系统,不受外界影响。
给定条件概率 和初始状态分布
可确定马尔科夫链的分布
求出所有
马尔科夫链观测{}
求出P ()
不断接受输入,受主观意志控制的系统
P ();
P ();
P ();
可自由选择的会影响的分布
求出P(), P(), P();
求观测{};
1.MDP是否知道环境?是否发生退化?
2. 状态转移关系是否具有随机性?
状态转移关系是否具有时齐性?
3. MDP中动作与状态是否连续?是否随机?
即状态转移概率不随时间发生变化
P() = P()
时齐性意味着时间是相对的而不是绝对的 在求期望
E []时只用关注k等于多少,而不是关注t;
非时齐性(time - varing)
时间具有绝对性
即状态转移概率会随时间变化。
时齐MDP:P () = P ()
时齐指 S状态执行a后,进入下一状态s' 与时间无关
非时齐则有关 ;
(S, A, P, R) (S, A, P, R, Done, )
S: 状态空间,S = {} 离散/连续;
A:动作空间 智能体可执行的动作
A = {} 离散/连续 系统主观能动性部分 系统输入 input
P:状态转移关系,在状态S下采取动作a,转移状态S‘
概率记为 = P();
R: 有限奖励集合 智能体给出的动作A后环境的反馈
适合奖励记为 = E();
系统在t时刻采取动作带来的回报 系统输出 output
done = 0 MDP继续;done = 1 MDP终止; (S, A, P, R, Done)
最大化的期望回报, E() = E()
若不收敛,引入衰减因子 (0<<1) 越小,性子越急;
<1 智能体对应1. 高奖励;2. 速度快
<1 时,往往1.对应更复杂的问题;2.描述更复杂的情况;3. 更好的收敛
E() = E() = E()
a* = (s) P有随机性且环境时齐;
a* = (s,t) P有随机性且环境非时齐;
非时齐时还可以定义随时间衰减
时间是连续的,但我们假定t是离散化,保证t与t+1间隔足够短即可。
环境已知 | 环境未知 | |
退化 (一步) | 环境已知的MAB (平凡问题无需求解) | MAB问题 (如何产生数据集) |
非退化 (多步) | 多步最优控制问题 (如何求解最佳策略) | 一般的强化学习问题 (同时考虑两方面) |
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。