当前位置:   article > 正文

马尔科夫型决策以及使用python计算方法_马尔可夫决策代码

马尔可夫决策代码

一、马尔可夫性

考察某工厂一台自动加工机的工作状态。该机器有两种工作状态:正常状态和故障状态。在每个整数钟点的起始时刻检查机器的工作情况,若机器处于正常状态,则让它继续工作;若机器处于故障状态,则对他进行检修。假设处于正常状态的机器,在1小时后发生故障的概率为0.05;处于故障状态的机器,在1小时内排除故障的概率0.6

显然任何时刻,机器只能处于正常状态或故障状态,我们分别用1和2表示这两种状态。

那么,这台机器在第n小时的状态Xn或者等于1,或者等于2,即Xn是仅取两个值的

离散型随机变量。我们关心的是Xn的随机变化规律。

由于处于正常状态的机器1小时后发生故障的概率为0.05,即

 

所以机器1小时后任处于正常状态的概率为

 

此时,X1的分布列由条件概率构成,这个分布列实际是已知X0=1的情况下X1的条件分布列

,用表格表示如下:

X1

1

2

P(.|X0=1)

0.95

0.05

已知机器在第n小时处于故障状态,等价于事件{Xn=2}已经发生.此时在第n+1小时机器

处于第j(j=1,2)状态的概率是条件概率P(Xn+1=j|Xn=2).类似于前面的讨论,由故障机器

在1小时内被修复的概率为0.6,得

因此,若机器在第n小时处于故障状态,则Xn+1的条件分别列为

Xn+1

1

2

P(.|Xn=2)

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/人工智能uu/article/detail/819117
推荐阅读
相关标签
  

闽ICP备14008679号