当前位置:   article > 正文

深度强化学习详解与实例(一)_强化学习 举例详解

强化学习 举例详解

1. 概率论与蒙特卡洛

1.1 概率论基础

在强化学习中会反复用到概率质量函数(Probability Mass Function,PMF)或者概率密度函数(Probability Density Function,PDF)。

  • PMF用来描述离散概率分布,例如抛硬币的概率质量函数如下:

∑ x ∈ X p ( x ) = 1 \sum_{x \in \mathcal{X}} p(x)=1 xXp(x)=1

  • PDF用来描述连续概率分布,例如正态分布就是一种常见的连续概率分布,随机变量 X X X的取值范围是所有实数 R R R,则正态分布的概率密度函数就是:

p ( x ) = 1 2 π σ ⋅ exp ⁡ ( − ( x − μ ) 2 2 σ 2 ) p(x)=\frac{1}{\sqrt{2 \pi} \sigma} \cdot \exp \left(-\frac{(x-\mu)^{2}}{2 \sigma^{2}}\right) p(x)=2π σ1exp(2σ2(xμ)2)

μ \mu μ σ \sigma σ分别代表均值和标准差。说明在均值附近的取值的可能性大。

X \mathcal{X} X为变量 X X X的取值范围。那概率密度函数就有以下性质:
∫ X p ( x ) d x = 1 \int_{\mathcal{X}}^{} p(x)dx = 1

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Monodyee/article/detail/427272?site
推荐阅读
相关标签
  

闽ICP备14008679号