空白诗007

这个屌丝很懒，什么也没留下！

热门标签

HMM（2）_前向概率和后向概率

作者：空白诗007 | 2024-08-14 19:06:13

踩

前向概率和后向概率

1.前向和后向概率的关系
（1）前向概率： $\alpha_{t}(i)=P\left(y_{1}, y_{2}, \cdots y_{t}, q_{t}=i | \lambda\right)$
（2）后向概率： $\beta_{t}(i)=P\left(y_{t+1}, y_{t+2}, \cdots, y_{T} | q_{t}=i, \lambda\right)$
在这里插入图片描述
（3)关系：

\begin{aligned} P (i_{t} = q_{i}, O | λ) \\ = P (O | i_{t} = q_{i}, λ) P (i_{t} = q_{i} | λ) \\ = P (o_{1}, \dots o_{t}, o_{t + 1}, \dots o_{T} | i_{t} = q_{i}, λ) P (i_{t} = q_{i} | λ) \\ = P (o_{1}, \dots o_{t} | i_{t} = q_{i}, λ) P (o_{t + 1}, \dots o_{T} | i_{t} = q_{i}, λ) P (i_{t} = q_{i} | λ) \\ = P (o_{1}, \dots o_{t}, i_{t} = q_{i} | λ) P (o_{t + 1}, \dots o_{T} | i_{t} = q_{i}, λ) \\ = α_{t} (i) β_{t} (i) \end{aligned}

$\begin{aligned} &P\left(i_{t}=q_{i}, O | \lambda\right)\\ &=P\left(\left.O\right|{i_{t}}=q_{i}, \lambda\right) P\left(i_{t}=q_{i} | \lambda\right)\\ &=P\left(o_{1}, \cdots o_{t}, o_{t+1}, \cdots o_{T} | i_{t}=q_{i}, \lambda\right) P\left(i_{t}=q_{i} | \lambda\right)\\ &=P\left(o_{1}, \cdots o_{t} | i_{t}=q_{i}, \lambda\right) P\left(o_{t+1}, \cdots o_{T} | i_{t}=q_{i}, \lambda\right) P\left(i_{t}=q_{i} | \lambda\right)\\ &=P\left(o_{1}, \cdots o_{t}, i_{t}=q_{i} | \lambda\right) P\left(o_{t+1},\left.\cdots o_{T}\right|i_{t}=q_{i}, \lambda\right)\\ &=\alpha_{t}(i) \beta_{t}(i) \end{aligned}$

P (i_{t} = q_{i}, O ∣ λ) = P (O ∣ i_{t} = q_{i}, λ) P (i_{t} = q_{i} ∣ λ) = P (o_{1}, \dots o_{t}, o_{t + 1}, \dots o_{T} ∣ i_{t} = q_{i}, λ) P (i_{t} = q_{i} ∣ λ) = P (o_{1}, \dots o_{t} ∣ i_{t} = q_{i}, λ) P (o_{t + 1}, \dots o_{T} ∣ i_{t} = q_{i}, λ) P (i_{t} = q_{i} ∣ λ) = P (o_{1}, \dots o_{t}, i_{t} = q_{i} ∣ λ) P (o_{t + 1}, \dots o_{T} ∣ i_{t} = q_{i}, λ) = α_{t} (i) β_{t} (i)

2.单个状态的概率
给定模型

\lambda

以及观测序列

O

，在时刻t处于状态

q_i

的概率，记：

\gamma_{t}(i)=P\left(i_{t}=q_{i} | O, \lambda\right)

根据前向后向概率的定义：

\begin{matrix} P (i_{t} = q_{i}, O | λ) = α_{t} (i) β_{t} (i) \\ γ_{t} (i) = P (i_{t} = q_{i} | O, λ) = \frac{P (i_{t} = q_{i}, O | λ)}{P (O | λ)} \\ γ_{t} (i) = \frac{α_{t} (i) β_{t} (i)}{P (O | λ)} = \frac{α_{t} (i) β_{t} (i)}{\sum_{i = 1}^{N} α_{t} (i) β_{t} (i)} \end{matrix}

\gamma

的意义：
在每个时刻t选择在该时刻最有可能出现的状态

\hat{\mathbf{1}}_{\mathbf{t}}^{*}

，从而得到一个状态序列

I^{*}=\left\{i_{1}^{*}, i_{2}^{*} \cdots i_{\mathrm{T}}^{*}\right\}

，将他作为预测的结果。
给定模型和观测序列，时刻t处于

q_i

的概率为：

\gamma_{t}(i)=\frac{\alpha_{t}(i) \beta_{t}(i)}{P(O | \lambda)}=\frac{\alpha_{t}(i) \beta_{t}(i)}{\sum_{t=1}^{N} \alpha_{t}(i) \beta_{t}(i)}

3.两个状态的概率

\begin{matrix} ξ_{t} (i, j) = P (i_{t} = q_{i}, i_{t + 1} = q_{j} | O, λ) \\ = \frac{P (i_{t} = q_{t}, i_{t + 1} = q_{j}, O | λ)}{P (O | λ)} \\ = \frac{P (i_{t} = q_{i}, i_{t + 1} = q_{j}, O | λ)}{\sum_{i = 1}^{N} \sum_{j = 1}^{N} P (i_{t} = q_{i}, i_{t + 1} = q_{j}, O | λ)} \\ P (i_{t} = q_{i}, i_{t + 1} = q_{j}, O | λ) = α_{t} (i) a_{i j} b_{j o_{t 1}} β_{t + 1} (j) \end{matrix}

4.期望
在观测O下状态i出现的期望：

\sum_{t=1}^{T} \gamma_{t}(i)

在观测O下状态i转移到状态j的期望：

\sum_{t=1}^{T-1} \xi_{t}(i, j)

5.学习算法：
若训练数据包含观测序列和状态序列，则HMM的学习非常简单，是监督学习，若训练数据只有观测序列，则HMM的学习需要使用EM算法，是非监督学习。
假设已给定训练数据包含S个长度相同的观测序列和对应的观测序列

\left\{\left(\mathrm{O}_{1}, \mathrm{I}_{1}\right),\left(\mathrm{O}_{2}, \mathrm{I}_{2}\right) \ldots\right. \left.\left(O_{s}, I_{s}\right)\right\}

，那么，可以直接利用Bernoulli大数定理的结论“频率的极限是概率”，给出HMM的参数估计。
（1）监督学习：
初始概率：

\hat{\pi}_{i}=\frac{\left|q_{i}\right|}{\sum_{i}\left|q_{i}\right|}

转移概率：

\hat{a}_{i j}=\frac{\left|q_{i j}\right|}{\sum_{j=1}^{N}\left|q_{i j}\right|}

观测概率：

\hat{b}_{i k}=\frac{\left|s_{i k}\right|}{\sum_{k=1}^{M}\left|s_{i k}\right|}

(2)Baum-Welch算法
所有观测数据写成

\mathrm{O}=\left(\mathrm{o}_{1}, \mathrm{o}_{2} \dots \mathrm{o}_{\mathrm{T}}\right)

，所有隐数据写成

\mathrm{I}=\left(\mathrm{i}_{1}, \mathrm{i}_{2} \dots \mathrm{i}_{\mathrm{T}}\right)

，完全数据是

(\mathrm{O}, \mathrm{I})=\left(\mathrm{o}_{1}, \mathrm{o}_{2} \dots \mathrm{o}_{\mathrm{T}}, \mathrm{i}_{1}, \mathrm{i}_{2} \dots \mathrm{i}_{\mathrm{T}}\right)

，完全数据的对数似然是

\ln \mathrm{P}(\mathrm{O}, \mathrm{I} | \lambda)

假设

\bar{\lambda}

是HMM参数当前的估计值，

\lambda

是当前的参数。

\begin{aligned} Q (λ, \bar{λ}) = \sum_{I} (\ln P (O, I | λ)) P (I | O, \bar{λ}) \\ = \sum_{I} \ln P (O, I | λ) \frac{P (O, I | \bar{λ})}{P (O, \bar{λ})} \\ \propto \sum_{I} \ln P (O, I | λ) P (O, I | \bar{λ}) \end{aligned}

EM过程：

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/空白诗007/article/detail/980449