赞
踩
可以一开始让k = 2,然后把数据灌进去,让模型自己学出k等于几。
怎么实现这种Non-parametric model
可以在LDA上加一层随机过程(stochastic process)
随机过程有:
- Dirichelt Process
- Chinese Restaurant Process
- Indian Buffelt Process
- Stick-breakag process
假设:一个文档就是主题的分布
Bayesian Model:LDA,MMSB, Bayesian NN/LSTM/Bert/Transformer
参数估计领域的三大方法论
MLE和MAP的区别就是先验
MLE和MAP的共同特点是这两个模型都会通过学习估算出一个最优解。
没有参数估计这一步。
对它来说最核心的是预测的过程。
把空间中所有的
θ
\theta
θ都考虑进来,在已知的情况下,去预测y的值。考虑加权平均的情况,但是这些
w
w
w怎么学出来。其实就是
p
(
θ
∣
D
)
p(\theta|D)
p(θ∣D),
p
(
θ
1
∣
D
)
p(\theta^1|D)
p(θ1∣D)就是
w
1
w_1
w1。
之前使用的贝叶斯定理不考虑分母。但是这里不可以,因为这里必须要把所有的权重明确计算出来。但是直接计算
p
(
D
)
p(D)
p(D)非常困难。我们可以采用抽样的方法。把每个样本看成一个专家,让每个专家去做一个预测,取平均。为啥这里不像之前加权平均呢,因为在采样的过程中权重越大的采样到的次数越多,所以其实已经考虑到了权重问题。(相同的
θ
\theta
θ会被重复采样到)【蒙托卡罗采样:独立过程】
每一次采样都是相互独立的。独立的方式效率比较低。我其实想要排除掉一些质量不太好的
θ
\theta
θ(不太好的专家)。有一个专家是比较好的,我们可以认为在
θ
\theta
θ空间中该专家的周围更有可能选取到质量好的专家(locality)。蒙特卡洛+依赖关系 —> MCMC(在最短时间内找到最好的样本)
贝叶斯模型不容易过拟合,适合小数据领域。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。