当前位置:   article > 正文

贝叶斯模型核心思想_贝叶斯模型思想

贝叶斯模型思想
  1. 概率图模型(PGM):
  • LDA(2013) → \rightarrow Dynamic Topical Model
  • MMSB(2008) → \rightarrow Social Network
  • Neural Network(近期)
  1. Inference:
  • MCMC(Markov Chain Montev Carlo)
  • Varational Inference
  1. Non-parametric Bayesian(非参数的学习方法)
  • K-means算法

可以一开始让k = 2,然后把数据灌进去,让模型自己学出k等于几。

怎么实现这种Non-parametric model

可以在LDA上加一层随机过程(stochastic process)

随机过程有:

  1. Dirichelt Process
  2. Chinese Restaurant Process
  3. Indian Buffelt Process
  4. Stick-breakag process

主题模型(LDA)

  • 文本类的模型
  • 非监督学习方法,没有标签概念(但是可以加上标签)
  • 但是不仅仅应用在文本类上,还有社交类,推荐都可以使用LDA来做
  • LDA的输入是多个文档(Data: List of Document),放入LDA之后,可以学习出每个文本的主题。
    在这里插入图片描述
  • Mixed Membership
    • LDA

假设:一个文档就是主题的分布

在这里插入图片描述

  • Uni-Membership

Model Estimation(Bayesian Model)

Bayesian Model:LDA,MMSB, Bayesian NN/LSTM/Bert/Transformer

参数估计领域的三大方法论

  1. 频率派
MLE
MAP

MLE和MAP的区别就是先验
MLE和MAP的共同特点是这两个模型都会通过学习估算出一个最优解。
在这里插入图片描述

  1. 贝叶斯学派
  • 没有参数估计这一步。

  • 对它来说最核心的是预测的过程。

  • 把空间中所有的 θ \theta θ都考虑进来,在已知的情况下,去预测y的值。考虑加权平均的情况,但是这些 w w w怎么学出来。其实就是 p ( θ ∣ D ) p(\theta|D) p(θD) p ( θ 1 ∣ D ) p(\theta^1|D) p(θ1D)就是 w 1 w_1 w1
    在这里插入图片描述

  • 之前使用的贝叶斯定理不考虑分母。但是这里不可以,因为这里必须要把所有的权重明确计算出来。但是直接计算 p ( D ) p(D) p(D)非常困难。我们可以采用抽样的方法。把每个样本看成一个专家,让每个专家去做一个预测,取平均。为啥这里不像之前加权平均呢,因为在采样的过程中权重越大的采样到的次数越多,所以其实已经考虑到了权重问题。(相同的 θ \theta θ会被重复采样到)【蒙托卡罗采样:独立过程】
    在这里插入图片描述

  • 每一次采样都是相互独立的。独立的方式效率比较低。我其实想要排除掉一些质量不太好的 θ \theta θ(不太好的专家)。有一个专家是比较好的,我们可以认为在 θ \theta θ空间中该专家的周围更有可能选取到质量好的专家(locality)。蒙特卡洛+依赖关系 —> MCMC(在最短时间内找到最好的样本)
    在这里插入图片描述

  • 贝叶斯模型不容易过拟合,适合小数据领域。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/木道寻08/article/detail/982572
推荐阅读
相关标签
  

闽ICP备14008679号