当前位置:   article > 正文

困惑度详解(perplexity)

计算困惑度(perplexity)分析确定btm主题模型

喔的天

困惑度??perplexity,没有用也要用。
开头我就这么爆狼式发言,不是没有道理的,在现今的主题模型评判中,困惑度仍然是一种主流,虽然还有held-out-log likelihood (出自 Crowdsourced Time-sync Video tagging using temporal and personalized topic modeling )和 EL(empirical likelihood)等等,但是那些在我看来真的没有什么很实际很合理的解释。但是学术界就是这么玩的,那么我们也就入乡随俗吧。

wiki上有介绍了三种方式,下面我作个小小的翻译,不想看的直接跳过。

传送门

在信息论中,困惑度是一种评判概率模型或概率分布预测的衡量指标,可用于评价模型好坏。
可分为三种

  1. Perplexity of a probability distribution
  2. Perplexity of a probability model
  3. Perplexity per word(我们下面用的方法就是这个)

正文

本文介绍的perplexity是最基本的那一种。公式如下

图片描述

计算方式也很

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/菜鸟追梦旅行/article/detail/715344
推荐阅读
  

闽ICP备14008679号