困惑度详解（perplexity）

作者：菜鸟追梦旅行 | 2024-06-14 00:00:29

踩

计算困惑度(perplexity)分析确定btm主题模型

喔的天

困惑度？？perplexity，没有用也要用。
开头我就这么爆狼式发言，不是没有道理的，在现今的主题模型评判中，困惑度仍然是一种主流,虽然还有held-out-log likelihood (出自 Crowdsourced Time-sync Video tagging using temporal and personalized topic modeling )和 EL（empirical likelihood）等等，但是那些在我看来真的没有什么很实际很合理的解释。但是学术界就是这么玩的，那么我们也就入乡随俗吧。

wiki上有介绍了三种方式，下面我作个小小的翻译，不想看的直接跳过。

传送门

在信息论中，困惑度是一种评判概率模型或概率分布预测的衡量指标，可用于评价模型好坏。
可分为三种

Perplexity of a probability distribution
Perplexity of a probability model
Perplexity per word（我们下面用的方法就是这个）

正文

本文介绍的perplexity是最基本的那一种。公式如下

图片描述

计算方式也很

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/菜鸟追梦旅行/article/detail/715344