赞
踩
目录
不确定程度可以去衡量
在这个表达式中 H的最大值为2
H(熵)越大 不确定越高 当H为0是 事件确定
这里的距离应该理解为两个分布之间的差异
P为真实的分布 Q为模型预测出来的概率分布 ——> 期望预测和真实相接近 ——> 相对熵的值应该趋近于0
H(P,Q)为交叉熵
这里的红色信息熵错了 应该为交叉熵
H(P)为真实分布的熵(已经确定),为了使H(P,Q)最小,要让DKL(P,Q)最小
表示在语料库中可以选择的词的数量
困惑度本质上为一个交叉熵函数
困惑度和语料库有关,只有使用相同的语料库对比不同的模型,此时,困惑度才有意义
困惑度越小,模型越好
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。