赞
踩
本文使用相对熵(KL divergence)结合最大似然估计(MLE)作为目标函数,以区分不正确预测之间的差异。
MLE存在的问题:MLE不能区分不正确的预测。MLE以同样的方式处理与真实值不同的所有预测,而这些不正确的预测是不一样的。例如:bus->train 好过 bus->building
本文利用知识图谱生成标注:对于词汇表中的每个单词,其单词表示向量仅基于自身,这意味着它只使用自身的信息,通过利用知识图谱,我们不仅可以使用单词本身的信息,而且可以使用它的相邻信息。
提示:以下是本篇文章正文内容,下面案例可供参考
为了解决负例多样性被忽视的问题,本文提出在最大似然估计目标函数上增加一项数据相关高斯先验目标函数(Data-Dependent Gaussian Prior Objective, D2GPo)增强训练。
数据相关高斯先验目标函数为生成文本的每一步中,计算预测词的概率分布pθ(x)和数据相关高斯先验分布q(y*)之间的KL散度。
最终需要优化的目标函数: min(Loss(MLE)+Loss(KL))
q(y*):
对于y中的单词yi,计算yi和y中的每个单词yj之间的余弦相似度:yi=yj时,max(cosθ)=1
使用一个评分函数计算词表中每个候选词yj的评分f(yj),评分函数选择的是高斯分布的概率密度函数。得分f(yj)表示yi和yj之间的相似性,分数越高表明yj与yi越相似,yi=yj。
由于概率密度函数在u=0时达到最大值,因此输入为cosθ-1,以确保yi为本身时分数达到最大值。
使用softmax函数对所有的f(y*)进行归一化,得到数据相关的高斯先验分布q(y*)
数据集与评估指标:MSCOCO,Flickr30K & BLEU-1,BLEU-4, METEOR, ROUGE-L, CIDEr, and SPICE。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。