赞
踩
用于测试deocder解码阶段
通过概率分布来选择每一步生成的单词,会使得系统为了达到生成结果的概率最大,就会产生很多通用一致的回复。
每个时间步都选择分布中概率最大的作为当前解码的单词,问题在于,容易生成很多重复的句子。
在每个时间步保留topK的结果,最后选择一个概率最大的结果。
Length Normlization:在语言模型中,随着句子的越来越长,极大似然的累乘会变得越来越小。
Coverage Normalization:如果attention学习的不好,就会让模型只过多的关注某些词,然后导致重复翻译的现象,通过Coverage惩罚可以让decoder均匀的关注x中的词,防止一些token获得过多的注意力。
设置decoder最大输出长度限制
在测试解码的时候,不需要限定解码的长度,等模型预测出EOS这个token,解码就停止了。
输入不仅包括token还包括一些句子,然后query不变,key,value增加了了那些句子。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。