GPT论文解读_gpt损失函数

作者：繁依Fanyi0 | 2024-04-03 03:46:49

踩

gpt损失函数

GPT：Generative Pre-Training。

文章目录

1. 摘要
2. 结论
3. 损失函数

1. 摘要

概述（NLU包含多个具体的子任务）->现状导致了挑战（未标注数据远远超过了标记数据）->使用GPT的方法（具体包含discriminative fine-tuning）产生了很大的进步->相比于以前的方法，充分利用了task-aware input transformation->具体产生了哪些提升。

2. 结论

工作的概述：NLU Framework = GPT+discriminative fine-tune。通过在长文本上进行预训练获取知识，然后再通过迁移学习来更好的解决子任务。

总分总：在机器学习领域中，通过非监督学习（自监督学习）来提升效果是非常重要的。我们的工作证明了使用Transformer模型+长文本就能发挥出很好的效果。希望能够推动NLU和其他领域的发展。

3. 损失函数

语言模型的标准目标是将以下似然函数进行最大化（负无穷到0）。 $u=\{u_1, \dots,u_n\}$
$L(u)=\sum _{i} log\ P(u_i|u_{i-k},\dots,u_{i-1};\Theta)$

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/354377