当前位置:   article > 正文

GPT论文解读_gpt损失函数

gpt损失函数

  GPT:Generative Pre-Training。

1. 摘要

  概述(NLU包含多个具体的子任务)->现状导致了挑战(未标注数据远远超过了标记数据)->使用GPT的方法(具体包含discriminative fine-tuning)产生了很大的进步->相比于以前的方法,充分利用了task-aware input transformation->具体产生了哪些提升。

2. 结论

  工作的概述:NLU Framework = GPT+discriminative fine-tune。通过在长文本上进行预训练获取知识,然后再通过迁移学习来更好的解决子任务。

  总分总:在机器学习领域中,通过非监督学习(自监督学习)来提升效果是非常重要的。我们的工作证明了使用Transformer模型+长文本就能发挥出很好的效果。希望能够推动NLU和其他领域的发展。

3. 损失函数

  语言模型的标准目标是将以下似然函数进行最大化(负无穷到0)。 u = { u 1 , … , u n } u=\{u_1, \dots,u_n\} u={u1,,un}
L ( u ) = ∑ i l o g   P ( u i ∣ u i − k , … , u i − 1 ; Θ ) L(u)=\sum _{i} log\ P(u_i|u_{i-k},\dots,u_{i-1};\Theta) L(u)=ilog P(uiuik,,ui1;Θ)

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/354377
推荐阅读
相关标签
  

闽ICP备14008679号