当前位置:   article > 正文

为什么bert常用于采样和gpt常用于预测_bert 用于gpt

bert 用于gpt

今天在分析源代码的时候发现,bert常常用于采样的过程,而gpt常常用于预测的过程,对于这一机制可以通过bert和gpt的原理来进行理解。
采样的过程是中间加入一个[MASK]标志,比如对于“科学是第一生产力”文本,将其中的学字用[MASK]标记出来,变成"科[MASK]是第一生产力",然后继续进行采样之后,下一步又变成"科技是第一生产力"。这与bert结构的特性有关,bert是使用的不带掩码的Transformer,所以遮盖之后再显示出来能够进行下一步的采样。
而预测生成的过程是只看下一个汉字的内容,由当前的汉字预测下一个汉字,这更好地符合了gpt模型的相应结构,即masked的Transformer的过程。
综上,根据模型的结构,bert更适用于采样,而gpt更适用于预测的过程。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/IT小白/article/detail/546537
推荐阅读
相关标签
  

闽ICP备14008679号