为什么bert常用于采样和gpt常用于预测_bert 用于gpt

作者：IT小白 | 2024-05-07 00:20:05

踩

bert 用于gpt

今天在分析源代码的时候发现，bert常常用于采样的过程，而gpt常常用于预测的过程，对于这一机制可以通过bert和gpt的原理来进行理解。
采样的过程是中间加入一个[MASK]标志，比如对于“科学是第一生产力”文本，将其中的学字用[MASK]标记出来，变成"科[MASK]是第一生产力"，然后继续进行采样之后，下一步又变成"科技是第一生产力"。这与bert结构的特性有关，bert是使用的不带掩码的Transformer，所以遮盖之后再显示出来能够进行下一步的采样。
而预测生成的过程是只看下一个汉字的内容，由当前的汉字预测下一个汉字，这更好地符合了gpt模型的相应结构，即masked的Transformer的过程。
综上，根据模型的结构，bert更适用于采样，而gpt更适用于预测的过程。

本文内容由网友自发贡献，转载请注明出处：https://www.wpsshop.cn/w/IT小白/article/detail/546537