赞
踩
今天在分析源代码的时候发现,bert常常用于采样的过程,而gpt常常用于预测的过程,对于这一机制可以通过bert和gpt的原理来进行理解。
采样的过程是中间加入一个[MASK]标志,比如对于“科学是第一生产力”文本,将其中的学字用[MASK]标记出来,变成"科[MASK]是第一生产力",然后继续进行采样之后,下一步又变成"科技是第一生产力"。这与bert结构的特性有关,bert是使用的不带掩码的Transformer,所以遮盖之后再显示出来能够进行下一步的采样。
而预测生成的过程是只看下一个汉字的内容,由当前的汉字预测下一个汉字,这更好地符合了gpt模型的相应结构,即masked的Transformer的过程。
综上,根据模型的结构,bert更适用于采样,而gpt更适用于预测的过程。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。