赞
踩
LSTM:我们先来看下LSTM模型的优缺点:
GPT-2与BERT的抉择:
计算过程
输入: 输入这里其实倒没什么可讲的无非就是以下三个过程:
Masked Self-Attention + Feed Forward Neural Network
写在最后: