赞
踩
前面我们分篇讲述了transformer的原理,但是对于很多刚接触transformer的人来说可能会有一点懵,所以我们接下来会分三篇文章用白话的形式在将transformer 讲一遍。 前文链接 Bert基础(一)–自注意力机制
Bert基础(二)–多头注意力
Bert基础(三)–位置编码
Bert基础(四)–解码器(上)
Bert基础(五)–解码器(下)
注意力机制其实最大的作用就是对词嵌入也就是embedding的优化,下面我们来看下是怎么做到的
视频链接