当前位置:   article > 正文

Transformer 深度解析及性能优化(附完整代码)

xslt transformer 性能优化

Transformer 将注意力机制(Attention)发挥到了极致,不但以 encode-decode 形式在 seq2seq 任务中取得 state-of-the-art,并且仅以 encode 形式作为 BERT 的核心组件,打榜几乎所有 NLP 任务。

  • Transformer 中使用了那些 Attention,每种 Attention 具体怎么实现呢
  • 当我们理解 Attention 后怎么合理的构建 Transformer,需要注意那些细节呢
  • BERT 在 Transformer 基础上做了那些优化,可以实现 encode-decode 吗
  • 在 Transformer 模型蒸馏中,BERT 可以分别在 encode 和 decode 端实现蒸馏吗

本 Chat 将会使用 Transformer 搭配 BERT 模型蒸馏实现指代消解,并详细解析核心代码,大家还将学习到:

  1. Transformer 及常用 Attention 详解
  2. Pre-LayerNorm 优势详解
  3. Mask 在 Transformer 中使用方式详解
  4. BERT 实现 encode-decode 详解
  5. Transformer 模型蒸馏中,BERT 在 encode 和 decode 端实现蒸馏详解
  6. 使用 JIT,模型裁剪等方式提高 Transformer 预测性能详解
  7. 附上完整代码供大家学习

阅读全文: http://gitbook.cn/gitchat/activity/5e7e1d555cb8c32b2e8bf19f

您还可以下载 CSDN 旗下精品原创内容社区 GitChat App ,阅读更多 GitChat 专享技术内容哦。

FtooAtPSkEJwnW-9xkCLqSTRpBKX

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/黑客灵魂/article/detail/1005304
推荐阅读
相关标签
  

闽ICP备14008679号