轻松理解 Transformers (4) ：Decoder 和 Output 部分

作者：凡人多烦事01 | 2024-02-09 20:08:39

踩

轻松理解 transformers

编者按：Transformers凭借其卓越的性能，已经成为自然语言处理领域的代表性模型架构。但是Transformers的内在机制却比较复杂，对许多读者来说可能还存在一定的难度。本系列对 Transformer各组件进行逐一剖析，我们可以更直观地理解这个模型架构的整体运行逻辑。本篇文章是《轻松理解Transformers》系列的最后一篇，主要介绍Transformer的Decoder和Output 部分。

文章首先指出，Transformers属于编码器-解码器架构，输入数据通过编码器转换为数学表征，再输入解码器生成最终输出。接着又以Teacher Forcing为线索，剖析了带Mask的Decoder是如何基于Encoder 的输出，一步步生成目标语言的。在描述每个组件的作用时，作者都会补充通俗的示例或类比，帮助读者更好地理解 Transformers 。

这种融通俗性、系统性与启发性为一体的写作风格，使得本文对于理解 Transformer模型具有很高的参考价值。如果想要全面理解这个极具代表性的模型架构，本文将是很好的学习资料。预祝各位读者的深度学习旅途越走越顺！

以下是译文，enjoy！

作者 | Chen Margalit

https://www.linkedin.com/in/chen-margalit/

编译 | 岳扬

本文经原作者授权，由Baihai IDP编译。如需转载译文，请联系获取授权。

原文链接：https://medium.com/towards-data-science/simplifying-transformers-state-of-the-art-nlp-using-words-you-understand-part-5-decoder-and-cd2810c6ad40

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/凡人多烦事01/article/detail/72940

推荐阅读

相关标签