当前位置:   article > 正文

轻松理解 Transformers (4) :Decoder 和 Output 部分

轻松理解 transformers

编者按:Transformers凭借其卓越的性能,已经成为自然语言处理领域的代表性模型架构。但是Transformers的内在机制却比较复杂,对许多读者来说可能还存在一定的难度。本系列对 Transformer各组件进行逐一剖析,我们可以更直观地理解这个模型架构的整体运行逻辑。本篇文章是《轻松理解Transformers》系列的最后一篇,主要介绍Transformer的Decoder和Output 部分。

文章首先指出,Transformers属于编码器-解码器架构,输入数据通过编码器转换为数学表征,再输入解码器生成最终输出。接着又以Teacher Forcing为线索,剖析了带Mask的Decoder是如何基于Encoder 的输出,一步步生成目标语言的。在描述每个组件的作用时,作者都会补充通俗的示例或类比,帮助读者更好地理解 Transformers 。

这种融通俗性、系统性与启发性为一体的写作风格,使得本文对于理解 Transformer模型具有很高的参考价值。如果想要全面理解这个极具代表性的模型架构,本文将是很好的学习资料。预祝各位读者的深度学习旅途越走越顺!

以下是译文,enjoy!

作者 | Chen Margalit

https://www.linkedin.com/in/chen-margalit/

编译 | 岳扬

本文经原作者授权,由Baihai IDP编译。如需转载译文,请联系获取授权。

原文链接:https://medium.com/towards-data-science/simplifying-transformers-state-of-the-art-nlp-using-words-you-understand-part-5-decoder-and-cd2810c6ad40

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/凡人多烦事01/article/detail/72940
推荐阅读
相关标签