赞
踩
编者按:Transformers凭借其卓越的性能,已经成为自然语言处理领域的代表性模型架构。但是Transformers的内在机制却比较复杂,对许多读者来说可能还存在一定的难度。本系列对 Transformer各组件进行逐一剖析,我们可以更直观地理解这个模型架构的整体运行逻辑。本篇文章是《轻松理解Transformers》系列的最后一篇,主要介绍Transformer的Decoder和Output 部分。
文章首先指出,Transformers属于编码器-解码器架构,输入数据通过编码器转换为数学表征,再输入解码器生成最终输出。接着又以Teacher Forcing为线索,剖析了带Mask的Decoder是如何基于Encoder 的输出,一步步生成目标语言的。在描述每个组件的作用时,作者都会补充通俗的示例或类比,帮助读者更好地理解 Transformers 。
这种融通俗性、系统性与启发性为一体的写作风格,使得本文对于理解 Transformer模型具有很高的参考价值。如果想要全面理解这个极具代表性的模型架构,本文将是很好的学习资料。预祝各位读者的深度学习旅途越走越顺!
以下是译文,enjoy!
作者 | Chen Margalit
https://www.linkedin.com/in/chen-margalit/
编译 | 岳扬
本文经原作者授权,由Baihai IDP编译。如需转载译文,请联系获取授权。
原文链接:https://medium.com/towards-data-science/simplifying-transformers-state-of-the-art-nlp-using-words-you-understand-part-5-decoder-and-cd2810c6ad40
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。