赞
踩
作者:禅与计算机程序设计艺术
近年来,在机器学习界涌现了一股“Transformer”火热潮流。它吸引人的地方不仅仅在于其独特的计算效率、对长序列建模能力等优点,更重要的是它背后的模型架构——“Attention”机制。今天,我将从理论角度阐述“Attention”机制的概念及其特性,并详细分析Google AI的最新研究成果:BERT(Bidirectional Encoder Representations from Transformers)。最后,我将简要谈谈自然语言处理(NLP)领域与AI领域的融合可能性,并给出我的建议。
Attention mechanism 是一种将注意力集中在相关的信息上并赋予不同权重的过程。Attention mechanism 的核心思想是人类在做决策时往往倾向于关注那些与当前决策最相关的信息,并根据这些信息对不同输入项进行加权平均。例如,当你正在跟随航班飞行时,你会很容易注意到当务之急是下一站的路况,而不是联系方式或与航班相关的其他信息。
Attention mechanism 也可以被视为神经网络中的一种特殊运算,通过其特有的注意力模型能够将输入数据转换成一个输出。一般来说,这种运算可分为两种:一种是基于软性注意力的指针网络(pointer network),另一种是基于硬性注意力的门控循环单元(gated recurrent unit)。本文将重点讨论软性注意力——Pointer Network,因为它比硬性注意力更易于理解,且在训练过程中可以自动化学习到重要的特征。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。