赞
踩
众所皆知的分布式词向量方法CBOM, skip-gram, Glove等已经成为NLP任务的标配,但致命的缺点是无法区别同一个词在不同语境下的含义,如“bank"无论是银行还是河岸的意思,词向量都是同一个,让人脑壳疼。本文要介绍的是2018年很火的三个方法:Elmo, GPT, BERT。它们能够处理多义词、反应不同的语境,从而更好地理解自然语言,并且在下游NLP任务中有突出表现。
来自论文:“Deep contextualized word representation(2018.3)”
机构:Allen Institute for Artificial Intelligence
概述:文章提出ELMO模型,在大量的语料上训练一个深层双向语言模型,输入为一个完整的句子,句子中的词向量的表征由该模型隐层的函数表示。
前向语言模型是用前面的词去预测下一个词:
句子中的词被映射到词向量之后,依次输入L层RNN,将该词在第L层输出的隐藏向量输入softmax去预测下一个词。
后向语言模型是用后面的词去预测前�一个词:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。