当前位置:   article > 正文

11种必知的word embeddings模型

简历解析 embeddings模型

作者:Fabio Chiusano

v2-11ddbfe8602bd770b4e06837d91dbedc_b.jpg

单词嵌入为序列标注和文本分类等下游任务提供输入特征,在过去的十年中,已经提出了几种单词嵌入方法。

Context-independent

每个单词都会学习一个唯一的表达而不考虑上下文

Context-independent without machine learning

  • Bag-of-words
  • TFIDF

Context-independent with machine learning

  • Word2Vec: CBOW & SkipGram。
  • GloVe(Global Vectors for Word Representation):对语料库中聚合的全局单词共现统计数据进行训练。
  • FastText:与GloVe不同的是,它通过将每个单词视为由字符n-grams组成而不是一个单词整体来做单词嵌入。此做法不仅可以学习罕见的单词,还可以学习词汇表外的单词。

Context-dependent

相同单词不同上下文也会embedding不一样。

Context-dependent and RNN based

  • ELMO(Embeddings from Language Model):基于字粒度的双向lstm编码层学习每个单词的embedding。
  • CoVe(Contextualized Word Vectors): 基于一个训练好的用于翻译的sequence-2-sequence的带有attention的模型的encoder,对word进行词嵌入。

Context-dependent and transformer-based

  • Bert(Bidirectional Encoder Representations from Transformers): 大语料,基于transformer进行训练,使用随机mask机制做完型填空,同时通过预测下一个句子的任务挖掘句子之间的关联。
  • XLM(Cross-lingual Language Model): 同样是transformer,预估下一个token,类似bert的mask训练方式,和翻译目标。
  • RoBERTa(Robustly Optimized BERT Pretraining Approach):同样是BERT,修改了超参,删除了下个句子的任务,用更大的batch和学习率训练。
  • ALBERT(A Lite BERT for Self-supervised Learning of Language Representation):减少了参数,降低了内存,提升了训练速度。
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/IT小白/article/detail/383388
推荐阅读
相关标签
  

闽ICP备14008679号