当前位置:   article > 正文

将句子表示为向量:无监督句子表示学习(sentence embedding)

将句子表示为向量:无监督句子表示学习(sentence embedding)

本文主要是用作自己学习记录笔记使用,如有侵权请联系删除即可。

原文链接:

【上篇】 

 References

  1. Le and Mikolov - 2014 - Distributed representations of sentences and documents
  2. Li and Hovy - 2014 - A Model of Coherence Based on Distributed Sentence Representation
  3. Kiros et al. - 2015 - Skip-Thought Vectors
  4. Hill et al. - 2016 - Learning Distributed Representations of Sentences from Unlabelled Data
  5. Arora et al. - 2016 - A simple but tough-to-beat baseline for sentence embeddings
  6. Pagliardini et al. - 2017 - Unsupervised Learning of Sentence Embeddings using Compositional n-Gram Features
  7. Logeswaran et al. - 2018 - An efficient framework for learning sentence representations

【下篇】

 

更详细的介绍可以参考论文作者的博客Google AI Blog (中文版)

5. 总结

  • 基于监督学习方法学习sentence embeddings可以归纳为两个步骤:
    • 第一步选择监督训练数据,设计相应的包含句子编码器Encoder的模型框架;
    • 第二步选择(设计)具体的句子编码器,包括DAN、基于LSTM、基于CNN和Transformer等。
  • Sentence Embedding的质量往往由训练数据和Encoder共同决定。Encoder不一定是越复杂越好,需要依据下游任务、计算资源、时间开销等多方面因素综合考虑。

References

  1. Wieting et al. - 2015 - Towards universal paraphrastic sentence embeddings
  2. Conneau et al. - 2017 - Supervised Learning of Universal Sentence Representations from Natural Language Inference Data
  3. Cer et al. - 2018 - Universal Sentence Encoder
  4. Google AI - 2018 - Advances in Semantic Textual Similarity

SIF

声明:本文内容由网友自发贡献,转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号