句向量（句嵌入）模型sent2vec的训练及应用_sent2vec句子/短语

作者：盐析白兔 | 2024-04-21 13:05:29

踩

sent2vec句子/短语

词嵌入（word embedding）旨在将自然语言中的单词映射成一个向量，学界在这方面的研究已经相当深入，从事NLP的人对此必然是早有了解的（如果你对此尚不熟悉，可以参考【１】）。本文将讨论另外一个与此十分相关的话题——句向量模型（sent2vec），也就是将一个完整的句子映射成一个实数向量的技术。实际上，这方面已经发表的成果也是比较多的，本文中所涉及的技术主要是源自NAACL 2018的一篇论文（具体可以参见文献【２】）。

文献【２】中提出的sent2vec模型可以理解为词嵌入技术中经典的CBOW方法的扩展。具体来说，为了“扑捉”到句子的语义（而不局限于某个具体单词），需要做两点改进：１）考察的对象是一整个句子，而非用固定大小的窗口在句子中框出来的一段单词序列。２）引入n-gram，从而增强对句子中单词顺序的嵌入能力。注意到，嵌入模型基本都是无监督学习的。对于一个给定的句子，sent2vec在训练时的输入是该句子中的所有单词以及n-gram序列，而输出（或者说需要用神经网络拟合的）则是missing words。文献【３】从另外一个角度理解sent2vec（如下图所示），把它看成是无监督版的fastText，“the entire sentence is the context and possible class labels are all vocabulary words”，注意到这里的all vocabulary words其实就是前面说到的missing words（如果你理解CBOW，那么在这一点上，它们是异曲同工

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/盐析白兔/article/detail/463166