【NLP概念源和流】 02-稠密文档表示（第 2/20 部分）

作者：Guff_9hys | 2024-08-04 11:43:38

踩

接续前文

【NLP初级概念】 01-稀疏文档表示（第 1/30 部分）_无水先生的博客-CSDN博客

一、说明

在前文中，我们已经了解如何为文档创建像“TF-IDF”和“BoW”这样的稀疏向量，其维度对应于语料库词汇表中的单词（这个维度将是巨大的）。在这篇博客中，我们将看到如何使用降维技术以及重要的深度学习来解决这些问题。使用不同的技术，我们将提取称为嵌入（密集，短向量）的强大单词表示。与TFIDF或BoW不同，这些向量的长度在50-300的范围内。这些向量在每个NLP问题中都比稀疏向量工作得更好，因为单词的顺序/结构起着重要作用。所以相似含义的词有相似的表示。
例如：“轮船”和“舟”在稀疏向量表示中意味着两个不同的东西，但嵌入成功地捕获了这些词之间的相似性。有 2 个最流行和开源的嵌入模型 Word2Vec 和 GLoVe。word2vec 方法快速、高效训练，并且可通过静态代码和预训练嵌入轻松在线获得。

二、word2Vec

在本节中，我们将了解如何使用深度学习来创建单词嵌入。这些嵌入是如此强大，以至于女王的向量表示与 v（king） − v（man） + v（woman&#

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/Guff_9hys/article/detail/927677