第3章：中文文本向量化——思想详解

作者：运维做开发 | 2024-07-29 13:32:00

踩

第3章：中文文本向量化——思想详解

文本向量化

文本向量化表示就是用数值向量来表示文本的语义。我们人类在读一段文本后立刻就能明白它要表达的内容，如何让机器也能拥有这样的能力呢？文本分类领域使用了信息检索领域的词袋模型，词袋模型在部分保留文本语义的前提下对文本进行向量化表示。

One-Hot表示法
TF表示法
TF-IDF表示法
Word2vec
BERT

下面根据一个案例分别讲解各向量化方法的思想：
在这里插入图片描述 说明：id：表示文章的数量；假设文档已经分词

思想：

思想：

在这里插入图片描述

思想：

思想：

2013年，Mikolov等人提出了Word2vec（word to vector）模型用于词向量的生成，单词越相似，它们在向量空间中的相似度就越高。这种方法已被证明是可行和有效的，与独热编码相比，维度更低，计算更容易，但词和向量是一一对应的，在实践中，词在不同的文本语境中有不同的含义，向量不能被转换区别以适应语境。
word2vec是一种将word转为向量的方法，其包含两种算法，分别是skip-gram和CBOW，它们的最大区别是skip-gram是通过中心词去预测中心词周围的词，而CBOW是通过周围的词去预测中心词。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/运维做开发/article/detail/898987