当前位置:   article > 正文

第3章:中文文本向量化——思想详解

第3章:中文文本向量化——思想详解

文本向量化

文本向量化表示就是用数值向量来表示文本的语义。我们人类在读一段文本后立刻就能明白它要表达的内容,如何让机器也能拥有这样的能力呢?文本分类领域使用了信息检索领域的词袋模型,词袋模型在部分保留文本语义的前提下对文本进行向量化表示。

One-Hot表示法
TF表示法
TF-IDF表示法
Word2vec
BERT
在这里插入图片描述

下面根据一个案例分别讲解各向量化方法的思想:
在这里插入图片描述说明:id:表示文章的数量;假设文档已经分词

1.1 One-Hot表示法

思想:

  • One-Hot表示法:词语序列中出现的词语其数值为1,词语序列中未出现的词语其数值为0。用数学式子表达为:
  • 在这里插入图片描述
    在这里插入图片描述

1.2 TF表示法

思想:

  • TF表示法:词语序列中出现的词语其数值为词语在所在文本中的频次,词语序列中未出现的词语其数值为0。用数学式子表达为:
  • 在这里插入图片描述

在这里插入图片描述

1.3 TF-IDF表示法

思想:

  • TF-IDF表示法:词语序列中出现的词语其数值为词语在所在文本中的频次乘以词语的逆文档频率,词语序列中未出现的词语其数值为0。用数学式子表达为:
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

1.4 Word2vec表示法

思想:

  • 2013年,Mikolov等人提出了Word2vec(word to vector)模型用于词向量的生成,单词越相似,它们在向量空间中的相似度就越高。这种方法已被证明是可行和有效的,与独热编码相比,维度更低,计算更容易,但词和向量是一一对应的,在实践中,词在不同的文本语境中有不同的含义,向量不能被转换区别以适应语境。
  • word2vec是一种将word转为向量的方法,其包含两种算法,分别是skip-gram和CBOW,它们的最大区别是skip-gram是通过中心词去预测中心词周围的词,而CBOW是通过周围的词去预测中心词。
    在这里插入图片描述
    在这里插入图片描述
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/运维做开发/article/detail/898987
推荐阅读
相关标签
  

闽ICP备14008679号