Word embedding（文本向量化）技术与路线_embedding 向量化

作者：酷酷是懒虫 | 2024-07-24 09:49:33

踩

embedding 向量化

0. CountVecorizer

是属于常见的特征数值计算类，是一个文本特征提取方法。

对于每一个训练文本，它只考虑每种词汇在该训练文本中出现的频率。

CountVectorizer会将文本中的词语转换为词频矩阵，它通过fit_transform函数计算各个词语出现的次数。

CountVectorizer(input='content', encoding='utf-8', decode_error='strict', strip_accents=None, lowercase=True, preprocessor=None, tokenizer=None, stop_words=None,
token_pattern='(?u)\b\w\w+\b', ngram_range=(1, 1), analyzer='word', max_df=1.0, min_df=1, max_features=None, vocabulary=None, binary=False, dtype=<class 'numpy.int64'>)

一般要设置的参数：

ngram_range:词组切分的长度范围

max_df:可以设置范围在[0.0 1.0]的float，这个参数的作用是作为一个阈值。当构造预料库的关键词集的时候，如果某个词的document frequence大于max_df，这个词不会被当作关键词。如果这个参数是float，则表示词出现的次数与语料库文档数的百分比，如果是int，则表示词出现的次数。

min_df:类似于max_df，不同之处在于如果某个词的document frequence小于min_df，则这个词不会被当作关键词

max_features:默认为None，可设为int，对所有关键词的term frequency进行降序排序，只取前max_features个作为关键词集合

一、one-hot编码

1.1 解决什么问题

1.2 思想和模型

1.3 优缺点

二、词袋模型

2.1、解决什么问题

2.2、思想和模型

2.3、优缺点

三、TF-IDF

3.1、解决什么问题

3.2、思想和模型

是一种用于信息检索与数据挖掘的加权技术，是一种统计方法，用以评估一个字词对于一个预料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。

计算方法：

a. 词频（TF）= 某个词在文章中的出现次数/文章的总词数

b. 逆文档评率(IDF) = log(语料库的文档总数/包含该词的文档数+1）

c. TF-IDF = TF * IDF

可用于自动提取关键词，计算出文档的每个词的TF-IDF值，然后按降序排列，取排在最前面的几个词。

3.3、优缺点

四、NNLM（神经网络语言模型）

4.1、解决什么问题

词袋模型和TF-IDF模型没有考虑单词的上下文关系。一般认为，后面的单词与前几个单词是有关系的，而n-gram model由于计算空间太大，计算时间较长不实用，因此，提出了NNLM语言模型，它是通过前几个单词，来预测后一个单词来建立的模型结构。

4.2、思想和模型

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/酷酷是懒虫/article/detail/873965