当前位置:   article > 正文

Word embedding(文本向量化)技术与路线_embedding 向量化

embedding 向量化

0. CountVecorizer

是属于常见的特征数值计算类,是一个文本特征提取方法。

对于每一个训练文本,它只考虑每种词汇在该训练文本中出现的频率。

CountVectorizer会将文本中的词语转换为词频矩阵,它通过fit_transform函数计算各个词语出现的次数。

CountVectorizer(input='content', encoding='utf-8',  decode_error='strict', strip_accents=None, lowercase=True, preprocessor=None, tokenizer=None, stop_words=None, 
token_pattern='(?u)\b\w\w+\b', ngram_range=(1, 1), analyzer='word', max_df=1.0, min_df=1, max_features=None, vocabulary=None, binary=False, dtype=<class 'numpy.int64'>)

一般要设置的参数:

ngram_range:词组切分的长度范围

max_df:可以设置范围在[0.0 1.0]的float,这个参数的作用是作为一个阈值。当构造预料库的关键词集的时候,如果某个词的document frequence大于max_df,这个词不会被当作关键词。如果这个参数是float,则表示词出现的次数与语料库文档数的百分比,如果是int,则表示词出现的次数。

min_df:类似于max_df,不同之处在于如果某个词的document frequence小于min_df,则这个词不会被当作关键词

max_features:默认为None,可设为int,对所有关键词的term frequency进行降序排序,只取前max_features个作为关键词集合

 

 

一、one-hot编码

1.1 解决什么问题

1.2 思想和模型

1.3 优缺点

二、词袋模型

2.1、解决什么问题

2.2、思想和模型

2.3、优缺点

三、TF-IDF

3.1、解决什么问题

3.2、思想和模型

是一种用于信息检索与数据挖掘的加权技术,是一种统计方法,用以评估一个字词对于一个预料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。

计算方法:

 a. 词频(TF)= 某个词在文章中的出现次数/文章的总词数

 b. 逆文档评率(IDF) = log(语料库的文档总数/包含该词的文档数+1)

 c. TF-IDF = TF * IDF

可用于自动提取关键词,计算出文档的每个词的TF-IDF值,然后按降序排列,取排在最前面的几个词。

3.3、优缺点

 

四、NNLM(神经网络语言模型

4.1、解决什么问题

词袋模型和TF-IDF模型没有考虑单词的上下文关系。一般认为,后面的单词与前几个单词是有关系的,而n-gram model由于计算空间太大,计算时间较长不实用,因此,提出了NNLM语言模型,它是通过前几个单词,来预测后一个单词来建立的模型结构。

4.2、思想和模型

       

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/酷酷是懒虫/article/detail/873965
推荐阅读
相关标签
  

闽ICP备14008679号