赞
踩
0. CountVecorizer
是属于常见的特征数值计算类,是一个文本特征提取方法。
对于每一个训练文本,它只考虑每种词汇在该训练文本中出现的频率。
CountVectorizer会将文本中的词语转换为词频矩阵,它通过fit_transform函数计算各个词语出现的次数。
CountVectorizer(input='content', encoding='utf-8', decode_error='strict', strip_accents=None, lowercase=True, preprocessor=None, tokenizer=None, stop_words=None,
token_pattern='(?u)\b\w\w+\b', ngram_range=(1, 1), analyzer='word', max_df=1.0, min_df=1, max_features=None, vocabulary=None, binary=False, dtype=<class 'numpy.int64'>)
一般要设置的参数:
ngram_range:词组切分的长度范围
max_df:可以设置范围在[0.0 1.0]的float,这个参数的作用是作为一个阈值。当构造预料库的关键词集的时候,如果某个词的document frequence大于max_df,这个词不会被当作关键词。如果这个参数是float,则表示词出现的次数与语料库文档数的百分比,如果是int,则表示词出现的次数。
min_df:类似于max_df,不同之处在于如果某个词的document frequence小于min_df,则这个词不会被当作关键词
max_features:默认为None,可设为int,对所有关键词的term frequency进行降序排序,只取前max_features个作为关键词集合
一、one-hot编码
1.1 解决什么问题
1.2 思想和模型
1.3 优缺点
二、词袋模型
2.1、解决什么问题
2.2、思想和模型
2.3、优缺点
三、TF-IDF
3.1、解决什么问题
3.2、思想和模型
是一种用于信息检索与数据挖掘的加权技术,是一种统计方法,用以评估一个字词对于一个预料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
计算方法:
a. 词频(TF)= 某个词在文章中的出现次数/文章的总词数
b. 逆文档评率(IDF) = log(语料库的文档总数/包含该词的文档数+1)
c. TF-IDF = TF * IDF
可用于自动提取关键词,计算出文档的每个词的TF-IDF值,然后按降序排列,取排在最前面的几个词。
3.3、优缺点
四、NNLM(神经网络语言模型)
4.1、解决什么问题
词袋模型和TF-IDF模型没有考虑单词的上下文关系。一般认为,后面的单词与前几个单词是有关系的,而n-gram model由于计算空间太大,计算时间较长不实用,因此,提出了NNLM语言模型,它是通过前几个单词,来预测后一个单词来建立的模型结构。
4.2、思想和模型
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。