赞
踩
在文本分类中,经常使用到TfidfVectorizer()函数,这个函数把词转换为向量,TF是词频,idf是逆文本频率,idf表现一个词在所有文本中出现的频率,它出现的越多说明越不重要,idf即是一个词的重要程度体现,越高越重要。
在使用这个函数的时候,需要注意的是,它所输出的结果是一个scipy.sparse.csr.csr_matrix,我们在将结果输入到模型中的时候,需要注意模型是否支持这种格式,如果不支持,需要像以下代码一样将sparse metrix转化成numpy的格式。
同时,在一些需要将TfidfVectorizer()函数的输出结果进行整合计算的时候,转化为numpy格式是一个很明智的选择。
- reviews, labels = load_data(train)
- word_tfidf, char_tfidf = train_tfidf(all_text)
- w = word_tfidf.transform(reviews).todense()
- c = char_tfidf.transform(reviews).todense()
- train_reviews = np.hstack((w,c))
- print(len(labels))
- print(len(reviews))
- print(c.shape)
- print(w.shape)
- print(train_reviews.shape)
- 运行输出
- 运行耗时: 11秒894毫秒
- 5695
- 5695
- (5695, 50000)
- (5695, 10000)
- (5695, 60000)
如果不转化成numpy格式,会出现错误。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。