当前位置:   article > 正文

文本分类中使用TfidfVectorizer()

tfidfvectorizer

在文本分类中,经常使用到TfidfVectorizer()函数,这个函数把词转换为向量,TF是词频,idf是逆文本频率,idf表现一个词在所有文本中出现的频率,它出现的越多说明越不重要,idf即是一个词的重要程度体现,越高越重要。

在使用这个函数的时候,需要注意的是,它所输出的结果是一个scipy.sparse.csr.csr_matrix,我们在将结果输入到模型中的时候,需要注意模型是否支持这种格式,如果不支持,需要像以下代码一样将sparse metrix转化成numpy的格式。

同时,在一些需要将TfidfVectorizer()函数的输出结果进行整合计算的时候,转化为numpy格式是一个很明智的选择。

  1. reviews, labels = load_data(train)
  2. word_tfidf, char_tfidf = train_tfidf(all_text)
  3. w = word_tfidf.transform(reviews).todense()
  4. c = char_tfidf.transform(reviews).todense()
  5. train_reviews = np.hstack((w,c))
  6. print(len(labels))
  7. print(len(reviews))
  8. print(c.shape)
  9. print(w.shape)
  10. print(train_reviews.shape)
  1. 运行输出
  2. 运行耗时: 11894毫秒
  3. 5695
  4. 5695
  5. (5695, 50000)
  6. (5695, 10000)
  7. (5695, 60000)

如果不转化成numpy格式,会出现错误。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/350081
推荐阅读
相关标签
  

闽ICP备14008679号