当前位置:   article > 正文

用TFIDF给特征词赋权值_tfidf 增加某些词的权重

tfidf 增加某些词的权重

0  背景

     
      在上一篇的用CHI检验的文章中我们已经获得了特征词,这些特征词在某一篇文章中出现的频率是不一样的,也可以说词与词的重要性是不一样的。为了标示特征词语的重要程度,就必须赋权重。在本篇文章中,我们使用的方法是TFIDF。

1   VSM向量空间模型

       
      哎?不是讲TFIDF吗,怎么会有VSM向量空间模型呢。是这样,在经过CHI提取到特征词后,然后再用TFIDF给特征词赋权值以后,这样就会组成一个向量:(term1,权重值;term2,权重值;........;termn,权重值),n为特征词的数量。这样的向量就是VSM。每篇文章都可以表示为这样的向量。
      比如说吧,对所有的训练样本经过CHI检验后,提取到的特征词有(“篮球”,“范冰冰”,“航空母舰”,“NBA”,“股票”,“综艺”,“娱乐圈”)这些词,当然真实的特征词肯定是成千上万的,在这里只是简单地举一个例子。当有一篇
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/盐析白兔/article/detail/937447
推荐阅读
相关标签
  

闽ICP备14008679号