当前位置:   article > 正文

NLP(三):文本表示的特征选取(TF-IDF,互信息)_文本互信息

文本互信息

目录

1.TF-IDF概述

*首先我们先回顾一下学习计划()二)中提到的文本向量化表示:https://blog.csdn.net/weixin_42483560/article/details/89218698

2.TF-IDF的sklearn实现

方法一:

方法二:

3.(点)互信息原理

3.1点互信息

3.2互信息

4.互信息的sklearn实现


1.TF-IDF概述

*首先我们先回顾一下学习计划()二)中提到的文本向量化表示:https://blog.csdn.net/weixin_42483560/article/details/89218698

  1. from sklearn.feature_extraction.text import CountVectorizer
  2. vectorizer=CountVectorizer()
  3. corpus=["I come to China to travel",
  4. "This is a car polupar in China",
  5. "I love tea and Apple ",
  6. "The work is to write some papers in science"]
  7. print (vectorizer.fit_transform(corpus).toarray())
  1. [[0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 2 1 0 0]
  2. [0 0 1 1 0 1 1 0 0 1 0 0 0 0 1 0 0 0 0]
  3. [1 1 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0]
  4. [0 0 0 0 0 1 1 0 1 0 1 1 0 1 0 1 0 1 1]]

第一条文本中,"come","China"和“Travel”各出现1次,而“to“出现了两次。似乎看起来这个文本与”to“这个特征更关系紧密。但是实际上”to“是一个非常普遍的词,几乎所有的文本都会用到,因此虽然它的词频为2,但是重要性却比词频为1的"China"和“Travel”要低的多。如果我们的向量化特征仅仅用词频表示就无法反应这一点。因此我们需要进一步的预处理来反应文本的这个特征,而这个预处理就是TF-IDF。

TF-IDF:Term Frequency -  Inverse Document Frequency,即“词频-逆文本频率”。它由两部分组成,TF和IDF。

前面的TF也就是我们前面说到的词频,我们之前做的向量化也就是做了文本中各个词的出现频率统计,并作为文本特征,这个很好理解。关键是后面的这个IDF,即“逆文本频率”如何理解。在上一节中,我们讲到几乎所有文本都会出现的"to"其词频虽然高,但是重要性却应该比词频低的"China"和“Travel”要低。我们的IDF就是来帮助我们来反应这个词的重要性的,进而修正仅仅用词频表示的词特征值。

定性得解释的话:IDF反应了一个词在所有文本中出现的频率,如果一个词在很多的文本中出现,那么它的IDF值应该低,比如上文中的“to”。而反过来如果一个词在比较少的文本中出现,那么它的IDF值应该高。比如一些专业的名词如“Machine Learning”。这样的词IDF值应该高。一个极端的情况,如果一个词在所有的文本中都出现,那么它的IDF值应该为0。

用平滑的数学公式表示为:IDF(x)=log((N+1)/(N(x)+1))+1

 

则TF−IDF的表达式为:TF−IDF(x)=TF(x)∗IDF(x)


2.TF-IDF的sklearn实现

sklearn库中有两种TF-IDF实现方式:

1.CountVectorizer类向量化之后再调用TfidfTransformer类进行预处理

2.用TfidfVectorizer完成向量化与TF-IDF预处理。

方法一:

  1. from sklearn.feature_extraction.text import TfidfTransformer
  2. from sklearn.feature_extraction.text import CountVectorizer
  3. corpus=["I come to China to travel",
  4. "This is a car polupar in China",
  5. "I love tea and Apple ",
  6. "The work is to write some papers in science"]
  7. vectorizer=CountVectorizer()
  8. transformer = TfidfTransformer()
  9. tfidf = transformer.fit_transform(vectorizer.fit_transform(corpus))
  10. print (tfidf)

方法二:

  1. from sklearn.feature_extraction.text import TfidfVectorizer
  2. tfidf2 = TfidfVectorizer()
  3. re = tfidf2.fit_transform(corpus)
  4. print (re)

3.(点)互信息原理

3.1点互信息

直接给出式子:

概率论中我们知道:如果x跟y不相关,则p(x,y)=p(x)p(y)。二者相关性越大,则p(x, y)就相比于p(x)p(y)越大。用后面的式子可能更

好理解,在y出现的情况下x出现的条件概率p(x|y)除以x本身出现的概率p(x),自然就表示x跟y的相关程度。

3.2互信息

直接给出式子:.

其衡量的是两个随机变量之间的相关性,即一个随机变量中包含的关于另一个随机变量的信息量。所谓的随机变量,即随机试验结

果的量的表示,可以简单理解为按照一个概率分布进行取值的变量,比如随机抽查的一个人的身高就是一个随机变量。

可以看出,互信息其实就是对X和Y的所有可能的取值情况的点互信息PMI的加权和。因此,点互信息这个名字还是很形象的。

4.互信息的sklearn实现

  1. from sklearn import metrics as mr
  2. mr.mutual_info_score(label,x)

以上语句计算的就是label和x之间的互信息值。

现在利用以上语句对小结2中生成的特征矩阵进行特征筛选:

  1. from sklearn.feature_extraction.text import TfidfTransformer
  2. from sklearn.feature_extraction.text import CountVectorizer
  3. from sklearn import metrics as mr
  4. corpus=["I come to China to travel",
  5. "This is a car polupar in China",
  6. "I love tea and Apple ",
  7. "The work is to write some papers in science"]
  8. vectorizer=CountVectorizer()
  9. transformer = TfidfTransformer()
  10. #tfidf = transformer.fit_transform(vectorizer.fit_transform(corpus))
  11. a = vectorizer.fit_transform(corpus).toarray()
  12. print(a)
  13. print(mr.mutual_info_score(a[1],a[2]))
  14. #print (tfidf)

结果如下

  1. 0.09232984929764276
  2. (0, 16) 0.4424621378947393
  3. (0, 15) 0.697684463383976
  4. (0, 4) 0.4424621378947393
  5. (0, 3) 0.348842231691988
  6. (1, 14) 0.45338639737285463
  7. (1, 9) 0.45338639737285463
  8. (1, 6) 0.3574550433419527
  9. (1, 5) 0.3574550433419527
  10. (1, 3) 0.3574550433419527
  11. (1, 2) 0.45338639737285463
  12. (2, 12) 0.5
  13. (2, 7) 0.5
  14. (2, 1) 0.5
  15. (2, 0) 0.5
  16. (3, 18) 0.3565798233381452
  17. (3, 17) 0.3565798233381452
  18. (3, 15) 0.2811316284405006
  19. (3, 13) 0.3565798233381452
  20. (3, 11) 0.3565798233381452
  21. (3, 10) 0.3565798233381452
  22. (3, 8) 0.3565798233381452
  23. (3, 6) 0.2811316284405006
  24. (3, 5) 0.2811316284405006

 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/239099
推荐阅读
相关标签
  

闽ICP备14008679号