文本数据预处理的第一步通常是进行分词,分词后会进行向量化的操作。在介绍向量化之前,我们先来了解下词袋模型。
1.词袋模型(Bag of words,简称 BoW )
词袋模型假设我们不考虑文本中词与词之间的上下文关系,仅仅只考虑所有词的权重。而权重与词在文本中出现的频率有关。
词袋模型首先会进行分词,在分词之后,通过统计每个词在文本中出现的次数,我们就可以得到该文本基于词的特征,如果将各个文本样本的这些词与对应的词频放在一起,就是我们常说的向量化。向量化完毕后一般也会使用 TF-IDF 进行特征的权重修正,再将特征进行标准化。 再进行一些其他的特征工程后,就可以将数据带入机器学习模型中计算。
词袋模型的三部曲:分词(tokenizing),统计修订词特征值(counting)与标准化(normalizing)。
词袋模型有很大的局限性,因为它仅仅考虑了词频,没有考虑上下文的关系,因此会丢失一部分文本的语义。
在词袋模型统计词频的时候,可以使用 sklearn 中的 CountVectorizer 来完成。下面具体说明。
2.词频向量化
CountVectorizer 类会将文本中的词语转换为词频矩阵,例如矩阵中包含一个元素a[i][j],它表示j词在i类文本下的词频。它通过 fit_transform 函数计算各个词语出现的次数,通过get_feature_names()可获取词袋中所有文本的关键字,通过 toarray()可看到词频矩阵的结果。
官方文件中提到其参数很多默认值就很好,无需再改动,详细参数设置参见:点击打开链接。例子如下:
- from sklearn.feature_extraction.text import CountVectorizer
-
- vectorizer = CountVectorizer(min_df=1)
-
- corpus = [ 'This is the first document.',
- 'This is the second second document.',
- 'And the third one.',
- 'Is this the first document?',
- ]
- X = vectorizer.fit_transform(corpus)
- feature_name = vectorizer.get_feature_names()
-
- print (X)
- print (feature_name)
- print (X.toarray())
输出:
- (0, 1) 1
- (0, 2) 1
- (0, 6) 1
- (0, 3) 1
- (0, 8) 1
- (1, 5) 2
- (1, 1) 1
- (1, 6) 1
- (1, 3) 1
- (1, 8) 1
- (2, 4) 1
- (2, 7) 1
- (2, 0) 1
- (2, 6) 1
- (3, 1) 1
- (3, 2) 1
- (3, 6) 1
- (3, 3) 1
- (3, 8) 1
- ['and', 'document', 'first', 'is', 'one', 'second', 'the', 'third', 'this']
-
- [[0 1 1 ..., 1 0 1]
- [0 1 0 ..., 1 0 1]
- [1 0 0 ..., 1 1 0]
- [0 1 1 ..., 1 0 1]]
在输出中,左边的括号中的第一个数字是文本的序号i,第2个数字是词的序号j,注意词的序号是基于所有的文档的。第三个数字就是我们的词频。
可以看到一共有9个词,所以4个文本对应的都是9维的特征向量。
由于大部分文本都只会用词汇表中很少一部分的词,因此词向量中有大量的0,也就是说词向量是稀疏的。因此在实际应用中一般使用稀疏矩阵来存储。
3.TF-IDF处理
TF-IDF(Term Frequency–Inverse Document Frequency)是一种用于资讯检索与文本挖掘的常用加权技术。TF-IDF是一种统计方法,用以评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。
TF-IDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TF-IDF实际上是:TF * IDF。
(1)词频(Term Frequency,TF)指的是某一个给定的词语在该文件中出现的频率。即词w在文档d中出现的次数count(w, d)和文档d中总词数size(d)的比值。
tf(w,d) = count(w, d) / size(d)
这个数字是对词数 (term count) 的归一化,以防止它偏向长的文件。(同一个词语在长文件里可能会比短文件有更高的词数,而不管该词语重要与否。)
(2)逆向文件频率(Inverse Document Frequency,IDF)是一个词语普遍重要性的度量。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到。即文档总数n与词w所出现文件数docs(w, D)比值的对数。
idf = log(n / docs(w, D))
TF-IDF根据 tf 和 idf 为每一个文档d和由关键词w[1]…w[k]组成的查询串q计算一个权值,用于表示查询串q与文档d的匹配度:
tf-idf(q, d) = sum { i = 1..k | tf-idf(w[i], d) } = sum { i = 1..k | tf(w[i], d) * idf(w[i]) }
某一特定文件内的高词语频率,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的TF-IDF。因此,TF-IDF倾向于过滤掉常见的词语,保留重要的词语。
4.用sklearn进行TF-IDF预处理
第一种方法是在用 CountVectorizer 类向量化之后再调用 TfidfTransformer 类进行预处理。第二种方法是直接用 TfidfVectorizer 完成向量化与 TF-IDF 预处理。
4.1 CountVectorizer 结合 TfidfTransformer
依旧用上面的文本,实现如下:
- from sklearn.feature_extraction.text import TfidfTransformer
- from sklearn.feature_extraction.text import CountVectorizer
-
-
- corpus = [ 'This is the first document.',
- 'This is the second second document.',
- 'And the third one.',
- 'Is this the first document?',
- ]
-
-
- vectorizer=CountVectorizer()
-
-
- transformer = TfidfTransformer()
- tfidf = transformer.fit_transform(vectorizer.fit_transform(corpus))
- print (tfidf)
输出的各个文本各个词的 TF-IDF 值如下:
- (0, 8) 0.438776742859
- (0, 3) 0.438776742859
- (0, 6) 0.358728738248
- (0, 2) 0.541976569726
- (0, 1) 0.438776742859
- (1, 8) 0.272301467523
- (1, 3) 0.272301467523
- (1, 6) 0.222624292325
- (1, 1) 0.272301467523
- (1, 5) 0.853225736145
- (2, 6) 0.28847674875
- (2, 0) 0.552805319991
- (2, 7) 0.552805319991
- (2, 4) 0.552805319991
- (3, 8) 0.438776742859
- (3, 3) 0.438776742859
- (3, 6) 0.358728738248
- (3, 2) 0.541976569726
- (3, 1) 0.438776742859
4.2 用 TfidfVectorizer
- from sklearn.feature_extraction.text import TfidfVectorizer
- tfidf2 = TfidfVectorizer()
- re = tfidf2.fit_transform(corpus)
- print (re)
输出:
- (0, 8) 0.438776742859
- (0, 3) 0.438776742859
- (0, 6) 0.358728738248
- (0, 2) 0.541976569726
- (0, 1) 0.438776742859
- (1, 8) 0.272301467523
- (1, 3) 0.272301467523
- (1, 6) 0.222624292325
- (1, 1) 0.272301467523
- (1, 5) 0.853225736145
- (2, 6) 0.28847674875
- (2, 0) 0.552805319991
- (2, 7) 0.552805319991
- (2, 4) 0.552805319991
- (3, 8) 0.438776742859
- (3, 3) 0.438776742859
- (3, 6) 0.358728738248
- (3, 2) 0.541976569726
- (3, 1) 0.438776742859
统计个数和计算频率两种方法虽然非常实用,但是也由其局限性导致词汇量可能变得非常大。词汇量过大又将导致需要非常大的矢量来编码文档,从而对内存产生很大的要求,同时拖慢算法的速度。卤煮会在后续的博客中介绍优化方法。
参考资料:
http://scikit-learn.org/stable/modules/feature_extraction.html#common-vectorizer-usage
http://www.cnblogs.com/weidagang2046/archive/2012/10/22/tf-idf-from-probabilistic-view.html#top
https://zhangzirui.github.io/posts/Document-14%20(sklearn-feature).md