当前位置:   article > 正文

Task3 基于机器学习的文本分类_机器学习文本分类

机器学习文本分类

Task3 基于机器学习的文本分类

本章将使用传统机器学习算法来完成新闻分类的过程。

3.1 学习目标

1.学会TF-IDF的原理和使用
2.使用sklearn的机器学习模型完成文本分类

3.2 机器学习模型

机器学习是对能通过经验自动改进的计算机算法的研究。机器学习通过历史数据训练模型对应人类对经验进行归纳的过程;机器学习利用模型对新数据进行预测对应于人类利用总结的规律对新问题进行预测的过程。
机器学习有很多分支,初学者应该优先掌握机器学习算法的分类,然后对其中一种机器学习算法进行学习。作为一名机器学习初学者,你应该要知道:
1.机器学习能解决一定的问题,但它并不是万能的;
2.机器学习算法有很多种,它们有各自的偏好,需要根据具体问题选择具体算法。
在这里插入图片描述

3.3文本表示方法

在机器学习算法的训练过程中,假设给定N个样本,每个样本有M个特征,组成N×M的样本矩阵,然后完成算法的训练和预测。例如在计算机视觉领域,可以将图片的像素看作特征,每张图片看作hight×width×3的特征图,对一个三维的矩阵来进行计算。
但是在自然领域,上述方法却不可行,因为文本是不定长度的。我们需要将文本表示为计算机能够运行的数字或者向量,这种方法称为词嵌入(Word Embedding)方法。词嵌入将不定长的文本转换到定长的空间,是文本分类的第一步。

3.3.1 One-hot

独热编码,即将每一个单词使用一个离散的向量表示。具体操作就是将每个字/词编码一个索引,然后根据索引进行赋值。
例子:
在这里插入图片描述
对所有句子的字进行索引,给每个字确定一个编号:
在这里插入图片描述
一共有11个字,可以转换为一个11维度的稀疏向量:
在这里插入图片描述

3.3.2 Bag of Words

Bag of Words(词袋表示),也称为Count Vectors,使用每个字 /词出现的次数来进行表示。
在这里插入图片描述
sklearn中可以使用CountVectorizer来实现。

3.3.3 N-gram

N-gram与Count Vectors类似,是将相邻字/词组合成新的字词,并进行计数。
如果N取2,则句子1和句子2变为:
在这里插入图片描述
CountVectorizer中ngram_range参数改为(2,2)则为2-gram。

3.3.4 TF-IDF

TF-IDF分数由两部分组成,第一部分是词语频率(Term Frequency),第二部分是逆文档频率(Inverse Document Frequency)。其中计算语料库中文档总数除以含有该词语的文档数量,然后再去对数就是逆文档频率。
TF(t)= 该词语在当前文档出现的次数 / 当前文档中词语的总数。
IDF(t)= log_e(⽂档总数 / 出现该词语的文档总数)。
词频TF很好理解,就是文本中每个词出现的频率,但是逆文本频率IDF如何理解呢?我们知道有些词的词频可能很高,但是它的重要性却可能没那么高(比如‘的’,‘地’这些字),IDF就是来帮助我们来反应这个词的重要性的,进而修正仅仅用词频表示的词特征值。
概括来讲, IDF反应了一个词在所有文本中出现的频率,如果一个词在很多的文本中出现,那么它的IDF值应该低。而反过来如果一个词在比较少的文本中出现,那么它的IDF值应该高。一个极端的情况,如果一个词在所有的文本中都出现,那么它的IDF值应该为0。
sklearn中可以使用TfidfVectorizer来实现。

3.4 基于机器学习的文本分类

对比不同文本表示算法的精度,通过本地构建验证集计算F1得分。

3.4.1 Count Vectors + RidgeClassifier
import pandas as pd

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.linear_model import RidgeClassifier
from sklearn.metrics import f1_score

train_df = pd.read_csv('data/train_set.csv', sep='\t', nrows=15000)

#Count Vectors + RidgeClassifier
vectorizer = CountVectorizer(max_features=
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/人工智能uu/article/detail/848501
推荐阅读
相关标签
  

闽ICP备14008679号