赞
踩
Hi,大家好啊!本文主要了解文本分类的内容,以《基于朴素贝叶斯的文本分类方法》这一项目作为示例展示文本分类的意义。
目录
基于统计模型的文本分类方法是文本分类的主要方法之一。该方法的一般步骤是:
朴素贝叶斯算法是常用的统计模型之一。本文主要对数据集中151到155号邮件进行预测,是垃圾邮件还是普通邮件。
贝叶斯方法是一个历史悠久,有着坚实的理论基础的方法,同时处理很多问题时直接而又高效,很多高级自然语言处理模型也可以从它演化而来。因此,学习贝叶斯方法,是研究自然语言处理问题的一个非常好的切入口。
它其实是由以下的联合概率公式推导出来:
其中, 叫做先验概率, 叫做后验概率, 叫做联合概率。
在机器学习的视角下,我们把 理解成“具有某特征”,把 理解成“类别标签”(一般机器学习问题中都是 X=>特征, Y=>结果)。在最简单的二分类问题(是与否判定)下,我们将 理解成“属于某类”的标签。于是贝叶斯公式就变形成了下面的样子:
而我们二分类问题的最终目的就是要判断以下条件是否成立:
贝叶斯方法把计算“具有某特征的条件下属于某类”的概率转换成需要计算“属于某类的条件下具有某特征”**的概率,而后者获取方法就简单多了,我们只需要找到一些包含已知特征标签的样本,即可进行训练。而样本的类别标签都是明确的,所以贝叶斯方法在机器学习里属于有监督学习方法。
另外,一般先验概率、后验概率是相对出现的,比如 其中, 和 是关于 的先验概率与后验概率, 和 是关于 的先验概率与后验概率。
朴素贝叶斯算法是一种基于概率统计的分类算法。它基于贝叶斯定理和特征独立假设,将待分类的样本分配到最可能的类别中。
算法的基本思想是假设所有特征在给定类别的条件下是相互独立的。基于这个假设,朴素贝叶斯算法计算每个类别在给定特征下的后验概率,并选择具有最高概率的类别作为最终的分类结果。
朴素贝叶斯算法在文本分类中的步骤:
需要注意的是:朴素贝叶斯算法有一个特征独立假设,即将文本特征视为相互独立的,这在某些情况下可能并不成立。但朴素贝叶斯算法仍然在文本分类任务中得到广泛应用,并取得了不错的效果。在具体应用时,还可以根据实际情况选择合适的变体,如多项式朴素贝叶斯(用于多分类任务)、伯努利朴素贝叶斯(用于二分类任务)等。
这个小项目其实是一个有关于垃圾邮件识别的项目。
- import re
- import os
- from jieba import cut
- from itertools import chain
- from collections import Counter
- import numpy as np
- from sklearn.naive_bayes import MultinomialNB
- def get_words(filename):
- words = []
- with open(filename, 'r', encoding='utf-8') as fr:
- for line in fr:
- line = line.strip()
- # 过滤无效字符
- line = re.sub(r'[.【】0-9、——。,!~\*]', '', line)
- # 使用jieba.cut()方法对文本切词处理
- line = cut(line)
- # 过滤长度为1的词
- line = filter(lambda word: len(word) > 1, line)
- words.extend(line)
- return words
- all_words = []
- def get_top_words(top_num):
- filename_list = ['邮件_files/{}.txt'.format(i) for i in range(151)]
- # 遍历邮件建立词库
- for filename in filename_list:
- all_words.append(get_words(filename))
- # itertools.chain()把all_words内的所有列表组合成一个列表
- # collections.Counter()统计词个数
- freq = Counter(chain(*all_words))
- return [i[0] for i in freq.most_common(top_num)]
- top_words = get_top_words(100)
- # 构建词-个数映射表
- vector = []
- for words in all_words:
- '''
- words:
- ['国际', 'SCI', '期刊', '材料', '结构力学', '工程', '杂志', '国际', 'SCI', '期刊', '先进', '材料科学',
- '材料', '工程', '杂志', '国际', 'SCI', '期刊', '图像处理', '模式识别', '人工智能', '工程', '杂志', '国际',
- 'SCI', '期刊', '数据', '信息', '科学杂志', '国际', 'SCI', '期刊', '机器', '学习', '神经网络', '人工智能',
- '杂志', '国际', 'SCI', '期刊', '能源', '环境', '生态', '温度', '管理', '结合', '信息学', '杂志', '期刊',
- '网址', '论文', '篇幅', '控制', '以上', '英文', '字数', '以上', '文章', '撰写', '语言', '英语', '论文',
- '研究', '内容', '详实', '方法', '正确', '理论性', '实践性', '科学性', '前沿性', '投稿', '初稿', '需要',
- '排版', '录用', '提供', '模版', '排版', '写作', '要求', '正规', '期刊', '正规', '操作', '大牛', '出版社',
- '期刊', '期刊', '质量', '放心', '检索', '稳定', '邀请函', '推荐', '身边', '老师', '朋友', '打扰', '请谅解']
- '''
- word_map = list(map(lambda word: words.count(word), top_words))
- '''
- word_map:
- [0, 0, 0, 2, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0,
- 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0,
- 10, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 2, 0, 0, 0, 0, 0,
- 0, 1, 0, 0, 0, 0, 0, 0, 0, 0]
- '''
- vector.append(word_map)
- vector = np.array(vector)
- # 0-126.txt为垃圾邮件标记为1;127-151.txt为普通邮件标记为0
- labels = np.array([1]*127 + [0]*24)
- model = MultinomialNB()
- model.fit(vector, labels)
- def predict(filename):
- """对未知邮件分类"""
- # 构建未知邮件的词向量
- words = get_words(filename)
- current_vector = np.array(
- tuple(map(lambda word: words.count(word), top_words)))
- # 预测结果
- result = model.predict(current_vector.reshape(1, -1))
- return '垃圾邮件' if result == 1 else '普通邮件'
- # 对151到155号邮件的性质预测并输出结果
- print('151.txt分类情况:{}'.format(predict('邮件_files/151.txt')))
- print('152.txt分类情况:{}'.format(predict('邮件_files/152.txt')))
- print('153.txt分类情况:{}'.format(predict('邮件_files/153.txt')))
- print('154.txt分类情况:{}'.format(predict('邮件_files/154.txt')))
- print('155.txt分类情况:{}'.format(predict('邮件_files/155.txt')))
我们找了个最简单常见的例子:垃圾邮件识别,说明了一下朴素贝叶斯进行文本分类的思路过程。基本思路是先区分好训练集与测试集,对文本集合进行分词、去除标点符号等特征预处理的操作,然后使用条件独立假设,将原概率转换成词概率乘积,再进行后续的处理。
贝叶斯公式 + 条件独立假设 = 朴素贝叶斯方法
基于对重复词语在训练阶段与判断(测试)阶段的三种不同处理方式,我们相应的有伯努利模型、多项式模型和混合模型。在训练阶段,如果样本集合太小导致某些词语并未出现,我们可以采用平滑技术对其概率给一个估计值。而且并不是所有的词语都需要统计,我们可以按相应的“停用词”和“关键词”对模型进行进一步简化,提高训练和判断速度。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。