基于机器学习的文本分类！

作者：从前慢现在也慢 | 2024-04-28 10:57:09

踩

机器学习文本分类

↑↑↑关注后"星标"Datawhale

每日干货 & 每月组队学习，不错过

Datawhale干货

作者：李露，西北工业大学，Datawhale优秀学习者

据不完全统计，网民们平均每人每周收到的垃圾邮件高达10封左右。垃圾邮件浪费网络资源的同时，还消耗了我们大量的时间。大家对此深恶痛绝，于是识别垃圾邮件并对其进行过滤成为各邮件服务商的重要工作之一。

垃圾邮件识别问题本质上是一个文本分类问题，给定文档p（可能含有标题t），将文档分类为n个类别中的一个或多个。文本分类一般有两种处理思路：基于机器学习的方法和基于深度学习的方法。

本文主要基于机器学习的方法，介绍了特征提取+分类模型在文本分类中的应用。具体目录如下：

一、数据及背景

https://tianchi.aliyun.com/competition/entrance/531810/information（阿里天池-零基础入门NLP赛事）

二、文本表示方法

在机器学习算法的训练过程中，假设给定个样本，每个样本有个特征，这样就组成了的样本矩阵。在计算机视觉中可以把图片的像素看作特征，每张图片都可以视为

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/501888