当前位置:   article > 正文

非结构数据分析与建模——垃圾短信数据集_数学建模校赛 垃圾短信的识别

数学建模校赛 垃圾短信的识别


前言

本系列非结构数据分析与建模是我的专业课,仅仅是作为笔记方便以后好查阅,也希望能和大家分享,总结经验,非常愿意讨论交流。本次是垃圾短信识别,是一个典型的二分类问题,针对此问题,本文使用哈希向量法以及贝叶斯来做分类预测。


一、相关数据代码

对于一些基础知识,大家可以借鉴以下博客,博主讲述的One-hot以及TF-IDF很是生动。
机器学习之基于文本内容的垃圾短信识别
相关数据和代码请参照网盘:
垃圾短息数据集和代码

二、实操步骤

语言程序:python3+spark

1.分词,去除无用词

import pandas as pd
import jieba
import re
mescon_all = pd.read_csv('whole.csv',header=None,encoding='utf8')
outfile = open('result.csv','wb')
ns = 0
ps = 0
for i in range(len(mescon_all)):
    mescon_single = mescon_all[2][i]
    me_cate = mescon_all[1][i]#什么类型
    outstr = ''
    temp = re.sub(u'[^\u4e00-\u9fa5A-Za-z]','',mescon_single)# 匹配中文字符的正则表达式
    ms_cut = list(jieba.cut(temp,cut_all=False))
    for word in ms_cut:
        if word != ' ':
            outstr += word+' '#空格

    if me_cate == 1:#1代表垃圾信息
        ns = ns+1
        if ns <80000:
            outfile.write((
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小丑西瓜9/article/detail/689177
推荐阅读
相关标签
  

闽ICP备14008679号