赞
踩
本系列非结构数据分析与建模是我的专业课,仅仅是作为笔记方便以后好查阅,也希望能和大家分享,总结经验,非常愿意讨论交流。本次是垃圾短信识别,是一个典型的二分类问题,针对此问题,本文使用哈希向量法以及贝叶斯来做分类预测。
对于一些基础知识,大家可以借鉴以下博客,博主讲述的One-hot以及TF-IDF很是生动。
机器学习之基于文本内容的垃圾短信识别
相关数据和代码请参照网盘:
垃圾短息数据集和代码
语言程序:python3+spark
import pandas as pd import jieba import re mescon_all = pd.read_csv('whole.csv',header=None,encoding='utf8') outfile = open('result.csv','wb') ns = 0 ps = 0 for i in range(len(mescon_all)): mescon_single = mescon_all[2][i] me_cate = mescon_all[1][i]#什么类型 outstr = '' temp = re.sub(u'[^\u4e00-\u9fa5A-Za-z]','',mescon_single)# 匹配中文字符的正则表达式 ms_cut = list(jieba.cut(temp,cut_all=False)) for word in ms_cut: if word != ' ': outstr += word+' '#空格 if me_cate == 1:#1代表垃圾信息 ns = ns+1 if ns <80000: outfile.write((
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。