赞
踩
目录
摘要 1
一、 概述 2
二、 相关工作 2
三、 数据分析 3
四、 研究方法 3
4.1 逻辑回归(Logistic Regression) 3
4.2 支撑向量机(SVM) 4
4.3 决策树(Decision Tree) 5
4.4 梯度提升决策树(GBDT) 6
则此时的负梯度误差为 6
五、 实验设计 7
5.1 逻辑回归(Logistic Regression)模型 7
5.1.1 逻辑回归分类器训练 7
5.1.2 实验结果及分析 7
5.2 支持向量机(Support Vector Machine)模型 8
5.2.1 数据预处理 8
5.2.2 训练模型 8
5.2.3 模型评估 9
5.3 决策树(Decision Tree)模型 9
5.3.1 决策树分类器训练 9
5.3.2 实验结果及分析 10
5.4 梯度提升决策树(GBDT)模型 11
5.4.1 GBDT分类器训练 11
5.4.2 实验结果及分析 11
5.5 垃圾短信识别系统 12
六、总结 13
参考文献 13
文本分类最早可以追溯到20世纪60年代,在这之前主要是采用手工分类的方法。进入60年代后,Maron发表了具有里程碑作用的论文《Automatic Indexing: An Experimental Inquiry》[2],采用贝叶斯公式进行文本分类,大大推进了文本分类工作。在该文中,Maron还假设特征间是相互独立的,这就是后来被广泛采用的“贝叶斯假设”。
在随后的二十多年,主要是采用知识工程(Knowledge Engineering, KE)的方法进行文本分类,它通过在专家知识基础上手工建立一系列分类规则来构建分类器。知识工程方法需要大量领域的专家和工程师参与,势必耗费很多人力物力,当电子文档急剧增长时将无法满足需求。这种方法最典型的应用实例为由Carnegie Group开发的CONSTRUE系统[3],该系统用来对路透社的新闻稿件自动分类。
直到进入20世纪90年代,随着Internet的迅猛发展,为了能够更好地处理大量的电子文档,并且伴随着人工智能、机器学习、模式识别、统计理论等学科的发展,基于知识工程的文本分类方法渐渐退出了历史舞台,文本分类技术进入了更深入的自动分类时代。由于基于机器学习的自动文本分类系统几乎可以达到与人类专家相当的正确度,但是却不需要任何知识工程师或领域专家的干预,节约了大量的人力,并且分类效率远远高于人类专家。
常用的文本分类算法主要包括三大类。一类是基于概率和信息理论的分类算法,如朴素贝叶斯算法(Naive Bayes),最大熵算法(Maximum Entropy)等;另一类是基于TFIDF权值计算方法的分类算法,这类算法包括Rocchio算法,TFIDF算法,k近邻算法(k Nearest Neighbors)等;第三类是基于知识学习的分类算法,如决策树(Decision Tree),人工神经网络(Artificial Neural Networks),支持向量机(Support Vector Machine),逻辑回归模型(Logistic Regression)等算法。
三、数据分析
在进行数据分类之前,首先我们对数据进行了分析。此次垃圾短信分类共有80万条标注数据,其中垃圾数据80000条,其余为非垃圾数据。由此可见数据中正负样本不均衡的问题非常严重。
考虑到上采样方法会导致过拟合,下采样会浪费过多的实验数据面对这样的情况,我们的思路是改变错分数据的代价。对不同的数据赋予不同的权重,使得不同类别的错分代价不同。我们对垃圾短信赋予更高的权重,使其在分类过程中被错分的代价更大,根据经验,我们将权重比例设置为9:1。
# -*- coding: utf-8 -*- # @Date : 2018/11/07 # @Author : xiaoliang8006 import jieba import jieba.posseg as pseg import sklearn.feature_extraction.text from sklearn.externals import joblib import cPickle as pickle from scipy import sparse, io import sys,os from time import time import warnings # generate word vector using tf-idf weight class TfidfVectorizer(sklearn.feature_extraction.text.TfidfVectorizer): def build_analyzer(self): def analyzer(doc): words = pseg.cut(doc) new_doc = ''.join(w.word for w in words if w.flag != 'x') words = jieba.cut(new_doc) return words return analyzer #获取信息*************************** gpus = sys.argv[1] text = [gpus]; # 模块二:预测信息 # 读取待预测的短息读取到X1中 X1 = [] X2 = [] #f = open('test.txt') X1.append(gpus) # 进行分词,分词后保存在X2中 for i in range(len(X1)): words = pseg.cut(X1[i]) str1 = "" for key in words: str1 += key.word str1 += ' ' X2.append(str1) # 短信内容 #*******************************LR******************************** start2 =time() warnings.filterwarnings("ignore")# 忽略一些版本不兼容等警告 model=joblib.load("SPAM_CLASSIFY_online/model/LR_model.m") vectorizer = joblib.load("SPAM_CLASSIFY_online/Data/Myvectorizer.m")#实例化 x_demand_prediction = vectorizer.transform(X2) y_predict = model.predict(x_demand_prediction) end2 =time() # 输出 for i in range(len(X1)): if int(y_predict[i]) == 0: print(" <font size=5 weight=700> LR: </font> <font color=green size=5 weight=700>非垃圾短信 </font> 用时: %0.3fs</br>" % (end2 - start2)) else: print(" <font size=5 weight=700> LR: </font> <font color=red size=5 weight=700>垃圾短信! </font> 用时: %0.3fs</br>" % (end2 - start2)) #**************************DT************************ start4 =time() model=joblib.load("SPAM_CLASSIFY_online/model/dtree_py2_final.m") vectorizer = joblib.load("SPAM_CLASSIFY_online/Data/tfidf_py2_final.m")#实例化 x_demand_prediction = vectorizer.transform(X2) y_predict = model.predict(x_demand_prediction) end4 =time() # 输出 for i in range(len(X1)): if int(y_predict[i]) == 0: print(" <font size=5 weight=700> DT: </font> <font color=green size=5 weight=700>非垃圾短信 </font> 用时: %0.3fs</br>" % (end4 - start4)) else: print(" <font size=5 weight=700> DT: </font> <font color=red size=5 weight=700>垃圾短信! </font> 用时: %0.3fs</br>" % (end4 - start4)) #*****************************SVM********************************************* start =time() vec_tfidf = joblib.load("SPAM_CLASSIFY_online/Data/vec_tfidf") #note absolute path data_tfidf = vec_tfidf.transform(text) #data_tfidf = vec_tfidf.fit_transform(text) #model = pickle.load(open('model/SVM_sklearn.pkl', 'rb')) modelb = joblib.load('SPAM_CLASSIFY_online/model/SVM_sklearn.pkl') predict = modelb.predict(data_tfidf) end =time() if predict == "0": print(" <font size=5 weight=700> SVM: </font> <font color=green size=5 weight=700>非垃圾短信 </font> 用时: %0.3fs</br>" % (end - start)) elif predict == "1": print(" <font size=5 weight=700> SVM: </font> <font color=red size=5 weight=700>垃圾短信! </font> 用时: %0.3fs</br>" % (end - start)) #***************GBDT**************************************** start3 =time() model = joblib.load('SPAM_CLASSIFY_online/model/gbdt_s.pkl') vectorizer = joblib.load("SPAM_CLASSIFY_online/Data/vec_tfidf_s")#实例化 x_demand_prediction = vectorizer.transform(X2) y_predict = model.predict(x_demand_prediction) end3 =time() # 输出 for i in range(len(X1)): if int(y_predict[i]) == 0: print("<font size=5 weight=700> GBDT: </font> <font color=green size=5 weight=700>非垃圾短信 </font> 用时: %0.3fs</br>" % (end3 - start3)) else: print("<font size=5 weight=700> GBDT: </font> <font color=red size=5 weight=700>垃圾短信! </font> 用时: %0.3fs</br>" % (end3 - start3))
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。