赞
踩
1、SVM
2、朴素贝叶斯
3、LDA
本文给出代码和使用中的效果
svm做文本分类准确率并不高, 而且耗时, 训练集少时推荐逻辑回归
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.svm import SVC
tfidf = TfidfVectorizer()
# X_train格式: ['字符串1','字符串2']
matrix = Tfidf.fit_transform(X_train).toarray()
svm = SVC()
svm.fit(X_train, y_train)
在大数据预选赛中使用过,可是泛化能力没有逻辑回归好,但准确很高而且快
from sklearn.naive_bayes import MultinomialNB
mu = MultinomialNB(alpha=2)
# X_train输入格式和上面一样
mu.fit(X_train, y_train)
#这里用的是情感分类的数据集,设置topic为2, 把词频统计出来矩阵保存在npy也行的。
import lda
X = np.genfromtxt("datasets/cnews/vocab.txt", skip_header=1, dtype = np.int)
model = lda.LDA(random_state=1, n_topics=2, n_iter=1000)
model.fit(X)```
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。