当前位置:   article > 正文

NLP(五)文本分类_模式识别 文本分类

模式识别 文本分类

文本分类

1、SVM
2、朴素贝叶斯
3、LDA
本文给出代码和使用中的效果

1、SVM

svm做文本分类准确率并不高, 而且耗时, 训练集少时推荐逻辑回归

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.svm import SVC

tfidf   = TfidfVectorizer()
# X_train格式: ['字符串1','字符串2']
matrix = Tfidf.fit_transform(X_train).toarray()
svm = SVC()
svm.fit(X_train, y_train)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
2、朴素贝叶斯

在大数据预选赛中使用过,可是泛化能力没有逻辑回归好,但准确很高而且快

from sklearn.naive_bayes import MultinomialNB
mu = MultinomialNB(alpha=2)
# X_train输入格式和上面一样
mu.fit(X_train, y_train)
  • 1
  • 2
  • 3
  • 4
3、LDA
#这里用的是情感分类的数据集,设置topic为2, 把词频统计出来矩阵保存在npy也行的。
import lda
X = np.genfromtxt("datasets/cnews/vocab.txt", skip_header=1, dtype = np.int)
model = lda.LDA(random_state=1, n_topics=2, n_iter=1000)
model.fit(X)```



  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/寸_铁/article/detail/848512
推荐阅读
相关标签
  

闽ICP备14008679号