当前位置:   article > 正文

基于python利用支持向量机实现中文文本分类(附完整代码)_支持向量机应用于文本分类的代码

支持向量机应用于文本分类的代码

准备好数据食材、去停用词并利用结巴**(jieba)进行分词处理**

数据食材选用参考:NLP中必不可少的语料资源

jieba分词模块参考官方文档啦~

  1. # 本程序用于将搜狗语料库中的文本进行分词,并且去除停用词# coding=utf-8importjiebaimportjieba.possegaspsegimporttimeimportos'''
  2. 训练集:1200
  3. 测试集:200
  4. '''# 文本分词defcutText(dirname):
  5. # dirname数据目录
  6. forcategoryinos.listdir(dirname):
  7. catdir=os.path.join(dirname,category)
  8. ifnotos.path.isdir(catdir):
  9. continue
  10. files=os.listdir(catdir)
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/blog/article/detail/53484
推荐阅读
相关标签
  

闽ICP备14008679号