赞
踩
数据食材选用参考:NLP中必不可少的语料资源
jieba分词模块参考官方文档啦~
- # 本程序用于将搜狗语料库中的文本进行分词,并且去除停用词# coding=utf-8importjiebaimportjieba.possegaspsegimporttimeimportos'''
- 训练集:1200
- 测试集:200
- '''# 文本分词defcutText(dirname):
- # dirname数据目录
- forcategoryinos.listdir(dirname):
- catdir=os.path.join(dirname,category)
- ifnotos.path.isdir(catdir):
- continue
- files=os.listdir(catdir)
赞
踩
赞
踩
赞
踩
赞
踩
赞
踩
赞
踩
赞
踩
赞
踩
赞
踩
赞
踩
赞
踩
赞
踩
赞
踩
赞
踩
赞
踩
赞
踩
赞
踩
赞
踩
赞
踩
赞
踩
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。