赞
踩
多分类是一个机器学习的常见任务,本文将基于复旦大学中文文本分类语料,使用sklearn和xgboost来进行多分类实验。
预装软件包:
1. Jieba分词:
环境: linux fedora 23
源码安装https://github.com/fxsjy/jieba, 或者使用pipinstall jieba安装
2. Sklearn:
fedora 下参考:http://www.centoscn.com/image-text/install/2014/0403/2715.html
3.xgboost:
https://github.com/dmlc/xgboost.git
安装好后进入到python-package:pythonsetup.py install
git clone https://github.com/jaylenzhang/lcct.git
2.数据集
由复旦大学李荣陆提供。fudan_test.json为测试语料,共9833篇文档;fudan_train.json为训练语料,共9804篇文档,分为20个类别。训练语料和测试语料基本按照1:1的比例来划分。本文将训练和测试数据混合一起进行5折交叉验证。收集工作花费了不少人力和物力,所以请大家在使用时尽量注明来源(复旦大学计算机信息与技术系国际数据库中心自然语言处理小组)
百度云: http://pan.baidu.com/s/1qYjk0Ni密码:dhs7
下载数据集后,在当前目录下创建data目录,并将文件解压。
数据集类别统计
|
|
|
|
|
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。