赞
踩
new_data.7z
解压后包含2个csv文件:train_set.csv
和test_set.csv
原文描述:
- train_set.csv:此数据集用于训练模型,每一行对应一篇文章。文章分别在“字”和“词”的级别上做了脱敏处理。共有四列: 第一列是文章的索引(id),第二列是文章正文在“字”级别上的表示,即字符相隔正文(article);第三列是在“词”级别上的表示,即词语相隔正文(word_seg);第四列是这篇文章的标注(class)。 注:每一个数字对应一个“字”,或“词”,或“标点符号”。“字”的编号与“词”的编号是独立的!
- test_set.csv:此数据用于测试。数据格式同train_set.csv,但不包含class。 注:test_set与train_test中文章id的编号是独立的。
- 友情提示:请不要尝试用excel打开这些文件!由于一篇文章太长,excel可能无法完整地读入某一行!
遇到csv,我一般喜欢用R,比较快。
> setwd("~/new_data")
> train_csv <- read.csv('train_set.csv')
> dim(train_csv)
[1] 102277 4
102277条 19个class
看完算是心中有点“数”了
回到Python
import pandas as pd
path = '~/new_data/'
train_all= pd.read_csv(path + 'train_set.csv',index_col='id')#把id收起来
test_data= pd.read_csv(path + 'test_set.csv',index_col='id')
from sklearn.model_selection import train_test_split
X_train,X_valid,y_train,y_valid=train_test_split(train_all[['article','word_seg']],train_all['class'],test_size=0.1, random_state=0)
print(X_train.shape,X_valid.shape,y_train.shape,y_valid.shape)
#(92049, 2) (10228, 2) (92049,) (10228,)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。