当前位置:   article > 正文

【达观杯】数据竞赛学习篇(一)_dcid竞赛

dcid竞赛

【任务1 - 数据初识】

下载数据

new_data.7z

解压后包含2个csv文件:train_set.csvtest_set.csv

原文描述:

  • train_set.csv:此数据集用于训练模型,每一行对应一篇文章。文章分别在“字”和“词”的级别上做了脱敏处理。共有四列: 第一列是文章的索引(id),第二列是文章正文在“字”级别上的表示,即字符相隔正文(article);第三列是在“词”级别上的表示,即词语相隔正文(word_seg);第四列是这篇文章的标注(class)。 注:每一个数字对应一个“字”,或“词”,或“标点符号”。“字”的编号与“词”的编号是独立的!
  • test_set.csv:此数据用于测试。数据格式同train_set.csv,但不包含class。 注:test_set与train_test中文章id的编号是独立的。
  • 友情提示:请不要尝试用excel打开这些文件!由于一篇文章太长,excel可能无法完整地读入某一行!

读取数据

遇到csv,我一般喜欢用R,比较快。

> setwd("~/new_data")
> train_csv <- read.csv('train_set.csv')
  • 1
  • 2

观察数据

> dim(train_csv)
[1] 102277      4
  • 1
  • 2

train_set_csv
在这里插入图片描述
102277条 19个class

看完算是心中有点“数”了

将训练集拆分为训练集和验证集

回到Python

import pandas as pd
path = '~/new_data/'

train_all= pd.read_csv(path + 'train_set.csv',index_col='id')#把id收起来
test_data= pd.read_csv(path + 'test_set.csv',index_col='id')

from sklearn.model_selection import train_test_split

X_train,X_valid,y_train,y_valid=train_test_split(train_all[['article','word_seg']],train_all['class'],test_size=0.1, random_state=0)
print(X_train.shape,X_valid.shape,y_train.shape,y_valid.shape)
#(92049, 2) (10228, 2) (92049,) (10228,)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/177759
推荐阅读
相关标签
  

闽ICP备14008679号