当前位置:   article > 正文

一个简单的切分数据集的python代码_python tsv 切割

python tsv 切割

数据集:一个中文的酒店评论数据集(一万多条数据,正负向情感标注)

任务:切分为训练和发展集

数据集示例:

代码:

  1. import os
  2. import pandas as pd
  3. from sklearn.utils import shuffle
  4. if __name__ == '__main__':
  5. path = "temp/"
  6. pd_all = pd.read_csv(os.path.join(path, "zh_senti_dataset.tsv"),sep='\t')
  7. pd_all = shuffle(pd_all)
  8. dev_set = pd_all.iloc[0:int(pd_all.shape[0]/10)]
  9. train_set = pd_all.iloc[int(pd_all.shape[0]/10): int(pd_all.shape[0])]
  10. dev_set.to_csv("temp/dev.tsv", index=False, sep='\t')
  11. train_set.to_csv("temp/train.tsv", index=False, sep='\t')

 解释:主要用到了pandas的read_csv()、to_csv()方法实现数据集文件的读写,iloc函数实现对数据行的提取,用shuffle()方法实现打乱顺序。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/522099
推荐阅读
相关标签
  

闽ICP备14008679号