当前位置:   article > 正文

【NLP学习笔记】load_dataset加载数据_hf datasets 加载本地数据集

hf datasets 加载本地数据集

除了常见的load_dataset(<hf上的dataset名>)这种方式加载HF上的所有数据外,还有其他custom的选项。

  1. 加载HF上部分数据
from datasets import load_dataset
c4_subset = load_dataset("allenai/c4", data_files="en/c4-train.0000*-of-01024.json.gz")
c4_subset = load_dataset("allenai/c4", data_dir="en")

# 还可以通过 split=xxx 来切分为train or validation
data_files = {"validation": "en/c4-validation.*.json.gz"}
c4_validation = load_dataset("allenai/c4", data_files=data_files, split="validation")
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  1. 加载本地的数据
    本地的数据可以是本地自己构建的,也可以是从HF上下载的
    https://huggingface.co/docs/datasets/loading#local-and-remote-files
from datasets import load_dataset
dataset = load_dataset("csv", data_files="my_file.csv")
  • 1
  • 2

以csv为例,需要在第一个选项指定 'csv’格式,其他格式的数据也需要指定其他格式,HF上的格式基本在HF官网点进去可以知道,如:
parquet格式
json格式

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家自动化/article/detail/989427
推荐阅读
相关标签
  

闽ICP备14008679号