赞
踩
除了常见的load_dataset(<hf上的dataset名>)这种方式加载HF上的所有数据外,还有其他custom的选项。
from datasets import load_dataset
c4_subset = load_dataset("allenai/c4", data_files="en/c4-train.0000*-of-01024.json.gz")
c4_subset = load_dataset("allenai/c4", data_dir="en")
# 还可以通过 split=xxx 来切分为train or validation
data_files = {"validation": "en/c4-validation.*.json.gz"}
c4_validation = load_dataset("allenai/c4", data_files=data_files, split="validation")
from datasets import load_dataset
dataset = load_dataset("csv", data_files="my_file.csv")
以csv为例,需要在第一个选项指定 'csv’格式,其他格式的数据也需要指定其他格式,HF上的格式基本在HF官网点进去可以知道,如:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。