赞
踩
写个脚本文件,之后直接运行就OK,但是下载下来的数据格式、文件位置、使用上不是那么方便
import datasets
//断点续传+最大尝试次数
config = datasets.DownloadConfig(resume_download=True, max_retries=100)
dataset = datasets.load_dataset("distil-whisper/ami-sdm","sdm",split="train",cache_dir="./hf_cache",download_config=config )
//这里最好指定下文件夹
dataset.save_to_disk('D:\.....')
huggingface-cli 属于官方工具,可以下载模型、数据,还可以可以登录huggingface、上传模型、数据等
使用起来已经很好了,但是由于网络原因还是有断连的情况出现
安装依赖:
pip install -U huggingface_hub
下载:
huggingface-cli download --force-download --repo-type dataset facebook/voxpopuli --local-dir ./voxpopuli --cache-dir ./temp/cache
条件是要有git和aria2,然后下载他的hfd脚本之后,直接下载(脚本链接)就可,命令如下
先设置镜像环境变量
export HF_ENDPOINT="https://hf-mirror.com"
./hfd.sh kensho/spgispeech --hf_username download_dataset --hf_token hf_uPU-----------GYShqVQA --dataset
aria2在linux(CentOS 7+)上安装(在windows上的话,用git的窗口打开,然后在windows上配置aria2也可下载):
安装 epel 源:
yum install epel-release
然后直接安装:
yum install aria2 -y
申请许可的操作:
在官网注册后,然后找到access token,设置链接,记住在设置权限的时候要是read
本文内容由网友自发贡献,转载请注明出处:https://www.wpsshop.cn/w/酷酷是懒虫/article/detail/943135
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。