当前位置:   article > 正文

下载huggingface中数据集/模型(保存到本地指定路径)_huggingface下载数据集到本地

huggingface下载数据集到本地

一. snapshot_download

  1. # 1.安装huggingface_hub
  2. # pip install huggingface_hub
  3. import os
  4. from huggingface_hub import snapshot_download
  5. print('downloading entire files...')
  6. # 注意,这种方式仍然保存在cache_dir中
  7. snapshot_download(repo_id="ibrahimhamamci/CT-RATE", repo_type="dataset",
  8. local_dir="本地路径",
  9. local_dir_use_symlinks=False, resume_download=True,
  10. token='hf_***')
  11. # 使用cache_dir参数,将模型/数据集保存到指定“本地路径”
  12. snapshot_download(repo_id="ibrahimhamamci/CT-RATE", repo_type="dataset",
  13. cache_dir="本地路径",
  14. local_dir_use_symlinks=False, resume_download=True,
  15. token='hf_***')
  16. # download single file...,下载单个文件
  17. # from huggingface_hub import hf_hub_download
  18. # hf_hub_download(repo_id="ibrahimhamamci/CT-RATE", filename='config.json',
  19. # repo_type="dataset",
  20. # local_dir="/home/miao/data/dataset/CT-RATE/dataset/train",
  21. # local_dir_use_symlinks=False, resume_download=True,
  22. # force_download=False, subfolder='dataset/train/train_10006')

注意事项:

  • 获取token的网址
  • 下图的repo_id为“google/gemma-7b”

二.  huggingface-cli

  1. # 1.安装huggingface-cli
  2. # pip install -U "huggingface[cli]"
  3. # 命令行输入:huggingface-cli -h,可以查看对应的帮助文档
  4. # 2.下载模型
  5. # 注意,模型仍然保存在cache_dir文档中
  6. huggingface-cli download --token hf_*** --resume-download meta-llama/Llama-2-7b-hf --local-dir Llama-2-7b-hf
  7. # 3.下载数据集
  8. # 这种方式,数据集会保存到"/home/local-dir/"中
  9. huggingface-cli download --repo-type dataset --token hf_** --resume-download ibrahimhamamci/CT-RATE --cache-dir /home/local-dir --local-dir-use-symlinks False

注意:当下载大规模数据集时,中途可能由于一些特殊原因,导致下载中断。但重新输入下面这个命令,仍然能继续下载(而不是重头开始下载)

  1. # 3.下载数据集
  2. # 这种方式,数据集会保存到"/home/local-dir/"中
  3. huggingface-cli download --repo-type dataset --token hf_** --resume-download ibrahimhamamci/CT-RATE --cache-dir /home/local-dir --local-dir-use-symlinks False

三.总结

1.若需要将数据集/模型放在指定路径,需要指定"cache-dir"参数,而不是“local-dir”

2.直接从huggingface中下载对应的模型和数据集,需要外网。因此可以使用国内镜像HF-Mirror - Huggingface 镜像站

3.个人推荐使用huggingface-cli下载大规模数据集或者模型

四.参考

[1] HF-Mirror - Huggingface 镜像站

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/寸_铁/article/detail/943112
推荐阅读
相关标签
  

闽ICP备14008679号