当前位置:   article > 正文

从huggingface上下载数据集具体步骤_huggingface 数据集下载

huggingface 数据集下载

最近需要从huggingface上下载一个数据集,发现不能像模型那样能直接点击下载,需要通过代码来获取,很麻烦,谨以此博客作为记录

方法

比如小编现在想下载数据集:ibrahimhamamci/CT-RATE

  1. 首先,需要获取huggingface网站的用户token
    获取token的网址:https://huggingface.co/settings/tokens
    注:这里需要给你的token取一个名字,然后选择你的token类型,这里建议选择write,因为小编选第一个类型的时候token不能用,不清楚是为啥
    在这里插入图片描述
  2. 获取数据集

这里提供两个方法:

方法一: 通过snapshot_download来下载

# 1.安装huggingface_hub
# pip install huggingface_hub
import os
from huggingface_hub import snapshot_download
 
# 使用cache_dir参数,将模型/数据集保存到指定“本地路径”
snapshot_download(repo_id="ibrahimhamamci/CT-RATE", repo_type="dataset",
                  cache_dir="本地路径",
                  local_dir_use_symlinks=False, resume_download=True,
                  token='hf_***')
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 下载的时候需要开vpn,因为huggingface是国外的
  • 可能会遇到下述错误:huggingface_hub.utils._errors.LocalEntryNotFoundError,具体解决办法参考:https://blog.csdn.net/weixin_44257107/article/details/136532423

方法二: 通过huggingface-cli下载
这里建议用第二个,小编亲测有效,第一个很容易因为网络问题卡住还会报错!!!
(如果下载的时候断了,再次执行命令就行,会接着之前的内容下载

# 下载数据集
# 这种方式,数据集会保存到"/本地路径"中
huggingface-cli download --repo-type dataset --token 你的token --resume-download 数据集名称 --cache-dir /本地路径 --local-dir-use-symlinks False
  • 1
  • 2
  • 3

注意:上述两个方法的数据集名称都取自huggingface数据集的标题,其他数据集同理,如下:
在这里插入图片描述

方法三: 通过git方式下载
看到这里一定有人想赏小编一个大耳瓜子,有最简单的方法咋不早说,说实话,小编也是忙活了一个晚上才发现,命运呐!
在这里插入图片描述
不管是哪种方法,一定要记得开vpn,重要的事情说三遍!!!

参考

  • https://blog.csdn.net/qq_34950042/article/details/137184793
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/喵喵爱编程/article/detail/1000532
推荐阅读
相关标签
  

闽ICP备14008679号