当前位置:   article > 正文

huggingface 数据集datasets 和 pandas方式下载_huggingface datasets下载不了

huggingface datasets下载不了
  1. datasets下载
pip install datasets
  • 1

在这里插入图片描述

在这里插入图片描述

但是国内下载一般由于网络下载失败:ConnectionError: Couldn’t reach ‘reach-vb/pokemon-blip-captions’ on the Hub (ConnectionError)

解决办法(先vp*下载):
下载使用

from datasets import Dataset, load_dataset, load_from_disk
dataset = load_dataset("reach-vb/pokemon-blip-captions")
dataset.save_to_disk(r"E:\allchat\pokemon") # 保存到该目录下
dataset

  • 1
  • 2
  • 3
  • 4
  • 5

加载使用

from datasets import Dataset, load_dataset, load_from_disk
dataset = load_from_disk(r"E:\allchat\pokemon")
dataset

  • 1
  • 2
  • 3
  • 4

在这里插入图片描述

2)pandas下载

import pandas as pd
import os
from PIL import Image
import io

df = pd.read_parquet("hf://datasets/svjack/pokemon-blip-captions-en-zh/data/train-00000-of-00001-78e564002aa9c8f0.parquet")


  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8

在这里插入图片描述
查看图片,它是byte文件

Image.open(io.BytesIO(df["image"][0]["bytes"]))
  • 1

在这里插入图片描述
然后就可以按自己需求处理数据保存

import pandas as pd
from PIL import Image
import io
import os

# 假设你的 DataFrame 名为 df
# 如果不是,请将 df 替换为你的 DataFrame 的实际名称

# 创建保存图像的文件夹
image_folder = "pokemon_images"
os.makedirs(image_folder, exist_ok=True)

# 创建一个新的列表来存储文件名
file_names = []

# 遍历 DataFrame 的每一行
for index, row in df.iterrows():
    # 从 bytes 创建图像
    image = Image.open(io.BytesIO(row['image']['bytes']))
    
    # 创建文件名
    file_name = f"pokemon_{index}.jpg"
    file_names.append(file_name)
    
    # 保存图像
    image.save(os.path.join(image_folder, file_name))

# 添加文件名列到 DataFrame
df['file_name'] = file_names

# 创建新的 DataFrame,只包含我们需要的列
new_df = df[['file_name', 'en_text', 'zh_text']]

# 保存为 CSV 文件
csv_file = "pokemon_data.csv"
new_df.to_csv(csv_file, index=False)

print(f"Images saved in {image_folder}")
print(f"CSV file saved as {csv_file}")
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39

上面代码也可以现在数据,比如只取50个

import pandas as pd
from PIL import Image
import io
import os

# 假设你的 DataFrame 名为 df
# 如果不是,请将 df 替换为你的 DataFrame 的实际名称

# 创建保存图像的文件夹
image_folder = "pokemon"
os.makedirs(image_folder, exist_ok=True)

# 创建一个新的列表来存储文件名
file_names = []

# 遍历 DataFrame 的每一行
for index, row in df.head(50).iterrows():
    # 从 bytes 创建图像
    image = Image.open(io.BytesIO(row['image']['bytes']))
    
    # 创建文件名
    file_name = f"pokemon_{index}.jpg"
    file_names.append(file_name)
    
    # 保存图像
    image.save(os.path.join(image_folder, file_name))

# 添加文件名列到 DataFrame
# 添加文件名列到 DataFrame
df.loc[:49, 'file_name'] = file_names

# 创建新的 DataFrame,只包含我们需要的列
new_df = df.loc[:49, ['file_name', 'en_text', 'zh_text']]

# 保存为 CSV 文件
csv_file = "pokemon.csv"
new_df.to_csv(csv_file, index=False)

print(f"Images saved in {image_folder}")
print(f"CSV file saved as {csv_file}")
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40

在这里插入图片描述
在这里插入图片描述

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/码创造者/article/detail/943852
推荐阅读
相关标签
  

闽ICP备14008679号