赞
踩
一、数据部分
1、CAMELYON16 数据集
README:we solely employ the 5x resolution for training and evaluation.
2、代码中dataset部分共有两个数据集
1)XXX.txt数据集:该数据集记录的camelyon16中每一张图片;
-large_train_bags.txt:
-test_bags.txt:
-train_bags.txt:
-val_bags.txt:
2)all_patches.csv数据集:该数据集记录的是
下载:Camlyon16数据集:
第一步:进入网站:国家基因库核酸序列归档系统(CNSA)FTP公开服务 (cngb.org)
第二步:编写爬虫程序
- import requests
- import os
- from tqdm import tqdm
- # 目标网址
- url = "https://ftp.cngb.org/pub/gigadb/pub/10.5524/100001_101000/100439/CAMELYON16/training/normal/"
- # 保存的起始和结束文件名
- start_file = "normal_001.tif"
- end_file = "normal_160.tif"
- # 创建目标文件夹
- dataset_dir = "/home/user/zhangbowen/ItS2CLR-main/train/dataset/dataset/training/normal/"
- if not os.path.exists(dataset_dir):
- os.makedirs(dataset_dir)
- # 下载文件
- for i in tqdm(range(1, 161), desc="Downloading files"):
- filename = "normal_" + str(i).zfill(3) + ".tif"
- file_url = f"{url}{filename}"
- print(file_url)
- response = requests.get(file_url, stream=True)
- if response.status_code == 200: # 检查请求是否成功
- with open(os.path.join(dataset_dir, filename), 'wb') as f:
- for chunk in response.iter_content(chunk_size=1024):
- if chunk:
- f.write(chunk)
第三步:使用tmux新建会话进行后台下载
遇见的坑:
1、一开始打算使用byyp包从百度网盘中进行下载,但是在bypy info阶段绑定的账号没有足够的空间在存储Camelyon16数据集,换账号重新绑定bypy包失败,所以更换方法;
2、下载和使用tmux见帖子:非root用户安装tmux - 知乎 (zhihu.com);
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。