当前位置:   article > 正文

(重置青春版)结合在线网站wget批量下载单/多类疾病的多个样本GEO矩阵数据_怎样在geo数据库批量下载数据

怎样在geo数据库批量下载数据

一、什么是wget?

一个妇孺皆知的,强大的下载工具不过多介绍了,小白可参考之前发布的批量下载原始数据那篇文章,这篇主要是一个病种多个GEO数据的下载。

亲测,2000个样本,10分钟整理完,然后下载拼网速

二、整理list文件

2.1在线网站查找并确定gse号

在这里以非小细胞肺癌(NSCLC)为例,在一站式GEO数据分析平台中检索NSCLC,同时后续需要到生存数据,勾选上。

在这里插入图片描述

可以点进去查看大概信息,这里仅作前期准备,数据我们到GEO去下载!!!
这里以GSE53882为例

在这里插入图片描述

2.2处理GSE号

在GEO中检索相应GSE号,复制矩阵文件下载链接

在这里插入图片描述

新建一个excel表格
模板:将下载地址复制过来,这边需要下载20个,向下填充复制20行
GSE号:将2.1检索到的GSE号输入进去,可以先输入数字再用&在前面加上"GSE"
GSEnnn:= LEFT(B2,LEN(B2)-3)&“nnn”,将后三个字符替换成nnn,向下填充
结果:=“https://ftp.ncbi.nlm.nih.gov/geo/series/”&C2&“/”&B2&“/matrix/”&B2&“_series_matrix.txt.gz”,将GSEnnn和GSE号替换掉,向下填充
下载地址:(强迫症)把结果列复制仅文字粘贴出来

在这里插入图片描述

2.3整理下载列表

新建一个文本,将下载地址一个一行复制粘贴进去,命名为NSCLC.txt

在这里插入图片描述

三、下载与解压

3.1.1 linux端下载

wget -c -i NSCLC.txt

  1. -c 断点下载
  2. -i 下载列表文件内链接

3.1.2解压

gunzip *.gz

即可得到所有矩阵文件了
在这里插入图片描述
3.2.1 windows端下载

wget for windows下载链接:https://eternallybored.org/misc/wget/
选64位,可以选最新版本然后!!!
下载exe文件的直接复制粘贴到C:\Windows\System32目录下,zip也须在C:\Windows\System32下解压,因为wget也是需要权限的

win+R后输入cmd

这里在桌面创建了一个文件夹命名NSCLC,放入list文件,下载命令一样

这里是引用
3.2.2解压
解压就解压就行了

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家小花儿/article/detail/256686
推荐阅读
相关标签
  

闽ICP备14008679号