赞
踩
❝写在前面
由于最近在提交课题数据到 NCBI 数据库,整理了相关笔记。本着自己学习、分享他人的态度,分享学习笔记,希望能对大家有所帮助。推荐先按顺序阅读往期内容:
1. 提交高通量测序数据到 GEO --- 说明书
2. 提交高通量测序原始数据到 SRA --- 操作流程
在发表文章之前往往需要将高通量测序的数据上传到 NCBI 数据库。上传的数据可以分为两类:① Raw data(fastq文件)通常上传到 SRA、② Processed data(counts matrix、RDS 等)通常上传到 GEO。本文详细介绍提交高通量测序 Processed data 到 GEO 的操作流程。
在进行操作之前,强烈建议先阅读我之前的推文:《提交高通量测序数据到 GEO --- 说明书》。里面详细介绍了要准备的文件和格式要求。
首先需要登陆https://www.ncbi.nlm.nih.gov/account/
注册一个 NCBI 账号,NCBI 支持用各种第三方账户进行注册:
进入 NCBI 首页(https://www.ncbi.nlm.nih.gov/
),按如下操作:① 选择 GEO DataSets、② 点击 Search、③ 点击 Submit to GEO、④ Submit high-throughput sequencing
可以看到需要准备以下数据:1. Metadata spreadsheet、2. Processed data files、3. Raw data files
Raw data 是测序数据的 fastq 文件,可以将 raw data 提交给 GEO,也可以直接提交给 SRA。但是 raw data 往往非常大,按照 GEO 推荐的 FileZilla 软件上传非常的慢,因此推荐用 Aspera 命令行直接将 raw data 上传到 SRA。Aspera 提供跨越洲际距离的快速上传连接,上传速度可达 100Mb/s。
关于如何将 raw data 上传到 SRA,可以查看我之前的推文:《提交高通量测序原始数据到 SRA --- 操作流程》
Processed data 一般为比对后生成的 count matrix 文件。比如我这里为单细胞测序数据比对后的 cell-gene 矩阵的 csv 文件:
Metadata 是指有关研究、样本、方法以及对 processed data 和 raw data 文件名的引用的描述性信息。GEO 中提供了两种模板,由于我这里选择将 raw data 提交到 SRA,因此选择 "Download metadata spreadsheet with SRA accessions"。
STUDY 部分介绍研究的整体概况。STUDY 部分提供的信息将在公共网页上的 GEO Series(GSE record)中显示。
SAMPLES 部分是对样本的描述。SAMPLES 部分提供的信息将在公共网页上的 GEO Samples(GSM records)中显示。
注意:*为必填项,**为至少选择一项填写
[biomaterial][condition(s)][replicate number]
,例如:
Muscle, exercised,60min, rep2
PROTOCOLS 部分是对实验方法的描述。PROTOCOLS 部分提供的信息将出现在每个 GEO Sample(GSM record)中。
在填写完 Metadata 页面后,还需要在 MD5 Checksums 页面填写所有 processed data 文件的 MD5 校验码。checksums 可以使用以下方法计算:
这里以 Windows 上命令行为例:
打开 cmd,输入以下命令:certutil -hashfile "F:\path\Sample1_expression_matrix.csv" MD5
将文件名和生成的MD5码填入表格:
点击 Transfer files 开始上传数据。
进入后可以看到上传数据的个人空间地址,以及 FTP 服务器账号和密码。
下载 GEO 推荐的第三方文件传输软件 FileZila Client,下载地址:https://filezilla-project.org/download.php?show_all=1
。
下载后按下图操作:① 输入主机地址、用户名、密码;② 点击快速连接;③ 输入个人空间地址;④ 找到需上传文件地址;⑤ 将需上传文件拖拽到此处
可以看到上传速度非常慢(0.5Mb/s),需要等待很长时间。这也是为什么不推荐将原始 fastq 文件上传到 GEO。荐用 Aspera 命令行直接将 fastq 文件上传到 SRA,上传速度可达 100Mb/s。
数据上传完成之后,上传 metadata 文件:
选择前面填写的 metadata Excel 文件,选择发布日期,然后点 Submit 提交。
一般提交后一天内就会收到邮件,看到 GEO 编号,状态为 resolved,就表示数据提交成功了。邮件中还提供了后续如何更改信息,以及更改发布日期的相关连接。
注:本文为个人学习笔记,仅供大家参考学习,不得用于任何商业目的。如有侵权,请联系作者删除。
本文由 mdnice 多平台发布
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。