赞
踩
Cell Ranger可处理Chromium single-cell RNA-seq 的输出:
(1)align reads,
(2)generate feature-barcode matrices
(3)perform clustering and gene expression analysis
1.cellranger mkfastq:demultiplexing。将Illumina sequencer生成的raw base call (BCL)文件解为FASTQ文件。 它是Illumina的bcl2fastq的包装,具有针对10x文库的有用的feature和一个简化的样本表格形式。
2.cellranger count:从【cellranger mkfastq】获取FASTQ文件,并执行 read alignment, filtering, barcode counting, and UMI counting。 它使用Chromium cellular barcode来生成feature-barcode matrice,确定cluster并进行基因表达分析。【count】 pipeline可以从同一GEM well的多个测序sequencing runs中获取输入。【cellranger count】还与Gene Expression reads一起处理Feature Barcoding data。
3.cellranger aggr:汇总来自多个runs的【cellranger count】的输出,将这些标准化为相同的测序深度,然后重新计算feature-barcode matrice,并对合并后的数据进行分析。 可使用【aggr】管道将来自多个样本的数据组合到一个experiment-wide的feature-barcode matrix中,并进行分析。
4.cellranger reanalyze:采用由【cellranger count】或【cellranger aggr】产生的feature-barcode matrice,并使用可调参数设置重新运行降维,聚类和基因表达算法。
这些管道将Chromium-specific algorithms与广泛使用的RNA序列比对仪STAR相结合。 输出以增加了细胞信息的标准BAM,MEX,CSV,HDF5和HTML格式提供。
Cell Ranger 4.0的改变
Cell Ranger 4.0支持 Targeted Gene Expression analysis,在分析3’基因表达数据时,Cell Ranger 4.0会在将read比对到参考转录组之前,从Read-2的5’末端修剪template switch oligo(TSO)序列,从3’末端修剪poly-A序列。 此行为与不执行任何调整的Cell Ranger 3.1不同。全长cDNA分子通常位于5’端的30 bp TSO序列AAGCAGTGGTATCAACGCAGAGTACATGGG,3’端的poly-A序列之间。 根据文库的片段大小分布,预期测序读段的一部分包含这些序列中的一个或两个。 与更长的RNA分子相比,源自短RNA分子的读段更有可能包含TSO和poly-A序列中的一个或两个。改进了sensitivity和computational efficiency。
TSO(template switch oligo)是一种与在逆转录过程中由逆转录酶添加的非模板C核苷酸杂交的寡核苷酸。 TSO在全长cDNA上添加了共同的5’序列,用于下游cDNA扩增。
在3’ assay中,polyd(T)序列是gel bead oligo的一部分(也包含10x条形码,UMI和部分Illumina Read 1序列),TSO在RT Primer中提供。
测序的过程
利用TSO(已知)可以设计引物,转录成第二条链。
因为illumina的测序长度不是很长。
(1)Sequencing Run (or Flowcell):
包含来自一个测序仪器运行的数据的flowcell。 测序数据可以通过lane或sample indices进一步demultiplexed。
(2)Feature Barcode Antibody (or Antibody):
指Feature Barcode试剂,由与已知细胞表面蛋白具有高亲和力的抗体组成,该抗体与识别该抗体的Feature Barcode寡核苷酸偶联。 这些试剂用于定量细胞表面蛋白的表达。 例如,TotalSeq™-B产品线是与Single Cell 3’v3解决方案兼容的Feature Barcode抗体家族。
(3)Cell Surface Protein: 一种位于细胞膜上的蛋白,通常包含细胞外结构域。 这些蛋白质可以用Barcoded Antibodies定量。
(4)CRISPRa (or CRISPR activation): 与CRISPRi类似,但使用与激活域融合的Cas9来促进靶基因的表达而不是抑制它。
(5)CRISPR Guide RNA: See sgRNA
(6)Library (or Sequencing Library): A 10x-barcoded sequencing library prepared from a single GEM well.
如果从 raw base call (BCL)文件开始,则Cell Ranger工作流程将从为每个flowcell directory 解复用demultiplexing BCL文件开始。 如果您从直接使用bcl2fastq或从公共资源(例如SRA)demultiplexed的FASTQ文件开始,则可以跳过cellranger mkfastq并从cellranger count开始。
工作流程的确切步骤取决于样本数量,GEM well的数量和flowcells的数量。 本节描述了可能的不同工作流程。
在此示例中,一个样品通过一个GEM well 进行处理,并在一个flowcell上测序。 在这种情况下,您将使用cellranger mkfastq生成FASTQ,并按照Single-Sample Analysis中的描述运行cellranger count。
此示例还说明了两个测序库。 单个GEM孔可以产生多个库:一个基因表达库和一个或多个Feature Barcode libraries。
在此示例中,您有一个样品通过一个GEM孔进行处理,然后生成了一个在多个flowcells中测序的文库。 例如,可以这样做以增加测序深度。 在这种情况下,所有read都可以在cellranger count的单个实例中合并。 Specifying Input Fastqs中描述了此过程。
在此示例中,您有一个样品通过多个GEM孔进行处理。 进行technical replicate experiments时通常会这样做。 然后将GEM孔中的文库合并到一个flowcell中并进行测序。 在这种情况下,您可以对sequencing run中的数据进行demultiplex,然后对来自每个GEM well的library运行一个单独的cellranger count实例。 完成这些操作后,您可以使用cellranger aggr进行组合分析,如Multi-Library Aggregation 所述(请参见上图。)
在此示例中,您有多个样品,这些样品通过多个GEM孔进行处理,这些孔会生成多个库并汇集到一个flowcell中。 在这种情况下,demultiplexing后,必须为每个GEM孔分别运行cellranger count。 例如,如果您的实验涉及两个样本,那么您将必须运行cellranger count两次。 然后,您可以使用cellranger aggr来聚合它们为单个instance,如Multi-Library Aggregation
从同一cDNA产物生成的5′ gene expression libraries 和V(D)J enriched libraries必须分别通过cellranger count和cellranger vdj 处理。 可以使用Loupe Browser和Loupe V(D)J Browser对输出进行交互分析。 请参阅Single Cell V(D)J + 5′ Gene Expression以获取更多信息。
默认情况下,cellranger使用所有可用的cores和90%的检测到的内存。 在具有多个并发用户和任务的共享环境中,此行为可能是不希望的。 强烈建议使用–localcores和–localmem运行cellranger来指定资源使用上限。 实际上,为管道分配32个以上的内核或256G的回报很少。
10X并不正式支持Slurm或Torque / PBS。 但是,许多客户已在作业提交模式下将Cell Ranger与这些作业计划程序一起成功使用。
Cell Ranger可以在群集模式下运行,使用SGE或LSF通过batch scheduling在多个节点上运行stages。 这允许高度可并行化的阶段同时使用数百或数千个内核,从而大大缩短了解决时间。
Cell Ranger并没有向集群提交一项作业,而是创建了数百甚至可能是数千个small stage jobs。 这些阶段作业中的每一个都需要由pipeline framework排队,启动和跟踪。 Cell Ranger与群集之间的必要协调使此方法更难以设置和排除故障,因为每个群集配置都是不同的。 要了解更多信息,请转到集群模式页面。
single sample analysis
得到的fastq文件要是经过 base calling 和Bcl2Fastq转化后的,得到raw data或raw reads。再使用fastp软件过滤数据,得到高质量clean data。当任一测序read中N含量超过该read碱基数的10%时,去除此paired reads;当任一测序read中含有的低质量(Q<=5)碱基数超过该条read碱基数的50%时,去除此paired reads。
combining multiple sequencing runs of the same GEM Well使用cellranger count。
对于仅存在基因表达数据的实验,以下参数可用于指定cellranger应使用哪些FASTQ文件:
文件命名:
[Sample Name]S1_L00[Lane Number][Read Type]_001.fastq.gz
Where Read Type is one of:
I1: Sample index read (optional)
R1: Read 1
R2: Read 2
在outs文件夹下的输出结果有:
在outs/filtered_feature_bc_matrix/features.tsv.gz 文件中,有三列:
V1 V2 V3
133 ENSMUSG00000026064 Ptp4a1 Gene Expression
134 ENSMUSG00000117310 Ptp4a1 Gene Expression
rownames(data.object1)[133:134] “Ptp4a1” “Ptp4a1.1” 在变为object之后在后面加上了.1
参数:
–localmem(in GB)
您还可以将cloupe.cloupe文件加载到Loupe浏览器中并开始分析。
为了进行更多分析,请将【filtered_feature_bc_matrix】加载到第三方工具(例如Seurat)中。
capture rate Cell capture rate取决于几个可变因素,包括 input cell number and viability(存活率). A typical experiment ranges from 30-60%. 最高是65%
cell throughput per sample (500 - 10,000 cells)
矩阵:a feature (row)和a barcode (column)的UMI的数量。
(1)提取barcode UMI
全长cDNA构建体的侧翼在5’端为30 bp template switch oligo(TSO)序列,AAGCAGTGGTATCAACGCAGAGTACATGGG,在3’端为poly-A。 取决于测序文库的片段大小分布,预期有一部分测序read包含这些序列中的一个或两个。 与更长的RNA分子相比,源自短RNA分子的read更有可能包含TSO和poly-A序列中的一个或两个。
由于以 template switch oligo(TSO)或poly-A的形式存在非模板序列,low-complexity ends混淆read mapping,因此在alignment前,从read-2的5’端修剪了TSO序列,并从3’末端修剪了poly-A 。 修剪可提高the sensitivity of the assay以及软件管道的computational efficiency。
(2)align
比对到reference transcriptome.
只保留明确地映射到reference上的reads,multimapped将会被丢弃,得到质量最好的数据。
Genome Alignment:
Cell Ranger使用一种称为STAR的aligner,可进行splicing-aware alignment of reads to the genome。 然后,Cell Ranger使用转录本注释GTF将read的片段分类为外显子,内含子和基因间片段,并根据读取片段是否(确信地)与基因组对齐来进行分类。 如果read中至少有50%与外显子相交,则为外显子;如果它非外显子且与内含子相交,则为内含子,否则为intergenic。
MAPQ adjustment:
对于与单个外显子基因座对齐但也与1个或多个非外显子基因座对齐的read,将优先外显子基因座,并使用MAPQ 255将read确信地映射到外显子基因座。mapping Quality, It equals -10log10Pr{mapping position is wrong}, rounded to the nearest integer。该值的计算方法是mapping的错误率的-10log10值,之后四舍五入得到的整数。
Transcriptome Alignment:
Cell Ranger进一步将外显子read与带注释的转录组对齐,以寻求兼容性。 与带注释的转录本的外显子兼容并与同一链对齐的read被认为已映射到转录组。 如果read与单个基因注释兼容,则将其唯一(确信地)映射到转录组。 这些可靠映射的读取是唯一考虑用于UMI计数的reads。
(3)correct barcode
(4)filter UMI
在对UMI进行计数之前,Cell Ranger会尝试纠正UMI序列中的测序错误。 可靠地映射到转录组的read被放入共享相同barcode,UMI和基因注释的组中。 如果两组read具有相同的barcode和基因,但它们的UMI相差一个碱基(即汉明距离相距1个碱基),则可能是由于测序中的替换错误引入了一个UMI。 在这种情况下,less-supported的read组的UMI将更正为具有higher support的UMI。
Cell Ranger再次按barcode, UMI (possibly corrected), and gene annotation 将reads分组。 如果两组或更多组reads具有相同的 barcode and UMI,但基因注释不同,则将保留具有最多支持reads的基因注释以进行UMI计数,而其他组将被丢弃。 如果需要最大的read支持,则所有的read组都将被丢弃,因为无法确定地分配基因。
经过这两个过滤步骤,每个观察到的barcode, UMI, gene combination都记录为unfiltered feature-barcode matrix中的UMI计数。 支持每个counted UMI的read数也记录在molecule info file文件中。
(5)count UMI
(6)cell calling
取决于cell load,在所有产生的drop中大约有1~10%的包含一个细胞。
90%~99%的是空的。
Cell Ranger 3.0引入了一种改进的细胞调用算法,该算法能够更好地识别低RNA含量的细胞群,尤其是当低RNA含量的细胞混入高RNA含量的细胞群时。 例如,肿瘤样品中通常含有大肿瘤细胞和较小的肿瘤浸润淋巴细胞(TIL),研究人员可能对TIL人群特别感兴趣。 新算法基于EmptyDrops方法(Lun等人,2018)。
该算法有两个关键步骤:
(1)它使用基于每个barcode的总UMI计数的cutoff来识别细胞。 此步骤是确定高RNA含量细胞的主要模式。
第一步,使用原始Cell Ranger细胞调用算法,根据每个barcode的总UMI计数,使用截止值,主要识别高RNA含量细胞。 Cell Ranger将expected number of recovered cells N作为输入(请参阅–expect-cells)。令m为按总UMI计数计的前N个barcode的第99个百分位数。 所有UMI总计数超过m / 10的barcode在第一遍中都称为细胞。
(2)然后,算法使用剩余的每个barcode的RNA profile 来确定它是“空”还是a cell containing partition,第二步是捕获低RNA含量的细胞,这些细胞的UMI总计数可能类似于空GEM。
在第二步中,选择一组UMI计数较低的barcode,这些barcodes很可能代表“空” GEM partitions。 创建所选barcode的RNA profile模型。 该模型称为background model,是基因上的多项式分布。 它使用Simple Good-Turing smoothing算法平滑处理,以提供 a non-zero model estimate for genes,这在典型的空GEM set中不会观察到。 最后,将第一步未称为细胞的每个barcode的RNA图谱与背景模型进行比较。 RNA谱与背景模型强烈不同的barcode被添加到一组阳性细胞中。 第二步可以识别出明显不同于空GEM的细胞,即使它们的RNA含量比实验中最大的细胞低得多。
(7)secondary analysis
默认用10个PC
该图显示了映射到每个barcode的filtered UMIs的计数。 可以根据barcode的UMI count或RNA profile来确定barcode是否与细胞相关。 因此,图形的某些区域可以同时包含与细胞相关的barcode和与背景相关的条形码。 图表的颜色代表与细胞相关的barcode的局部密度。
在某些情况下,基于目视检查,称为细胞的barcode集可能与desired的barcode集不匹配。 可以通过重新运行count或使用–force-cells选项重新分析,或通过在下游分析中从raw feature-barcode matrix中选择所需的barcode来对此进行补救。 还可以通过指定–barcodes重新分析来完成自定义barcode的选择。
(1)Estimated number of cells:与包含细胞的partitions相关的barcode的数目,由barcode UMI count distribution估计得来。这个数目与ted target的偏差应该在20%以内,高于或低于期望值的可能表明inaccurate cell count, cell lysis, or failures during GEM generation
(2)Fraction reads in cells:大于80%。较低的百分比表示高水平的环境RNA分配到所有(含细胞和不含细胞的)GEM中。比如样本中大比例的死亡后垂死的细胞将RNA泄露到溶液中。
(3)Mean reads per cell:total number of reads 除以the number of cells
(4)Median genes per cell & Median UMI counts per cell:Median genes per cell和Median UMI counts per cell是样本中细胞转录是否活跃的指标。每个细胞检测到的基因数与UMI数是sequencing depth的函数,随着read depth的增加,你需要转录本鉴定的基因的数目也会增加,当达到测序饱和sequencing saturation后这个趋势会趋于平稳。
注意,这里使用的是中值,对于异质性的样本,在高表达和低表达的样本间可能有很大的差异。
(5)Total genes detected:与bulk RNA相似
sensitivity metrics:
(1) sequencing saturation
(2) total genes detected
(3) median genes per cell
(4) median UMI counts per cell
测序深度和细胞数量如何影响主要细胞类型的检测:
(1)即使每个细胞的平均读数约为500,cell calling的UMI count cutoff与高测序深度数据集观察到的相似
(2)尽管在较低的read depth下,sensitivity metrics较低,但仍可以通过基于图的聚类来识别假定的细胞亚群,并通过t-SNE图进行可视化
(3)紧密相关的细胞类型的准确分类似乎受到每个细胞read数减少的影响。
Library complexity : 可以通过测序数据中存在的重复reads的数量或百分比来衡量。 通常将重复reads定义为当与参考序列比对时完全相同或具有完全相同的起始位置的read。 一个警告是,偶然发生的重复read(代表真正的原始样品来源的独立采样)的频率随测序深度的增加而增加。 因此,至关重要的是要了解在什么条件下重复read rate代表了library complexity的准确度量。
“Reads Mapped Confidently to Transcriptom”是“Reads Mapped Confidently to Exonic Regions”的子集。 与带注释的转录本的外显子兼容并与同一链对齐的read被认为已map到转录组。 如果read与单个基因注释兼容,则将其uniquely(confidently)映射到转录组。
(1)Valid Barcodes/UMI:要高于90%
(2)sequencing saturation: 表明 how deep you have gone into the sample, and how much information you could obtain by sequencing deeper.比如当测序饱和度为70%时,如果再得到100 reads,通过sequencing deeper可以得到30个new information。永远无法达到100%。取决于sequencing depth and sample complexity。取决于文库的复杂性,测序深度和实验分析目标。 较低的测序饱和度表明未通过测序捕获很大一部分文库复杂性。
测序饱和度是对给定实验中测序的文库复杂性分数的度量。 测序饱和度的倒数可以解释为检测新转录本所需的额外reads数。
测序饱和度取决于文库的复杂性和测序深度。 不同的细胞类型将具有不同数量的RNA,因此最终文库中不同转录本的总数也将有所不同(也称为文库复杂性)。 下图显示了从不同细胞类型中回收的基因的中位数。 随着测序深度的增加,会检测到更多的基因,但这取决于细胞类型在不同的测序深度达到饱和。
测序深度也会影响测序饱和度。 通常,测序reads越多,可以检测到的其他unique transcripts越多。 但是,这受到库复杂性的限制。
公式:
Sequencing Saturation = 1 - (n_deduped_reads / n_reads)
n_deduped_reads = Number of unique (valid cell-barcode, valid UMI, gene) combinations among confidently mapped reads.
n_reads = Total number of confidently mapped, valid cell-barcode, valid UMI reads.
测序饱和度的选择:
根据实验目标,您可能需要也可能不需要高测序饱和度。 如果您打算将细胞聚集成群进行下游分析,则不必检测每个细胞中的每个unique transcript(UMI计数),较低的测序饱和度可能就足够了。 但是,如果您尝试recover表达极低的转录本,则可能需要更高的测序饱和度才能检测到这些转录本。
原代细胞(Primary cells)(例如PBMC)通常具有较低的RNA含量,可能需要较少的测序就能达到> 90%的测序饱和率。
sequencing depth
建议对Single Cell 3’ v3 and Single Cell 5’ gene expression libraries进行最少20,000 read pairs/cell 的测序。 对于Single Cell 3’ v2 libraries,我们建议50,000 read pairs/cell。
但是,特定实验所需的测序深度取决于:
(1)Sample type (different samples will have more or less RNA per cell)
(2)The experimental question being addressed.
例如,对于富含RNA的细胞(如细胞系cell lines),每个细胞有50,000 read pairs/cell,则只能达到30-50%的测序饱和度。 但是,这可能足以在分析期间将您感兴趣的子群体聚类。
如果您有兴趣在样品中鉴定尽可能多的基因,则可能需要更深的测序以达到约90%的测序饱和水平。
combining data from multiple samples into an experiment-wide analysis
要比较两个或多个样本,请使用cellranger aggr管道汇总来自多个cellranger count的输出,将它们归一化为相同的有效测序深度,然后对合并后的数据执行secondary analysis。
默认情况下,对每个GEM孔的read进行subsampled,以使所有GEM孔具有相同的有效测序深度,以reads that are confidently mapped to the transcriptome or assigned to the feature IDs per cell来衡量。 但是,可以更改depth normalization mode(请参阅深度归一化)。
cellranger aggr不执行cell-calling步骤,它只是将来自每个输入作业的cell call汇总为一组最终的cell call。
All of the library sequencing depth are downsampled to that of the lowest sequencing depth library.
If one of the samples run at a particularly low sequencing depth, all of the other samples will be downsampled to that particular sequencing depth.这可能会 limit the sensitivity of the overall assay. 尝试在所有样本中拥有大致相同的sequencing depth是 good practice.
cellranger aggr用于汇总与合计two cellranger count runs。
对于涉及多个样品和多个10X Chromium GEM孔的实验,每个库必须分别在单独的【cellranger count】中进行处理。
为了相互比较样本以进行差异表达分析,【cellranger aggr】用于组合每次运行的【cellranger count】的输出文件,cellranger aggr命令获取一个CSV文件,该文件指定了【cellranger count】输出文件的列表(特别是每次运行时的molecular_info.h5),以生成一个单一的包含所有数据的feature-barcode matrix和一个.cloupe文件,以使用Loupe Browser进行可视化。
当组合多个GEM孔时,每个channel的barcode sequence通过附加在barcode sequence上的GEM孔后缀来区分(请参阅GEM孔)。汇总所有输入job的数据,包括每个输入job中所有相关条形码的并集。
每个GEM孔都是一组物理上不同的GEM分区,但是从有效条形码池(称为条形码白名单)中随机抽取条形码序列。 为了在整合多个库时保持条形码的唯一性,我们在条形码核苷酸序列后附加一个小整数以很好地识别GEM,并使用该核苷酸序列加ID作为特征条形码矩阵中的唯一标识符。 例如,AGACCATTGAGACTTA-1和AGACCATTGAGACTTA-2是来自不同GEM孔的不同细胞条形码,尽管它们具有相同的条形码核苷酸序列。
告诉我们该barcode sequence来自哪个GEM well的数字称为GEM well suffix。 GEM孔的编号将反映Aggregation CSV中提供GEM孔的顺序。
默认情况下,对每个GEM孔的read进行二次抽样,以使所有GEM孔具有相同的有效测序深度,以可靠地映射到转录组或分配给每个细胞的特征ID的读数来衡量。 但是,可以更改depth normalization mode(请参阅Depth Normalization)。
Depth Normalization:
合并来自多个GEM孔的数据时,cellranger aggr管道会在合并之前自动均衡组之间的read depth,这是推荐的方法,以避免测序深度带来的batch effect 。
可以关闭标准化或更改标准化的方式。 如果您想最大化灵敏度并计划在下游步骤中处理深度归一化,则none选项可能是合适的。
two normalization modes:
(1)mapped (default): For each library type, subsample reads from higher-depth GEM wells until they all have an equal number of reads that are confidently mapped to the transcriptome or assigned to the feature IDs per cell.
进行normalization之后的aggr的结果,我的结果是depth低的数据保持一致,但depth高的数据改变了,aggr合并后,barcode的后缀发生了变化。
(2)none: Do not normalize at all.
没有进行normalization的数据,aggr后的结果是与count的结果一样的。
reanalyzing data with custom parameters
默认的PC的数目为10
不同的细胞类型包含不同的RNA的表达程度。在确定最佳的测序深度时,要考虑各种因素。在饱和状态下,不同的细胞类型会有不同数量的基因被检测到。实现饱和取决于你的实验设计和所需要的数据。
Build a Custom Reference 自定义reference
10X Genomics提供了与Cell Ranger一起使用的人类和小鼠基因组的预先构建的参考。 研究人员可以为其他物种创建自定义参考基因组,或者将感兴趣的自定义标记基因添加到参考中,例如 GFP。
https://www.jianshu.com/p/9c87bba244d8.
https://support.10xgenomics.com/single-cell-gene-expression/software/pipelines/latest/what-is-cell-ranger.
https://pages.10xgenomics.com/wbr-technical-video-ra_g-p_scge-support-software.html.
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。