单细胞测序-scRNA-seq数据的标准化处理

我们都知道,从数据质控开始已经进入了scRNA分析阶段,在这个阶段开始测试代码,进行实操是很重要的。测试过程中出现的各种问题可能成为你学习路上的拦路虎。作图丫为大家总结单细胞数据分析时,标准化处理的方法和策略。


序言


????????上一期我们介绍了如何对scRNA-seq数据进行预处理与质控,在得到高质量的barcode by cell计数矩阵之后,我们需要通过基因在不同细胞间的差异表达来对细胞聚类。而数据的标准化(normalization)对于准确的比较细胞间的基因表达则是非常重要且必要的一步。今天我们就来一起了解一下如何对scRNA-seq数据标准化。


计数矩阵标准化的必要性


????????在scRNA-seq中,由于每个细胞的起始转录分子量有限,每个细胞中转录本的捕获以及扩增效率都会有技术差异,因此很难保证样本之间在文库制备上保持高度的一致性。这也造成了多个样本的测序数据中会存在由于文库测序覆盖率(sequencing coverage)?不同而引入的系统差异。数据的标准化目的就是消除这些差异,使得我们得到的分析结果不受技术噪音的影响。

数据标准化一般分为两大类:

·?样本内的标准化(within-sample normalization):?针对由基因特异性(如基因长度,GC content)产生的偏差,标准化后使得同个样本内的基因表达具有可比性。我们常用的RPKM,FPKM 和TPM就是标准化之后的表达值。

·?样本间的标准化(between-sample normalization):?针对样本间的差异,例如测序深度和转录本捕获率,标准化后的表达值能被用于不同样本间的比较。


????????在scRNA-seq分析中,我们将每个细胞视为一个独立的样本,来比较细胞内不同基因的表达。我们前期的文章提到过,在droplet-based的方法中,只对转录分子的5'?或 3'端测序,因此此类数据的标准化不需要考虑基因长度的影响,对应的就是方法类别就是样本间的标准化。

????????目前已经有很多针对bulk RNA-seq 数据的成熟的标准化方法,有些方也被用于单细胞分析。然而需要注意的是,由于scRNA-seq数据的高度稀疏性(sparsity)?和技术噪音,直接使用bulk RNA-seq的方法使得对单细胞数据中的低表达基因造成过度矫正。

下面我们主要给大家介绍两大类用于scRNA-seq的标准化方法[2,3]。


第一类常用标准化方法-log-normalization

????????大家比较熟悉的标准化方法是scaling。由于每个细胞的总计数(也可称为测序深度)不同,首先通过总计数对每个细胞估算出一个size factor,它代表了细胞间由不同测序深度带来的相对偏差值, 然后对每个细胞的总计数除以特定的size factor,以此来达到消除偏差的目的,得到“normalized expression values”用于下游分析。如果在scRNA-seq中用到了spike-ins 或 UMIs,标准化的操作则要根据它们的结果来进行调整。一些用于scRNA-seq的方法有:

· CPM (counts per million) normalization:?这个方法假设所有细胞包含等量的mRNA分子,测序深度的差异仅来源于抽样,即相对偏差全部都体现在细胞的不同计数总和上;因此估计的size factor与细胞计数总和成正比。这个方法在bulk RNA -seq中也很常用。方法对应的R包: Seurat [3],scater [4]?。

· High-count filtering CPM:?是在CPM的基础上,考虑到少数高表达基因对细胞偏差估计的影响,在估算size factor时剔除细胞中表达量高于5%的总计数的基因。

· Scran:?针对单细胞测序的dropout和0计数现象,scran通过合并 (pool)?总计数类似的细胞,通过它们的计数总和来估算一个size factor,然后将其进一步分解,用到每个细胞表达谱的标准化中。R包: scran [5]。

· BASiCS:?基于spike-ins来推断细胞特异的size factor。R包: scRNAseq [6]。

以上这些方法都基于一个假设:对于样本中所有细胞,它们的转录分子量都是相同的。这样同一个size factor才能被用于细胞中的所有基因。

????????在标准化之后,计数矩阵还需要做log(x+1)?转化。由于在衡量表达值差异大小的时候,我们通常使用的是表达值的对数倍变化(log-fold change),因此需要对计数矩阵作进一步的对数转化。并且由于很多下游的分析工具?(例如差异表达分析)?都假设数据是正态分布的,然而我们知道scRNA-seq数据实际上并不一定满足,因此对数转换则能帮助我们降低数据的skewness,尽管方法比较粗糙但是对之后的分析很实用。

????????在log(x+1)?转化中的+1是加上的一个伪计数(pseudo-count)?,用来避免未定义的数值0。伪计数的选择比较多,用+1的原因是能保留原始矩阵中的sparsity,即原始表达值为0的在对数转换后仍然为0。当然,你也可以选择其他的数值,如果选择较大的伪计数,低表达基因之间的对数倍变化则会变小,使得下游的差异分析结果由高表达基因主导;反之选择较小的伪计数则能增加低表达基因在差异分析结果中权重。大家可以根据自己的研究目的来调整选择的参数。

以上两步(scaling & log-trans)?结合起来通常被称作“log-normalization”?,这类方法比较简单并且常用。


第二类常用标准化方法-?probabilistic?model?based?approach

????????另外一类标准化方法比较新颖,也更加复杂,是通过拟合分布来对细胞计数构建模型(model molecule counts using probabilistic approaches),用模型拟合的残差 (residuals)?作为基因表达的标准化定量。一些新的基于UMIs的方法,它们的建模主要是使用NB distribution以及zero-inflation NB distribution (ZINB)。一些常见的方法以及对应的R包/python??橛校?/p>

·?ZINB-WaVE(R包:?zinbwave)[7]

·?scVI?(python?模块:?scvi)[8]

·?DCA?(python???? dca)[9]

regularized negative binomial regression (R包: sctransform; also being wrapped in Seurat)?[10]。

Adapted from [7,8,9].


与前面估算size factor的方法不同,这类模型拟合类方法通常将批次矫正和数据标准化结合到了一起,不需要分步处理。


Seurat: log-normalization vs. sctransform

????????或许大家会注意到R包Seurat提供了两种标准化的选择:log-normalization 和sctransform。Hafemeister et al.,[10]?对比了这两种方法,发现log-normalization对不同表达量的基因标准化效果不一致,只有中等以及低表达的基因被有效的标准化了,表明“size factor”并不是对所有基因都有效,并且这个是否有效的差异与测序深度相关 (Figure 1D from [10])。

Figure 1 from [10].

????????而在r包sctransform中,他们通过构建regularized negative binomial regression 模型,对比发现模型残差能有效的标准化表达值,而且残差的方差(variance of residuals)?不受测序深度影响?(Figure 3C from [10])。在他们的pipeline中也提到,如果研究涉及到多个不同scran-seq数据的合并?(特别是不同protocols生成的数据),建议使用sctransform,运行时间比传统的log-normalization会短很多。

Figure 3 from [10].


小tip:?数据标准化(normalization)?和批次矫正(batch correction)?之间有什么区别吗?标准化只考虑技术偏差,与有没有批次效应无关;而批次矫正,顾名思义,是特指出现在不同批次之间的差异,需要同时考虑技术偏差和生物学差异。技术偏差一般对具有相似特征??(例如长度,GC content)?的基因造成的影响也是类似的,而批次之间的生物学差异则要复杂的多,而且难以预估。因此这两个步骤涉及了不同的方法,大家千万主要不要混淆了这两个概念。


小编总结


标准化方法的选择很多,因为毕竟没有一种方法能适用于所有类型的scRNA-seq数据。在大多数的单细胞分析教程中log-normalization还是比较常用的方法,因为它相对简单并且容易实现。从我个人的分析经验来说,我尝试过用不同的数据对比文中提到的两大类方法,在细胞聚类上结果并没有显著的差异。不过因为具体数据的特异性,建议大家在了解方法的基础上,多多尝试不同的方法,特别在当聚类结果不太理想的时候。我们之后也会为大家介绍系统比较这些方法的文章,V信搜索:作图丫,可获取更多精彩内容。


参考资料/文献

1.?Hwang, B., Lee, J.H. & Bang, D. Single-cell RNA sequencing technologies and bioinformatics pipelines.?Exp Mol Med?50,?96 (2018). https://doi.org/10.1038/s12276-018-0071-8

2.?Luecken MD, Theis FJ. Current best practices in single-cell RNA-seq analysis: a tutorial.?Mol Syst Biol. 2019;15(6):e8746. Published 2019 Jun 19. doi:10.15252/msb.20188746

3.?Stuart T, Butler A, Hoffman P, et al. Comprehensive Integration of Single-Cell Data.?Cell. 2019;177(7):1888-1902.e21. doi:10.1016/j.cell.2019.05.031

4.?McCarthy DJ, Campbell KR, Lun ATL, Willis QF (2017). “Scater: pre-processing, quality control, normalisation and visualisation of single-cell RNA-seq data in R.”?Bioinformatics,?33, 1179-1186. doi:?10.1093/bioinformatics/btw777.

5.?Lun ATL, McCarthy DJ, Marioni JC (2016). “A step-by-step workflow for low-level analysis of single-cell RNA-seq data with Bioconductor.”?F1000Res.,?5, 2122. doi:?10.12688/f1000research.9501.2.

6.?Risso D, Cole M (2020).?scRNAseq: Collection of Public Single-Cell RNA-Seq Datasets. R package version 2.2.0.

7.?Risso D, Perraudeau F, Gribkova S, Dudoit S, Vert J (2018). “A general and flexible method for signal extraction from single-cell RNA-seq data.”?Nature Communications,?9, 284.?https://doi.org/10.1038/s41467-017-02554-5.

8.?Lopez R, Regier J, Cole MB, Jordan MI, Yosef N. Deep generative modeling for single-cell transcriptomics.?Nat Methods. 2018;15(12):1053-1058. doi:10.1038/s41592-018-0229-2

9.?Eraslan, G., Simon, L.M., Mircea, M.?et al.?Single-cell RNA-seq denoising using a deep count autoencoder.?Nat Commun?10,?390 (2019). https://doi.org/10.1038/s41467-018-07931-2

10.?Hafemeister, C., Satija, R. Normalization and variance stabilization of single-cell RNA-seq data using regularized negative binomial regression. Genome Biol 20, 296 (2019). https://doi.org/10.1186/s13059-019-1874-1

?著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,100评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,308评论 3 388
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事?!?“怎么了?”我有些...
    开封第一讲书人阅读 159,718评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,275评论 1 287
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,376评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,454评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,464评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,248评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,686评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,974评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,150评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,817评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,484评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,140评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,374评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,012评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,041评论 2 351

推荐阅读更多精彩内容