摘要:
人类细胞类型规范背后的染色质景观具有根本的意义。 我们生成了胎儿组织中染色质可及性和基因表达的人类细胞图谱。
对于染色质可及性,我们设计了一个三级组合索引分析,并将其应用于代表 15 个器官的 53 个样本,分析了约 800,000 个单细胞。 我们利用由基因表达定义的细胞类型来注释这些数据,并分类了数十万个表现出细胞类型特异性染色质可及性的候选调控元件。
我们研究了谱系特异性转录因子(例如神经元中的 POU2F1)、广泛分布的细胞类型(例如血液和内皮细胞)的器官特异性特化以及细胞类型特异性富集的特性
的复杂性状遗传。 这些数据代表了探索不同组织和细胞类型中体内人类基因调控的丰富资源。
介绍:
近年来,单细胞基因组学领域在解开人体组织的细胞异质性方面取得了令人难以置信的进展。 然而,绝大多数的努力都集中在单细胞基因表达上,而对基因表达塑造和塑造的染色质景观的研究要少得多。 这部分是因为在单细胞分辨率下分析染色质可及性、转录因子 (TF) 结合和/或组蛋白的可扩展方法相对缺乏。
单细胞组合索引 (“sci-”) (1) 框架涉及将细胞或细胞核分裂和合并到孔中,其中在每一轮中将分子条形码原位引入感兴趣的物种。通过连续轮次的原位分子条形码,同一细胞内的物种被一致地标记为不同的条形码组合。已经开发了 Sci-assays 分析染色质可及性 [sci-ATAC-seq(ATAC-seq,具有高通量测序的转座酶可及染色质测定)],基因表达 [sci-RNA-seq,RNA-seq,RNA-测序)]、核结构、基因组序列、甲基化、组蛋白标记和其他现象,以及 sci-co-assays。例如,用于联合分析染色质可及性和基因表达 (1-12) [“CoBatch”、“Split -seq”、“Paired-seq”和“dscATAC-seq”也有效地依赖于单细胞组合索引 (8-10, 12)]。
尽管我们和其他人已经分析了 > 100,000 个哺乳动物细胞中的染色质可及性 (9, 12, 13),但所使用的方法需要自定义加载带有条形码接头的 Tn5 酶和/或每个实验限制为 104 到 105 个细胞碰撞——接收相同条码组合的细胞。
我们开发了一种改进的染色质可及性单细胞分析方法,它使用三个级别的组合索引,并且与之前的 sci-ATAC-seq 和相关方法 (1, 6, 9, 12) 的迭代相比,不依赖在分子条形码 Tn5 复合物 (sci-ATAC-seq3) 上(图 1A 和图 S1A)。
相反,前两轮索引是通过连接到常规、均匀加载的 Tn5 转座酶复合物(标准 Nextera)的任一端来实现的,而最后一轮索引仍然通过聚合酶链反应 (PCR) 进行。
相对于两级 sci-ATAC-seq 但类似于 sci-RNA-seq3,sci-ATAC-seq3 降低了文库制备的每个细胞成本(图 S1B)以及碰撞率(图 S1, C 和 D),为 106 个细胞规模的实验打开了大门。该方案不再需要细胞分选,我们还优化了连接酶和聚合酶的选择、激酶浓度以及寡核苷酸设计和浓度,以最大限度地增加从每个细胞中回收的片段数量。
在保持可访问区域的丰富性的同时,我们做出了明确的选择,以牺牲可访问位点的特异性为代价最大化复杂性(图 1B 和图 S1,E 到 G)。特别是,我们发现可以调整固定条件以调整检测的灵敏度(复杂性)与特异性(可访问位点的富集)(图 S1H)。
(The fraction of reads inTSSs (FRiTSS))
作为人类发育综合细胞图谱的一个步骤 (14),我们开始使用在妊娠中期获得的不同人体组织生成基因表达和染色质可及性的单细胞图谱 [DESCARTES,基因调控的发育性单细胞图谱 和表达; descartes.brotmanbaty.org (15)。
对于染色质可及性,我们将 sci-ATAC-seq3 应用于代表 15 个器官的 59 个胎儿样本,总共分析了 160 万个细胞(图 1C)。 我们还使用一组重叠的样本描述了来自同一器官的 500 万个细胞的基因表达谱 (16),研究的器官跨越不同的系统。 但是,有些系统not accessible; 骨髓、骨、性腺和皮肤明显缺失。
各种各样的( heterogeneous)胎儿组织的快速和统一处理提出了挑战。 我们开发了一种直接从冷冻保存的组织中提取细胞核的方法,该方法适用于各种组织类型,并产生适用于 sci-ATAC-seq3 和 sci-RNA-seq3 的匀浆。
对于 sci-ATAC-seq3,我们使用了从 89 到 125 天的估计受孕后年龄的 23 个胎儿获得的组织样本(图 1、D 和 E,以及表 S1)。 所有样品的核型均正常。 样品分三批处理; 每个实验中都包含相同的前哨人类胎儿脑组织和小鼠悬浮细胞系的混合物,以控制批次效应并估计碰撞率。
我们对来自五个 Illumina NovaSeq 6000 测序运行的三个实验批次的 sci-ATAC-seq3 文库进行了测序,产生了超过 1100 亿个读数(550 亿个读数对)。在分裂成单个细胞之前,我们将这些组织水平的数据与单端 ENCODE 脱氧核糖核酸酶测序 (DNase-seq) 数据进行了比较(图 S2A)(17)。
尽管 sci-ATAC-seq3 数据的峰富集程度有所降低(peak中read的中位数:sci-ATAC-seq3 为 29%;ENCODE DNase-seq 为 35%)(图 S2B),但来自同一组织的样本具有相当的相关性对于两种检测(Spearman 相关系数中值:sci-ATAC-seq3 来自同一组织的两个样本为 0.93;DNase-seq 为 0.91),sci-ATAC-seq3 具有更高的技术重现性(Spearman 相关系数中值:0.95)(图.S2C)。此外,无论是单独分析 sci-ATAC-seq3 样本(图 1F)还是一起分析 sci-ATAC-seq3 和 DNase-seq 样本(图 S2D),样本都从这些聚合谱中聚集到各自的组织中。
Splitting reads by sci- barcodes,我们确定了 1,568,018 个细胞(表 S1),并且从barnyard control 中,我们估计三个实验的collision rates为 1% 到 4%(图 S2E)(18)。 我们没有观察到明显的批次效应(图 S2F),并且由于其片段大小分布的核小体条带不佳(图 S2G)和另外两个样品捕获了很少的细胞而丢弃了三个样品。 对于剩余的样本,我们观察到每个细胞的中位数为 5742 个非重复读数(图 S2H),并估计我们对这些 sci-ATAC-seq3 文库中每个细胞的所有非重复读数的中位数为 88%(图 S2I)。
我们逐个组织地确定了可访问性的峰值,然后将它们合并以生成一个包含 105 万个位点的主集(数据文件 S1)。 我们过滤掉了质量较低的细胞,从 53 个胎儿样本(数据文件 S2)中留下了 790,957 个单细胞染色质可及性图谱。 每个组织的高质量细胞总数从脾的 2421 个到肝脏的 211,450 个不等(图 1C)。
该组每个细胞的非重复片段的中位数为 6042,中位数为 49%,与可访问位点的主组重叠,19% 落在转录起始位点 (TSS) (±1 kb) 附近。 我们对高质量细胞进行了潜在语义索引 (19, 20)、线性校正 (21) 和 Louvain 聚类,最初在所有组织中获得了 172 个簇。 我们使用 UMAP 进一步降低了每个组织数据集的维度。