一般我们拿到10x空间转录组数据分析的结果最先看的肯定是web_summary网页报告,因为从这个结果里面我们大概就能判断你的数据好不好,不好的问题在哪里,数据到底能不能用等等。这里来详细介绍一下怎么看10x 空间转录组web_summary网页版报告。
10x ****空间转录组网页版报告模板如下:
下面来详细介绍一下每块区域每个指标的含义。
Reads****总体情况统计区:
Number of Reads****:样本总的测序reads数,双端测序这个是指一端的reads数,实际上算数据量需要用reads2读长。
Valid Barcodes****:barcode校准后有效的barcode数占总的reads的比例,Space Ranger会先尝试纠正barcode序列中的序列错误,然后再进行统计。
Valid UMIs****:有效的UMI数占总的reads的比例。
Sequencing Saturation****:测序饱和度值,就是在当前测序深度情况下,有多少比例的捕获到的mRNA被测出来了,比如这这里的测序饱和度是74%,说有74%的mRNA基因被检测出来了,如果加大测序深度会有更多的mRNA被检测出来。
Q30 Bases in Barcode:barcode序列的Q30值
Q30 Bases in RNA Read****:捕获的mRNA序列的Q30值
Q30 Bases in UMI****:UMI序列的Q30值
Mapping****结果统计区:
Reads Mapped to Genome****:比对到基因组上reads的比例
Reads Mapped Confidently to Genome****:唯一比对到基因组上reads的比例,也就是我们常说的mapped uniquely reads,不过这里如果某条reds唯一比对到一个基因的exon区,同时又比对到了一处非exon区,还是算唯一比对到exon区的reads。
Reads Mapped Confidently to Intergenic Regions****:比对到唯一基因间区的reads的比例
Reads Mapped Confidently to Intronic Regions****:比对到唯一内含子区的reads的比例
Reads Mapped Confidently to Exonic Regions****:比对到唯一外显子区的reads的比例
Reads Mapped Confidently toTranscriptome****:比对到唯一基因转录组上reads的比例,这一部分会包括剪切位点的reads。这一部分的reads就是用来对UMI进行计数统计的。细心的朋友们可能会发现这一部分的reads比例比Reads Mapped Confidently to Exonic Regions的值要低,这是因为有些基因的exon是有overlap的,处于overlap区域的reads最终是不进入UMI计数的。
Reads Mapped Antisense to Gene****:比对到基因转录组的反义链区域的reads比例,这部分reads是没有意义的。从这里我们也可以发现10x空间转录组建库和比对是有方向性的。
Spot****信息统计区:
Fraction Reads in Spots Under Tissue****:比对到唯一基因转录组上reads(Reads Mapped Confidently to Transcriptome)有多少比例覆盖在组织区域的spot上,这里是93%,那就说明只有7%的reads分布在组织之外的灰色区域的。10x软件在这里有一个默认的阈值为50%,认为这个比例值超过50%结果是正常的,低于50%则回到网页最上面区域提示报错信息(认为可能是透化不完全导致背景RNA过高或者是组织区域选的不合适)。从这个50%的阈值上我们也可以判断10x的这个空间转录组技术还是存在一定缺陷的,它允许接近50%的reads散落在组织以外的区域,说明组织透化这一步想让对应区域的mRNA完全都落入对应spot点里面去还是很难的。
Mean Reads per Spot****:每个spot的平均reads数,10x这里采用的是所以测序reads总是除以组织上检测到的spot数(跟单细胞的统计方法是一样的),理论上来说这样统计是不合理的,因为总的reads包括没有比对上的reads、没有mapping到转录本上的reads、组织区域以外的spot上的reads,所以是不能真实的反应每个spot上实际的reads数的。
Median Genes per Spot****:每个spot的基因中位数
Total Genes Detected****:检测到的基因总数
Median UMI Counts per Spot****:每个spot的中位UMI数
样本信息区:
Sample ID****:样本id
Chemistry ****:试剂版本
Slide Serial Number ****:Slide信号和区域
Reference Path****:参考基因组路径
Transcriptome****:基因组转录组版本
Pipeline Version****:spaceranger软件版本
Analysis****区域
UMI****分布展示:左边是图像上UMI的分布,右边是tsne降维可视化后的UMI的分布,鼠标放置到图像上会现在对应的位置信息和对应spot上的UMI count数。从这个图我们可以判断UMI主要分布在组织的哪些区域,哪些区域没有捕获到mRNA或捕获的mRNA特别少。
Cluster****的分布展示:左边是cluster在组织图像上的分布,右边是tsne降维可视化后的cluster的分布,鼠标放置到图像上会现在对应的位置信息和对应spot上的cluster值和该cluster占总的spot的比例。这个图片上cluster分群在组织上的层次关系特别明显。
这一部分主要展示亚群的top基因的信息,因为不管是单细胞还是空间转录组基本上后面都会自己另外重新分析的,所以这部分和上面的cluster分布信息意义不大。
Sequencing Saturation****(测序饱和度)
对reads进行随机抽样,观察不同spot平均reads的情况下测序饱和度的分析,一直到实际的测序深度测序饱和度的值,理论上当所有转化的mRNA转录本均已测序后,饱和度接近1.0(100%),虚线表示测序到合理的饱和点位置,也就是说就是测序深度再高也不可能饱和度达到100%。
Median Genes per Spot****(sopt点的中位基因)
也是对reads进行随机抽样,观察不同spot平均reads的情况下spot的中位基因的值,曲线最高点的斜率能反应增加测序深度能得到最大的spot的中位基因数。
总结
对于web_summary的结果我们大概重点可以从下面几个方面来看数据效果
1、总的spot数,这个其实由组织的大小而定,没有具体好坏的说法;
2、每个spot的中位基因数,中位基因数太少说明捕获效果不好,有可能透化步骤条件不够优化,当然也有可能是试剂或芯片的问题;
3、测序饱和度,每个点的UMI中位数,sopt平均reads数,饱和度、sopt平均reads数和中位UMI数都太低说明测序深度不够,需要加大测序量。
4、基因组的比对率,比对率太低有可能是样品污染;
5、组织spot上reads的比例,比对太低有可能透化时间不够导致背景RNA过高,需要优化透化条件,也有可能组织区域选的不好,这个可以通过LoupeBrowser手动选择组织区域。