大家好,好久不见,公众号目前只有我一个人在写,随心情更新。之前一直在说孟德尔随机化的话题,今天聊聊单细胞。很多我已经习以为常的东西可能很多人完全不懂,或者看见这一类题材就怵,今天我想跟大家聊一聊去卷积,都是自己的理解,不抖概念,不讲原理(主要也不会)。
去卷积就是把一个完整的东西解构为n个特征,如一个小狗=鼻子*1+眼睛*2+有毛等。在转录组数据中,好像最早的去卷积就是CIBERSORT或者ssGSEA,这是一类利用经典细胞marker来推算整个肿瘤组织中各个细胞的比例,如CD3表达算T细胞,EPCAM+的算上皮细胞,真实的算法用到的原理不可能这么简单,不过大家也不用在意,有大佬开发算法和包,大家拿来用就是了。
这里面有一个问题,就是肿瘤的异质性,一些比较细致或者没有注释过的细胞类群是肯定去卷积不到的。单细胞出现并繁荣发展以后,去卷积可利用的marker有了很大的提高,比如之前说的有些细胞类群只在某一种组织或癌症出现,那么就有了单细胞向bulk去卷积的初衷 和做法。
上文提到的CIBERSORT或者ssGSEA,同样也可以改进加以应用,如细胞marker可以利用单细胞的每一类群的marker基因,文献中常用的是30个,来作为相应bulk组织中细胞类型的marker,从而实现去卷积,如ssGSEA。同样也可以使用全部基因来当作marker,但是这样做的话带来的噪音非常大,可以尝试利用2000个高变基因做marker,噪音会小一点。个人认为,这样做的话,起码单细胞要有10万个细胞,而且疾病要覆盖你想去卷积的bulk测序数据,否则,单细胞的信息可能会有很多缺失。
现在,很多课题组或大佬也开发了自己的去卷积算法,很多都是换汤不换药,核心都是机器学习、NMF、超几何分布、贝叶斯等,如MuSIC2、BayesPrism等。
去卷积能做什么?1.计算细胞类型和临床性状之间的关系,如有了每个样本每种细胞类型的比例,就可以和临床的预后信息产生关联;2.同样,也可以把临床信息映射给单细胞,如临床的预后信息映射给单细胞数据每个细胞,如Scissors算法。
而且,去卷积应用在单细胞向空间转录组映射也是非常好的,我们找个单独的时间再说。