基因功能与通路富集分析(以下简称富集分析)是最常用到的生物信息分析之一,它可以帮助生物学家和医学家挖掘新知识、确定新靶点、提供新思路和新线索,是大多数实验室常规必备生物信息利器。我们在读文章时经??吹降母患峁迹ㄈ缦峦迹┒际峭ü患治龅玫降?。相信也已经有很多文章介绍过这些工具的使用,很多文章也是使用这些工具计算得到的结果。
富集分析有灿若繁星的众多工具可供选择,如明星软件DAVID。虽然这些软件背景数据库、软件功能等都有诸多差异,但是这些工具的原理实际上都是首先计算一组基因(比如高通量的实验的差异基因)和某通路基因的相同基因个数,然后利用超几何检验/二项检验等统计学方法计算显著值。根据这些富集到的功能条目中找到你感兴趣的信息和通路,可以进行后续的结果分析和实验设计。
然而目前的富集分析工具或多或少都存在一些问题,比如说经常富集到一些相关性不大的条目,或者某些明显的条目没有被富集上,导致错过一些关键的条目,甚至怀疑自己的实验做的有问题。
其实这并不完全是你的问题,作者观察到,目前富集工具的原理其实就是计数,对上1个基因就是1,2个基因就是2,它们在“平等的对待每一个基因”。然而,在真实的生命活动中,每一个基因都起着不同的作用,甚至某些必须基因的失调会导致细胞的死亡,因此这些基因相较于其他基因可能对生命活动起着更加重要的作用。比如下面的FOXO信号通路,假如某两次分析(假设都是输入100个基因)和该通路都是对上了4个基因,一次是左边红框中的4个基因,另一次是右边红框中的4个基因,传统的富集分析方法都是以“平等”的方式对待基因的(都是靠计数),因此,从数学上来说,两次分析在FOXO信号通路的结果是完全一样的。但是,实际上,左边4个基因和右边四个基因对该通路的影响很可能是不一样的。
在此,向大家推荐一种新的富集分析工具——加权富集分析(WEAT, WeightedEnrichment Analysis Tools,https://www.cuilab.cn/weat/)来解决这一问题。WEAT的原理就是给与不同的基因不同的分数,让基因在假设检验时有所差异,以此来纠正富集结果。该工具收集了大量的基因权重评分数据和基因集数据,并且制作为网页工具,只需轻松一点便可以得到结果并且生成可编辑发表的图片。
下面我给大家演示一下如何使用一个真实的案例来发现未被发现的条目吧。
举例
首先是挑选数据集。这里我们从GEO数据库中找到了一套我们比较感兴趣的数据集GSE157363,这个数据对比了衰老状态下正常人和脑白质损伤患者的脑白质表达谱。首先我们先下载这一套数据,然后通过Limma等R包来找到他差异表达的基因集,相信这个步骤对于大家来说都早已轻车熟路,就不再演示。这里我们查找原文献确定阈值(P-value和FC),最终确定了1715个基因作为差异基因集。这里我给大家提供这个差异基因列表(https://www.cuilab.cn/weat/static/de.csv),大家就不用手动再跑了。
接下来我们就想确定一下“由于衰老导致的脑白质损伤到底和哪些已知功能有关”呢?我们现在只需要打开WEAT的网站(https://www.cuilab.cn/weat/),点击“Analysis”标签,我们发现这里其实已经被填好了,其实这只是作者提供的一个例子,如果只是想体验一下整体流程的话可以直接按最下面的“Submit”查看结果。这里因为我们已经得到了差异基因列表,所以就把他默认的基因列表替换掉就好了。
我们发现输入完差异基因列表之后就是选择基因的重要性分数了,这里提供了很多的评分,其对应的意义可以通过Help界面的表格去一一查找。这里的评分主要是分为五类包括基因保守性、基因重要性、组织表达谱等。每一类分数都代表了不同的含义,大家可以多多尝试,看看结果有什么不同。这里因为我们使用的是脑组织的样本,所以我们可以选一个GTEx的脑组织表达谱分数看看效果,实际上脑组织表达谱的评分倾向于高亮脑组织中高表达的基因。
缩放因子可以改变分数对于结果的影响程度,越大表示影响越大,也更有可能富集出差异的结果。实际操作中可以根据本次富集的结果进行调整,这里我们默认选3。填好后我们按右侧的“Add”按键来添加这个“分数-缩放因子”对,会添加到下面列表中。注意我们不要忘记删除掉网站自带的例子中的肺表达谱的分数。
注意:实际上,我们可以在一次富集过程中选择多个富集分数,来代表多个信息的融合。比如说我们想得到在脑组织中高表达并且在进化中高度保守的基因所富集的条目,我们就可以在选择了脑组织表达谱分数的基础上再添加一个基因保守性分数。这里我们为了简单起见还是只选择脑表达谱的分数,然后点最下面的提交按钮,就可以看到结果了。
结果页面是单独显示的,首先会告诉你提交的本次富集的一些基本信息,紧接着是一个表格包括所有基因集合注释数据库的名称,这里有我们常见的KEGG,GO等。表格中会展示一些基本信息,包括overlap的基因的数量等;同时,表格的右上角集成导出和搜索等功能。富集结果可以通过点击表格每行最右边的按钮来展示,比如说我们这里想看BioCarta中条目的富集结果,结果会以弹出框的形式展示。
富集结果是按照加权方法的P值排过序的,最左侧的加号可以显示更详细的信息,这其中包括了未加权方法得到的P值和这个条目中击中未击中的基因以及对应的评分;右侧则是这些基因评分根据这些基因评分信息绘制的饼图。
在某些结果的最右侧,可能会有一个红色的小徽章,这里代表的意思是对应的条目在传统方法中并不显著,但在加权方法中则显著富集,应当给予重点关注。
在这次富集中,我们可以观察到“Prion Pathway”这个通路只在带权重富集分析方法中富集,而在传统方法中不显著。通过点击加号查看详情信息可以观察到,之所以这个条目富集,主要是由于GFAP这个基因的分数相当的高(7.81),这其实也是符合预期的,因为当前使用的分数是脑组织的表达谱,而GFAP是胶质纤维酸性蛋白,与脑组织功能相关也高表达在脑组织中,所以导致了这个条目的富集。让我们以一个示意图展示这一结果,并又一次说明该工具的原理。
但这样的富集结果是不是真的有道理呢?对此我们可以查阅一下文献,发现有证据表明“Prion Protein”是和衰老相关的帕金森病和阿尔兹海默病相关的(PMID: 30724769, 25364751),而之前我们也提到了这个数据集确实是和衰老的脑组织病变有关。说明我们的富集结果还是有道理的。
最后,在表格的右上角也集成了导出结果和搜索的功能。此外,我们还提供了结果的可视化功能。通过点击可视化按钮,在弹出的对话框中定义一些参数之后就可以得到我们在论文中常见的绘图,如下图所示
图的右上角的照相机按钮可以直接将图片存为SVG格式的矢量图,可以用AI等软件直接做简单修改之后用于发表。因为SVG本身也是XML文件,所以也可以直接用文本编辑软件打开,用查找替换功能直接替换不同文字。
结语
好啦,本次的教程就到这里了,我们这里用了一个简单的例子来说明带权重的富集方法确实有可能找到被传统方法忽视的条目,可能对于打开科研思路有更好的启发,欢迎大家多多尝试。