本文具体介绍生物信息学分析中最常用的群体结构展示图形——系统发育树,分为两部分进行说明:系统发育树的基本概念和系统发育树的构建。
全文重点:
第一部分
系统发育树是描述物种间进化关系的一种图形,树的结果是通过算法推测的,并不一定是绝对真实的情况。
系统发育树中的分支反映了物种是如何从一系列共同祖先进化而来的。
在系统发育树中,如果两个物种的共同祖先较近,则它们之间的相关性高;如果它们的共同祖先较远,则两个物种的相关性小。
系统发育树有很多种形式。各分支绕节点旋转所传达的信息不会改变。
第二部分
如何构建一棵发表级系统发育树?
我的生产力工具。
基本概念:
系统发育树(英文:Phylogenetic tree)又称为进化树(Evolutionary tree),是表明被认为具有共同祖先的各物种间进化关系的树。是一种亲缘分支分类方法(Cladogram)。在树中,每个节点代表其各分支的最近共同祖先,而节点间的线段长度对应演化距离(如估计的演化时间)。
进化关系——祖先?
当我们绘制系统发育树时,我们预设了一个关于一组物种(或其他群体)如何从共同祖先进化而来的最佳假设。 这种假设是基于我们已经收集到的,有关一组物种的信息,如物理特征、DNA序列和蛋白序列之类的信息。
在系统发育树中,用于研究的物种或者是其他群体都位于进化枝的末端,如下图所示,A、B、C、D和E为五个物种,都放在了各分支的末端。
系统发育树分支连接的模式,代表我们对树中物种如何从一系列共同祖先进化而来的理解。 每个分支点(也称为内部节点)表示发散事件,也可以理解成将某个组拆分为两个后代组。简单说就是,每个分支点之上的部分都是在从该分支点下所有物种的最近共同祖先。 例如,在产生物种A和B的分支点上,我们可以找到这两个物种的最新共同祖先。 在树根上方的分支点,我们可以找到树中所有物种的共同祖先(物种A,B,C,D和E)。
进化关系——物种之间的关系
在系统树中,两个物种的相关性具有非常特殊的含义。 我们先用一种非常简单的方法来找到一组物种的最近共同祖先。 在这种方法中,我们从两个感兴趣的物种的枝末端开始,然后向后走,直到找到物种线会聚的点,所走过的距离可以看成两个物种共同祖先的出现时间,距离越短,共同祖先出现的时间越近,反之亦然。
知道了这个关键法则,我们就可以看出两个物种之间的相关性。如果两个物种的共同祖先较近,则它们的关联性高;如果它们的共同祖先较远,则两个物种的关联性较小。例如,从图上看,我们可以说A和B的关系比B和C的关系更紧密。但是!我们不能判断A和B是否比C和D更紧密相关。这是因为默认情况下,树的水平轴并不直接表示时间。 因此,我们只能比较发生在同一谱系(与树根相同方向的直线)上分支事件的发生时间,而不能比较发生在不同谱系上分支事件的发生时间。
我们该怎么看呢?
我们可能会看到以多种不同形式绘制的系统发育树,如下图所示:
但是,万变不离其中,上面的三棵树代表物种A,B,C,D和E之间的相同关系是完全相同的。这些看起来不同的树却传递相同的信息,提醒我们,在典型的进化树中有更意义的是分支模式。
进化树的另一个关键是,如果使用任意分支点作为轴旋转树结构,不会改变物种间的关系,如下图所示:
另外,进化树的分支不仅有另个物种并列的形式,还有三个或者更多物种并列的形式(Polytomy),其原因是软件没有足够的信息去确定他们的分支关系,如下图所示。