在描述基因组受选择情况时,通?;岵扇∫恍┲副昀春饬科湓谘莼讨惺艿胶沃肿匀谎≡?。在这其中Tajima D是常见的衡量物种自然选择的指标。Tajima’s D是由日本研究员田田文雄(Fumio Tajima)创建的群体基因检验统计数据,可以用于区分DNA序列是随机进化还是受到自然选择。 而在计算Tajima D的过程中会用到另外两个遗传参数θs和θπ,二者都是群体遗传多样性估计的方式并且与群体遗传学的重要参数Watterson θw和π息息相关。因此在这里简单梳理下以上参数的关系。
Tajima D
Tajima D计算方式为Tajima D=θπ – θs:前者是群体序列两两比较差异位点数累加/总两两比较对数,后者是群体总变异位点数/序列数的倒数累加。我们可以通过一个例子直观了解其计算方式(如下图)。此案例的背景和讲解已经有大佬在CSDN进行过讲解,非常建议大家前往并看懂示例,在此不过多赘述。
当我们得到Tajima D的计算结果之后,可以从中推断物种基因序列的变异类型。当D<0时稀有等位基因多,群体发生了瓶颈效应,说明有害突变受到了环境选择,连同清除了与之连锁的多态性位点。D>0则说明群体中稀有等位基因少,中性基因占大多数,群体处于平衡状态。
Watterson θw和π
通常,二倍体中群体遗传多样性(核苷酸多样性)的估计方式:θ=4Neu(u代表突变率,Ne为有效群体大?。?。而在中性模型中,θ会衍生出两个无偏估计:θπ 和θw。二者都可以用作θ的估计值。因此在中性模型中,两参数的差值应当为0。θπ(也就是核苷酸多态性π平均到序列个体的均值)为群体序列两两比较差异位点数累加/总两两比较对数。θw为分离位点总数/序列数的倒数累加,序列数的倒数累加作为校正因子,削弱序列过多带来更多的分离位点的影响。分别就是Tajima D中的第一项(被减数)和第二项(减数)。
值得注意的一点是,最原始的群体遗传多样性pi的计算方式如下,但是Tajima D中使用的是其个体均值,需要在此基础上额外除以Cn2,也就是群体中任意抽取两个序列进行比对的情况数。
综上,Tajima D=θπ – θs。后者θs的无偏估计就是Watterson θw,前者θπ的无偏估计就是π的比对数均值。D联系了Watterson estimator θ 和核苷酸多态性π 两个参数。刚刚也提到在中性进化群体中,两参数都是θ的无偏估计,差值应当为0,即Tajima D为0。但实际计算时往往不会等于0,群体内当稀有等位基因多时,对于θs的影响会更大,使得其值大于θπ,Tajima D小于0。反之Tajima D大于0。
参考信息:
1.Nucleotide diversity https://en.wikipedia.org/wiki/Nucleotide_diversity
2.Tajima's D https://en.wikipedia.org/wiki/Tajima%27s_D
3.Watterson estimator https://en.wikipedia.org/wiki/Watterson_estimator