WGDI之深入理解blockinfo输出结果

blockinfo模块输出文件以csv格式进行存放,共23列,可以用EXCEL直接打开。

block info

其中16列非常容易裂解,描述如下

  1. id 即共线性的结果的唯一标识

  2. chr1,start1,end1 即参考基因组(点图的左边)的共线性范围(对应GFF1的位置)

  3. chr2,start2,end2 即参考基因组(点图的上边)的共线性范围(对应GFF2的位置)

  4. pvalue 即共线性结果评估,常常认为小于0.01的更合理些

  5. length 即共线性片段中基因对数目

  6. ks_median 即共线性片段上所有基因对ks的中位数(主要用来评判ks分布的)

  7. ks_average 即共线性片段上所有基因对ks的平均值

  8. block1,block2分别为共线性片段上基因order的位置。

  9. ks共线性片段上所有基因对的ks

  10. density1,density2 共线性片段的基因分布密集程度。值越小表示稀疏。

最后两列,class1class2会在 alignment ??橹杏玫?,对应的是两个block分组,默认值是0表示两个block是同一组。这两列后期需要自己根据覆盖率,染色体核型等多个方面进行确定。举个例子,我们可以根据 homo1 的取值范围对class1进行赋值,例如-1~-0.5 是 1,-0.5 ~ 0.5 是2,0.5~1是3,最后在alignment中会就会用三种颜色来展示,例如下图的1,2,3分别对应red,blue,green.

alignment

中间的homo1,homo2,homo3,homo4,homo5并非那么直观,先说结论:

  • 这里的homoN(N=1,2,3,4,5) 表示一个基因有N个最佳匹配时的取值

  • N由mutiple参数确定,对应点阵图(dotplot)中的红点

  • multiple的取值一般取1即可,表示最近一次的WGD可能是一次二倍化事件,因此每个基因只会有一个最佳匹配。如果设置为2,可能是一次3倍化,每个基因由两个最佳匹配。当然实际情况可能会更加复杂,比如说异源四倍体,或者异源六倍体,或者没有多倍化只是小规模的基因复制(small-scale gene duplication) 等情况,也会影响multiple的设置。

  • homoN会在后面过滤共线性区块时用到,一般最近的WGD事件所产生的共线性区块会比较接近1,而古老的WGD产生的共线性区块则接近-1.

接着,我们将根据源代码 blast_homoblast_position 来说明结算过程。

首先需要用到blast_homo函数,用来输出每个基因对在不同最佳匹配情况下的取值(-1,0,1)。

    def blast_homo(self, blast, gff1, gff2, repeat_number):
        index = [group.sort_values(by=11, ascending=False)[:repeat_number].index.tolist()
                 for name, group in blast.groupby([0])]
        blast = blast.loc[np.concatenate(
            np.array([k[:repeat_number] for k in index], dtype=object)), [0, 1]]
        blast = blast.assign(homo1=np.nan, homo2=np.nan,
                             homo3=np.nan, homo4=np.nan, homo5=np.nan)
        for i in range(1, 6):
            bluenum = i+5
            redindex = np.concatenate(
                np.array([k[:i] for k in index], dtype=object))
            blueindex = np.concatenate(
                np.array([k[i:bluenum] for k in index], dtype=object))
            grayindex = np.concatenate(
                np.array([k[bluenum:repeat_number] for k in index], dtype=object))
            blast.loc[redindex, 'homo'+str(i)] = 1
            blast.loc[blueindex, 'homo'+str(i)] = 0
            blast.loc[grayindex, 'homo'+str(i)] = -1
        return blast

for循环前的代码作用是提取每个基因BLAST后的前N个最佳结果。循环的作用基因对进行赋值,主要规则是基因对如果在点图中为红色,赋值为1,蓝色赋值为0,灰色赋值为-1。

  • homo1 对应 redindex = 0:1, bluenum = 1:6, grayindex = 6:repeat_number

  • homo2 对应redindex = 0:2, bluenum = 2:7, grayindex = 7:repeat_number

  • ...

  • homo5对应redindex=0:5, bluenum=5:10, grayindex = 10:repeat_number

最终函数返回的就是每个基因对,在不同最佳匹配数下的赋值结果。

                0          1  homo1  homo2  homo3  homo4  homo5
185893  AT1G01010  AT4G01550    1.0    1.0    1.0    1.0    1.0
185894  AT1G01010  AT1G02230    0.0    1.0    1.0    1.0    1.0
185899  AT1G01010  AT4G35580   -1.0    0.0    0.0    0.0    0.0
185900  AT1G01010  AT1G33060   -1.0   -1.0    0.0    0.0    0.0
185901  AT1G01010  AT3G49530   -1.0   -1.0   -1.0    0.0    0.0
185902  AT1G01010  AT5G24590   -1.0   -1.0   -1.0   -1.0    0.0
250822  AT1G01030  AT1G13260    0.0    0.0    0.0    1.0    1.0
250823  AT1G01030  AT1G68840    0.0    0.0    0.0    0.0    1.0
250825  AT1G01030  AT1G25560    0.0    0.0    0.0    0.0    0.0
250826  AT1G01030  AT3G25730   -1.0    0.0    0.0    0.0    0.0
250824  AT1G01030  AT5G06250   -1.0   -1.0    0.0    0.0    0.0

然后block_position函数, 会用 for k in block[1]的循环提取每个共线性区块中每个基因对的homo值,然后用 df = pd.DataFrame(blk_homo)homo = df.mean().values求均值。

    def block_position(self, collinearity, blast, gff1, gff2, ks):
        data = []
        for block in collinearity:
            blk_homo, blk_ks = [],  []
            if block[1][0][0] not in gff1.index or block[1][0][2] not in gff2.index:
                continue
            chr1, chr2 = gff1.loc[block[1][0][0],
                                  'chr'], gff2.loc[block[1][0][2], 'chr']
            array1, array2 = [float(i[1]) for i in block[1]], [
                float(i[3]) for i in block[1]]
            start1, end1 = array1[0], array1[-1]
            start2, end2 = array2[0], array2[-1]
            block1, block2 = [], []
            ## 提取block中对应基因对的homo值
            for k in block[1]:
                block1.append(int(float(k[1])))
                block2.append(int(float(k[3])))
                if k[0]+","+k[2] in ks.index:
                    pair_ks = ks[str(k[0])+","+str(k[2])]
                    blk_ks.append(pair_ks)
                elif k[2]+","+k[0] in ks.index:
                    pair_ks = ks[str(k[2])+","+str(k[0])]
                    blk_ks.append(pair_ks)
                else:
                    blk_ks.append(-1)
                if k[0]+","+k[2] not in blast.index:
                    continue
                blk_homo.append(
                    blast.loc[k[0]+","+k[2], ['homo'+str(i) for i in range(1, 6)]].values.tolist())
            ks_arr = [k for k in blk_ks if k >= 0]
            if len(ks_arr) == 0:
                ks_median = -1
                ks_average = -1
            else:
                arr_ks = [k for k in blk_ks if k >= 0]
                ks_median = base.get_median(arr_ks)
                ks_average = sum(arr_ks)/len(arr_ks)
            # 对5列homo值求均值    
            df = pd.DataFrame(blk_homo)
            homo = df.mean().values
            if len(homo) == 0:
                homo = [-1, -1, -1, -1, -1]
            blkks = '_'.join([str(k) for k in blk_ks])
            block1 = '_'.join([str(k) for k in block1])
            block2 = '_'.join([str(k) for k in block2])
            data.append([block[0], chr1, chr2, start1, end1, start2, end2, block[2], len(
                block[1]), ks_median, ks_average, homo[0], homo[1], homo[2], homo[3], homo[4], block1, block2, blkks])
        data = pd.DataFrame(data, columns=['id', 'chr1', 'chr2', 'start1', 'end1', 'start2', 'end2',
                                           'pvalue', 'length', 'ks_median', 'ks_average', 'homo1', 'homo2', 'homo3',
                                           'homo4', 'homo5', 'block1', 'block2', 'ks'])
        data['density1'] = data['length'] / \
            ((data['end1']-data['start1']).abs()+1)
        data['density2'] = data['length'] / \
            ((data['end2']-data['start2']).abs()+1)
        return data     

最终得到的homo1的homo5,是不同最佳匹配基因数下计算的值。如果共线性的点大部分为红色,那么该值接近于1;如果共线性的点大部分为蓝色,那么该值接近于0;如果共线性的点大部分为灰色,那么该值接近于-1。也就是我们可以根据最初的点图中的颜色来确定将来筛选不同WGD事件所产生共线性区块。

这也就是为什么homoN可以作为共线性片段的筛选标准。

?著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,029评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,238评论 3 388
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,576评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,214评论 1 287
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,324评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,392评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,416评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,196评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,631评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,919评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,090评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,767评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,410评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,090评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,328评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,952评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,979评论 2 351

推荐阅读更多精彩内容