因为课题需要,我们在前期组装了一个基因组并进行了注释,但是存在两个问题,一个是没有考虑可变剪切,另一个是注释的基因并不准确,三代转录组的广泛普及对于基因研究提供了很大的便利,通过三代转录本比对到基因组,再利用
TOFU
软件去冗余可以得到一个基于三代的基因组注释,在IGV上查看比较可以发现,三代的注释无论是结构还是完整度上都比二代的注释更准确,而且考虑到了可变剪切。那么完全可以将三代的基因组注释跟二代的注释结合起来得到一个更完善更准确的注释,最近对这一想法进行了尝试,写出来用作学习探讨。
1 获得全长转录组的基因组注释
参考之前写过的全长转录组分析的文章全长转录组分析-小麦 以及全长转录组更新,分析的时候不要进行cluster这一步,原因见精选推文 | 基于三代转录组的基因注释踩坑经历以及GSAman使用 - 简书 ,毕竟是注释文件,基因组这么多基因,不可能每一个都注释的非常准确,重点在于提升准确性。
经过这一步的运行,可以得到hq_isoforms.fasta.no5merge.collapsed.rep.fa
以及hq_isoforms.fasta.no5merge.collapsed.gtf
等文件,在进行去冗余的时候,阈值设置的高一些,因为三代就是对应的基因组的物种,所以设置-c 0.95
以及-i 0.99
2 gffcompare合并
使用gffcompare软件将基因组注释和三代注释合并起来
gffcompare ref.gtf thrid_trans.gtf -D -o test
这样就得到了一个新的基因组注释文件,基因名称进行了合并,原来的基因名称可以查看生成的对照文件test.loci
3 TransDecoder预测结构,参考 使用TransDecoder寻找转录本中的编码区
第一步: 从GTF文件中提取FASTA序列
GTF文件使用上一步合并的文件
~/hychao/biosoft/TransDecoder-TransDecoder-v5.5.0/util/gtf_genome_to_cdna_fasta.pl test.combined.gtf genome.fasta > transcripts.fasta
第二步: 将GTF文件转成GFF3格式
~/hychao/biosoft/TransDecoder-TransDecoder-v5.5.0/util/gtf_to_alignment_gff3.pl test.combined.gtf > test.combined.gff3
第三步: 预测转录本中长的开放阅读框
~/hychao/biosoft/TransDecoder-TransDecoder-v5.5.0/TransDecoder.LongOrfs -t transcripts.fasta
第四步: 使用DIAMOND对上一步输出的transcripts.fasta.transdecoder.pep
在蛋白数据库中进行搜索,寻找同源证据支持
# 建立索引
diamond makedb --in swissprot --db swissprot
# BLASTP比对
diamond blastp -d ~/hychao/Function_anno/swissprot/swissprot -q transcripts.fasta.transdecoder_dir/longest_orfs.pep --evalue 1e-5 --max-target-seqs 1 > blastp.outfmt6
第五步: 预测可能的编码区
~/hychao/biosoft/TransDecoder-TransDecoder-v5.5.0/TransDecoder.Predict -t transcripts.fasta --retain_blastp_hits blastp.outfmt6
第六步: 生成基于参考基因组的编码区注释文件
~/hychao/biosoftTransDecoder-TransDecoder-v5.5.0/util/cdna_alignment_orf_to_genome_orf.pl transcripts.fasta.transdecoder.gff3 test.combined.gff3 transcripts.fasta > transcripts.fasta.transdecoder.genome.gff3
这样就得到了标准的gff3文件
看一下结构还是比较准确的,后面再用CD-hit
再进行一步去冗余,等出来结果再更新