RepeatMasker二.再次学习
2023年3月16日
9:28
近期通过看文献和接触到的新的重复序列注释工具,对RepeatMasker的使用理解加深了一点点,对重复序列的注释过程也更清晰了些。我下面说的重复序列注释都是针对的转座子重复序列注释的,也就说LTR和non-LTR注释结果。串联重复序列使用TRF就行了。
先看文献一ref1的内容:
第一步是先使用EDTA和Repeatmodeler构建TE library。具体来说是因为EDTA对LTR注释效果好,使用其做LTR的注释,Repeatmodeler来注释non-LTR,然后把这两个结果合并作为Repeatmodeler的TE library。第二步使用RepeatMasker做注释,得到的结果就是最终的TEs结果。
当然,具体怎么合并EDTA和Repeatmodeler结果的,还需要进一步学习。
文献二ref2注释的方法:
然后你会发现,和上一篇文献类似,先用不同工具确定重复序列的,然后合并结果构建TE Library,最后还是用RepeatMasker进行注释。
文献三ref南极磷虾的重复序列注释方法:
南极磷虾基因组有很大篇幅对重复序列进行了研究,因此它的重复序列注释办法很值得参考,也和我合作的公司用的注释办法最为接近,这个工作本身也是由华大来做的注释。两种策略,同源注释和de novo注释,Ref1和Ref2我理解都是de novo注释过程,如果不是单门做重复序列的研究,我觉得选择de nono注释方法就可以了,毕竟这个同源注释你的参考物种基因组质量咋样也不好说。
先用RepeatMasker和RepeatProteinMask(运行超级慢的一个工具)做同源预测。然后RepetModerl和LTR-Finder做de novo预测并为Tes Library提供给RepeatMasker进行注释。
同源测序和de novo预测的结果怎么整合的作者并没有说,等着我做完这两部分工作的时候再写一篇学习记录。
在EDTA的学习记录中我发现有人提出EDTA在注释non-LTR时效果不好,需要和RepeatMasker结合,方法见下面:
https://github.com/oushujun/EDTA/issues/231
文献Ref4:22年NG上荔枝基因组的注释更简单,只注释了LTR区域。
Ref5:22年NG上甘蔗基因组:
作者利用了de novo 和 homology的策略,首先用RepeatModeler做de novo预测,RepeatMasker做homology,最终由RepeatMasker确定类型和统计。
RepeatModeler补充说明:从头预测transposable element (TE)的软件,它的核心是结合了三大预测软件(RECON, RepeatScout and LtrHarvest/Ltr_retriever)来共同预测TE序列,其通过重复序列的结构特征来进行从头注释,因此可以寻找一些物种特有的重复序列。在给定基因组数据库的情况下,RepeatModeler可帮助自动执行各种算法,对冗余结果进行聚类,对家族进行精炼和分类,并生成适用于RepeatMasker并最终建立重复序列系列数据库,然后再用于RepeatMasker进行注释
见我另一篇学习记录。
总结一下:最核心的步骤还是两步,一是通过不同工具构建一个你觉得质量比较好的TE library,二是把这个TE library提供给RepeatMasker做注释用,最终RepeatMasker的结果就是你的重复序列注释结果?;褂幸桓鲆晌剩珽DTA可以指定参数使用RepeatMasker和RepeatModeler的,并且是默认在其运行环境中使用这两个软件,等我的EDTA结果出来后,我会试着回答这个疑问。
我觉得比较简单的组合就是Ref1的方法,EDTA使用简单,具体怎么整合Lib并提供给RepeatMasker,在EDTA的github上的Issue上有一些办法,参考:https://github.com/oushujun/EDTA/issues/61
但对大基因组,EDTA可能运行时间会比较久,
关于EDTA的运行时间:https://github.com/oushujun/EDTA/issues/61
参考:
Ref1: Hidden genomic features of an invasive malaria vector, Anopheles stephensi, revealed by a chromosome-level genome assembly,Chakraborty et al. BMC Biology (2021) 19:28?
Ref2: The draft genome of the specialist flea beetle Altica viridicyanea (Coleoptera: Chrysomelidae),Xue et al. BMC Genomics (2021) 22:243 ;
Ref3:The enormous repetitive Antarctic krill genome reveals environmental adaptations and population insights,shao et al., 2023, Cell 186, 1–16March 16, 2023.https://doi.org/10.1016/j.cell.2023.02.005
Ref4:Two divergent haplotypes from a highly heterozygous lychee genome suggest independent domestication events for early and late-maturing cultivars;
Ref5:Genomic insights into the recent chromosome reduction of autopolyploid sugarcane Saccharum spontaneum
本文使用 文章同步助手 同步