一、NLR-Annotator下载及环境部署
NLR-Annotator 是Steuernagel利用JAVA开发用以从基因组DNA序列上直接鉴定NLR loci的工具,相关成果发表在Plant physiology上The NLR-Annotator Tool Enables Annotation of the Intracellular Immune Receptor Repertoire - PubMed (nih.gov)
NLR-Annotator主要包含三个jar文件,ChopSequence.jar, NLR-Annotator.jar, NLR-Parser3.jar,此处
可下载。此外还需要下载meme.xml文件及安装mast(安装meme软件即可)
# 3个jar文件下载
git clone https://github.com/steuernb/NLR-Annotator.git
# meme.xml下载,进入https://github.com/steuernb/NLR-Annotator/releases,点击下方Assets手动下载meme.xml文件,上传至服务器即可(wget下载稍慢)
#meme软件下载,下载5.1及以上版本
conda install meme=5.1.1
二、原理及步骤
- 1.将物种基因组DNA序列剪切成一定长度的片段(默认20kb),且这些片段之间有一定长度的overlap(默认5kb)--------由chopsequence.jar完成
- 对上述片段执行六框翻译,搜索翻译后获得蛋白的motif,根据搜索到的与NLR相关的motif的位置映射回20kb DNA片段上 -------- NLR-Parser.jar 完成
-
3.留下含有NLR motif的片段,片段与片段间的重合motif进行去重复整合;以片段中NB-ARC为起点去搜寻其上下游其他NLR结构域(如cc,LRR),搜索到后报告NLR位点 -------- 由NLR-Annotator.jar完成
三、NLR-Annotator运行注释拟南芥基因组的NLR loci
本文以Plant physiology原文中拟南芥基因组数据为例来重复NLR-Annotator注释NLR运行过程
1、chopsequence.jar将dna序列切断成特定大小片段,jar及基因组DNA文件记得加上绝对路径,下面出现的文件都记得加上绝对路径
# 拟南芥基因组数据下载
nohup wget ftp://ftp.ensemblgenomes.org/pub/plants/release-51/fasta/arabidopsis_thaliana/dna/Arabidopsis_thaliana.TAIR10.dna.toplevel.fa.gz &
# 创建NLR-Annotator运行环境,此处python环境为3.6,注意检查在创建的环境下meme的版本是否为5.1
conda create -n NLR-Annotator python=3.6.6
nohup java -jar ../software/ChopSequence.jar -i arabidopsis_thaliana/dna/Arabidopsis_thaliana.TAIR10.dna.toplevel.fa -o out-chopsequence.fa > chop.log 2>&1 &
参数说明:
- -i 基因组fasta格式输入文件
- -o 剪切成片段的dna输出文件
- -l 设置按多少bp来剪切基因组,默认值为20000(20kb)
- -p 各剪切片段间的重复序列长度,默认5000(5kb)
2、NLR-Parser.jar搜索六框翻译后的蛋白序列,查找NLR相关的motif
nohup java -jar NLR-Parser3.jar -t 10 -y /share/nas1/zqd/miniconda/miniconda3/bin/mast -x meme.xml -i out-chopsequence.fa -c output.nlr.xml > nlr-parser.log 2>&1 &
参数说明:
- -x meme.xml文件
- -y mast存放的路径,eg:/programs/meme/bin/mast
- -i chopsequence.jar的输出文件,即剪切后的片段
- -c 输出文件xml
3、NLR-Annotator整合NLR motif并左右延申,报告NLR位点
nohup java -jar NLR-Annotator.jar -i output.nlr.xml -o out.nlr.txt -a output.nbarcMotifalignment.fasta -f 1000 > nlr-annotator.log 2>&1 &
#查看out.nlr.txt,共获得NLR位点171个,与文献中一致
参数说明:
- -i NLR-Parser -c产出的文件xml
- -o 表格格式的输出文件
- -g gff格式的输出文件
- -b bed格式的输出文件
- -a NBARC结构域序列的输出文件
- -f 提取nlr位点序列时,所扩展的位点上下游的碱基数,eg:2000则提取将nlr位点上下游各延申2kb后的序列作为nlr位点序列