1.安装getorganelle
conda create -n getorganelle python=3.6.8
#创建getoganelle的环境,可通过python3 -V查看当前的python版本,使用系统中存在的python版本
conda install -n getorganelle -c bioconda getorganelle=1.7.7
#在miniconda3上安装指定版本的getorganelle
2.安装叶绿体基因组等数据库
get_organelle_config.py --add embplant_pt
#安装叶绿体基因组等数据库(植物叶绿体基因组:embplant_pt,植物线粒体基因 组:embplant_mt,植物核核糖体DNA片段:embplant_nr)
小插曲:在安装参考基因组时发现报错:ERROR: Blast is not available!
当时以为是blast没有安装,安装了blast依然报错,尝试在打开getorganelle的情况下查看blast版本blastn -V,发现进一步显示为blastn: error while loading shared libraries: libnsl.so.1: cannot open shared object file: No such file or directory
这说明是libnsl.so.1这个库没有存在于getorganelle这个软件的环境的,进入目录/home/monkeyflower/miniconda3/envs/getorganelle/lib查找这个库,发现里面有个libnsl.so.3的库,直接改掉这个库的名称,发现可以运行了。
3.运行getorganelle
先将需要拼接的序列文件传输到/home/monkeyflower/bioworkplace目录下(最好每次建一个单独的文件夹以保存运行结果)
cd /home/monkeyflower/bioworkplace
conda activate getorganelle
#激活软件
4.拼接代码
get_organelle_from_reads.py -1 sampleA.1.gz -2 sampleA.2.gz -F embplant_pt -o organellefile -R 10 -t 2 -k 21,45,65,85,105,127
#文件名不得有任何空格
-1和-2 正向和反向测序原始数据文件(如果是单向测序,-u)
-F 设定要组装的基因组类型
-o 结果输出保存的目录(文件夹)名称
-R 提取叶绿体基因 reads 的轮次(轮次越多,耗时越长)
-t 并行使用 CPU 的数量(多核可提速),默认值是1
-k 调用SPAdes进行 denovo组装的k-mer,数值必须是奇数,最大值是127
也可使用以下代码可缩短运行时间
get_organelle_from_reads.py -1 sampleA.1.gz -2 CaryopterissampleA.2.gz -F embplant_pt -o organellefile --fast -k 21,65,105 -w 0.68
5.拼接不成环解决办法
由于getorganelle在使用SPAdes拼接得到的assembly_graph.fastg时会对其进行精简结果会导致拼接结果无法成环,如下图所示:该序列有多个片段组成,却没有成环发现可以先使用SPAdes对测序数据进行组装以获得assembly_graph.fastg文件,对该文件再使用Getorganelle进行拼接即可。具体流程如下:
5.1 SPAdes辅助拼接
5.1.1 SPAdes安装
软件安装
conda create -n spades
conda activate spades
conda install -c bioconda spades=3.15.5
#创建环境并安装指定版本的的spades
基本使用命令
spades.py -1 left.fq.gz -2 right.clean.fq.gz -o outputname -t 16
-1/2:双端测序文件
-o:输出文件目录
-t:最大允许使用线程数,默认为1
5.1.2 Getorganelle运行命令
get_organelle_from_assembly.py -g assembly_graph.fastg -F embplant_pt -o output-plastome -t 16
-g:SPAdes组装得到的FASTG的assembly graph
-F:设定要组装的基因组类型
-o:输出文件目录
-t:最大允许使用线程数
拼接结果基本都能成环,如下图所示:
5.2 修改有关参数
5.2.1调整-w参数
如果服务器的内存足够,那么减少word(- w)参数。如果在命令中没有特意指出-w参数,则程序会自动估计,在get_org.log.txt中会有记录,如果估计的-w大小是105,可以尝试减小为95。-w的取值范围一般在65 ~ 105之间。
5.2.2增加--max-reads参数
--max-reads MAX_READS
Maximum number of reads to be used per file. Default:
1.5E7 (-F embplant_pt/embplant_nr/fungus_mt/fungus_nr); 7.5E7
(-F embplant_mt/other_pt/anonym); 3E8 (-F animal_mt)
陆生植物默认参数为1.5E7,应该提升一下读数。
5.2.3添加参考物种
如果目标基因组是动物有丝分裂组或者reads质量较差,或者目标覆盖度极不均匀,则使用与之紧密相关的细胞器基因组作为seed( -s )。对于动物基因组组装或没有紧密相关seed的情况,使用前一次运行的输出作为第二次运行的seed。