线粒体基因组的组装和注释(MitoFinder )

之前有过用二代测序的数据组装植物叶绿体基因组昆虫线粒体的经历,用的是单位的超算(Linux系统)。

这里的二代测序数据是全基因组的浅层测序数据,因为叶绿体和线粒体是多拷贝的,一般浅层测序数据就可以组装出完整的叶绿体和线粒体基因组。我的单个样本(昆虫)测序数据大小是4G, 仅供参考。

用到的软件为Getorganelle和Mitofinder,这里介绍Mitofinder。

Mitofinder

官网:https://github.com/RemiAllio/MitoFinder

下面的教程基本来自于对官网教程的翻译,如有需要可以去看官网原文。

Mitofinder is a pipeline to assemble mitochondrail genomes and annotate mitochondrial genes from trimmed read sequencing data.

Mitofinder is also designed to find and annotate mitochpondrail sequences in existing genomic assemblies.

Mitofinder用来组装和注释线粒体基因组。

Mitofinder在整个流程中会调用的其他程序包括:

用于BLAST的:

用于组装的:MEGAHIT、MetaSPAdes、IDBA-UD

用于tRNA 注释的:MiTFi、tRNA-scan、ARWEN

下面介绍下Linux系统安装和运行mitofinder的步骤:

Mitofinder的安装

Mitofiinder最简单的安装方法就是用conda安装。

Mitofinder是在python2.7下编写的,所以安装的时候建议用conda新建一个python2.7的环境,方法参考之前的教程:

http://08643.cn/p/3ef9e6041dee

当然,用coonda创建环境和安装Mitofinder的前提是你已经安装好了miniiconda

miniconda的安装可以参考之前的教程:

http://08643.cn/p/9dc419c33f42

首先创建一个名为Mitofinder,安装2.7版本的python的环境

conda create -n Mitofinder python=2.7

激活环境

conda activate Mitofinder

conda安装mitofinder

conda install -c bioconda mitofinder

组装并注释线粒体基因组

用Mitofinder组装和注释线粒体基因组很简单,只需要一行命令。

如果是双向测序的原始数据,一个样本两个测序原始数据文件(left_reads.fastq.gz和right_reads.fastq.gz),用如下命令:

mitofinder -j [seqid] -1 [left_reads.fastq.gz] -2 [right_reads.fastq.gz] -r [genbank_reference.gb] -o [genetic_code] -p [threads] -m [memory]

如果是单向测序的原始数据,一个样本一个测序原始数据文件(SE_reads.fastq.gz),用如下命令:

mitofinder -j [seqid] -s [SE_reads.fastq.gz] -r [genbank_reference.gb] -o [genetic_code] -p [threads] -m [memory]

如果已经组装好了线粒体基因组,只需要测序,那么组装好的线粒体基因组序列作为输入文件,要求为fasta文件(assembly.fasta),用如下命令:

mitofinder -j [seqid] -a [assembly.fasta] -r [genbank_reference.gb] -o [genetic_code] -p [threads] -m [memory]

下面是我自己的例子:

~/Programfile/MitoFinder/mitofinder -j? XXXX -1 XXXX.fastq.gz -2 XXXX.fastq.gz -r reference.gb -o 5 -p 5 -m 10

各项参数的意义如下:

~/Programfile/MitoFinder/mitofinder:给出mitofinder所在的路径

-j? 任务的id号,输出的结果文件也用id号命名

-r 近缘物种的已经注释的线粒体基因组文件,要求为.gb文件,可以自行去NCBI网站下载。

下载的方法参考之前的教程:http://08643.cn/p/910c92a0d03b

-o 指遗传密码类型,5代表无脊椎动物线粒体的遗传密码

-p 允许Mitofinder在运行时使用的最大线程数

-m 在组装过程中(运行MEGAHIT 或 MetaSPAdes)允许使用的计算机最大存储量

如果我们有很多测序数据需要组装,那么就可以写一个循环,写在任务脚本run.sh文件里,然后直接运行run.sh文件就可以了。我用的循环如下(惭愧,不是我写的,组上老师写的,这里挪用一下)

解释下上半部分:

-cwd #指定当前路径为工作目录,sge的日志会输出到当前路径

-S #指定远程计算节点的shell路径

-l #指定资源请求,多个请求用逗号(,)隔开

这一部分只针对我们单位系统的超算,不适用于大家,可以不看。

用到的循环如下:

for file1 in $(ls *.R1.fastq.gz)

? do

? for file2 in $(ls *.R2.fastq.gz)

? do

? if [ ${file1:0:4} == ${file2:0:4} ]; then

~/Programfile/MitoFinder/mitofinder -j ${file2:0:4} -1 $file1 -2 $file2 -r reference.gb -o 5 -p 5 -m 10

? fi

? done

? done

简单解释一下这个循环:

我这里用到的每个样本的两个测序原始数据文件命名为:XXXX.R1.fastq.gz和XXXX.R2.fastq.gz,

XXXX是4个字符,把所有的输入文件都放在一个路径下,如果XXXX.R1.fastq.gz和XXXX.R2.fastq.gz具有相同的XXXX(在循环中为${file1:0:4}

== ${file2:0:4}),就对它们执行组装命令,输出文件命名为XXXXout(在循环中为 ${file2:0:4}"out")。

然后运行任务脚本就可以了:

qsub run.sh

qsub只是我们单位超算运行任务脚本的命令,大家根据自己的linux系统输入运行脚本的命令。

如果已经用别的软件组装好了线粒体基因组序列,只是用mitofinder进行注释,在序列很多的情况下也可以用下面的循环:

for filename in *.fasta;

do

~/Programfile/MitoFinder/mitofinder -j ${filename#*.} -a ${filename} -r reference.gb -o 5;

done

j后面代表的是任务的名称,也是后面result文件的名称,${filename#*.} 意思是取输入文件最后一个“.”前面的字符,如果输入文件是F410.fasta. 这个任务的名称就是F410

mitofinder也有在线注释网站,详情请看之前的这篇文章:http://08643.cn/p/d65238d6f445

最后编辑于
?著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,029评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,238评论 3 388
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,576评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,214评论 1 287
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,324评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,392评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,416评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,196评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,631评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,919评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,090评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,767评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,410评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,090评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,328评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,952评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,979评论 2 351

推荐阅读更多精彩内容