小麦BSRseq

一 :hisat2流程

HISAT2安装及使用

hisat2比对生成sam

nohup hisat2 -p 8 -x /home/huawei/raw_data/YSQ/4AL_resequence/Chinese_Spring_v1.0/Chinese_Spring_v1.0 -1 /home/huawei/2019_9_29_data/wheat/C3_1.clean.fq.gz -2 /home/huawei/2019_9_29_data/wheat/C3_2.clean.fq.gz |samtools sort -@ 8 -o C3_sort.bam - &

bam取唯一比对

nohup samtools view -@ 8 -h C2.bam |grep -e @ -e "NH:i:1"|samtools view -@ 8 -Sb >C2.uniq.bam &

替换头文件

samtools view -H Tri_1.uniq.bam | sed 's,^@PG.*,@PG\tID:4\tSM:T1.add.bam\tLB:lib1\tPL:Illumina,g' |  samtools reheader - Tri_1.uniq.bam > T1.new.bam

https://www.biostars.org/p/249376/

image.png
image.png
image.png
image.png
image.png
image.png
image.png

markduplicate

gatk --java-options "-Xmx20G -Djava.io.tmpdir=./" MarkDuplicates -I 4AL_TTD.sort.uniq.bam -O 4AL_TTD.sort.uniq_mkdup.bam -M 4AL_TTD_mkdup.metrics

用AddOrReplaceReadGroups分组

gatk --java-options "-Xmx20G -Djava.io.tmpdir=./" AddOrReplaceReadGroups -I T1.sort.uniq_mkdup.bam -O T1.add.bam --LB RNA -PL illumina -PU bwa -SM T1

建立索引

samtools index -@ 8 T1.add.bam

每个混池生成单个g.vcf

gatk HaplotypeCaller -R ../0.index/wheat_parts.fa -I T2.add.bam -ERC GVCF -O T2.g.vcf

合成vcf
合并两个g.vcf
(1) 准备一个input.list,内容是单个g.vcf的文件名,一个文件一行

cat >inputE_F.list
E.g.vcf
F.g.vcf

(2) 合并g.vcf
使用的是gatk4,用GenotypeGVCFs出现报错

gatk GenotypeGVCFs -R /home/huawei/raw_data/YSQ/4AL_resequence/Chinese_Spring_v1.0/Chinese_Spring_v1.0.fasta --variant /home/huawei/4.mergevcf/inputE_F.list -o E_Fmerge.vcf
gatk4合并时报错

用CombineGVCFs合并两个g.vcf

gatk CombineGVCFs -R ../0.index/wheat_parts.fa --variant T1.g.vcf --variant T2.g.vcf -O T1_T2merge.vcf

试图解决:
conda update --all
conda update gatk
conda update conda

进行call SNP,过滤流程

gatk SelectVariants -select-type SNP -V E_Fmerge.vcf -O E_F.snp.vcf
gatk VariantFiltration -V E_F.snp.vcf --filter-expression "QUAL < 30.0 || QD < 2.0 || MQ < 40.0 || FS > 60.0 || SOR > 3.0 || MQRankSum < -12.5 || ReadPosRankSum < -8.0" --filter-name "Filter" -O E_F_filter.snp.vcf
gatk SelectVariants --exclude-filtered true -V E_F_filter.snp.vcf -O E_F_filtered.snp.vcf

https://www.biostars.org/p/249376/

http://08643.cn/p/a3b3c6190d35
https://www.bioinfo-scrounger.com/archives/183/

tri1.bam
add.bam
new.bam

二:STAR流程

建立索引需要gtf文件,小麦下载到为gff3(网址Triticum_aestivum.IWGSC.48.gff3.gz)。
先解压:gunzip Triticum_aestivum.IWGSC.48.gff3.gz

gff3转为gtf文件

conda install gffread
gffread Triticum_aestivum.IWGSC.48.gff3 -T -o IWGSC.48.gtf

打断gtf,位置与序列fa文件相同

perl gtf_break.pl break.txt IWGSC.48.gtf IWGSC.48_break.gtf

STAR下载安装
https://github.com/alexdobin/STAR/
BSR-(RNA-seq)数据进行BSR分析
call variants from wheat RNA_seq
构建索引(大于4h)

nohup /public/software/apps/STAR/2.7.0f/bin/Linux_x86_64/STAR --runThreadN 10 --runMode genomeGenerate --genomeDir ./ --genomeFastaFiles ./wheat_parts.fa --sjdbGTFfile ./IWGSC.48_break.gtf --sjdbOverhang 149 --limitGenomeGenerateRAM 68800833920 2>log &

生成一个dict

/public/home/zhanghq/biosoft/gatk-4.1.9.0/gatk CreateSequenceDictionary -R ../0_reference/IWGSC_parts.fa -O IWGSC_parts.dict

建立.fai,要不然报错

/public/software/apps/samtools/1.9/bin/samtools faidx IWGSC.fa

比对(15min左右)

/public/software/apps/STAR/2.7.0f/bin/Linux_x86_64/STAR --runThreadN 10 --twopassMode Basic --genomeDir ../0_reference/ --limitSjdbInsertNsj 5000000 --outSAMtype BAM SortedByCoordinate --twopass1readsN -1 --readFilesCommand zcat --outFilterMismatchNmax 10 --readFilesIn Tri_di_1_1.clean.fq.gz Tri_di_1_2.clean.fq.gz --outSAMattrRGline ID:Tri_1 SM:Tri_1 PL:ILLUMINA LB:Tri_1

/public/software/apps/STAR/2.7.0f/bin/Linux_x86_64/STAR --runThreadN 10 --twopassMode Basic --genomeDir ../0_reference/ --limitSjdbInsertNsj 5000000 --outSAMtype BAM SortedByCoordinate --twopass1readsN -1 --readFilesCommand zcat --outFilterMismatchNmax 10 --readFilesIn Tri_di_2_1.clean.fq.gz Tri_di_2_2.clean.fq.gz --outSAMattrRGline ID:Tri_2 SM:Tri_2 PL:ILLUMINA LB:Tri_2
image.png

改名

mv Aligned.sortedByCoord.out.bam Tri_1.sort.bam

mv Aligned.sortedByCoord.out.bam Tri_2.sort.bam

取唯一比对

/public/software/apps/samtools/1.9/bin/samtools view -@ 10 -h -q 255 -o sorted.bam -O BAM Tri_1.sort.bam

/public/software/apps/samtools/1.9/bin/samtools view -@ 10 -h -q 255 -o sorted.bam -O BAM Tri_2.sort.bam

mkdup

../biosoft/gatk-4.1.9.0/gatk --java-options "-Xmx20G -Djava.io.tmpdir=./" MarkDuplicates -I Tri_1_uniq_sort.bam -O Tri_1_mkdup.bam -M Tri_1_mkdup.metrics 2>log

../biosoft/gatk-4.1.9.0/gatk --java-options "-Xmx20G -Djava.io.tmpdir=./" MarkDuplicates -I Tri_2_uniq_sort.bam -O Tri_2_mkdup.bam -M Tri_2_mkdup.metrics 2>log

建立索引

/public/software/apps/samtools/1.9/bin/samtools index -@ 10 Tri_1_mkdup.bam

/public/software/apps/samtools/1.9/bin/samtools index -@ 10 Tri_2_mkdup.bam

../biosoft/gatk-4.1.9.0/gatk SplitNCigarReads -R ../0_reference/IWGSC_parts.fa -I Tri_1_mkdup.bam -O Tri_1_split.bam 1>Tri_1_split_log.mark 2>&1
../biosoft/gatk-4.1.9.0/gatk SplitNCigarReads -R ../0_reference/IWGSC_parts.fa -I Tri_2_mkdup.bam -O Tri_2_split.bam 1>Tri_2_split_log.mark 2>&1

生成单独的g.vcf(每个大于2h)

../biosoft/gatk-4.1.9.0/gatk HaplotypeCaller -R ../0_reference/IWGSC_parts.fa -I Tri_1_mkdup.bam -ERC GVCF -O Tri_1.g.vcf
../biosoft/gatk-4.1.9.0/gatk HaplotypeCaller -R ../0_reference/IWGSC_parts.fa -I Tri_2_mkdup.bam -ERC GVCF -O Tri_2.g.vcf

merge vcf

nohup ../biosoft/gatk-4.1.9.0/gatk CombineGVCFs -R ../0_reference/IWGSC_parts.fa --variant Tri_1.g.vcf --variant Tri_2.g.vcf -O T1_T2merge.vcf

遇到小插曲,只是所有的从头来过而已??,具体什么原因不知道,返回7A打断位置查看,发现dict的位置附近有基因,而fai的位置附近基因较少,所以从头来过,全部改为fai的位置(448855049)

image.png

要检查7A_part1打断的位置,生成的dict(与打断位置一样,450046985)与fai(448855049)文件不一样
报错

fai

dict
# 先按照read name排序
nohup samtools sort -@ 8 -n -O bam -o s35S1-M.name_sorted.bam s35S1-M.bam &
nohup samtools sort -@ 8 -n -O bam -o s35S1-W.name_sorted.bam s35S1-W.bam &
# 利用fixmate来添加ms和MC tag
nohup samtools fixmate -m -@ 8 -O bam s35S1-M.name_sorted.bam s35S1-M.name_mc_sorted.bam &
nohup samtools fixmate -m -@ 8 -O bam s35S1-W.name_sorted.bam s35S1-W.name_mc_sorted.bam &
# 把添加了MC tag后的文件再按染色体位置排序
nohup samtools sort -O bam -o s35S1-M.name_mc_pos_sorted.bam s35S1-M.name_mc_sorted.bam &
nohup samtools sort -O bam -o s35S1-W.name_mc_pos_sorted.bam s35S1-W.name_mc_sorted.bam &
# 最后可以标记重复了
nohup time samtools markdup -@ 8 aligment_result/s35S1-M.name_mc_pos_sorted.bam tools_result/samtool_markdup/s35S1-M.sorted.samtools_markdup.bam &
nohup time samtools markdup -@ 8 aligment_result/s35S1-W.name_mc_pos_sorted.bam tools_result/samtool_markdup/s35S1-W.sorted.samtools_markdup.bam &

samtools中faidx索引格式
RNA-seq汇总(分析+工具+GATK流程)
NGS的变异检测高效工具Sentieon使用体验
GATK/BWA加速神器Sentieon更新列表
如何让GATK飞起来--Sentieon初步体验

?著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,992评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,212评论 3 388
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事?!?“怎么了?”我有些...
    开封第一讲书人阅读 159,535评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,197评论 1 287
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,310评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,383评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,409评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,191评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,621评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,910评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,084评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,763评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,403评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,083评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,318评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,946评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,967评论 2 351

推荐阅读更多精彩内容