基因组survey分析内容
- 基因组Survey基于小片段文库的低深度测序数据(50X-100X ) ;
- 通过K-mer分析 ,有效的评估基因组大小、GC含量、杂合度以及重复序列的含量等信息;
- 是全面了解某一物种基因组特征的有效方法;
- 为后续的全基因组 de novo 测序的组装策略的制定提供理论依据。
分析软件
FastqCount
用于计算测序数据碱基数,从而计算测序深度
1.软件安装
#安装pigz
conda install pigz
#从github下载FastqCount
wget https://github.com/zhimenggan/FastqCount/archive/refs/heads/master.zip
chmod 755 FastqCount_v0.5
#添加环境变量
vim .bashrc
export PATH=$PATH:/home1/huangchenjue/tools/fastqcount/
source .bashrc
2.使用
#该测试数据为水稻重测序数据,水稻基因组大小约为0.4GB
pigz -dc VP3_R1.fq.gz VP3_R2.fq.gz | ./tools/fastqcount/FastqCount-master/FastqCount_v0.5 - > VP3.fastq.out
3.结果
Total Reads | Total Bases | N Bases | Q20 | Q30 | GC |
---|---|---|---|---|---|
139807548 (139.81 M) | 20971132200 (20.97 G) | 0.00% | 97.00% | 93.00% | 44.00% |
测序深度(depth)= total Basea / genome size
由于水稻基因组大小约为0.4G,由此可知测序深度为52.425x。
Jellyfish
主要用于进行k-mer计算
1.软件安装
conda install jellyfish
2.使用
1.使用count的命令来执行计数功能,产生的结果为二进制文件。
jellyfish count -m 21 -s 5G -C -t 10 -o VP3_21mer_out <(zcat VP3_R1.fq.gz) <(zcat VP3_R2.fq.gz)
- -m 表示k-mer一般为奇数,多采用19,21等
- -s 计算公式G + Gcek ,其中G为基因组大小,c为数据的测序深度,e为测序误差(一般在illumina测序中,认为误差为1%),k为k-mer(与前面的参数m输入值一致)
- -C 表示对正义链和反义链都要进行计算。
2.若上部产生多个结果,融合二进制输出结果(未试用)
jellyfish merge -o mer_counts_merged.jf out1 out2 ...
3.通过计数结果绘制直方图
jellyfish histo -t 3 VP3_21mer_out > VP3_21mer.hist
#用R绘制直方图
df <- read.table("21-k-mer.hist", header = T)
plot(df[,1],df[,2],xlab = "depth",ylab = "Kmer",main = "21 kmer", type = "l")
- 在VP3_21mer.hist文件中,第一列表示k-mer出现的次数,第二列表示k-mer出现的种类。
- R绘图的输入文件21-k-mer.hist,选择深度在300以内的数据,更高的数据意义不大,对于异常值可以进行剔除。
4.对out结果进行统计,可统计k-mer总数,特异的k-mer数目,只出现过一次的kmer数,出现了最多的k-mer的数目等信息。
jellyfish stats VP3_19mer_out
- 其中kmer总数会在gce中用到。
3.结果
[图片上传失败...(image-735f29-1651141519388)]]
](https://upload-images.jianshu.io/upload_images/25815255-1025236a4eacf36f.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
gce
1.安装
tar xvf gce.tar.gz
2.使用
1.杂合模式
gce -f 21-k-mer.hist -c 41 -H 1 -g 18174499173 -M 10000 >21-gce.table 2>21-gce.log
- -f 输入k-mer频率分布文件
- -c k-mer主峰深度,即k-mer频率分布图上的主峰对于的横坐标
- -H 1:是否启动杂合模式(1是杂合模式,推算出杂合率, 0是非杂合模式没有杂合度)
- -g kmer总数, 从kmerfreq分析结果获取
2.纯合模式
gce -f 21-k-mer.hist -c 41 -H 0 -g 18174499173 -M 10000 >021-gce.table 2>021-gce.log
3.结果
1.杂合模式
运算结果输出在21-gce.log文件最后
- kmer-species heterozygous ratio为0.0211883( a[1/2] / ( 2- a[1/2] ))。而杂合率 = kmer-species_heterozygous_ratio / kmer_size 。若计算出的杂合率较低,则认为测序数据为纯合的。这时候,应该不使用 -H 1 参数。使用 -H 1 参数会对基因组的大小和重复序列含量估算造成影响。
- 重复序列的含量 = 1-b[1/2]-b[1]
- 估计的genome_size大小为4.20745e+08 (约421 MB)
2.纯合模式
运算结果输出在021-gce.log文件最后
- 重复序列的含量 = 1-b[1]
- 估计的genome_size大小为4.19836e+08(约420 MB)