1.VCF格式:Variant Call Format,用于记录variants (SNP / InDel)的文件格式,VCF是用于描述SNP,InDel和SV结果的文本文件。在GATK软件中得到最好的支持,当然SAMtools得到的结果也是VCF格式,和GATK的VCF格式有点差别。
SNP(Single Nucleotide Polymorphisms)单核苷酸多态性:主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。
InDel(Insertion or Deletion)插入/缺失:
SV(Structure Variation)结构变异
VCF文件分为两部分内容:以“#”开头的注释部分;没有“#”开头的主体部分
VCF文件主体部分的结构:
1. CHROM : 参考序列名称
**2. POS : variant所在的left-most位置(1-base position)(发生变异的位置的第一个碱基所在的位置) **
3. ID : variant的ID。同时对应着dbSNP数据库中的ID,若没有,则默认使用‘.’
4. REF : 参考序列的Allele,(等位碱基,即参考序列该位置的碱基类型及碱基数量)
5. ALT : variant的Allele,若有多个,则使用逗号分隔,(变异所支持的碱基类型及碱基数量)这里的碱基类型和碱基数量,对于SNP来说是单个碱基类型的编号,而对于Indel来说是指碱基个数的添加或缺失,以及碱基类型的变化
6. QUAL : variants的质量。Phred格式的数值,代表着此位点是纯合的概率,此值越大,则概率越低,代表着次位点是variants的可能性越大。(表示变异碱基的可能性)
7. FILTER : 次位点是否要被过滤掉。如果是PASS,则表示此位点可以考虑为variant。
8. INFO : variant的相关信息
AC:表示该Allele的数目,Allele数目为1表示双倍体的样本在该位点只有1个等位基因发生了突变
AF:表示Allele的频率,Allele频率为0.5表示双倍体的样本在该位点只有50%的等位基因发生了突变
AN:表示Allele的总数目,即:对于1个diploid sample而言:则基因型 0/1 表示sample为杂合子,Allele数为1(双倍体的sample在该位点只有1个等位基因发生了突变),Allele的频率为0.5(双倍体的 sample在该位点只有50%的等位基因发生了突变),总的Allele为2; 基因型 1/1 则表示sample为纯合的,Allele数为2,Allele的频率为1,总的Allele为2。
DP:样本在这个位置的reads覆盖度,是一些reads被过滤掉后的覆盖度(跟上面提到的DP类似)
FS:使用Fisher’s精确检验来检测strand bias而得到的Fhred格式的p值,值越小越好
MQ:表示覆盖序列质量的均方值RMS Mapping Quality
9. FORMAT 和 testxxx:这两行合起来提供了’testxxx’ 这个sample的基因型的信息。 testxxx 代表这该名称的样品,是由BAM文件中的@RG下的 SM 标签决定的。
GT:样品的基因型(genotype)。两个数字中间用’/'分开,这两个数字表示双倍体的sample的基因型。0 表示样品中有ref的allele; 1 表示样品中variant的allele; 2表示有第二个variant的allele。因此: 0/0 表示sample中该位点为纯合的,和ref一致; 0/1 表示sample中该位点为杂合的,有ref和variant两个基因型; 1/1 表示sample中该位点为纯合的,和variant一致。
AD: 对应两个以逗号隔开的值,这两个值分别表示覆盖到REF和ALT碱基的reads数,相当于支持REF和支持ALT的测序深度。
DP: 覆盖到这个位点的总的reads数量,相当于这个位点的深度(并不是多有的reads数量,而是大概一定质量值要求的reads数)。
PL:指定的三种基因型的质量值(provieds the likelihoods of the given genotypes)。这三种指定的基因型为(0/0,0/1,1/1),这三种基因型的概率总和为1。和之前不一致,该值越大,表明为该种基因型的可能性越小。 Phred值 = -10 * lg § p为基因型存在的概率=10^(-Phred值/10)。
10. SAMPLES : 各个Sample的值,由BAM文件中的@RG下的SM标签所决定,这些值对应着第9列的各个格式,不同格式的值用冒号分开,每一个sample对应着1列;多个samples则对应着多列,这种情况下列的数多余10列。