2020-01-15 了解人类不同版本参考基因组及如何选择

2013年发布了GRCh38,每年会在不改变序列和坐标的情况下发布一些Patches
https://www.ncbi.nlm.nih.gov/grc/help/patches/
**《Biostar Handbook》建议使用最新版本的基因组,并且要知道如何在不同基因组之间映射信息(即liftover coordinates)

liftOver from UCSC (web工具和命令行工具)
https://www.ncbi.nlm.nih.gov/genome/tools/remap
remap from NCBI (web工具)
https://www.ncbi.nlm.nih.gov/genome/tools/remap
crossmap (命令行工具)
http://crossmap.sourceforge.net/

进行liftover需要一个chain data,用于描述新旧build之间的差异:

conda install crossmap -y
CrossMap.py

# Get the chain file that maps from hg19 to hg38.
# 下载chain data
wget http://hgdownload.soe.ucsc.edu/goldenPath/hg19/liftOver/hg19ToHg38.over.chain.gz
# Get a test data file that will be remapped.
# bed文件?
wget http://data.biostarhandbook.com/data/ucsc/test.hg19.bed
# Run the remapping process.
# 进行remap
CrossMap.py bed hg19ToHg38.over.chain.gz test.hg19.bed test.hg38.bed

*.bed文件不知道是什么,学习:
《生信分析过程中这些常见文件(fastq/bed/gtf/sam/bam/wig)的格式以及查看方式你都知道吗?》https://blog.csdn.net/qazplm12_3/article/details/85222665


bwa作者Heng Li 2017年的博客给出了一些选择参考基因组的建议:
https://lh3.github.io/2017/11/13/which-human-reference-genome-to-use

1. 比对至GRCh37(hg19),使用hs37-1kg

ftp://ftp-trace.ncbi.nih.gov/1000genomes/ftp/technical/reference/human_g1k_v37.fasta.gz

2. 比对至GRCh37,并且认为 decoy sequence* 有助于variant calling,使用hs37d5

ftp://ftp-trace.ncbi.nih.gov/1000genomes/ftp/technical/reference/phase2_reference_assembly_sequence/hs37d5.fa.gz

关于decoy sequence,在博文《关于人参考基因组fasta文件的组成部分说明》中有提及,EB病毒基因组:
http://08643.cn/p/5b73773e30ef

3. 比对至GRCh38(hg38):

ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCA/000/001/405/GCA_000001405.15_GRCh38/seqs_for_alignment_pipelines.ucsc_ids/GCA_000001405.15_GRCh38_no_alt_analysis_set.fna.gz


GRCh37(hg19)和GRCh38(hg38)还有其它小版本。

各个版本的基因组可能存在的问题:

1. Inclusion of ALT contigs.


由于基因组是用单倍体类型表现的,因此需要alt序列表示双倍体中的等位基因等。
ALT contigs are large variations with very long flanking sequences nearly identical to the primary human assembly. Most read mappers will give mapping quality zero to reads mapped in the flanking sequences. This will reduce the sensitivity of variant calling and many other analyses. You can resolve this issue with an ALT-aware mapper, but no mainstream variant callers or other tools can take the advantage of ALT-aware mapping.
黄色部分为flanking sequence,起调控作用

2. Padding ALT contigs with long “N”s. (?)

This has the same problem with 1 and also increases the size of genome unnecessarily. It is worse.

3. Inclusion of multi-placed sequences.

伪常染色体序列(PARs)是X和Y染色体上核苷酸的同源序列,假常染色体基因(到目前为止至少发现了29个)表现出常染色体遗传而不是性别相关的遗传模式。

伪常染色体区域PAR1、PAR2是X和Y染色体上核苷酸的同源序列; 正常雄性具有假常染色体基因的两个副本:一个在其Y染色体的假常染色体区域中,另一个在其X染色体的相应部分中。正常雌性也具有假常染色体基因的两个副本:它们的两个X染色体均包含假常染色体区域; X和Y染色体之间的cross over通常仅限假常染色体区域。 因此,雌性可以继承其父亲的Y染色体上最初存在的等位基因。

alpha satellites在维基百科中重定向至centromere
https://en.wikipedia.org/wiki/Centromere#The_centromeric_sequence

In both GRCh37 and GRCh38, the pseudo-autosomal regions (PARs) of chrX are also placed on to chrY. If you use a reference genome that contains both copies, you will not be able to call any variants in PARs with a standard pipeline. In GRCh38, some alpha satellites are placed multiple times, too. The right solution is to hard mask PARs on chrY and those extra copies of alpha repeats.

4. Not using the rCRS mitochondrial sequence.

rCRS是1981年宣布的人类线粒体DNA的剑桥参考序列(CRS)的修订版(rCRS)。储存在Genebank NCBI数据库,检索号NC_012920。
同时还有非洲(Yoruba)参考序列,非洲(Uganda)参考序列,瑞典参考序列,日本参考序列,重构智人参考序列(RSRS)

rCRS is widely used in population genetics. However, the official GRCh37 comes with a mitochondrial sequence 2bp longer than rCRS. If you want to analyze mitochondrial phylogeny, this 2bp insertion will cause troubles. GRCh38 uses rCRS.

5. Converting semi-ambiguous IUB codes to “N”.


将RYKM等简并碱基都替换成N

This is a very minor issue, though. Human chromosomal sequences contain few semi-ambiguous bases.

6. Using accession numbers instead of chromosome names.

使用检索号而非染色体名

Do you know CM000663.2 corresponds to chr1 in GRCh38?

7. Not including unplaced and unlocalized contigs.

基因组中不包括来自unlocalized和unplaced序列,导致来自这些序列的读段被强制map到其它染色体上,导致错误的variant call.

This will force reads originated from these contigs to be mapped to the chromosomal assembly and lead to false variant calls.

不同版本基因组问题简要总结:
  1. Alt contigs的存在→variant calling和其它分析的敏感性降低→使用ALT-aware tools
  2. 用Ns填充Alt contigs→造成和1相似的问题
  3. 包括PARs→使用standard pipeline会call不到PARs上的variants→hard mask掉chrY上的PARs
  4. 不使用rCRS→在分析线粒体系统发育时会遇到问题
  5. 用N表示所有简并碱基→不是什么大问题
  6. 使用Accession Number而非染色体名
  7. 不包括unlocalized和unplaced序列--导致false variant calls
  • hg19/chromFa.tar.gz from UCSC: 1, 3, 4 and 5.
  • hg38/hg38.fa.gz from UCSC: 1, 3 and 5.
  • GCA_000001405.15_GRCh38_genomic.fna.gz from NCBI: 1, 3, 5 and 6.
  • Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz from EnsEMBL: 3.
  • Homo_sapiens.GRCh38.dna.toplevel.fa.gz from EnsEMBL: 1, 2 and 3.
最后编辑于
?著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,100评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,308评论 3 388
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,718评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,275评论 1 287
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,376评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,454评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,464评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,248评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,686评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,974评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,150评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,817评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,484评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,140评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,374评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,012评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,041评论 2 351