1、下载hg38文件
? UCSC官网下载hg38文件,网址http://hgdownload.soe.ucsc.edu/goldenPath/hg38/bigZips/,进入到如下界面:
我们可以下载其中的hg38.fa.gz 和质量控制文件md5sum.txt。我直接点击下载了。下载完之后,首先用md5sum.txt进行完整性检验。
> cat md5sum.txt
dcc3ea27079aa6dc3f9deccd7275e0f8 hg38.2bit
1d97953254e25acd112a94895f01c039 hg38.agp.gz
1c9dcaddfa41027f17cd8f7a82c7293b hg38.fa.gz
435423b167c13a2388d5691dc10a4750 hg38.fa.masked.gz
820796b72974d077281b3386c4fb8295 hg38.fa.out.gz
7645bc6e919eeb19bfc62451afc3c248 hg38.trf.bed.gz
a5aa5da14ccf3d259c4308f7b2c18cb0 hg38.chromFa.tar.gz
e9fddcb1663dd303f1f5d6cbb71d6a82 hg38.chromFaMasked.tar.gz
92910523b903753216ac18945c788d81 hg38.fa.align.gz
273fedff7f16fa2bed0d70c75f79caa2 hg38.gc5Base.wigVarStep.gz
9ed58d68e0998d511a8a58f4f748ce84 hg38.gc5Base.wib
c82fddc1c8ce3120cb5863f7384ed177 hg38.gc5Base.wig.gz
> echo 1c9dcaddfa41027f17cd8f7a82c7293b hg38.fa.gz > check_md5sum_hg38.txt #复制hg38.fa.gz的MD5号到另一个新的文件中
> md5sum -c check_md5_hg38.txt #验证
hg38.fa.gz: 成功
然后命令行解压。
gunzip hg38.fa.gz
由于文件解压出来后较大,可能会解压很长时间,等一会就好。
解压出来的hg38.fa文件可以用于后续使用。
2、 建立索引(bowtie2)
文件准备:hg38.fa
source activate wes #进入到conda小环境
bowtie2-build hg38.fa hg38 #bowtie2 建立索引
建立索引的时间真的超级长?。?!
可以挂到服务器后台运行
nohup bowtie2-build hg38.fa hg38 & > nohup01.out