0. STAR下载
- 下载2.6.1b版本的STAR
wget https://github.com/alexdobin/STAR/archive/2.6.1b.tar.gz
- 文件解压
tar -xzf 2.6.1b.tar.gz
- 进入文件夹
cd STAR-2.6.1b/source/
- 软件安装
make STAR
1. 创建reference目录
这里下载的参考基因组为ensemble的人GRCh38参考基因组,最好单独建立一个文件夹,后续 解压缩 和 建立索引 的 输出文件 都存放在该目录。
参考命令行如下:
mkdir –p references/Homo_sapiens/Ensembl/GRCh38/
cd references/Homo_sapiens/Ensembl/GRCh38/
2. wget下载压缩包
默认当前路径为*/references/Homo_sapiens/Ensembl/GRCh38/
;
命令如下:
fasta文件压缩包:
wget ftp://ftp.ensembl.org/pub/release-99/fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz
gtf文件压缩包:
wget ftp://ftp.ensembl.org/pub/release-99/gtf/homo_sapiens/Homo_sapiens.GRCh38.99.gtf.gz
3. gizp解压文件
-
fasta文件解压缩
gzip -c -d Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz > Homo_sapiens.GRCh38.fa
-
gtf文件解压缩
gzip -c -d Homo_sapiens.GRCh38.99.gtf.gz > Homo_sapiens.GRCh38.99.gtf
4. STAR构建索引
STAR是celescope的依赖软件,在下载和安装celescope时就已经嵌入到celescope对应的环境内。因此可以在celescope的环境中执行 构建索引 的步骤
(1)激活celescope的环境:conda activate celescope
(2)编辑index.sh
,shell脚本内输入如下指令和参数:
STAR \
--runMode genomeGenerate \ #让STAR执行基因组索引的生成工作
--runThreadN 10 \ #构建运行使用的线程数
--genomeDir . \ #构建好的参考基因组存放的位置,最好是单独建立的一个文件夹,这里是/references/Homo_sapiens/Ensembl/GRCh38
--genomeFastaFiles ./Homo_sapiens.GRCh38.fa \ #fasta文件(参考基因组序列文件)
--sjdbGTFfile ./Homo_sapiens.GRCh38.99.gtf \# gtf文件(基因注释文件)
--sjdbOverhang 149 #读段长度: 后续回帖读段的长度, 如果读长是PE 100, 则该值设为100-1=99
(3)使用nohup
投递任务:nohup sh index.sh &
STAR运行将近90min,构建好的正确索引文件如下:
$ ll
total 29037186
chrLength.txt
chrNameLength.txt
chrName.txt
chrStart.txt
exonGeTrInfo.tab
exonInfo.tab
geneInfo.tab
Genome
genomeParameters.txt
Log.out
SA
SAindex
sjdbInfo.txt
sjdbList.fromGTF.out.tab
sjdbList.out.tab
transcriptInfo.tab
我当前的运行结果:(修改和补救ing)
5. CeleScope构建索引
celescope也有内置的参数celescope rna mkref
构建索引,同时生成一个config文件
celescope rna mkref
-h #查看帮助信息
--genomeDir #默认为./
--thread #线程数默认为6
--genome_name #设置参考基因组的名称,这个名称会最终展示到celescope生成的报告里,默认为None
--dry_run 只生成config文件
--fasta #接fasta文件
--gtf #接gtf文件
--mt_gene_list #基因列表文件,指定为某些基因归类(一般用不到,默认None)
(1)激活celescope的环境:conda activate celescope
(2)编辑index.sh
,shell脚本内输入如下指令和参数:
celescope rna mkref \
--genome_name Homo_sapiens_ensembl_99\ #基因组名称
--fasta ./Homo_sapiens.GRCh38.fa \ #fasta文件(参考基因组序列文件)
--gtf ./Homo_sapiens.GRCh38.99.gtf \# gtf文件(基因注释文件)
(3)使用nohup
投递任务:nohup sh index.sh &
postscript:
单细胞测序分析软件链接 celescope的下载和安装