数据准备:单倍型基因组(hap1.p_ctg.fa和hap2.p_ctg.fa)和HIC数据
软件安装:3D-DNA、Juicer、BWA、Juicebox(win或mac安装)
3D-DNA 挂载染色体 - 简书 (jianshu.com)
http://08643.cn/p/62ed25b70194
Juicer: 辅助基因组组装 - 简书 (jianshu.com)
http://08643.cn/p/a889e2f7cef2
3.大致流程
Juicer分析Hi-C数据,3D-DNA进行scaffolding,使用Juicebox对组装结果进行手工纠正,最终得到准染色体水平的基因组。
4.软件安装:
Juicer安装:juicer需要一个固定的目录结构,新建一个文件夹命名为juicer,在此文件夹中安装juicer;然后新建四个文件夹,分别为:
references
work
scripts
restriction_sites
references目录用于存放参考基因组相关文件work文件夹新建fastq子文件夹并存放HiC二代双端测序结果,read_R1_fastq.gz,? ? ? read_R2_fastq.gz(注意fastq如果是fq.gz则运行失败)scripts 用于存放软件运行所需的脚本restriction_sites用于存放参考基因组酶切图谱
juicer安装相对简单,按照下面指令即可:
mkdir -p ~/opt/biosoft/juicer
cd?~/opt/biosoft/juicer
git clone https://github.com/theaidenlab/juicer.git (VPN)
cd juicer
ln?-s?CPU scriptscd scripts/common
wget https://hicfiles.tc4ga.com/public/juicer/juicer_tools.1.9.9_jcuda.0.8.jar
ln?-s?juicer_tools.1.9.9_jcuda.0.8.jar??juicer_tools.jar
然后检查是否有帮助信息输出(成功)(路径取决于软件juicer.sh所在目录)/public/home/bsun/opt/biosoft/juicer/scripts/juicer/CPU/juicer.sh?-h
3D-DNA安装
cd?~/opt/biosoft
git clone https://github.com/theaidenlab/3d-dna.git
测试是否成功/public/home/bsun/opt/biosoft/3d-dna/run-asm-pipeline.sh
Juicebox
安装在windows或mac系统上
BWA(conda安装即可)
5.运行文件准备
准备juicer所需文件:即它的4个固定文件夹所需的的文件
第一步:bwa为基因组建索引--放入references中
bwa index hap1.p_ctg.fa.fa
第二步:?根据基因组构建创建可能的酶切位点文件(必须提交到集群运行,否则killed)酶的选择参考自己的HIC数据报告;本人选择DpnII--放restriction_sites中
bsub -J bwa -n 20 -R span[hosts=1] -o %J.out -e %J.err -q smp "python /public/home/bsun/opt/biosoft/juicer/scripts/juicer-1.6/misc/generate_site_positions.py DpnII hap1 hap1.p_ctg.fa"
第三步:?根据第二步的结果(hap1_DpnII.txt)提取每条contig的长度(不用提交到集群运行)--放入restriction_sites中
awk?'BEGIN{OFS="\t"}{print?$1,?$NF}'?hap1_DpnII.txt?>?hap1.chrom.sizes
运行Juicer
需要先调用bwa,否则报错需要参数
bash juicer.sh -d /juicer/work2 -D juicer-1.6 -g loach -z /juicer/references/hap2.fasta -y /juicer/restriction_sites/hap2_DpnII.txt -p /juicer/restriction_sites/hap2.chrom.sizes -s DpnII -t 20
参数含义-d?fastq储存位置-D?juicer?script?(cpu)的路径-g?基因组名称-z?contig路径-y?酶切位点路径-p?染色体大小路径-s?酶切位点-t 线程数
本人的代码,推荐使用绝对路径;可按照一下代码根据自己的路径修改即可bsub -J juicer -n 30 -R span[hosts=1] -o %J.out -e %J.err -q normal "bash /public/home/bsun/opt/biosoft/juicer/scripts/juicer-1.6/CPU/juicer.sh -d /public/home/bsun/bsun/fourgenome/hic/juicer-hap1/work -D /public/home/bsun/opt/biosoft/juicer/scripts/juicer-1.6 -g loach -z /public/home/bsun/bsun/fourgenome/hic/juicer-hap1/references/hap1.p_ctg.fa -y /public/home/bsun/bsun/fourgenome/hic/juicer-hap1/restriction_sites/hap1_DpnII.txt -p /public/home/bsun/bsun/fourgenome/hic/juicer-hap1/restriction_sites/hap1.sizes -s DpnII -t 30"
输出的结果文件都在aligned目录下,其中"merged_nodups.txt"就是下一步3D-DNA的输入文件之一。3D-DNA&Juicer升级单倍型基因组至染色体水平
运行3d-dna
本步必须在下面juicer的文件夹下跑,否则出现下方报错
解决方法1.基因组文件必须以fasta命名。
2.将juicer跑好的work文件和fasta文件分别移动到juicer目录下和references文件中记得做好标记,
3.然后只需改动fasta文件和work文件名就可以使用下面的代码。运行3ddna,推荐绝对路径
bsub?-J3d-1-n30-R?span[hosts=1]?-o?%J.out?-e?%J.err?-qnormal "bash?/public/home/bsun/opt/biosoft/3d-dna/run-asm-pipeline.sh?/public/home/bsun/opt/biosoft/juicer/references/hap2.fasta /public/home/bsun/opt/biosoft/juicer/work2/aligned/merged_nodups.txt"
#Juicebox手动调整
将下图中的3ddna输出的文件导出至win或mac桌面,用juicebox人工调整
上述结果推荐都尝试一下看看那个版本效果好,最终选择一个修正
Juicebox 教程(中文字幕)_哔哩哔哩_bilibili
https://www.bilibili.com/video/BV1xD4y1m712/?vd_source=4b4d7664f83a31f63f4c075e8915a189
【基因组组装】HiC挂载软件以及如何用Juice_box手工纠错?- 生物信息与育种 - 博客园 (cnblogs.com)
https://www.cnblogs.com/miyuanbiotech/p/14590564.html
值得注意:人工修正不得马虎;一定多多询问,一步一步进行;不得随意删除片段;记得保存;
再次运行3d-dna
将人工修正后导出的文件(.review.assembly结尾)作为3ddna的二次输入文件bsub?-J?3ddna2?-n?20?-R?span[hosts=1]?-o?%J.out?-e?%J.err?-q?normal?"bash?/public/home/bsun/opt/biosoft/3d-dna/run-asm-pipeline-post-review.sh?-r?/public/home/bsun/opt/biosoft/juicer/3ddna-hap2/hap2.0.review.assembly /public/home/bsun/opt/biosoft/juicer/references/hap2.fasta?/public/home/bsun/opt/biosoft/juicer/work2/aligned/merged_nodups.txt"
最终得到染色体水平的单倍型基因组
后续还需要进行单倍型之间共线性分析并结合HIC互作信息再次纠正。。。