实例:如何拿到KEGG数据库中多巴胺通路相关的基因集
一、确定目标通路
打开KEGG选择pathway,在搜索框前输入物种,框内填入关键词。
筛选结果显示仅有hsa04728符合我们的研究目的
二、下载hsa04728通路中的全部基因
1.安装R包KEGGREST
首次安装时电脑可能会显示与当前R语言版本不配,可以从bioconductor 的官网下载安装
if(!requireNamespace("BiocManager", quietly = TRUE))
install.packages("BiocManager")
BiocManager::install("KEGGREST", version = "3.10")
可以library一下这个包,里面包含了KEGG数据库的19个子数据库
,"pathway"、"genes" 、"ligand"、 "brite"为4个主要的数据库,其他的子数据库是在这4个数据库的基础上衍生出来的。
> library("KEGGREST")
> listDatabases()
[1] "pathway" "brite" "module" "ko" "genome" "vg"
[7] "ag" "compound" "glycan" "reaction" "rclass" "enzyme"
[13] "disease" "drug" "dgroup" "environ" "genes" "ligand"
[19] "kegg"
- "pathway"数据库提供发生在细胞内各种反应的人工绘制途径图,以网络形式-呈现。"genes" 数据库存储KEGG中注册的已经测序的基因组信息。
- "ligand"数据库可以查询化合物、多糖以及酶促反应等信息。
- "brite"是将生物信息按等级层次分类归纳的数据库,其中所包含的KEGG、KO是用于同源性识别的系统。
2.提取通路信息
keggGet('hsa04728')
gs<-keggGet('hsa04728')
-
使用 keggGet 函数获取人类基因信号通路 hsa04650 的信息,并缓存
逐步run可以看到结果包括了通路介绍、基因,基因间的联系方式,以及链接等等。
三.提取全部基因
#获取通路中gene信息
gs[[1]]$GENE
#查找所有基因
genes<-unlist(lapply(gs[[1]]$GENE,function(x) strsplit(x,';')))
genelist <- genes[1:length(genes)%%3 ==2]
genelist <- data.frame(genelist)
#把结果写入表格中
write.table(genelist, "C:\\Users\\xxx\\Desktop\\hsa04728.csv",
row.names=FALSE,col.names=TRUE,sep=",")
最终可以获得一个表格,genelist中有132个基因name,即多巴胺通路hsa04718中涉及的所有的基因。