Skip to content

基因组公共数据库


内容简介

如何上传和下载基因组测序数据。

首先让我们来了解一下网络上的测序公共数据库:

常见的高通量测序数据的公共数据库:

SRANCBI 为了应对越来越多的高通量测序数据而在 2007 年底推出的测序数据库,用于存储、显示、提取和分析高通量测序数据。而 ENA 则是由 EBI 负责维护的功能类似的数据库,同时作为 EnsemblUniProtArrayExpress 等服务的底层基础。2者在主要功能方面非常类似,同时数据互通。


1.SRA 数据库

1.1 简介

SRA 是 Sequence Read Archive 的首字母缩写。SRA 与 Trace 最大的区别是将实验数据与 metadata(元数据)分离。metadata 是指与测序实验及其实验样品相关的数据,如实验目的、实验设计、测序平台、样本数据(物种,菌株,个体表型等)。metadata可以分为以下几类:

  • Study:accession number 以 DRP,SRP,ERP 开头,表示的是一个特定目的的研究课题,可以包含多个研究机构和研究类型等。study 包含了项目的所有 metadata,并有一个 NCBI 和 EBI 共同承认的项目编号(universal project id),一个 study 可以包含多个实验(experiment)。
  • Sample:accession number以 DRS,SRS,ERS 开头,表示的是样品信息。样本信息可以包括物种信息、菌株(品系) 信息、家系信息、表型数据、临床数据,组织类型等。可以通过Trace 来查询。
  • Experiment:accession number 以 DRX,SRX,ERX 开头。表示一个实验记载的实验设计(Design),实验平台(Platform)和结果处理(processing)三部分信息。实验是 SRA 数据库的最基本单元,一个实验信息可以同时包含多个结果集(run)。
  • Run:accession number 以DRR,SRR,ERR 开头。一个 Run 包括测序序列及质量数据。
  • Submission:一个 study 的数据,可以分多次递交至 SRA 数据库。比如在一个项目启动前期,就可以把 study,experiment 的数据递交上去,随着项目的进展,逐批递交 run 数据。study 等同于项目,submission 等同于批次的概念。

BIG(中国科学院北京基因组所)

几个数据库入口:

一般可以通过FTP方式下载:w

复制起点数据库

细菌、真菌和质粒的复制起始位点数据库

质粒数据库

plsdb质粒数据库

eggNOG

GO

Reference

  1. NCBI上传数据文档
  2. 熊筱晶, NCBI高通量测序数据库SRA介绍, 生命的化学[J], 2010:6, 959-963.
  3. http://blog.sciencenet.cn/blog-656335-908140.html
  4. https://www.biostars.org/p/139422/
  5. https://www.youtube.com/watch?v=NSIkUHKRPpo