[ PROMPT_NODE_26532 ]
ena-database
[ SKILL_DOCUMENTATION ]
# ENA 数据库
## 概述
欧洲核苷酸档案 (ENA) 是一个全面的核苷酸序列数据及其相关元数据的公共存储库。通过 REST API 和 FTP 访问并查询 DNA/RNA 序列、原始读取数据、基因组组装及功能注释,以支持基因组学和生物信息学工作流。
## 何时使用此技能
在以下情况应使用此技能:
- 通过登录号检索核苷酸序列或原始测序读取数据
- 根据元数据标准搜索样本、研究或组装
- 下载 FASTQ 文件或基因组组装以进行分析
- 查询生物体的分类信息
- 访问序列注释和功能数据
- 将 ENA 数据集成到生物信息学工作流中
- 对相关数据库执行交叉引用搜索
- 通过 FTP 或 Aspera 批量下载数据集
## 核心能力
### 1. 数据类型与结构
ENA 将数据组织为分层对象类型:
**研究/项目 (Studies/Projects)** - 对相关数据进行分组并控制发布日期。研究是引用存档数据的主要单位。
**样本 (Samples)** - 代表产生测序文库的生物材料单位。在提交大多数数据类型之前,必须先注册样本。
**原始读取数据 (Raw Reads)** - 包括:
- **实验 (Experiments)**: 关于测序方法、文库制备和仪器详情的元数据
- **运行 (Runs)**: 指向包含来自单次测序运行的原始测序读取数据文件的引用
**组装 (Assemblies)** - 不同完成水平的基因组、转录组、宏基因组或宏转录组组装。
**序列 (Sequences)** - 存储在 EMBL 核苷酸序列数据库中的已组装和已注释序列,包括编码/非编码区和功能注释。
**分析 (Analyses)** - 对序列数据进行计算分析的结果。
**分类记录 (Taxonomy Records)** - 包括谱系和等级在内的分类信息。
### 2. 程序化访问
ENA 提供多个 REST API 用于数据访问。详细的端点文档请参考 `references/api_reference.md`。
**关键 API:**
**ENA 门户 API (ENA Portal API)** - 跨所有 ENA 数据类型的高级搜索功能
- 文档: https://www.ebi.ac.uk/ena/portal/api/doc
- 用于复杂查询和元数据搜索
**ENA 浏览器 API (ENA Browser API)** - 记录和元数据的直接检索
- 文档: https://www.ebi.ac.uk/ena/browser/api/doc
- 用于通过登录号下载特定记录
- 以 XML 格式返回数据
**ENA 分类 REST API (ENA Taxonomy REST API)** - 查询分类信息
- 访问谱系