[ PROMPT_NODE_27536 ]
uniprot-database
[ SKILL_DOCUMENTATION ]
# UniProt 数据库
## 概述
UniProt 是全球领先的综合蛋白质序列和功能信息资源。通过名称、基因或登录号搜索蛋白质,以 FASTA 格式检索序列,跨数据库执行 ID 映射,并通过 REST API 访问 Swiss-Prot/TrEMBL 注释以进行蛋白质分析。
## 何时使用此工具
当需要执行以下操作时,请使用此工具:
- 按名称、基因符号、登录号或物种搜索蛋白质条目
- 以 FASTA 或其他格式检索蛋白质序列
- 在 UniProt 和外部数据库(Ensembl, RefSeq, PDB 等)之间映射标识符
- 访问蛋白质注释,包括 GO 条目、结构域和功能描述
- 高效批量检索多个蛋白质条目
- 查询已审阅 (Swiss-Prot) 与未审阅 (TrEMBL) 的蛋白质数据
- 流式传输大型蛋白质数据集
- 使用特定字段搜索语法构建自定义查询
## 核心能力
### 1. 搜索蛋白质
使用自然语言查询或结构化搜索语法搜索 UniProt。
**常见搜索模式:**
python
# 按蛋白质名称搜索
query = "insulin AND organism_name:"Homo sapiens""
# 按基因名称搜索
query = "gene:BRCA1 AND reviewed:true"
# 按登录号搜索
query = "accession:P12345"
# 按序列长度搜索
query = "length:[100 TO 500]"
# 按分类学搜索
query = "taxonomy_id:9606" # 人类蛋白质
# 按 GO 条目搜索
query = "go:0005515" # 蛋白质结合
使用 API 搜索端点: `https://rest.uniprot.org/uniprotkb/search?query={query}&format={format}`
**支持的格式:** JSON, TSV, Excel, XML, FASTA, RDF, TXT
### 2. 检索单个蛋白质条目
通过登录号检索特定的蛋白质条目。
**登录号格式:**
- 经典:P12345, Q1AAA9, O15530(6 个字符:字母 + 5 个字母数字)
- 扩展:A0A022YWF9(较新条目为 10 个字符)
**检索端点:** `https://rest.uniprot.org/uniprotkb/{accession}.{format}`
示例:`https://rest.uniprot.org/uniprotkb/P12345.fasta`
### 3. 批量检索和 ID 映射
在不同数据库系统之间映射蛋白质标识符并高效检索多个条目。
**ID 映射工作流:**
1. 提交映射任务至:`https://rest.uniprot.org/idmapping/run`
2. 检查任务状态:`https://rest.uniprot.org/idmapping/status/{jobId}`
3. 检索结果:`https://rest.uniprot.org/idmapping/results/{jobId}`
**支持映射的数据库:**
- UniProtKB AC/ID
- 基因名称
- Ensembl 等