[ PROMPT_NODE_27536 ]

uniprot-database

[ SKILL_DOCUMENTATION ]

# UniProt 数据库 ## 概述 UniProt 是全球领先的综合蛋白质序列和功能信息资源。通过名称、基因或登录号搜索蛋白质，以 FASTA 格式检索序列，跨数据库执行 ID 映射，并通过 REST API 访问 Swiss-Prot/TrEMBL 注释以进行蛋白质分析。 ## 何时使用此工具当需要执行以下操作时，请使用此工具： - 按名称、基因符号、登录号或物种搜索蛋白质条目 - 以 FASTA 或其他格式检索蛋白质序列 - 在 UniProt 和外部数据库（Ensembl, RefSeq, PDB 等）之间映射标识符 - 访问蛋白质注释，包括 GO 条目、结构域和功能描述 - 高效批量检索多个蛋白质条目 - 查询已审阅 (Swiss-Prot) 与未审阅 (TrEMBL) 的蛋白质数据 - 流式传输大型蛋白质数据集 - 使用特定字段搜索语法构建自定义查询 ## 核心能力 ### 1. 搜索蛋白质使用自然语言查询或结构化搜索语法搜索 UniProt。 **常见搜索模式：** python # 按蛋白质名称搜索 query = "insulin AND organism_name:"Homo sapiens"" # 按基因名称搜索 query = "gene:BRCA1 AND reviewed:true" # 按登录号搜索 query = "accession:P12345" # 按序列长度搜索 query = "length:[100 TO 500]" # 按分类学搜索 query = "taxonomy_id:9606" # 人类蛋白质 # 按 GO 条目搜索 query = "go:0005515" # 蛋白质结合使用 API 搜索端点: `https://rest.uniprot.org/uniprotkb/search?query={query}&format={format}` **支持的格式：** JSON, TSV, Excel, XML, FASTA, RDF, TXT ### 2. 检索单个蛋白质条目通过登录号检索特定的蛋白质条目。 **登录号格式：** - 经典：P12345, Q1AAA9, O15530（6 个字符：字母 + 5 个字母数字） - 扩展：A0A022YWF9（较新条目为 10 个字符） **检索端点：** `https://rest.uniprot.org/uniprotkb/{accession}.{format}` 示例：`https://rest.uniprot.org/uniprotkb/P12345.fasta` ### 3. 批量检索和 ID 映射在不同数据库系统之间映射蛋白质标识符并高效检索多个条目。 **ID 映射工作流：** 1. 提交映射任务至：`https://rest.uniprot.org/idmapping/run` 2. 检查任务状态：`https://rest.uniprot.org/idmapping/status/{jobId}` 3. 检索结果：`https://rest.uniprot.org/idmapping/results/{jobId}` **支持映射的数据库：** - UniProtKB AC/ID - 基因名称 - Ensembl 等

数据来源：claude-code-templates（MIT），中文翻译由 AI 生成。详见关于我们。

BAGUA AI