[ PROMPT_NODE_27460 ]
string-database
[ SKILL_DOCUMENTATION ]
# STRING 数据库
## 概述
STRING 是一个综合性的已知和预测蛋白质-蛋白质相互作用数据库,涵盖了 5000 多个物种的 5900 万个蛋白质和 200 亿次相互作用。通过 REST API 查询相互作用网络、执行功能富集分析、发现合作伙伴,适用于系统生物学和通路分析。
## 何时使用此技能
当需要执行以下操作时使用此技能:
- 获取单个或多个蛋白质的蛋白质-蛋白质相互作用网络
- 对蛋白质列表执行功能富集分析 (GO, KEGG, Pfam)
- 发现相互作用伙伴并扩展蛋白质网络
- 测试蛋白质是否形成显著富集的功能模块
- 生成带有基于证据着色的网络可视化图
- 分析同源性和蛋白质家族关系
- 进行跨物种蛋白质相互作用比较
- 识别枢纽蛋白 (Hub proteins) 和网络连接模式
## 快速入门
此技能提供:
1. 用于所有 STRING REST API 操作的 Python 辅助函数 (`scripts/string_api.py`)
2. 包含详细 API 规范的综合参考文档 (`references/string_reference.md`)
当用户请求 STRING 数据时,确定所需操作并使用 `scripts/string_api.py` 中的相应函数。
## 核心操作
### 1. 标识符映射 (`string_map_ids`)
将基因名称、蛋白质名称和外部 ID 转换为 STRING 标识符。
**何时使用**: 开始任何 STRING 分析、验证蛋白质名称、查找规范标识符。
**用法**:
python
from scripts.string_api import string_map_ids
# 映射单个蛋白质
result = string_map_ids('TP53', species=9606)
# 映射多个蛋白质
result = string_map_ids(['TP53', 'BRCA1', 'EGFR', 'MDM2'], species=9606)
# 每个查询映射多个匹配项
result = string_map_ids('p53', species=9606, limit=5)
**参数**:
- `species`: NCBI 分类 ID (9606 = 人类, 10090 = 小鼠, 7227 = 果蝇)
- `limit`: 每个标识符的匹配数量(默认: 1)
- `echo_query`: 在输出中包含查询词(默认: 1)
**最佳实践**: 始终先映射标识符,以加快后续查询速度。
### 2. 网络检索 (`string_network`)
以表格格式获取蛋白质-蛋白质相互作用网络数据。
**何时使用**: 构建相互作用网络、分析连通性、检索相互作用证据。
**用法**:
python
from scripts.string_api import string_network
# 获取单个蛋白质的网络
network = string_network('9606.ENSP000002693