[ PROMPT_NODE_27544 ]
query_syntax
[ SKILL_DOCUMENTATION ]
# UniProt 查询语法参考
UniProt 搜索查询语法的综合指南,用于构建复杂的搜索请求。
## 基础语法
### 简单查询
insulin
kinase
### 特定字段搜索
gene:BRCA1
accession:P12345
organism_name:human
protein_name:kinase
## 布尔运算符
### AND(必须同时包含两个词)
insulin AND diabetes
kinase AND human
gene:BRCA1 AND reviewed:true
### OR(包含其中任意一个词即可)
diabetes OR insulin
(cancer OR tumor) AND human
### NOT(排除词汇)
kinase NOT human
protein_name:kinase NOT organism_name:mouse
### 使用括号进行分组
(diabetes OR insulin) AND reviewed:true
(gene:BRCA1 OR gene:BRCA2) AND organism_id:9606
## 常用搜索字段
### 标识信息
- `accession:P12345` - UniProt 登录号
- `id:INSR_HUMAN` - 条目名称
- `gene:BRCA1` - 基因名称
- `gene_exact:BRCA1` - 精确匹配基因名称
### 生物/分类学
- `organism_name:human` - 生物名称
- `organism_name:"Homo sapiens"` - 精确生物名称(多词请使用引号)
- `organism_id:9606` - NCBI 分类 ID
- `taxonomy_id:9606` - 同 organism_id
- `taxonomy_name:"Homo sapiens"` - 分类名称
### 蛋白质信息
- `protein_name:insulin` - 蛋白质名称
- `protein_name:"insulin receptor"` - 精确蛋白质名称
- `reviewed:true` - 仅限 Swiss-Prot(已审阅)条目
- `reviewed:false` - 仅限 TrEMBL(未审阅)条目
### 序列属性
- `length:[100 TO 500]` - 序列长度范围
- `mass:[50000 TO 100000]` - 分子量(道尔顿)
- `sequence:MVLSPADKTNVK` - 精确序列匹配
- `fragment:false` - 排除片段序列
### 基因本体论 (GO)
- `go:0005515` - GO 条目 ID (0005515 = 蛋白质结合)
- `go_f:* ` - 任何分子功能
- `go_p:*` - 任何生物过程
- `go_c:*` - 任何细胞组分
### 注释
- `annotation:(type:signal)` - 具有信号肽注释
- `annotation:(type:transmem)` - 具有跨膜区域
- `cc_function:*` - 具有功能注释
- `cc_interaction:*` - 具有相互作用注释
- `ft_domain:*` - 具有结构域特征
### 数据库交叉引用
- `xref:pdb` - 具有 PDB 结构
- `xref:ensembl` - 具有 Ensembl 引用
- `database:pdb` - 同 xref
- `database:(type:pdb)` - 替代语法
### 蛋白质家族与结构域
- `family:"protein kinase"` - 蛋白质家族
- `keyword:"Protein kinase"` - 关键词注释
- `cc_similarity:*` - 具有相似性注释
## 范围查询
### 数值