[ PROMPT_NODE_27498 ]
protein_modeling
[ SKILL_DOCUMENTATION ]
# 蛋白质建模
## 概述
TorchDrug 为蛋白质相关任务提供了广泛的支持,包括序列分析、结构预测、属性预测和蛋白质-蛋白质相互作用。蛋白质被表示为图,其中节点是氨基酸残基,边代表空间或序列关系。
## 可用数据集
### 蛋白质功能预测
**酶功能:**
- **EnzymeCommission** (17,562 个蛋白质):EC 编号分类(7 个级别)
- **BetaLactamase** (5,864 条序列):酶活性预测
**蛋白质特性:**
- **Fluorescence** (54,025 条序列):GFP 荧光强度
- **Stability** (53,614 条序列):热稳定性预测
- **Solubility** (62,478 条序列):蛋白质溶解度分类
- **BinaryLocalization** (22,168 个蛋白质):亚细胞定位(膜 vs 可溶)
- **SubcellularLocalization** (8,943 个蛋白质):10 类定位预测
**基因本体论 (Gene Ontology):**
- **GeneOntology** (46,796 个蛋白质):跨生物过程、分子功能和细胞组分的 GO 条目预测
### 蛋白质结构预测
- **Fold** (16,712 个蛋白质):结构折叠分类(1,195 类)
- **SecondaryStructure** (8,678 个蛋白质):3 态或 8 态二级结构预测
- **ContactPrediction** (通过 ProteinNet):残基-残基接触图
### 蛋白质相互作用
**蛋白质-蛋白质相互作用 (PPI):**
- **HumanPPI** (1,412 个蛋白质,6,584 个相互作用):人类蛋白质相互作用网络
- **YeastPPI** (2,018 个蛋白质,6,451 个相互作用):酵母蛋白质相互作用网络
- **PPIAffinity** (2,156 个蛋白质对):结合亲和力测量
**蛋白质-配体结合:**
- **BindingDB** (~1.5M 条目):全面的结合亲和力数据库
- **PDBBind** (20,000+ 复合物):基于 3D 结构的结合数据
- 精炼集:高质量晶体结构
- 核心集:多样化的基准集
### 大规模蛋白质数据库
- **AlphaFoldDB**:访问 2 亿+ 预测的蛋白质结构
- **ProteinNet**:用于结构预测的标准化数据集
## 任务类型
### NodePropertyPrediction
在残基(节点)级别预测属性,例如二级结构或接触图。
**用例:**
- 二级结构预测(螺旋、折叠、卷曲)
- 残基级无序预测
- 翻译后修饰位点
- 结合位点预测
### PropertyPrediction
预测蛋白质级别的属性,如功能、稳定性或局部