[ SKILL_DOCUMENTATION ]
# PyTorch Geometric 数据集参考
本文档提供了 `torch_geometric.datasets` 中所有可用数据集的综合目录。
## 引文网络
### Planetoid
**用途**:节点分类、半监督学习
**网络**:Cora, CiteSeer, PubMed
**描述**:节点为论文,边为引文的引文网络
- **Cora**: 2,708 个节点, 5,429 条边, 7 个类别, 1,433 个特征
- **CiteSeer**: 3,327 个节点, 4,732 条边, 6 个类别, 3,703 个特征
- **PubMed**: 19,717 个节点, 44,338 条边, 3 个类别, 500 个特征
python
from torch_geometric.datasets import Planetoid
dataset = Planetoid(root='/tmp/Cora', name='Cora')
### Coauthor
**用途**:协作网络上的节点分类
**网络**:CS, Physics
**描述**:来自微软学术图谱的合著网络
- **CS**: 18,333 个节点, 81,894 条边, 15 个类别 (计算机科学)
- **Physics**: 34,493 个节点, 247,962 条边, 5 个类别 (物理)
python
from torch_geometric.datasets import Coauthor
dataset = Coauthor(root='/tmp/CS', name='CS')
### Amazon
**用途**:产品网络上的节点分类
**网络**:Computers, Photo
**描述**:节点为产品的亚马逊共同购买网络
- **Computers**: 13,752 个节点, 245,861 条边, 10 个类别
- **Photo**: 7,650 个节点, 119,081 条边, 8 个类别
python
from torch_geometric.datasets import Amazon
dataset = Amazon(root='/tmp/Computers', name='Computers')
### CitationFull
**用途**:引文网络分析
**网络**:Cora, Cora_ML, DBLP, PubMed
**描述**:无采样的完整引文网络
python
from torch_geometric.datasets import CitationFull
dataset = CitationFull(root='/tmp/Cora', name='Cora')
## 图分类
### TUDataset
**用途**:图分类、图核基准测试
**描述**:包含 120 多个图分类数据集的集合
- **MUTAG**: 188 个图, 2 个类别 (分子化合物)
- **PROTEINS**: 1,113 个图, 2 个类别 (蛋白质结构)
- **ENZYMES**: 600 个图, 6 个类别 (蛋白质酶)
- **IMDB-BINARY**: 1,000 个图, 2 个类别 (社交网络)
- **REDDIT-BINARY**: 2,000 个图, 2 个类别 (讨论线程)
- **COLLAB**: 5,000 个图, 3 个类别 (科学合作)
- **NCI1**: 4,110 个图, 2 个类别 (化学化合物)
- **DD**: 1,178 个图, 2 个类别 (蛋白质结构)
python
from torch_geometric.datasets import TUDataset
dataset = TUDataset(root='/tmp/ENZYMES', name='ENZYMES')
###