[ PROMPT_NODE_22312 ]
Distributed Training Megatron Core 基准测试
[ SKILL_DOCUMENTATION ]
# 性能基准测试
Megatron-Core 在不同模型大小和硬件配置下的性能指标和基准测试。
## 模型 FLOP 利用率 (MFU)
**H100 集群**: 实现了高达 47% 的 MFU
由于大型矩阵乘法 (GEMM) 中更高的算术强度,MFU 随着模型规模的增大而增加。
## 按模型大小划分的吞吐量指标
### GPT-3 175B
- **硬件**: H100
- **配置**: TP=4, PP=8
- **GPU**: 128-512
- **MFU**: H100 上 47%
- **吞吐量**: H100 上 390 TFlops/GPU
### LLaMA 配置
| 模型 | 大小 | GPU | TP | PP | CP | 序列长度 | 硬件 | 备注 |
|-------|------|------|----|----|----| -----------|----------|-------|
| LLaMA-3 | 8B | 8 | 1 | 1 | 2 | 8K | H100 | 长序列使用 CP |
| LLaMA-3 | 70B | 64 | 4 | 4 | 2 | 4K | H100 | TP+PP 并行 |
| LLaMA-3.1 | 405B | 1024 | 8 | 8 | 2 | 4K | H100 | 3D 并行 |
**LLaMA-3 405B 详情**:
- 16K H100 GPU (两个 24K GPU 集群)
- TP=8, PP=8, CP=2
- 平均 400 TFlops/GPU
- 95%+ 正常运行时间
- 相比 LLaMA 2 效率提升 3 倍
### Mixtral (混合专家模型)
| 模型 | 活跃参数 | 总参数 | GPU | TP | PP | EP | 专家数 | 硬件 |
|-------|---------------|--------------|------|----|----|----|---------| ---------|
| Mixtral | 7B (活跃) | 8×7B (56B) | 64 | 1 | 4 | 8 | 8 | H100 |
| Mixtral | 22B (活跃) | 8×22B (176B) | 256 | 4 | 4 | 8 | 8 | H100 |
### DeepSeek-V3
- **活跃参数**: 每个 token 37B
- **总参数**: 671B
- **GPU**: 1024 H100
- **配置**: TP=2, PP=16, EP=64
- **并行**: 4D 并行(含专家并行)
### GPT-462B (最大基准测试)
- **参数**: 462B
- **GPU**: 6144 H100
- **MFU**: 47-48%
- **吞吐量**: ~390 TFlops/GPU
## 硬件性能特征
### NVIDIA H100 (Hopper)
- **峰值性能**:
- FP16: 1979 TFlops
- BF16: 1979 TFlops
- FP8: 3958 TFlops
- **内存**: 80GB HBM3
- **内存带宽**: 3.35 TB/s
- **NVLink**: 900 GB/s 每 GPU
**实现 MFU**: 40-47% (典型范围)
### NVIDIA A100 (Ampere)
- **峰值性能**:
- FP16: 312 TFlops (带稀疏性)
- BF16: 312 TFlops
- **内存**: 40GB 或 80GB HBM2e
- **内存带宽**: 2 TB/s
- **NVLink**: 600 GB/s 每 GPU
**典型 MFU**: 35-42%
## 弱扩展性 (固定每个 GPU 的工作负载)
当你增加更多 GPU 同时保持每个 GPU 的工作负载不变时:
| GPU | 模型大小 | MFU | 效率 |
|------|------------|-----|------------|
| 8 | 7B | 42% | 100% (基准) |
| 64 | 70B | 44% | 95% |
| 512 | 175B | 45