[ PROMPT_NODE_22312 ]

Distributed Training Megatron Core 基准测试

[ SKILL_DOCUMENTATION ]

# 性能基准测试 Megatron-Core 在不同模型大小和硬件配置下的性能指标和基准测试。 ## 模型 FLOP 利用率 (MFU) **H100 集群**: 实现了高达 47% 的 MFU 由于大型矩阵乘法 (GEMM) 中更高的算术强度，MFU 随着模型规模的增大而增加。 ## 按模型大小划分的吞吐量指标 ### GPT-3 175B - **硬件**: H100 - **配置**: TP=4, PP=8 - **GPU**: 128-512 - **MFU**: H100 上 47% - **吞吐量**: H100 上 390 TFlops/GPU ### LLaMA 配置 | 模型 | 大小 | GPU | TP | PP | CP | 序列长度 | 硬件 | 备注 | |-------|------|------|----|----|----| -----------|----------|-------| | LLaMA-3 | 8B | 8 | 1 | 1 | 2 | 8K | H100 | 长序列使用 CP | | LLaMA-3 | 70B | 64 | 4 | 4 | 2 | 4K | H100 | TP+PP 并行 | | LLaMA-3.1 | 405B | 1024 | 8 | 8 | 2 | 4K | H100 | 3D 并行 | **LLaMA-3 405B 详情**: - 16K H100 GPU (两个 24K GPU 集群) - TP=8, PP=8, CP=2 - 平均 400 TFlops/GPU - 95%+ 正常运行时间 - 相比 LLaMA 2 效率提升 3 倍 ### Mixtral (混合专家模型) | 模型 | 活跃参数 | 总参数 | GPU | TP | PP | EP | 专家数 | 硬件 | |-------|---------------|--------------|------|----|----|----|---------| ---------| | Mixtral | 7B (活跃) | 8×7B (56B) | 64 | 1 | 4 | 8 | 8 | H100 | | Mixtral | 22B (活跃) | 8×22B (176B) | 256 | 4 | 4 | 8 | 8 | H100 | ### DeepSeek-V3 - **活跃参数**: 每个 token 37B - **总参数**: 671B - **GPU**: 1024 H100 - **配置**: TP=2, PP=16, EP=64 - **并行**: 4D 并行（含专家并行） ### GPT-462B (最大基准测试) - **参数**: 462B - **GPU**: 6144 H100 - **MFU**: 47-48% - **吞吐量**: ~390 TFlops/GPU ## 硬件性能特征 ### NVIDIA H100 (Hopper) - **峰值性能**: - FP16: 1979 TFlops - BF16: 1979 TFlops - FP8: 3958 TFlops - **内存**: 80GB HBM3 - **内存带宽**: 3.35 TB/s - **NVLink**: 900 GB/s 每 GPU **实现 MFU**: 40-47% (典型范围) ### NVIDIA A100 (Ampere) - **峰值性能**: - FP16: 312 TFlops (带稀疏性) - BF16: 312 TFlops - **内存**: 40GB 或 80GB HBM2e - **内存带宽**: 2 TB/s - **NVLink**: 600 GB/s 每 GPU **典型 MFU**: 35-42% ## 弱扩展性 (固定每个 GPU 的工作负载) 当你增加更多 GPU 同时保持每个 GPU 的工作负载不变时： | GPU | 模型大小 | MFU | 效率 | |------|------------|-----|------------| | 8 | 7B | 42% | 100% (基准) | | 64 | 70B | 44% | 95% | | 512 | 175B | 45

数据来源：claude-code-templates（MIT），中文翻译由 AI 生成。详见关于我们。

BAGUA AI