[ PROMPT_NODE_22316 ]
production-examples
[ SKILL_DOCUMENTATION ]
# 生产环境示例
使用 Megatron-Core 和 Megatron-LM 的真实生产部署案例。
## Meta LLaMA 3
### 概览
- **模型**: 8B, 70B, 405B 参数
- **训练基础设施**: 两个 24,000 H100 GPU 集群
- **总投入**: 大规模、数月训练
- **训练数据**: 405B 模型使用 15 万亿 token
- **状态**: 已投入生产 (llama.meta.com)
### LLaMA 3.1 405B - 最大的开源模型
**架构**:
yaml
Parameters: 405 billion
Layers: 126
Hidden size: 16384
Attention heads: 128
Query groups: 8 (GQA)
FFN size: 53248
Vocabulary: 128,256 tokens
Max context: 128K tokens (supports up to)
Position encoding: RoPE
Activation: SwiGLU
Normalization: RMSNorm
**训练配置**:
bash
# 1024 H100 GPUs (128 节点 × 8 GPU)
Tensor Parallel (TP): 8 # 节点内
Pipeline Parallel (PP): 8 # 跨节点
Context Parallel (CP): 2 # 用于长序列
Data Parallel (DP): 8 # 剩余维度
Total GPUs: 8 × 8 × 2 × 8 = 1024
Effective batch size: 2048
Micro-batch per GPU: 1
Sequence length: 4096 tokens
**性能指标**:
- **持续吞吐量**: 400 TFlops/GPU
- **MFU**: H100 上约 46%
- **正常运行时间**: 数月内 95%+
- **效率提升**: 相比 LLaMA 2 训练提升 3 倍
**训练时长**:
- 总计 15 万亿 token
- 16,384 个 H100 GPU 上约 54 天
- 或 1,024 个 H100 GPU 上约 6 个月
**使用的关键优化**:
bash
--use-mcore-models
--transformer-impl transformer_engine
--sequence-parallel
--context-parallel-size 2
--use-distributed-optimizer
--overlap-grad-reduce
--overlap-param-gather
--use-flash-attn-v2
--bf16
**生产服务**:
- 部署于 llama.meta.com
- 通过 API 和下载提供
- 用于 Meta 产品(Instagram, Facebook, WhatsApp)
### LLaMA 3 70B
**训练配置**:
bash
# 64 H100 GPUs (8 节点 × 8 GPU)
TP=4, PP=4, CP=2, DP=2
torchrun --nproc_per_node=8 --nnodes=8 pretrain_gpt.py
--num-layers 80
--hidden-size 8192
--num-attention-heads 64
--num-query-groups 8
--seq-length 4096
--micro-batch-size 1
--global-batch-size 1024
--tensor-model-parallel-size 4
--pipeline-model-parallel-size 4
--context-parallel-size 2
--bf16
--use-mcore-models
**每个 GPU 的内存**:
- 模型参数: 140GB / 4 (TP) / 4 (PP) = 8.75GB
- 优化器状态: ~17.5GB
- 激活值: ~3GB
- **总计**: 每个 H100 约 30GB (可放入 80GB)
## NVIDIA Nemotron-4 340B
### 概览
- **组织**: NVIDIA
- *